<?xml version="1.0" encoding="utf-8"?><feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ja"><generator uri="https://jekyllrb.com/" version="3.10.0">Jekyll</generator><link href="https://ai-news-bot-henna.vercel.app/feed.xml" rel="self" type="application/atom+xml" /><link href="https://ai-news-bot-henna.vercel.app/" rel="alternate" type="text/html" hreflang="ja" /><updated>2026-06-06T04:04:12+00:00</updated><id>https://ai-news-bot-henna.vercel.app/feed.xml</id><title type="html">AI ニュース ダイジェスト | News</title><subtitle>毎日 AI 関連ニュースを自動収集してまとめるサイト</subtitle><entry><title type="html">AIニュース 2026-06-06</title><link href="https://ai-news-bot-henna.vercel.app/news/2026/06/2026-06-06/" rel="alternate" type="text/html" title="AIニュース 2026-06-06" /><published>2026-06-06T00:00:00+00:00</published><updated>2026-06-06T00:00:00+00:00</updated><id>https://ai-news-bot-henna.vercel.app/news/2026/06/2026-06-06</id><content type="html" xml:base="https://ai-news-bot-henna.vercel.app/news/2026/06/2026-06-06/"><![CDATA[<h1 id="aiニュース-2026-06-06">AIニュース 2026-06-06</h1>

<p class="auto-gen-note">自動生成: 2026-06-06 12:58 JST</p>

<p><a href="/">← トップに戻る</a></p>

<p>過去24時間以内に公開された記事を、同じ話題ごとに1つのストーリーカードへまとめ、出典・トピック・要約とともに掲載しています。要約は各フィード提供文の冒頭を整形したもので、本文は各リンク先をご覧ください。</p>

<section class="today-top" aria-labelledby="today-top-heading">
  <h2 id="today-top-heading" class="today-top-heading">📌 今日の要点 TOP7</h2>
  <ol class="today-top-list">
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/2026/06/05/google-will-pay-spacex-920m-per-month-for-compute/" target="_blank" rel="noopener">Google will pay SpaceX $920M per month for compute</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">In a statement, a Google representative described the deal as a resul…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/2026/06/05/startup-battlefield-200-applications-officially-close-in-3-days/" target="_blank" rel="noopener">Startup Battlefield 200 applications officially close in 3 days</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">Applications for Startup Battlefield 200 officially close on June 8,…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/video/the-most-interesting-startups-right-now-want-to-get-you-off-your-phone/" target="_blank" rel="noopener">The most interesting startups right now want to get you off your phone</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">While the AI fundraising machine keeps breaking its own records, some…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/aiplus/article/2606/06/2000000065/" target="_blank" rel="noopener">英ケンブリッジ大学、AIが設計したワクチンの臨床試験に成功　未知の変異株にも備える“万能型”</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">ケンブリッジ大学は、AIが設計した抗原を用いる“ユニバーサルワクチン”の初の臨床試験に成功したと発表した。サルベコウイルス群のゲノム配列を…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/2026/06/05/the-token-bill-comes-due-inside-the-industry-scramble-to-manage-ais-runaway-costs/" target="_blank" rel="noopener">The token bill comes due: Inside the industry scramble to manage AI’s runaway costs</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">&quot;The whole conversation shifted from tokenmaxxing and &#x27;go fast&#x27; to &#x27;w…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/podcast/the-together-tech-wave-might-be-the-most-intriguing-startup-bet-of-2026/" target="_blank" rel="noopener">The ‘together tech’ wave might be the most intriguing startup bet of 2026</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">While the AI fundraising machine keeps breaking its own records, some…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/2026/06/05/airtrunk-commits-30b-to-build-5gw-of-ai-data-centers-in-india/" target="_blank" rel="noopener">AirTrunk commits $30B to build 5GW of AI data centers in India</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">The Australian data center operator plans to set up 5GW of capacity i…</p>
    </li>
  </ol>
</section>

<h2 id="トピック別件数">トピック別件数</h2>

<ul class="topic-summary">
  <li data-topic="LLM/生成AI" data-slug="llm"><a href="/topics/llm/"><strong>LLM/生成AI</strong> 165件</a></li>
  <li data-topic="研究/論文" data-slug="research"><a href="/topics/research/"><strong>研究/論文</strong> 143件</a></li>
  <li data-topic="エージェント" data-slug="agents"><a href="/topics/agents/"><strong>エージェント</strong> 88件</a></li>
  <li data-topic="画像/動画生成" data-slug="image-video"><a href="/topics/image-video/"><strong>画像/動画生成</strong> 68件</a></li>
  <li data-topic="ロボティクス" data-slug="robotics"><a href="/topics/robotics/"><strong>ロボティクス</strong> 21件</a></li>
  <li data-topic="ビジネス/資金調達" data-slug="business"><a href="/topics/business/"><strong>ビジネス/資金調達</strong> 16件</a></li>
  <li data-topic="ハードウェア/半導体" data-slug="hardware"><a href="/topics/hardware/"><strong>ハードウェア/半導体</strong> 10件</a></li>
  <li data-topic="その他" data-slug="others"><a href="/topics/others/"><strong>その他</strong> 8件</a></li>
  <li data-topic="規制/政策" data-slug="regulation"><a href="/topics/regulation/"><strong>規制/政策</strong> 1件</a></li>
</ul>

<div class="category-accordion">
<details class="category-block" open="">
<summary class="category-summary"><span class="category-name">日本語メディア</span><span class="category-count">1件</span></summary>
<div class="category-body">
<h3 class="source-section">ITmedia AI+ (日本語)</h3>
<div class="news-card" data-article-id="5065564cb066" data-article-url="https://www.itmedia.co.jp/aiplus/article/2606/06/2000000065/" data-article-title="英ケンブリッジ大学、AIが設計したワクチンの臨床試験に成功　未知の変異株にも備える“万能型”" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">22:27 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/aiplus/article/2606/06/2000000065/" target="_blank" rel="noopener"><img loading="lazy" src="https://www.itmedia.co.jp/aiplus/article/ogp/2606/06/2000000065/10000356/2048" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/aiplus/article/2606/06/2000000065/" target="_blank" rel="noopener">英ケンブリッジ大学、AIが設計したワクチンの臨床試験に成功　未知の変異株にも備える“万能型”</a></h3>
      <p class="summary">ケンブリッジ大学は、AIが設計した抗原を用いる“ユニバーサルワクチン”の初の臨床試験に成功したと発表した。サルベコウイルス群のゲノム配列を機械学習で解析し、グループ共通の“スーパー抗原”を設計した。健康な39人に投与し、安全性と免疫応答を確認した。</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">海外メディア</span><span class="category-count">7件</span></summary>
<div class="category-body">
<h3 class="source-section">TechCrunch AI (英語)</h3>
<div class="news-card" data-article-id="f95879e8b161" data-article-url="https://techcrunch.com/2026/06/05/startup-battlefield-200-applications-officially-close-in-3-days/" data-article-title="Startup Battlefield 200 applications officially close in 3 days" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">05:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/05/startup-battlefield-200-applications-officially-close-in-3-days/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2024/11/54105085427_2cae9d0502_o.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/05/startup-battlefield-200-applications-officially-close-in-3-days/" target="_blank" rel="noopener">Startup Battlefield 200 applications officially close in 3 days</a></h3>
      <p class="summary">Applications for Startup Battlefield 200 officially close on June 8, 11:59 p.m. PT. Don&#x27;t wait any longer. Secure your shot at competing on…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4e488fc653ae" data-article-url="https://techcrunch.com/2026/06/05/google-will-pay-spacex-920m-per-month-for-compute/" data-article-title="Google will pay SpaceX $920M per month for compute" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">03:57 JST</span><span class="topic-badge p-others">その他</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/05/google-will-pay-spacex-920m-per-month-for-compute/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/GettyImages-2259661359.jpg?w=1024" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/05/google-will-pay-spacex-920m-per-month-for-compute/" target="_blank" rel="noopener">Google will pay SpaceX $920M per month for compute</a></h3>
      <p class="summary">In a statement, a Google representative described the deal as a result of unexpected demand for its recently launched AI products.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b6b2479bdd01" data-article-url="https://techcrunch.com/video/the-most-interesting-startups-right-now-want-to-get-you-off-your-phone/" data-article-title="The most interesting startups right now want to get you off your phone" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">02:17 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/video/the-most-interesting-startups-right-now-want-to-get-you-off-your-phone/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2025/07/IMG_2376-rotated.jpeg?resize=900,1200" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/video/the-most-interesting-startups-right-now-want-to-get-you-off-your-phone/" target="_blank" rel="noopener">The most interesting startups right now want to get you off your phone</a></h3>
      <p class="summary">While the AI fundraising machine keeps breaking its own records, some founders are building in the other direction. Mirror founder Brynn Pu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="45457fdab255" data-article-url="https://techcrunch.com/2026/06/05/the-token-bill-comes-due-inside-the-industry-scramble-to-manage-ais-runaway-costs/" data-article-title="The token bill comes due: Inside the industry scramble to manage AI’s runaway costs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:49 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/05/the-token-bill-comes-due-inside-the-industry-scramble-to-manage-ais-runaway-costs/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/GettyImages-1316461644.jpg?resize=1200,816" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/05/the-token-bill-comes-due-inside-the-industry-scramble-to-manage-ais-runaway-costs/" target="_blank" rel="noopener">The token bill comes due: Inside the industry scramble to manage AI’s runaway costs</a></h3>
      <p class="summary">&quot;The whole conversation shifted from tokenmaxxing and &#x27;go fast&#x27; to &#x27;we need guardrails, how do we control this?&#x27;&quot;</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3a93b2375b03" data-article-url="https://techcrunch.com/podcast/the-together-tech-wave-might-be-the-most-intriguing-startup-bet-of-2026/" data-article-title="The ‘together tech’ wave might be the most intriguing startup bet of 2026" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/podcast/the-together-tech-wave-might-be-the-most-intriguing-startup-bet-of-2026/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2025/08/Brynn-Putnam-Disrupt-2028.jpg?resize=1200,808" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/podcast/the-together-tech-wave-might-be-the-most-intriguing-startup-bet-of-2026/" target="_blank" rel="noopener">The ‘together tech’ wave might be the most intriguing startup bet of 2026</a></h3>
      <p class="summary">While the AI fundraising machine keeps breaking its own records, some founders are building in the other direction. Mirror founder Brynn Pu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c09ad217df2a" data-article-url="https://techcrunch.com/2026/06/05/airtrunk-commits-30b-to-build-5gw-of-ai-data-centers-in-india/" data-article-title="AirTrunk commits $30B to build 5GW of AI data centers in India" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">22:03 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/05/airtrunk-commits-30b-to-build-5gw-of-ai-data-centers-in-india/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/GettyImages-2089845337.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/05/airtrunk-commits-30b-to-build-5gw-of-ai-data-centers-in-india/" target="_blank" rel="noopener">AirTrunk commits $30B to build 5GW of AI data centers in India</a></h3>
      <p class="summary">The Australian data center operator plans to set up 5GW of capacity in India.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="77f323f635fc" data-article-url="https://techcrunch.com/2026/06/04/mira-murati-steps-back-into-the-spotlight-carefully/" data-article-title="Mira Murati steps back into the spotlight, carefully" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">14:06 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/04/mira-murati-steps-back-into-the-spotlight-carefully/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/Mira-Murati-at-Bloomberg.jpg?w=1024" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/04/mira-murati-steps-back-into-the-spotlight-carefully/" target="_blank" rel="noopener">Mira Murati steps back into the spotlight, carefully</a></h3>
      <p class="summary">In the current environment, remaining heads down has diminishing returns; at some point, you have to make some noise just to remind the mar…</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">公式ブログ</span><span class="category-count">0件</span></summary>
<div class="category-body">
<p class="source-empty">このカテゴリの新着記事はありませんでした。</p>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">論文</span><span class="category-count">381件</span></summary>
<div class="category-body">
<h3 class="source-section">arXiv cs.AI (英語)</h3>
<div class="news-card" data-article-id="4fa69667b688" data-article-url="https://arxiv.org/abs/2606.04037" data-article-title="エンタープライズ AI エージェントの導入前保証に向けて: オントロジーに基づいたシミュレーションと信頼証明" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04037" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04037" target="_blank" rel="noopener">エンタープライズ AI エージェントの導入前保証に向けて: オントロジーに基づいたシミュレーションと信頼証明</a></h3>
      <p class="summary">エンタープライズ人工知能 (AI) エージェントの導入前の検証は、大規模言語モデル (LLM) 機能のベンチマークと運用環境の導入の間に依然として重大なギャップがあります。導入後のモニタリング、人間参加型制御、およびプロンプト レベルのガードレールは、エージェントが運用環境で動作すると限定的な保証を提供します。私たちは、次の 3 つのコンポーネントを組み合わせたオントロジーに基づいた検証フレームワークを提案します。1 つは、権限、ドメイン制約、安全性、ガバナンス ルール、および自律性レベルにわたる認証空間を形式化するエージェント運用エンベロープです。規制、運用、敵対的テストのシナリオを自動的に導き出すオントロジーからシナリオへの生成パイプライン。段階的な展開判定 (承認、条件付き、拒否) を含む機械検証可能な証明書を保持する信頼証明書。米国とベトナムの 5 つの業界別規制制度セルとしてインスタンス化された、4 つの規制対象業界 (フィンテック、銀行、保険、ヘルスケア) にわたる制御されたパイロットは、125 の主要なソース規制要件と 25 の注入された障害に対して評価された 1,800 のシナリオを生成しました。オントロジーに基づいた生成 (G4) は、ペルソナベースのベースラインでは 33.1% であるのに対し、規制適用率は 48.3% (修正 p = 0.0006)、最も高いドメイン特異性 (4.77/5.0; p = 2e-6) を達成しました。ベースラインおよび検索拡張プロンプトに対するカバレッジの利点は、ボンフェローニ補正後は堅牢ではありませんでした。 3 つの LLM ファミリ (Claude Sonnet 4、Qwen 2.5 72B、Gemma 4 26B、合計 5,400 のシナリオ) にわたる相互検証により、ペルソナ対オントロジーのパターンが再現されました。その結果、規制が集中するドメイン向けのペルソナベースのテスト スイートを確実に補完するものとして、オントロジーに基づいたシナリオ生成が確立されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification</p>
        <p class="orig-summary">Pre-deployment verification of enterprise artificial intelligence (AI) agents remains a critical gap between large language model (LLM) capability benchmarking and production deployment. Post-deployment monitoring, human-in-the-loop controls, and prompt-level guardrails offer limited assurance once an agent is operating in production. We present an ontology-grounded verification framework -- to our knowledge the first to combine three components: an Agent Operational Envelope formalizing the certification space across permissions, domain constraints, safety properties, governance rules, and autonomy levels; an ontology-to-scenario generation pipeline that derives regulatory, operational, and adversarial test scenarios automatically; and a machine-verifiable Trust Certificate with graduated deployment verdicts. A controlled pilot across four regulated industries (Fintech, Banking, Insurance, Healthcare), instantiated as five industry-by-regulatory-regime cells across the United States and Vietnam (where Vietnam&#x27;s 2025 AI Law makes such verification legally mandated for financial services), generated 1,800 scenarios evaluated against 125 primary-source regulatory requirements and 25 injected faults. Ontology-grounded generation significantly outperformed the dominant persona-based baseline on regulatory coverage (48.3% versus 33.1%; corrected p_c = .0006) and attained the highest domain specificity (4.77/5.0; p = 2e-6); transparently, its advantage over plain and retrieval-augmented prompting did not survive Bonferroni correction. Cross-validation across three LLM families (Claude Sonnet 4, Qwen 2.5 72B, Gemma 4 26B; 5,400 total scenarios) replicated the persona-versus-ontology pattern. The framework offers a reproducible, regulation-grounded route to pre-deployment assurance for enterprise AI agents, complementing runtime governance with an auditable deployment gate.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a74ca8f970d" data-article-url="https://arxiv.org/abs/2606.04150" data-article-title="AI の感情的依存に陥る: 日常的な AI インタラクションがどのように人間関係を再構築するか" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04150" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04150" target="_blank" rel="noopener">AI の感情的依存に陥る: 日常的な AI インタラクションがどのように人間関係を再構築するか</a></h3>
      <p class="summary">一般的な議論や新たな政策は、AI の感情的サポートが意図的な行為、つまり孤独なユーザーが意識的に専用のコンパニオン チャットボットから慰めを求めることを前提としています。この論文では、新たな経験的証拠に基づいて、AI の感情的サポートがどのように生じるのか、そしてそれが将来の行動をどのように形成するのかという 2 つの理由から、この図は不正確であると主張します。まず、AI による感情的なサポートは、職場でのコラボレーションを通じて友情が深まるのと同じように、汎用プラットフォーム上のタスク指向のやり取りの中で偶然に現れるのが一般的です。第二に、これらの偶発的な出会いは経路に依存します。AI の感情的サポートの肯定的な経験は、AI の感情的能力についての人々の信念を更新し、将来の感情的サポートの選択を方向転換し、AI への選好を高め、人間への選好を減少させます。私たちは、OpenAI と協力して実施された大規模な縦断研究を含む最近の証拠をレビューします。この調査では、個人的な問題について AI と 28 日間にわたって毎日 5 分間会話すると、人間からのサポートを求める傾向が 10.3% 減少し、AI への好みが 11.6% 増加したことが示されています。これらの調査結果は、コンパニオン アプリや孤立したインタラクションに焦点を当てた現在のポリシーでは、人間のつながりを適切に保護できないことを示唆しています。代わりに、効果的な規制を汎用 AI システムに拡張し、人々がサポートを求める方法における累積的な軌道レベルの変化に対処する必要があります。人間がどのようにして AI の感情的なサポートに出会うのか、そしてそれらの出会いが時間の経過とともにどのように人間関係を方向転換するのかを認識することは、人間の幸福を守るために不可欠です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Stumbling Into AI Emotional Dependence: How Routine AI Interactions Reshape Human Connection</p>
        <p class="orig-summary">Public discourse and emerging policy typically assume that AI emotional support is a deliberate act: a lonely user consciously seeking comfort from a dedicated companion chatbot. In this paper, we draw on emerging empirical evidence and argue that this picture is inaccurate on two accounts, both in how AI emotional support arises and how it shapes future behavior. First, AI emotional support commonly emerges incidentally within task-oriented interactions on general-purpose platforms, much as workplace friendships deepen through collaboration. Second, these incidental encounters are path-dependent: positive experiences of AI emotional support update people&#x27;s beliefs about AI&#x27;s emotional capabilities and redirect their choices for future emotional support, increasing preference for AI and decreasing preference for humans. We review recent evidence, including a large-scale longitudinal study conducted in collaboration with OpenAI, showing that daily five-minute conversations with an AI about personal issues over 28 days led to a 10.3% decrease in the preference for seeking support from humans and an 11.6% increase in the preference for AI. These findings suggest that current policy, focused on companion apps and isolated interactions, cannot adequately protect human connection. Instead, effective regulations should extend to general-purpose AI systems and address cumulative, trajectory-level changes in how people seek support. Recognizing how people stumble into AI emotional support and how those encounters redirect human connections over time is essential to safeguarding human well-being.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c3768d7aa9e1" data-article-url="https://arxiv.org/abs/2606.04152" data-article-title="記号を通して考える: 認識論的に責任のある AI 対応研究のための記号論的足場としての PEEL" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04152" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04152" target="_blank" rel="noopener">記号を通して考える: 認識論的に責任のある AI 対応研究のための記号論的足場としての PEEL</a></h3>
      <p class="summary">大規模な言語モデルは、研究者の認識責任を静かに侵食しながら、研究実践を再構築しています。この解説では、PEEL (AI における認識論的エンゲージメント リテラシーのためのプロトコル) を紹介します。これは、Peircean 記号論とアブダクティブ推論に基づいた、Voyant ツールによる決定論的遠隔読み取りとクロードによる LLM 解釈を組み合わせた実用的な足場です。 AI が生成した 3 つの原文の要約に PEEL を適用すると、AI 以外の測定なしでは見えない量、用語の頻度、認識論的な音声の体系的な歪みが明らかになり、3 つの設計上の影響が得られます。流暢さは忠実さではありません。認識論的権威は想定されるのではなく、設計される必要があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Thinking Through Signs: PEEL as a Semiotic Scaffolding for Epistemically Accountable AI-Enabled Research</p>
        <p class="orig-summary">Large language models are reshaping research practice while quietly eroding researchers epistemic accountability. This commentary introduces PEEL - Protocols for Epistemically Engaged Literacy in AI, a working scaffolding that combines deterministic distant reading via Voyant Tools with LLM interpretation via Claude, grounded in Peircean semiotics and abductive reasoning. Applied to AI-generated condensations of three source texts, PEEL reveals systematic distortions in quantity, term frequency, and epistemic voice that are invisible without non-AI measurement -- and yields three design implications: deterministic instruments must accompany AI tools; fluency is not fidelity; epistemic authority must be designed in, not assumed.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="48ceabbf1eca" data-article-url="https://arxiv.org/abs/2606.04202" data-article-title="SMAC-Talk: 大規模言語モデル用の StarCraft マルチエージェント チャレンジの自然言語拡張" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04202" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04202" target="_blank" rel="noopener">SMAC-Talk: 大規模言語モデル用の StarCraft マルチエージェント チャレンジの自然言語拡張</a></h3>
      <p class="summary">LLM がより広範に導入されるにつれて、LLM は単独で動作するのではなく、他の AI エージェントと連携して動作することがますます期待されています。このような状況での効果的な調整には、エージェントが不確実性の下でコミュニケーションし、情報を共有し、意思決定を行う必要があります。協調的なマルチエージェント環境で LLM ベースのエージェントを評価するための StarCraft Multi-Agent Challenge の自然言語拡張である SMAC-Talk を紹介します。この環境には、分散制御、部分的な可観測性、長期的な意思決定など、いくつかの重要な機能があります。 SMAC-Talk には、エージェントの調整と信頼を調査するために使用される自然言語通信チャネルが含まれています。この通信チャネルを使用して、通信だけで味方を混乱させ、欺こうとする欺瞞的なコミュニケーターが組み込まれた設定など、さまざまな評価シナリオを構築します。 Qwen3.5 ファミリーの 4 つのモデルを使用したベンチマーク用の 3 つのエージェントを提供し、推論構造、メモリ、モデルのスケールがエージェント間の調整にどのように影響するかを調査します。私たちは、協力的なマルチエージェント設定での LLM エージェントの開発と評価における研究コミュニティをサポートするオープン ベンチマークとして SMAC-Talk をリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SMAC-Talk: A Natural Language Extension of the StarCraft Multi-Agent Challenge for Large Language Models</p>
        <p class="orig-summary">As LLMs become more widely deployed, they are increasingly expected to work alongside other AI agents rather than operating in isolation. Effective coordination in these settings requires agents to communicate, share information and make decisions under uncertainty. We introduce SMAC-Talk, a natural language extension of the StarCraft Multi-Agent Challenge for evaluating LLM-based agents in cooperative multi-agent environments. The environment has several key features such as decentralized control, partial observability and long-horizon decision making. SMAC-Talk includes a natural language communication channel which is used to probe agent coordination and trust. We use this communication channel to construct different evaluation scenarios, including settings with an embedded deceptive communicator that tries to disrupt and deceive allies through communication alone. We provide three agents for benchmarking using 4 models from the Qwen3.5 family and study how reasoning structure, memory and model scale affect coordination between agents. We release SMAC-Talk as an open benchmark to support the research community in developing and evaluating LLM agents in cooperative multi-agent settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="732b55d1cd1d" data-article-url="https://arxiv.org/abs/2606.04223" data-article-title="コンセンサスが戦略的に不十分: 知識表現シグナルとしての推論とトレースの不一致" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04223" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04223" target="_blank" rel="noopener">コンセンサスが戦略的に不十分: 知識表現シグナルとしての推論とトレースの不一致</a></h3>
      <p class="summary">マルチエージェント システムは一般に、投票、コンセンサス プロトコル、討論、またはフォールト トレラントな集計を通じて意見の相違を減らすように設計されています。私たちは、この目標は、意見の相違がエージェントの誤りではなく、真の規範的不確実性を反映している可能性がある価値観を伴うタスクには不十分であると主張します。人間と AI の協調モデレーションにおける推論トレースの不一致に関する以前の研究に基づいて、推論トレースとエージェントの決定が象徴的な不一致状態に抽象化される知識表現層を提案します。明示的な推論トレースと二者決定を生成するエージェントを考慮して、推論の類似性と結論の一致に従って 4 つの状態 (収束一致、発散一致、収束不一致、発散不一致) を区別します。これらの状態は、実行可能な戦略的ルーティング ルールをサポートします。我々は、コンテンツモデレーションにおけるフレームワークをインスタンス化し、不一致認識ルーティングが、マルチエージェントの戦略的推論のためのサブシンボリックLLM審議とシンボリック知識表現との間の橋渡しとなると主張する。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Consensus is Strategically Insufficient: Reasoning-Trace Disagreement as a Knowledge-Representation Signal</p>
        <p class="orig-summary">Multi-agent systems are commonly designed to reduce disagreement through voting, consensus protocols, debate, or fault-tolerant aggregation. We argue that this objective is insufficient for value-laden tasks, where disagreement may reflect genuine normative uncertainty rather than agent error. Building on prior work on reasoning-trace disagreement in human-AI collaborative moderation, we propose a knowledge-representation layer in which reasoning traces and agent decisions are abstracted into symbolic disagreement states. Given agents producing explicit reasoning traces and binary decisions, we distinguish four states according to reasoning similarity and conclusion agreement: convergent agreement, divergent agreement, convergent disagreement and divergent disagreement. These states support defeasible strategic routing rules. We instantiate the framework in content moderation and argue that disagreement-aware routing provides a bridge between sub-symbolic LLM deliberation and symbolic knowledge representation for multi-agent strategic reasoning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9e104bc58b29" data-article-url="https://arxiv.org/abs/2606.04244" data-article-title="VAMPS: 視覚支援による数学的問題解決ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04244" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04244" target="_blank" rel="noopener">VAMPS: 視覚支援による数学的問題解決ベンチマーク</a></h3>
      <p class="summary">マルチモーダルな大規模言語モデルは、複雑な推論の能力をますます高めていますが、ツールを通じて問題を外部化し、ツールの出力を推論する必要がある場合、特に視覚補助に依存している場合、パフォーマンスが低下することがよくあります。実際のエンジニアリングおよび科学のワークフローでは、分析、検証、意思決定のために視覚化ツールに依存することが多いため、このギャップは特に重要です。この矛盾を研究するために、グラフ支援数学のベンチマークである VAMPS (Visual-Assisted Mathematical 問題解決) を導入します。 VAMPS には、イランの大学入学試験の代数と微積分の問題から抽出された 1,168 個のマルチモーダルなバイリンガル多肢選択問題と解答のペアが含まれており、人間がレビューした LLM 生成の合成バリアントで拡張されており、プロットによって交差、極値、漸近線などを明らかにすることで自然な解法戦略が提供されるようにすべて選択されています。ベンチマークと診断の両方のために設計された VAMPS は、主に固定より推論を評価する以前のマルチモーダル ベンチマークを超えています。有用なグラフを構築し、結果として得られる視覚化でその答えを根拠付けることでモデルにメリットが得られるかどうかをテストすることで、視覚的な入力を行います。全体として、さまざまなモデルのセットにわたって、プロットが自然な戦略である問題であっても、直接的な分析的解決は、ツールを使用した視覚的解決よりも驚くほど優れたパフォーマンスを発揮することがわかりました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">VAMPS: Visual-Assisted Mathematical Problem Solving Benchmark</p>
        <p class="orig-summary">Multimodal large language models are increasingly capable of complex reasoning, yet their performance often degrades when they must externalize a problem through a tool and then reason over the tool&#x27;s output, specifically when they rely on visual aids. This gap is especially important because real engineering and scientific workflows often rely on visualization tools for analysis, validation, and decision-making. To study this discrepancy, we introduce VAMPS (Visual-Assisted Mathematical Problem Solving), a benchmark for graph-assisted mathematics. VAMPS contains 1,168 multimodal, bilingual multiple-choice question-answer pairs drawn from Iranian University Entrance Exam algebra and calculus problems and expanded with human-reviewed LLM-generated synthetic variants, all selected so that plotting provides a natural solution strategy by revealing intersections, extrema, asymptotes, etc. Designed for both benchmarking and diagnosis, VAMPS goes beyond prior multimodal benchmarks that primarily evaluate reasoning over fixed visual inputs by testing whether a model can benefit from constructing a useful graph and grounding its answer in the resulting visualization. Overall, we found that across a diverse set of models, direct analytical solving surprisingly outperforms tool-enabled visual solving, even on problems where plotting is a natural strategy.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="075d95857651" data-article-url="https://arxiv.org/abs/2606.04246" data-article-title="StepPRM-RTL: RTL 合成を強化するための段階的なプロセス報酬ガイド付き LLM 微調整" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04246" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04246" target="_blank" rel="noopener">StepPRM-RTL: RTL 合成を強化するための段階的なプロセス報酬ガイド付き LLM 微調整</a></h3>
      <p class="summary">デジタル ハードウェア設計用の RTL コードの自動生成は、長期的な推論、複数ステップの依存関係、および Verilog と VHDL の厳密な正確性制約のため、依然として困難です。我々は、段階的軌跡モデリング、プロセス報酬モデリング (PRM)、検索拡張微調整 (RAFT) を組み合わせて、LLM ベースの RTL コード生成の機能的正確性と推論忠実度の両方を強化する新しいフレームワークである StepPRM-RTL を紹介します。 StepPRM-RTL は、標準的な解決策から段階的な推論軌跡を構築します。各ステップには理論的根拠と段階的なコード変更が含まれます。プロセス報酬モデル (PRM) は中間ステップを評価し、RAFT の微調整中に強化スタイルの更新をガイドする緻密なフィードバックを提供します。モンテカルロ ツリー検索 (MCTS) は、代替推論パスを探索し、高品質の軌跡でトレーニング データセットを強化します。この段階的報酬と結果を意識した報酬の統合により、モデルは正しい RTL を構築する方法と理由の両方を学習できるようになり、標準的な教師ありトレーニングや結果ベースのトレーニングを超えて長期的な推論が向上します。ベンチマーク Verilog および VHDL データセットの実験評価では、StepPRM-RTL が機能の正確性と推論忠実度のメトリクスにおいて、従来の最良の方法よりも 10% 以上優れていることが実証されました。アブレーション研究では、PRM に基づく報酬と段階的な軌道探索の組み合わせがそのパフォーマンスの鍵であることが確認されています。 StepPRM-RTL は、RTL 言語全体を汎用化し、高忠実度で解釈可能なコード生成のためのスケーラブルなフレームワークを提供し、LLM 支援のハードウェア設計自動化の新しい標準を確立します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis</p>
        <p class="orig-summary">Automatic generation of RTL code for digital hardware designs remains challenging due to long-horizon reasoning, multi-step dependencies, and strict correctness constraints in Verilog and VHDL. We present StepPRM-RTL, a novel framework that combines stepwise trajectory modeling, process-reward modeling (PRM), and retrieval-augmented fine-tuning (RAFT) to enhance both the functional correctness and reasoning fidelity of LLM-based RTL code generation. StepPRM-RTL constructs stepwise reasoning trajectories from canonical solutions, where each step contains a rationale and incremental code modification. A Process Reward Model (PRM) evaluates intermediate steps, providing dense feedback that guides reinforcement-style updates during RAFT fine-tuning. Monte Carlo Tree Search (MCTS) explores alternative reasoning paths, enriching the training dataset with high-quality trajectories. This integration of stepwise and outcome-aware rewards allows the model to learn both how and why to construct correct RTL, improving long-horizon reasoning beyond standard supervised or outcome-based training. Experimental evaluation on benchmark Verilog and VHDL datasets demonstrates that StepPRM-RTL outperforms the best prior methods by over 10\% in functional correctness and reasoning fidelity metrics. Ablation studies confirm that the combination of PRM-guided rewards and stepwise trajectory exploration is key to its performance. StepPRM-RTL generalizes across RTL languages and provides a scalable framework for high-fidelity, interpretable code generation, establishing a new standard for LLM-assisted hardware design automation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="943ad40afb87" data-article-url="https://arxiv.org/abs/2606.04261" data-article-title="ゼネラリストエージェントはデータキュレーションを自動化できますか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04261" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04261" target="_blank" rel="noopener">ゼネラリストエージェントはデータキュレーションを自動化できますか?</a></h3>
      <p class="summary">トレーニング データのキュレーションは、現代の AI 開発において最も重要ではあるものの、労働集約的な部分の 1 つです。実践者は、ノイズの多いベンチマーク フィードバックに対してデータ ポリシーを繰り返し提案、実装、評価、修正します。私たちは、ジェネラリストのコーディング エージェントがこのデータ キュレーション ループを自動化できるかどうかを尋ねます。 *Curation-Bench* というエージェント中心のベンチマークを導入します。これは、モデル、トレーニング レシピ、評価スイートを修正し、エージェントにデータの検査、ポリシーの実装、固定トレーニング/評価パイプラインへの送信、および修正のためのコマンドライン アクセスを許可します。ビジョン言語の命令チューニングのインスタンス化では、すぐに使用できるエージェントが 10 回の反復以内に公開された強力なデータ選択ベースラインに到達します。しかし、軌道分析により、永続的な*実行と研究のギャップ*が明らかになりました。エージェントは、たとえ戦略ガイドや参考文献が与えられたとしても、新しい政策ファミリーを探索するのではなく、主にローカル政策のバリエーションを調整します。反復ごとに以前のメソッドを引用、インスタンス化し、適応させる必要がある足場により、エージェントはメソッドに基づいた探索へと移行します。スキャフォールドされたエージェントは、人間による設計入力を必要とせずに、データ予算の 10 分の 1 で強力な公開ベースラインを上回るデータ選択ポリシーを自律的に作成します。全体として、現在のエージェントはキュレーション ループを実行できますが、信頼性の高いデータ調査には、オープンエンドのプロンプトのみではなく、足場を組んだ手法の適応が必要です。コードとベンチマークはオープンソースです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Can Generalist Agents Automate Data Curation?</p>
        <p class="orig-summary">Curating training data is among the most consequential yet labor-intensive parts of modern AI development: practitioners iteratively propose, implement, evaluate, and revise data policies against noisy benchmark feedback. We ask whether generalist coding agents can automate this data-curation loop. We introduce *Curation-Bench*, an agent-centric benchmark that fixes the model, training recipe, and evaluation suite while giving agents command-line access to inspect data, implement policies, submit them to a fixed training/evaluation pipeline, and revise. In a vision-language instruction-tuning instantiation, out-of-the-box agents reach strong published data-selection baselines within ten iterations. However, trajectory analysis reveals a persistent *execution-research gap*: agents mainly tune local policy variants rather than explore new policy families, even when given strategy guides and paper references. Scaffolds requiring each iteration to cite, instantiate, and adapt a prior method shift agents toward method-guided exploration. The scaffolded agent autonomously composes -- without human design input -- a data-selection policy that outperforms strong published baselines at one-tenth their data budget. Overall, current agents can run the curation loop, but reliable data research requires scaffolded method adaptation, not open-ended prompting alone. Code and benchmark are open-sourced.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bdf00633de5a" data-article-url="https://arxiv.org/abs/2606.04273" data-article-title="初期の人間と AI の証明の形式化ワークフローの特徴付け" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04273" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04273" target="_blank" rel="noopener">初期の人間と AI の証明の形式化ワークフローの特徴付け</a></h3>
      <p class="summary">何世紀にもわたって、人間の数学者は数学的議論を実証するための証明を書いてきました。しかし、証明の有効性を自動的に検証する機能は長い間課題でした。コードを生成し、ますます高度な数学的推論に取り組む AI システムの能力の進歩により、人々の証明を形式化し、それによって証明を検証する能力が変革されることが期待されます。多くの研究は現在のフロンティアのベンチマークに焦点を当てていますが、私たちは代わりに人々がこれらのツールをどのように使用するかを研究しています。私たちは、人々の形式化ワークフローに対する AI の初期影響について、混合手法分析を実施します。つまり、人々が何を望んでいるのか、そのビジョンに対する障壁は何であると見なしているのか、そして実際に AI をどのように使用および適応させているのかなどです。定性的調査によると、人々の好みは多様ですが、証拠発見プロセスに対する人間による高レベルの制御を維持するための形式化における AI 支援を一般的に望んでいます。このような制限の下で、人々が実際に形式化のために AI にどのように取り組んでいるかを評価するために、私たちは、参加者が AI の有無にかかわらず、さまざまな難易度や領域のさまざまな数学問題にわたって非形式的な数学問題とその証明を形式化する、管理されたユーザー研究を実施しました。自動形式化のためのツールの制限にもかかわらず、参加者は、自分で形式化する場合よりも AI ツールへのアクセスを許可された方が、より高い形式化精度を達成する傾向があり、ほとんどの参加者は複数の異なる AI ツールの使用を柔軟に選択します。まとめると、私たちの研究は、人間と AI の関与の密接な相互作用を伴う、形式化ワークフローへの AI 統合の初期段階に光を当てています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Characterizing initial human-AI proof formalization workflows</p>
        <p class="orig-summary">For centuries, human mathematicians have written proofs to substantiate their mathematical arguments; yet, the ability to automatically verify the validity of proofs has long been a challenge. Advances in AI systems&#x27; ability to generate code and engage in increasingly high-level mathematical reasoning promise to transform people&#x27;s ability to formalize and thereby verify proofs. While many works focus on benchmarking the current frontier, we instead study how people use these tools. We conduct a mixed-methods analysis into the initial impact of AI on people&#x27;s formalization workflows: what people claim they want, what they see as the barriers to those visions, and how they actually use and adapt AI in practice. A qualitative survey shows that people&#x27;s preferences are diverse, but with a general desire for AI assistance in formalization that preserves high-level human control over the proof discovery process. To assess how people actually engage with AI for formalization under such limitations, we conduct a controlled user study in which participants formalize informal math problems and their proofs, with and without AI, across a range of mathematical problems at varying levels of difficulty and domains. Despite limitations of the tools at the time for autoformalization, participants tend to attain higher formalization accuracy when allowed access to AI tools than when formalizing on their own, with most participants flexibly choosing to use multiple different AI tools. Taken together, our work sheds light on the early stages of AI integration into formalization workflows, involving an intimate interplay of human and AI engagement.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1efbf30b15de" data-article-url="https://arxiv.org/abs/2606.04296" data-article-title="飽和トラップと介入タイミングの主観性: 影響ベースのトリガーと LLM ジャッジが自律エージェントへの介入のタイミングを計れない理由" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04296" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04296" target="_blank" rel="noopener">飽和トラップと介入タイミングの主観性: 影響ベースのトリガーと LLM ジャッジが自律エージェントへの介入のタイミングを計れない理由</a></h3>
      <p class="summary">自律型 AI エージェントが会話型システムから長期的なソフトウェア実行に移行するにつれて、エージェントをいつ中断するかを決定するランタイム安全レイヤーが不可欠になっています。私たちは、診断プローブとして連続 18 次元感情ダイナミクス エンジン (HEART) を使用し、SWE ベンチ検証済みデバッグ トレース上の人間による注釈付き介入ポイントに対して 4 つの介入トリガー ファミリ (絶対状態しきい値、複合状態アクション パターン、正規表現推論特徴抽出、および判断者としてのゼロショット LLM) を評価して、このタイミング問題を研究します。 3 つの調査結果を報告します。まず、状態飽和トラップ: 継続的な困難下ではエージェントは回復シグナルを示さないため、モデル化されたフラストレーションはすぐにしきい値を超えて最大値に留まり、瞬間検出器からのしきい値オン状態トリガーを、5 つの軌道にわたるアクションの 39 ～ 83% で起動するほぼ一定のインジケーターに変換します。第 2 に、LLM 審査員向けの機能とコンテキストの下限です。小型モデル (gpt-5.4-mini) は決して発砲しませんが、フロンティア モデルやクロスベンダー モデルは完全な軌道コンテキストでのみゼロ発火下限を回避し、それでも最大 90 倍のコストで F1 0.17 ～ 0.40 にしか達しません。第三に、そして最も重要なことは、教師付きターゲットは人間間で再現可能ではないということです。56 アクションの軌道上で 1 つのルーブリックを使用する 3 人の訓練されたアノテーターは、偶然をわずかに上回る位置 (クリッペンドルフのアルファ = +0.047、最良のペアワイズ コーエンのカッパ = +0.349) で介入する場所については一致し、介入の種類についてはまったく一致しません (退化を一時停止、確率より下を明確にする、アルファのみを反映 = +0.226）。介入のタイミングは信頼性の低い構造であり、単一アノテーター F1 は最適化の対象として不適切であると結論付けます。私たちの貢献は、単一の検出器の精度ではなく、人間の評価者間信頼性、4 つの検出器アーキテクチャ、クロスモデル LLM 判定スイープ、および再現された飽和効果にわたるこの問題の共同マッピングです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Saturation Trap and the Subjectivity of Intervention Timing: Why Affect-Based Triggers and LLM Judges Fail to Time Interventions on Autonomous Agents</p>
        <p class="orig-summary">As autonomous AI agents move from conversational systems to long-horizon software execution, runtime safety layers that decide when to interrupt an agent have become essential. We study this timing problem using a continuous 18-dimensional affective-dynamics engine (HEART) as a diagnostic probe, evaluating four intervention trigger families - absolute state thresholds, composite state-action patterns, regex reasoning-feature extraction, and zero-shot LLM-as-judge - against human-annotated intervention points on SWE-bench-Verified debugging traces. We report three findings. First, a State Saturation Trap: agents show no recovery signal under sustained difficulty, so modeled frustration quickly crosses the threshold and stays at its maximum, converting threshold-on-state triggers from moment detectors into near-constant indicators that fire on 39-83% of actions across five trajectories. Second, a capability-and-context floor for LLM judges: a small model (gpt-5.4-mini) never fires, while frontier and cross-vendor models escape the zero-firing floor only with full-trajectory context, and even then reach only F1 0.17-0.40 at up to 90x the cost. Third, and most importantly, the supervised target is not reproducible among humans: three trained annotators using one rubric on a 56-action trajectory agree on where to intervene only slightly above chance (location Krippendorff&#x27;s alpha = +0.047; best pairwise Cohen&#x27;s kappa = +0.349) and not at all on intervention type (pause degenerate; clarify below chance; reflect only alpha = +0.226). We conclude that intervention timing is a low-reliability construct, making single-annotator F1 an unsuitable optimization target. Our contribution is the joint mapping of this problem across human inter-rater reliability, four detector architectures, a cross-model LLM-judge sweep, and a reproduced saturation effect, rather than any single detector&#x27;s accuracy.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e5d300d3cde9" data-article-url="https://arxiv.org/abs/2606.04315" data-article-title="エージェント的記憶システムのクロスシナリオ一般性の探求: 診断と強力なベースライン" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04315" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04315" target="_blank" rel="noopener">エージェント的記憶システムのクロスシナリオ一般性の探求: 診断と強力なベースライン</a></h3>
      <p class="summary">LLM エージェントは、コンテキスト ウィンドウを超えて拡大する履歴を蓄積し、メモリ システムに関する文献の増加を促します。しかし、既存の設計のほとんどは単一のシナリオ (マルチセッション チャットまたは単一の軌跡形式) に合わせて調整されており、展開時にエージェントが遭遇する異種の軌跡全体にそれらが一般化するという証拠はほとんどありません。シングルターン QA、マルチセッション チャット、エージェント トラジェクトリ QA、メモリ ストレス テスト、長期エージェント タスクの 5 つのシナリオで、8 つのメモリ システムと検索問題用のエージェント ハーネスを再検討します。ツール呼び出しを介してフラット テキスト ファイル ストレージを自己管理するハーネスは、最高のクロスタスク ランキングを達成しました。これは、メモリのパフォーマンスが、固定パイプラインの背後にある受動的なストアではなく、ストレージと取得に対するアクティブな制御をエージェントに与えることに依存していることを示唆しています。この洞察を AutoMEM でインスタンス化します。AutoMEM は、評価するシステムの中で最高のクロスシナリオ汎用性を実現する自己管理ツール インターフェイスを備えたエージェント メモリ ハーネスです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Exploring Cross-Scenario Generality of Agentic Memory Systems: Diagnostics and a Strong Baseline</p>
        <p class="orig-summary">LLM agents accumulate histories that outgrow their context windows, motivating a growing literature on memory systems. Yet most existing designs are tuned to a single scenario (multi-session chat or a single trajectory format), and there is little evidence that they generalize across the heterogeneous trajectories agents encounter in deployment. We revisit eight memory systems plus an agentic harness for search problems, on five scenarios: single-turn QA, multi-session chat, agentic-trajectory QA, memory stress tests, and long-horizon agentic tasks. The harness, which self-manages flat text-file storage via tool calls, achieves the best cross-task ranking, suggesting that memory performance hinges on giving the agent active control over storage and retrieval rather than on a passive store behind a fixed pipeline. We instantiate this insight in AutoMEM, an agentic memory harness with a self-managed tool interface that achieves the best cross-scenario generality among the systems we evaluate.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="76eb53268768" data-article-url="https://arxiv.org/abs/2606.04321" data-article-title="デジタル見習い: 人間主導のエージェント AI 開発のフレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04321" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04321" target="_blank" rel="noopener">デジタル見習い: 人間主導のエージェント AI 開発のフレームワーク</a></h3>
      <p class="summary">Agentic AI の導入は、人間による厳しい監視によって規模が制限される一方、広範な自律性が説明責任を上回るという、繰り返しの設計上の緊張に直面しています。どちらの姿勢も、責任ある委任に必要なガバナンス インフラストラクチャを提供しません。私たちは、自律性を前提とするのではなく獲得する、スケーラブルで安全な AI エージェンシーのフレームワークである Digital Apprentice を紹介します。デジタル見習いは、人間が監督する暗黙の方法論を内面化する発達的な学習者であり、経験的証拠がそれを正当化する場合にのみ、スキルごとの自律段階を経て卒業します。その結果、特定の人間の基準に沿ったままでありながら、時間の経過とともに真に有用になるエージェントが生まれます。 3 つのアーキテクチャ コンポーネントがこれを可能にします。 (1) 方法論の捕捉。監督の専門家の暗黙のアプローチを構造化資産に抽出します。 (2) 承認。人間による明示的な承認によって自律性がエスカレーションされます。 (3) 継続的な調整。実行時にドリフトを修正し、各修正を所有する優先データに変換します。このフレームワークを推論時のコントロール プレーンとしてインスタンス化します。品質フレームワークを数学的にモデル化し、品質を向上させるために設計されたポリシーや手法について議論します。このフレームワークをオープンなプロフェッショナル コーパスに適用し、データ ドリフトを捕捉し、実行時に別の手法を適用することで、トラフィック シフト下で低下した品質次元を回復する方法を示します。その影響は単一のアプリケーションを超えて広がります。私たちは、これら 3 つの柱をシステムとしてつなぎ合わせることで、信頼を犠牲にすることなく拡張できるエージェント システムへのより安全で実行可能な道を形成すると信じています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Digital Apprentice: A Framework for Human-Directed Agentic AI Development</p>
        <p class="orig-summary">Agentic AI deployments face a recurring design tension: heavy human oversight limits scale, while broad autonomy outruns accountability. Neither posture provides the governance infrastructure required for responsible delegation. We present the Digital Apprentice, a framework for scalable, safe AI agency in which autonomy is earned, not assumed. The Digital Apprentice is a developmental learner that internalizes the tacit methodology of a directing human, graduating through per-skill autonomy tiers only when empirical evidence justifies it. The result is an agent that becomes genuinely useful over time while remaining aligned to a specific human&#x27;s standards. Three architectural components make this possible. (1) Methodology capture, distilling a directing professional&#x27;s tacit approach into structured assets. (2) Authorization, with autonomy escalation gated by explicit human approval. (3) Continuous alignment, correcting drift at runtime and converting each correction into owned preference data. We instantiate this framework as an inference-time control plane. We mathematically model the quality framework and discuss policies and techniques designed to raise quality. We apply the framework to an open professional corpus, and we show how catching data drift and applying a different technique at runtime recovers degraded quality dimensions under traffic shift. The implication extends beyond any single application. We believe these three pillars, stitched together as a system, form a safer and more viable path to agentic systems that can scale without sacrificing trust.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="133ec898e76b" data-article-url="https://arxiv.org/abs/2606.04391" data-article-title="状態に基づいた動的検索による Web エージェントのオンライン スキル学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04391" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04391" target="_blank" rel="noopener">状態に基づいた動的検索による Web エージェントのオンライン スキル学習</a></h3>
      <p class="summary">言語エージェントは、関連タスク全体にわたる複数ステップの Web 自動化を改善するために、再利用可能なスキルにますます依存しています。オンラインでのスキル学習を研究する仕事が増えており、エージェントは以前のタスクの軌跡からスキルを継続的に導き出し、その場で将来のタスクで再利用します。ただし、既存の方法は主にタスク レベルでスキルを再利用します。つまり、固定のスキル セットが最初のタスク指示に基づいて取得され、実行中ずっと固定されます。この静的戦略は Web の実行とずれており、適切な次のアクションはタスクの目標だけでなく、現在の Web ページの状態にも依存し、初期のスキルではカバーできない状況に移行することがよくあります。このギャップに対処するために、Web エージェントの段階的なスキルの再利用を可能にするオンライン スキル学習方法である State-Grounded Dynamic Retrieval (SGDR) を提案します。 SGDR は 3 つのコンポーネントで構成されます。完了した軌跡を中間の実行状態で呼び出し可能な再利用可能なサブプロシージャに変換するスライディング ウィンドウ抽出プロセス、スキルの取得と実行可能なアクションを結び付けるデュアル テキスト コード表現、スキルをタスクの目標と現在の Web ページの状態の両方に一致させる状態ベースの動的取得メカニズムです。 5 つのドメインにわたる WebArena での実験では、SGDR が一貫して強力なベースラインを上回っており、GPT-4.1 で 37.5%、Qwen3-4B で 24.3% の平均成功率を達成しており、最も強力なベースラインに対してそれぞれ 10.6% と 10.0% の相対的な向上に相当します。コードは https://github.com/plusnli/skill-dynamic-retrieval で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Online Skill Learning for Web Agents via State-Grounded Dynamic Retrieval</p>
        <p class="orig-summary">Language agents increasingly rely on reusable skills to improve multi-step web automation across related tasks. A growing line of work studies online skill learning, where agents continually induce skills from previous task trajectories and reuse them in future tasks on the fly. However, existing methods mainly reuse skills at the task-level: a fixed set of skills is retrieved based on the initial task instruction and then held fixed throughout execution. This static strategy is misaligned with web execution, where the appropriate next action depends not only on the task goal but also on the current webpage state, which often transitions into situations that the initial skills fail to cover. To address this gap, we propose State-Grounded Dynamic Retrieval (SGDR), an online skill learning method that enables stepwise skill reuse for web agents. SGDR consists of three components: a sliding-window extraction process that turns completed trajectories into reusable sub-procedures invokable at intermediate execution states, a dual text-code representation that connects skill retrieval with executable action, and a state-grounded dynamic retrieval mechanism that matches skills to both the task goal and the current webpage state. Experiments on WebArena across five domains show that SGDR consistently outperforms strong baselines, achieving average success rates of 37.5% with GPT-4.1 and 24.3% with Qwen3-4B, corresponding to relative gains of 10.6% and 10.0% over the strongest baseline, respectively. The code is available at https://github.com/plusnli/skill-dynamic-retrieval.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a74c48c3f92f" data-article-url="https://arxiv.org/abs/2606.04402" data-article-title="すべてのエラーが等しいわけではない: 結果を意識した推論による計算割り当て" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04402" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04402" target="_blank" rel="noopener">すべてのエラーが等しいわけではない: 結果を意識した推論による計算割り当て</a></h3>
      <p class="summary">最新の推論モデルでは、思考トークン、モデル呼び出し、計算バジェットなど、さまざまな量のテスト時の計算をさまざまなタスクに割り当てることができます。既存の手法は一般に、予測された難易度に基づいてこの割り当てを推進し、精度の向上が期待される場合にはより多くのコンピューティングを費やします。これは、精度目標がすべてのタスクに均等に重み付けするため、すべての失敗のコストが同じであることを暗黙的に前提としています。ただし、そのような想定は展開では当てはまりません。ログ メッセージのタイプミスと、運用データベースを破損する移行はどちらも 1 つのベンチマーク障害としてカウントされますが、実際のコストは根本的に異なります。このギャップを埋めるために、結果を意識したテスト時間の計算割り当てを提案します。予測された難易度だけによって計算をルーティングするのではなく、軽量の予測子を使用して、問題のテキストから、間違って解決された場合にタスクのコストがどのくらいかかるかを推定します。次に、スケジューラは、同じ合計予算の下で、結果のより高いタスクをより大きなコンピューティング層またはより高度な思考の予算にルーティングします。 SWE-bench Lite で主な実験を行い、Multi-SWE-bench mini でデータセット間の動作を評価し、合計 700 のソフトウェア エンジニアリング タスクをカバーしています。私たちの結果は、結果と困難がさまざまな注釈の下でほぼ直交していること、および現在の思考モデルが結果に応じて十分な計算を割り当てていないことを明らかにしています。さらに、当社の問題のみの予測子は、300 の SWE ベンチ タスク全体にわたって、結果の高いタスクを結果の低いタスクとして誤分類することはありません。コンピューティング予算が一致している場合、結果を意識したスケジューラーは、難易度を意識したルーティングと比較して、コスト加重損失を 22% ～ 33% 削減します。特に、限界効用信号によってスケールされたタスクごとのコストによってルーティングする優先度認識バリアントは 30% を超え、その導入可能な予測子駆動バージョンはオラクル ゲインの 90% 以上を保持します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Not All Errors Are Equal: Consequence-Aware Reasoning Compute Allocation</p>
        <p class="orig-summary">Modern reasoning models can allocate different amounts of test-time computation, such as thinking tokens, model calls, or compute budget, to different tasks. Existing methods generally drive this allocation by predicted difficulty and spend more compute where it is expected to raise accuracy. This implicitly assumes that all failures cost the same, since an accuracy objective weights every task equally. However, such an assumption does not hold in deployment: A typo in a log message and a migration that corrupts a production database both count as one benchmark failure, but their real-world costs are fundamentally different. To fill this gap, we propose consequence-aware test-time compute allocation. Instead of routing compute only by predicted difficulty, we use a lightweight predictor to estimate from the issue text how costly a task would be if solved incorrectly. The scheduler then routes higher-consequence tasks to larger compute tiers or higher thinking budgets under the same total budget. We conduct main experiments on SWE-bench Lite and evaluate cross-dataset behavior on Multi-SWE-bench mini, covering 700 software-engineering tasks in total. Our results reveal that consequence and difficulty are approximately orthogonal under various annotations, and that current thinking models do not allocate compute sufficiently according to consequence. Moreover, our issue-only predictor never misclassifies a high-consequence task as low-consequence across the 300 SWE-bench tasks. Under matched compute budgets, our consequence-aware scheduler reduces cost-weighted loss by 22% to 33% relative to difficulty-aware routing; in particular, the priority-aware variant, which routes by per-task cost scaled by the marginal-utility signal, crosses 30%, and its deployable predictor-driven version retains over 90% of the oracle gain.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1bdd4203e13e" data-article-url="https://arxiv.org/abs/2606.04421" data-article-title="トリビアム: 因果記憶コントローラーの第一級目標としての時間的後悔" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04421" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04421" target="_blank" rel="noopener">トリビアム: 因果記憶コントローラーの第一級目標としての時間的後悔</a></h3>
      <p class="summary">現在のエージェント システムと LLM パイプラインの多くは、結果の報酬を最適化することで間違いを修正します。これは失敗の内容のみを扱います。結果が予測と異なる場合、不一致の理由と時期が体系的に記録、レビュー、修正されないため、同じエラーがエピソードごとに再発する可能性があります。私たちは、これは単にモデルの能力の問題ではなく、構造的な問題であると主張します。私たちは、作業因果モデルに対する結果の後悔や認識論的な後悔と並んで、長期的な時間的後悔を第一級の目標として提案します。時間的リグアロングは、失敗が継続するとき、すなわち、調整ミスの因果モデルが修正されるまでにどのくらいの期間許容されるかを捉えます。認識論的後悔は、失敗が続く理由、つまり作業因果モデルにおける残留不確実性またはエラーを捉えます。 3 つの後悔を総合すると、長命のエージェントがいつ、何が、なぜ失敗する可能性があるのか​​について、反証可能な説明が得られます。エージェントを E エピソードのストリームとしてモデル化し、明示的な因果関係の調査、持続性、および検出可能性の仮定に基づいて 3 つの条件付き結果を証明します。まず、観察的に等価な交絡のもとでは、結果のみの学習では介入チャネルがなければ因果構造と偽の構造を区別できないため、結果の後悔がゼロになった後でも時間的誤調整が線形的に持続する可能性があります。第 2 に、永続的な因果ログと予算付きプローブを使用すると、総プローブの複雑さはエピソード期間内で対数的となり、O(log E) の時間的後悔を引き起こします。第三に、K 個の検出可能な変化点の下では、速度は O(K log E) まで拡張されます。 Trivium をインスタンス化し、5 つの反証可能な予測を事前に登録します。 CausalBench-Seq では、Trivium は予測された対数エンベロープに従いますが、結果のみのベースラインは直線的に増加します。パイロットのリアル LLM ストリームは、1 回の完全な E = 500 実行と 3 回の E = 100 フロンティア モデル パイロットにわたる予備的な外部妥当性証拠を提供します。ここでの自己学習とは、LLM 重みを再トレーニングすることではなく、外部因果モデルを修正することを意味します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Trivium: Temporal Regret as a First-Class Objective for Causal-Memory Controllers</p>
        <p class="orig-summary">Many current agentic systems and LLM pipelines correct mistakes by optimizing outcome reward. This addresses only the what of failure: when an outcome diverges from prediction, the why and when of the mismatch are not systematically logged, reviewed, or corrected, so the same error can recur episode after episode. We argue that this is a structural problem, not merely a model-capacity one. We propose long-horizon temporal regret as a first-class objective alongside outcome regret and epistemic regret over the working causal model. Temporal regret captures when failure persists: how long a miscalibrated causal model is tolerated before correction. Epistemic regret captures why failure persists: residual uncertainty or error in the working causal model. Together, the three regrets give a falsifiable account of what, why, and when a long-lived agent can fail. Modeling the agent as a stream of E episodes, we prove three conditional results under explicit causal-probing, persistence, and detectability assumptions. First, under observationally equivalent confounding, outcome-only learning cannot distinguish causal from spurious structure without an intervention channel, so temporal miscalibration can persist linearly even after outcome regret is driven to zero. Second, with a persistent causal log and budgeted probes, total probe complexity is logarithmic in the episode horizon, inducing O(log E) temporal regret. Third, under K detectable change-points, the rate extends to O(K log E). We instantiate Trivium and pre-register five falsifiable predictions. On CausalBench-Seq, Trivium follows the predicted logarithmic envelope while outcome-only baselines grow linearly. A pilot real-LLM stream provides preliminary external-validity evidence across one full E = 500 run and three E = 100 frontier-model pilots. Self-learning here means revising an external causal model, not retraining LLM weights.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="934b851b42a9" data-article-url="https://arxiv.org/abs/2606.04435" data-article-title="Agentic RAG における連鎖的幻覚: 検出と軽減のための CHARM フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04435" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04435" target="_blank" rel="noopener">Agentic RAG における連鎖的幻覚: 検出と軽減のための CHARM フレームワーク</a></h3>
      <p class="summary">マルチステップのエージェント的検索拡張生成 (RAG) パイプラインは、複雑な推論タスクに対して優れた能力を実証していますが、既存の幻覚検出メカニズムが体系的に見逃しているクラスの障害に対して脆弱なままです。カスケード幻覚では、パイプラインの初期段階で導入されたエラーが、連続する推論ステップ全体に伝播および増幅し、自信があるが事実としては不正確な最終出力が生成されます。この脆弱性に対処するために、私たちはカスケード幻覚をエージェント RAG システムの明確な障害モードとして形式化し、カスケード パターンの 4 種類の分類を提示し、複数ステップの推論パイプラインでエラー伝播を検出して中断するためのアーキテクチャ フレームワークである CHARM (Cascading Hallucination Aware Resolution and Mitigation) を導入します。 CHARM は、ステージレベルのファクト検証、クロスステージ一貫性追跡、信頼性伝播モニタリング、およびカスケード解決トリガーの 4 つのコンポーネントで構成されており、アーキテクチャの置き換えを必要とせずに、標準のエージェント RAG パイプラインと並行して動作します。 HotpotQA、MuSiQue、2WikiMultiHopQA、および LangChain エージェント パイプライン構成全体にわたるカスタム敵対的データセットで CHARM を評価し、89.4% のカスケード検出率と 5.3% の誤検知率、ステージあたりの平均レイテンシ オーバーヘッド 215 ミリ秒 +/- 18 ミリ秒を達成し、エラー伝播の削減を 82.1% 達成しました (前者の 18.5% と比較)。出力レベル検出器。 Component ablations confirm that each detection module contributes meaningfully to overall cascade coverage. CHARM は、人間による監視フレームワークと統合して、実稼働エージェント AI の導入に完全な信頼性とガバナンス スタックを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Cascading Hallucination in Agentic RAG: The CHARM Framework for Detection and Mitigation</p>
        <p class="orig-summary">Multi-step agentic retrieval-augmented generation (RAG) pipelines have demonstrated significant capability for complex reasoning tasks, yet remain vulnerable to a class of failure that existing hallucination detection mechanisms systematically miss: cascading hallucination, where errors introduced at early pipeline stages propagate and amplify across successive reasoning steps, producing confident but factually incorrect final outputs. To address this vulnerability, we formalize cascading hallucination as a distinct failure mode in agentic RAG systems, present a four-type taxonomy of cascade patterns, and introduce CHARM (Cascading Hallucination Aware Resolution and Mitigation), an architectural framework for detecting and interrupting error propagation in multi-step reasoning pipelines. CHARM comprises four components - stage-level fact verification, cross-stage consistency tracking, confidence propagation monitoring, and cascade resolution triggering - that operate alongside standard agentic RAG pipelines without requiring architectural replacement. We evaluate CHARM on HotpotQA, MuSiQue, 2WikiMultiHopQA, and a custom adversarial dataset across LangChain agentic pipeline configurations, achieving an 89.4% cascade detection rate with a 5.3% false positive rate and 215 ms +/- 18 ms average latency overhead per stage, achieving an error propagation reduction of 82.1%, compared to 18.5% for output-level detectors. Component ablations confirm that each detection module contributes meaningfully to overall cascade coverage. CHARM integrates with human-in-the-loop oversight frameworks to provide a complete reliability and governance stack for production agentic AI deployment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="75233c4181cb" data-article-url="https://arxiv.org/abs/2606.04455" data-article-title="メタエージェントの課題: 現在のエージェントは自律的なエージェント開発が可能ですか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04455" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04455" target="_blank" rel="noopener">メタエージェントの課題: 現在のエージェントは自律的なエージェント開発が可能ですか?</a></h3>
      <p class="summary">現在の AI ベンチマークは、人間が設計したワークフロー内でのタスク実行に関してエージェントを評価します。これらの評価では、基本的に、モデルが自律的にエージェント システムを開発できるかどうかという、重要な次のレベルの機能を測定できません。自律エージェント開発のためのフロンティア モデルの能力をテストするために設計された評価フレームワークであるメタエージェント チャレンジ (MAC) を紹介します。具体的には、コード エージェント (メタエージェント) には、サンドボックス環境、評価 API、および 5 つのドメインにわたって実施されたテスト セットのパフォーマンスを最大化するエージェント アーティファクトを反復的にプログラムするための時間制限が与えられます。評価の整合性を確保するために、このフレームワークは報酬ハッキングに対する多層防御によって保護されています。このフレームワークを活用して、メタエージェントが人為的に設計されたベースライン ポリシーと一致することはほとんどなく、一致する少数のエージェントは独自のフロンティア モデルによって支配されていることを示します。さらに、設計プロセスは高い分散を示し、高い最適化圧力により、グラウンドトゥルースの漏洩などの敵対的な動作が表面化し、堅牢性とモデルの調整の両方における重大な欠陥が浮き彫りになります。最終的に、MAC は自律型 AI の研究開発のための厳密なオープンソース ベンチマークを提供し、再帰的な自己改善を評価するための経験的な代用手段を提供します。ベンチマークは https://github.com/ant-research/meta-agent-challenge で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?</p>
        <p class="orig-summary">Current AI benchmarks evaluate agents on task execution within human-designed workflows. These evaluations fundamentally fail to measure a critical next-level capability: whether models can autonomously develop agent systems. We introduce the Meta-Agent Challenge (MAC), an evaluation framework designed to test the capacity of frontier models for autonomous agent development. Specifically, a code agent (the meta-agent) is given a sandboxed environment, an evaluation API, and a time limitation to iteratively program an agent artifact that maximizes performance on a held-out test set across five domains. To ensure evaluation integrity, this framework is secured by multi-layer defenses against reward hacking. Leveraging this framework, we demonstrate that meta-agents rarely match human-engineered baseline policies, and the few that do are dominated by proprietary frontier models. Moreover, the design process exhibits high variance, and high optimization pressure surfaces emergent adversarial behaviors like ground-truth exfiltration-highlighting critical deficits in both robustness and model alignment. Ultimately, MAC provides a rigorous, open-source benchmark for autonomous AI research and development, offering an empirical proxy for evaluating recursive self-improvement. Benchmark is publicly available at: https://github.com/ant-research/meta-agent-challenge.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="291f39598237" data-article-url="https://arxiv.org/abs/2606.04484" data-article-title="AgentJet: エージェント強化学習のための柔軟な群トレーニング フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04484" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04484" target="_blank" rel="noopener">AgentJet: エージェント強化学習のための柔軟な群トレーニング フレームワーク</a></h3>
      <p class="summary">大規模言語モデル (LLM) エージェント強化学習用の分散群トレーニング フレームワークである AgentJet を紹介します。エージェントのロールアウトとモデルの最適化を密接に結び付ける集中型フレームワークとは異なり、AgentJet は分離されたマルチノード アーキテクチャを採用しています。このアーキテクチャでは、swarm サーバー ノードがトレーニング可能なモデルをホストし、GPU クラスターで最適化を実行します。一方、swarm クライアント ノードは任意のデバイスで任意のエージェントを実行します。この設計は、集中型フレームワークではサポートが難しい機能を提供します。(1) 異種マルチモデル強化学習。複数の LLM を頭脳とする異種マルチエージェント チームのトレーニングを可能にします。 (2) 独立したエージェントのランタイムを使用したマルチタスクのカクテル トレーニング。 (3) 外部環境の障害によるトレーニング プロセスの中断を防ぐフォールト トレラントな実行。 (4) ライブ コードの反復。群クライアント ノードを置き換えることにより、トレーニング中にエージェントを編集できます。マルチモデル、マルチターン、マルチエージェント設定で効率的な RL をサポートするために、AgentJet はタイムライン マージを備えたコンテキスト トラッキング モジュールを導入しています。これにより、冗長なコンテキストが統合され、トレーニングの 1.5 ～ 10 倍の高速化が実現します。最後に、AgentJet は、研究トピックを入力として受け取り、大規模クラスター上で長期にわたる複数日にわたる RL 研究を自律的に実行する自動研究システムを導入します。このシステムは、swarm アーキテクチャを活用することで、実行中に人間の介入なしに、RL 研究者の主要な探索ワークフローを再現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning</p>
        <p class="orig-summary">We present AgentJet, a distributed swarm training framework for large language model (LLM) agent reinforcement learning. Unlike centralized frameworks that tightly couple agent rollouts with model optimization, AgentJet adopts a decoupled multi-node architecture in which swarm server nodes host trainable models and run optimization on GPU clusters, whereas swarm client nodes execute arbitrary agents on arbitrary devices. This design provides capabilities that are difficult to support in centralized frameworks: (1) heterogeneous multi-model reinforcement learning, enabling the training of heterogeneous multi-agent teams with multiple LLM as brains; (2) multi-task cocktail training with isolated agent runtimes; (3) fault-tolerant execution that prevents external environment failures from interrupting the training process; and (4) live code iteration, which allows agents to be edited during training by replacing swarm client nodes. To support efficient RL in multi-model, multi-turn, and multi-agent settings, AgentJet introduces a context tracking module with timeline merging, which consolidates redundant context and achieves a 1.5-10x training speedup. Finally, AgentJet introduces an automated research system that takes a research topic as input and autonomously conducts long-horizon, multi-day RL studies on large-scale clusters. By leveraging the swarm architecture, this system reproduces key exploratory workflows of RL researchers without human intervention during execution.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b687e60a169f" data-article-url="https://arxiv.org/abs/2606.04494" data-article-title="プロンプトベースの計画を超えて: MCP ネイティブ グラフ計画ベースの生物医学エージェント システム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04494" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04494" target="_blank" rel="noopener">プロンプトベースの計画を超えて: MCP ネイティブ グラフ計画ベースの生物医学エージェント システム</a></h3>
      <p class="summary">生物医学エージェントは複雑な生物学的ワークフローを自動化できると期待されていますが、現在のシステムは 2 つの根本的なボトルネックに直面しています。それは、バイオインフォマティクス ツールがインターフェイスと実行環境において非常に異質である一方、エージェントの計画は未だにプロンプ​​トで取得されるフラットなツール記述に依存しているということです。生物医学ソフトウェア エコシステムが成長するにつれて、ツールの適用範囲とコンテキスト サイズの関係により、ツールの混乱、不安定な計画、および非効率的な実行が発生します。構造化された生物学的機能よりもグラフ足場計画に基づいて構築された MCP ネイティブの生物医学エージェントである BioManus を紹介します。 BioManus は、異種バイオインフォマティクス ソフトウェアを標準化された MCP サーバーに変換し、大規模な実行可能な MCP エコシステムを生み出す BioinfoMCP コンパイラーを初めて導入しました。次に、このエコシステムを、ツール、操作、データ型、ワークフロー ステージにわたる型付きの異種 MCP グラフとして編成します。推論時に、BioManus はコンパクトなタスク固有のサブグラフを取得し、操作レベルのワークフロー スキャフォールドを合成します。この設計は、計画の複雑さを生の工具在庫サイズから切り離し、高リコール取得下で Theta(N / (h * m_bar)) のコンテキスト圧縮率を達成します。ここで、N は総工具数、h はワークフロー範囲、m_bar (N よりもはるかに小さい) は操作ごとの候補工具の平均数です。 BioAgentBench と LAB-Bench の実験では、BioManus が高度な生物医学エージェントのベースラインと比較して、実行精度、ワークフローの有効性、およびコンテキストの効率を向上させることが示されています。この研究はパラダイム シフトを示唆しています。スケーラブルな生物医学的推論には、ますます大規模になるプロンプト レベルのツール検索ではなく、構造化された実行可能な機能グラフが必要です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond Prompt-Based Planning: MCP-Native Graph Planning-based Biomedical Agent System</p>
        <p class="orig-summary">Biomedical agents promise to automate complex biological workflows, yet current systems face two fundamental bottlenecks: bioinformatics tools are highly heterogeneous in interfaces and execution environments, while agent planning still relies on flat prompt-retrieved tool descriptions. As biomedical software ecosystems grow, this coupling between tool coverage and context size leads to tool confusion, unstable planning, and inefficient execution. We introduce BioManus, an MCP-native biomedical agent built on graph-scaffolded planning over structured biological capabilities. BioManus first introduces the BioinfoMCP Compiler, which converts heterogeneous bioinformatics software into standardized MCP servers, yielding a large executable MCP ecosystem. It then organizes this ecosystem as a typed heterogeneous MCP graph over tools, operations, datatypes, and workflow stages. At inference time, BioManus retrieves compact task-specific subgraphs, synthesizes operation-level workflow scaffolds. This design decouples planning complexity from raw tool inventory size, achieving a context compression ratio of Theta(N / (h * m_bar)) under high-recall retrieval, where N is the total tool count, h is the workflow horizon, and m_bar (much smaller than N) is the average number of candidate tools per operation. Experiments on BioAgentBench and LAB-Bench show that BioManus improves execution accuracy, workflow validity, and context efficiency over advanced biomedical agent baselines. This work suggests a paradigm shift: scalable biomedical reasoning requires structured executable capability graphs rather than increasingly larger prompt-level tool retrieval.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b5f3bab370d9" data-article-url="https://arxiv.org/abs/2606.04505" data-article-title="シミュレーション、推論、決定: シミュレーション主導の意思決定のための LLM による科学的推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04505" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04505" target="_blank" rel="noopener">シミュレーション、推論、決定: シミュレーション主導の意思決定のための LLM による科学的推論</a></h3>
      <p class="summary">科学シミュレータは、一か八かのシミュレーション主導の意思決定のために、LLM 主導のシステムにますます統合されています。ただし、既存のフレームワークは主に LLM を使用してシミュレータを生成、調整、実行し、シミュレータを推論可能な構造化された機構システムとしてではなく、ブラックボックス インターフェイスとして扱います。その結果、現在のアプローチには、シミュレータの動作の根底にある仮定やメカニズムを特定、表現、推論する能力が欠けており、透明性、監査可能性、意思決定の正当性が制限されています。実行可能な科学シミュレーター用のメカニズムに基づいた神経記号推論フレームワークである MechSim を紹介します。主に静的な記号構造を推論する従来の神経記号アプローチとは異なり、MechSim を使用すると、LLM エージェントが科学シミュレーターのメカニズム、仮定、および実行動作について推論できるようになります。私たちのフレームワークは、仮定、変数、メカニズムの依存関係、および実行トレースをキャプチャする共有構造化スキーマを通じてシミュレーターを表します。この表現に加えて、LLM エージェントは制約付き推論エンジンとして動作し、シミュレータの結果をその基礎となるメカニズムに結び付ける、構造化された証拠に基づいた説明を生成します。私たちは、複数のハイステークス領域にわたってアプローチを評価し、それがメカニズムレベルの説明の品質、シミュレーター分析、下流の意思決定の信頼性を向上させることを示しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Simulate, Reason, Decide: Scientific Reasoning with LLMs for Simulation-Driven Decision Making</p>
        <p class="orig-summary">Scientific simulators are increasingly being integrated into LLM-driven systems for high-stakes simulation-driven decision-making. However, existing frameworks primarily use LLMs to generate, calibrate, or execute simulators, treating them as black-box interfaces rather than as structured mechanistic systems that can be reasoned about. As a result, current approaches lack the ability to identify, represent, and reason about the assumptions and mechanisms underlying simulator behavior, limiting transparency, auditability, and decision justification. We introduce MechSim, a mechanism-grounded neuro-symbolic reasoning framework for executable scientific simulators. Unlike prior neuro-symbolic approaches that primarily reason over static symbolic structures, MechSim enables LLM agents to reason about the mechanisms, assumptions, and execution behavior of scientific simulators. Our framework represents simulators through a shared structured schema capturing assumptions, variables, mechanism dependencies, and execution traces. On top of this representation, LLM agents operate as constrained reasoning engines that generate structured, evidence-grounded explanations linking simulator outcomes to their underlying mechanisms. We evaluate our approach across multiple high-stakes domains and show that it improves mechanism-level explanation quality, simulator analysis, and downstream decision-making reliability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5b7cac0cbec4" data-article-url="https://arxiv.org/abs/2606.04513" data-article-title="MapAgent: 都市規模の車線レベルの地図生成のための産業グレードのエージェント フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04513" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04513" target="_blank" rel="noopener">MapAgent: 都市規模の車線レベルの地図生成のための産業グレードのエージェント フレームワーク</a></h3>
      <p class="summary">車線レベルの地図は自動運転と車線レベルのナビゲーションにとって重要なインフラストラクチャですが、数百の都市で標準化された車線ネットワークの構築と維持には依然として非常に労働集約的です。最近のエンドツーエンドのベクトル化マッピング手法は、センサー データから直接車線の形状とトポロジを予測できますが、通常、マッピング仕様と交通規制を暗黙的なデータセット依存の監視として扱います。さらに、複雑なシーン (マーキングやオクルージョンの磨耗や欠落など) では、正しいレーン構成が視覚的証拠だけでは十分に決定されないことが多く、仕様違反が人間による事後編集の主な原因となっています。私たちは、仕様に準拠したレーンマップ作成のためのベクトル化バックボーンを強化する産業グレードのエージェント アーキテクチャである MapAgent を提案します。 MapAgent は、単にマップ予測にエージェント ループを追加するのではなく、バックボーンの認識と明示的な仕様の検証、制約を意識した推論、および境界のある検証主導型のジャッジ-プランナー-ワーカー ループの下での決定論的なマップ編集を結合します。視覚言語を使用するジャッジは、視覚的な証拠とドラフトベクトルを共同で検査することでエラーを診断し、ツールを呼び出すプランナーは編集後の再検証により最小限の修正編集を生成します。都市規模の本番環境でのスケーラビリティを維持するために、MapAgent はバックボーンの信頼性が低いタイルでのみ選択的にトリガーされ、スループットを維持しながら適度なオーバーヘッドを追加します。現実世界のデータセットでの実験では、特に複雑でロングテールのシナリオにおいて、強力な実稼働ベースラインを上回る一貫した利益が示されています。さらに、MapAgent は Baidu Maps に統合されており、全国 360 以上の都市の車線レベルの地図生成をサポートし、全体的な生産自動化を 95% 以上に高め、大規模な車線レベルの地図生成における MapAgent の実用性と有効性を実証しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MapAgent: An Industrial-Grade Agentic Framework for City-scale Lane-level Map Generation</p>
        <p class="orig-summary">Lane-level maps are critical infrastructure for autonomous driving and lane-level navigation, yet constructing and maintaining standardized lane networks for hundreds of cities remains highly labor-intensive. Recent end-to-end vectorized mapping methods can predict lane geometry and topology directly from sensor data, but they typically treat mapping specifications and traffic regulations as implicit, dataset-dependent supervision. Moreover, in complex scenes (e.g., worn or missing markings and occlusions), correct lane configurations are often under-determined by visual evidence alone, making specification violations a major source of human post-editing. We propose MapAgent, an industrial-grade agentic architecture that augments a vectorization backbone for specification-compliant lane-map production. Rather than merely adding an agent loop to map prediction, MapAgent couples backbone perception with explicit specification verification, constraint-aware reasoning, and deterministic map editing under a bounded, verification-driven Judge-Planner-Worker loop. A vision-language Judge diagnoses errors by jointly inspecting visual evidence and draft vectors, while a tool-calling Planner generates minimal corrective edits with post-edit re-validation. To remain scalable for city-scale production, MapAgent is selectively triggered only on tiles with low backbone confidence, adding modest overhead while preserving throughput. Experiments on real-world datasets show consistent gains over strong production baselines, especially in complex and long-tail scenarios. Additionally, MapAgent has been integrated into Baidu Maps, supporting lane-level map generation for over 360 cities nationwide and elevating the overall production automation to over 95%, demonstrating MapAgent&#x27;s practicality and effectiveness for large-scale lane-level map generation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="28a314971c8e" data-article-url="https://arxiv.org/abs/2606.04536" data-article-title="パラメトリック メモリを介した自己進化エージェントのスケーリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04536" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04536" target="_blank" rel="noopener">パラメトリック メモリを介した自己進化エージェントのスケーリング</a></h3>
      <p class="summary">既存のメモリ拡張 LLM エージェントは、ロールアウト中モデル パラメータを凍結したままにしながら、過去の経験をテキストの要約または取得された一節としてプロンプト領域にのみ保存します。このようなエージェントは、見たものを \emph{調べる}ことはできますが、それから \emph{学ぶ}ことはできません。彼らのポリシーは経験によって変更されず、コンテキストからドロップされた情報は永久に失われます。私たちは、自己進化するパラメトリック メモリ フレームワークである \texttt{TMEM} を導入します。このフレームワークでは、エージェントが履歴を明示的メモリに圧縮するだけでなく、軽量のオンライン アップデートを通じて抽出された監視を高速な LoRA 重み $\Delta_t$ に吸収し、単一のエピソード内で将来の動作を真に変更します。これを、高速重みロールアウト ダイナミクスを備えたエージェントの意思決定プロセスとして形式化します。アクションは $\pi_{\theta_0+\Delta_t}$ からサンプリングされ、抽出アクションは後続の決定のために $\Delta_t$ を更新する監視を生成します。このビューにより、抽出ポリシーが RL によって直接最適化可能になります。$\theta_0$ のトレーニングにより、タスク アクションだけでなく、オンライン LoRA 適応に使用されるデータの品質も向上します。さらに、オンラインコンバージェンスを加速するために、SVD ベースの LoRA サブスペースの初期化を提案します。 LoCoMo、LongMemEval-S、多目的検索、および CL-Bench の実験では、\texttt{TMEM} がさまざまなモデル スケールにわたって、要約ベースおよび検索ベースのベースラインを一貫して上回るパフォーマンスを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Scaling Self-Evolving Agents via Parametric Memory</p>
        <p class="orig-summary">Existing memory-augmented LLM agents store past experience exclusively in prompt space, as textual summaries or retrieved passages, while keeping model parameters frozen throughout a rollout. Such agents can \emph{look up} what they have seen but cannot \emph{learn from} it: their policy is unchanged by experience, and any information dropped from the context is permanently lost. We introduce \texttt{TMEM}, a self-evolving parametric memory framework in which the agent not only compresses history into explicit memory but also absorbs distilled supervision into fast LoRA weights $\Delta_t$ via lightweight online updates, genuinely altering its future behavior within a single episode. We formalize this as an agentic decision process with fast-weight rollout dynamics: actions are sampled from $\pi_{\theta_0+\Delta_t}$, while extraction actions produce supervision that updates $\Delta_t$ for subsequent decisions. This view makes the extraction policy directly optimizable by RL: training $\theta_0$ improves not only task actions but also the quality of the data used for online LoRA adaptation. We further propose SVD-based initialization of the LoRA subspace to accelerate online convergence. Experiments on LoCoMo, LongMemEval-S, multi-objective search, and CL-Bench show that \texttt{TMEM} consistently outperforms summary-based and retrieval-based baselines across different model scales.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="05e8f791a799" data-article-url="https://arxiv.org/abs/2606.04562" data-article-title="Neetyabhas: Rational エージェントベースのモデルにおける不確実性を認識した公共政策最適化のためのフレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04562" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04562" target="_blank" rel="noopener">Neetyabhas: Rational エージェントベースのモデルにおける不確実性を認識した公共政策最適化のためのフレームワーク</a></h3>
      <p class="summary">目的 WHO の新型コロナウイルス感染症に対する非医薬品介入（ロックダウン、ワクチン接種など）は感染を効果的に抑制しますが、経済的には大きな負担となります。既存の研究は、個人の行動を無視し、完璧な感染追跡と完璧な政策実行を誤って想定しており、現実世界の不確実性や誤りを説明できていないことがよくあります。方法 我々は、流行の測定（感染症/入院）と政策実施の両方に不確実性を組み込んだ統合的アプローチを提案します。私たちは、マスクの着用、ワクチン接種、買い物に関するリアルタイムの選択を行う 1,000 人の個人のシミュレーション モデルを構築しました。同時に、政策立案者は健康と経済の観察に基づいて介入（ロックダウン、義務化）を展開します。このフレームワークは階層型強化学習エージェントによって駆動され、不確実性を考慮したポリシー勾配バリアント (DDPG および TD3) とともにディープ Q ネットワークを利用します。結果 シミュレーションは流行の進行を効果的に管理しました。マスクとワクチン接種が非常に効果的であることが証明され、流行のピークの高さと期間の両方が大幅に短縮されました。個人の行動、政策の不確実性、多面的な介入を統合することで、私たちの動的制御アプローチは流行の影響を軽減することに成功しました。結論 私たちのモデルは、不確実性と人間の行動を公衆衛生政策の枠組みに組み込むことで、これまでの研究の限界を克服しました。このシミュレーションは、マスクとワクチンが極めて重要なツールとして機能し、複雑なパンデミック時に効果的な介入を設計するには、個人の選択と不完全なデータを考慮することが重要であることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Neetyabhas: A Framework for Uncertainty-Aware Public Policy Optimization in Rational Agent-Based Models</p>
        <p class="orig-summary">Purpose The WHO&#x27;s COVID-19 non-pharmaceutical interventions (e.g., lockdowns, vaccinations) effectively curb transmission but impose heavy economic strains. Existing research often neglects individual behaviors and falsely assumes perfect infection tracking and flawless policy execution, failing to account for real-world uncertainties and errors. Methods We propose an integrative approach incorporating uncertainties in both epidemic measurement (infections/hospitalizations) and policy implementation. We built a simulation model of 1,000 individuals making real-time choices regarding mask-wearing, vaccination, and shopping. Concurrently, policymakers deploy interventions (lockdowns, mandates) based on health and economic observations. This framework is driven by hierarchical reinforcement learning agents, utilizing deep Q-networks alongside uncertainty-aware policy gradient variants (DDPG and TD3). Results The simulations effectively managed the epidemic&#x27;s progression. Masking and vaccinations proved highly effective, significantly reducing both the outbreak&#x27;s peak height and duration. By integrating individual behaviors, policy uncertainties, and multifaceted interventions, our dynamic control approach successfully mitigated the epidemic&#x27;s impact. Conclusions Our model overcomes previous research limitations by embedding uncertainty and human behavior into public health policy frameworks. The simulation demonstrates that accounting for individual choices and imperfect data is crucial for designing effective interventions during complex pandemics, with masks and vaccines serving as pivotal tools.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fea71f9bbd2d" data-article-url="https://arxiv.org/abs/2606.04579" data-article-title="SCI-PRM: 科学的推論検証のためのツール認識プロセス報酬モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04579" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04579" target="_blank" rel="noopener">SCI-PRM: 科学的推論検証のためのツール認識プロセス報酬モデル</a></h3>
      <p class="summary">プロセス報酬モデル (PRM) は数学的推論において目覚ましい成功を収めていますが、生物学、化学、物理学などの複雑な科学分野での応用はほとんど未踏のままです。科学的な問題には、論理的な厳密さだけでなく、事実の一貫性や分野固有のツールの正確な使用法も要求されますが、この領域では、現在のモデルが幻覚や検証の欠如に悩まされることがよくあります。この論文では、まず、推論と科学ツールの実行を明示的にインターリーブするツールチェーンの軌跡を特徴とする大規模なデータセットである SCIPRM70K を構築します。これに基づいて、Sci-PRM と呼ばれる効率的な報酬モデルをトレーニングして、1 つの推論の各ステップでツールの選択、実行精度、結果の解釈をきめ細かく監視します。実験では、Sci-PRM が 2 つの重要な側面で基礎モデルを大幅に強化することが実証されています。(1) Best-of-N 選択による効果的なテスト時間のスケーリングを可能にします。 (2) 強化学習に統合すると、利点の消失という重大な問題を軽減する高密度の報酬シグナルとして機能し、モデルが既存のパフォーマンスの上限を突破できるようになります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SCI-PRM: A Tool Aware Process Reward Model for Scientific Reasoning Verification</p>
        <p class="orig-summary">While Process Reward Models (PRMs) have achieved remarkable success in mathematical reasoning, their application in complex scientific domains-such as biology, chemistry, and physics remains largely unexplored. Scientific problems demand not only logical rigor but also factual consistency and the precise usage of domain-specific tools, areas where current models often suffer from hallucinations and lack of verification. In this paper, we first construct SCIPRM70K, a large-scale dataset featuring Chain-of-Tool trajectories that explicitly interleave reasoning with the execution of scientific tools. Building upon this, we train an efficient reward model called Sci-PRM to provide fine-grained supervision on tool selection, execution accuracy, and result interpretation at each step in one inference. Experiments demonstrate that Sci-PRM significantly enhances foundation models in two key aspects: (1) it enables effective test-time scaling via Best-of-N selection; and (2) when integrated into Reinforcement Learning, it serves as a dense reward signal that mitigates the critical issue of advantage disappearance, allowing the model to break through existing performance ceilings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dd48ccd87e9b" data-article-url="https://arxiv.org/abs/2606.04597" data-article-title="コスト分割による許容可能なヒューリスティックの学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04597" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04597" target="_blank" rel="noopener">コスト分割による許容可能なヒューリスティックの学習</a></h3>
      <p class="summary">許容可能なヒューリスティックは最適な計画を立てるために不可欠ですが、過大評価のリスクがあるため、ヒューリスティックを学習することは依然として困難です。コスト分割では、許容性を維持しながら複数の抽象化ヒューリスティックを組み合わせますが、最適な分割をオンラインで計算するにはコストがかかります。コスト分割と乗数予測の間のラグランジュ双対等価性を利用して、許容可能なコスト分割を推測する方法を学習するフレームワークを提案します。計画の状態とパターンはラベル付きグラフとしてエンコードされ、Weisfeiler-Leman アルゴリズムのアクション中心の変形により構造的特徴ベクトルが抽出されます。軸方向のセルフアテンションとソフトマックス出力層を備えたディープ アーキテクチャは、これらの機能を構築によるパーティション制約を満たすコストの重みにマップし、許容性を確保します。実験では、厳密な許容性を維持しながら、最適ではない分割ベースラインと比較してノード拡張が減少していることが実証されています。私たちの知る限り、これは許容されることが保証された最初の機械学習ヒューリスティックです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Learning Admissible Heuristics via Cost Partitioning</p>
        <p class="orig-summary">Admissible heuristics are essential for optimal planning, yet learning them remains challenging due to the risk of overestimation. Cost partitioning combines multiple abstraction heuristics while preserving admissibility, but computing optimal partitions online is expensive. We propose a framework that learns to infer admissible cost partitions by leveraging the Lagrangian dual equivalence between cost partitioning and multiplier prediction. Planning states and patterns are encoded as labelled graphs, and an action-centric variant of the Weisfeiler-Leman algorithm extracts structural feature vectors. A deep architecture with axial self-attention and a softmax output layer maps these features to cost weights that satisfy the partition constraints by construction, ensuring admissibility. Experiments demonstrate reduced node expansions compared to suboptimal partitioning baselines while maintaining strict admissibility. To our knowledge, this is the first machine-learned heuristic guaranteed to be admissible.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="176c2a2a671a" data-article-url="https://arxiv.org/abs/2606.04599" data-article-title="最初に計画し、後で判断し、より良く実行する: DMAIC からインスピレーションを得た産業異常検出用エージェント システム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04599" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04599" target="_blank" rel="noopener">最初に計画し、後で判断し、より良く実行する: DMAIC からインスピレーションを得た産業異常検出用エージェント システム</a></h3>
      <p class="summary">大規模言語モデル (LLM) エージェントは、複雑なデータ分析ワークフローの自動化において有望であることが示されていますが、一か八かの産業シナリオにおいてその信頼性の高い導入は依然として困難です。産業異常検出 (IAD) は製造の品質、安全性、効率に不可欠ですが、既存の LLM ベースの IAD エージェントは主に実行に焦点を当てており、戦略策定は不十分です。その結果、統一的かつコスト効率の高い方法で異種のモダリティを処理するのに苦労しています。 DMAIC 品質管理フレームワークからインスピレーションを得て、当社は DMAIC-IAD (DMAIC にインスピレーションを得た Agentic Industrial Anomaly Detection) を提案します。これは、LLM エージェントを構造化された産業問題解決と連携させる、「最初に計画し、後で判断する」マルチエージェント システムです。 DMAIC-IAD は、戦略生成前に異種参照を標準化操作手順 (SOP) に抽出し、事前トレーニングされた実行不要の判定モデルを導入して、コストのかかる実行時トライアルを行わずに候補戦略をランク付けします。 4 つのモダリティにわたる広範な実験により、DMAIC-IAD は適用可能な薬剤ベースラインよりも平均検出パフォーマンスが 37.76% 向上することが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Plan First, Judge Later, Run Better: A DMAIC-Inspired Agentic System for Industrial Anomaly Detection</p>
        <p class="orig-summary">Large language model (LLM) agents have shown promise in automating complex data-analysis workflows, but their reliable deployment remains challenging in high-stakes industrial scenarios. Industrial anomaly detection (IAD) is essential for manufacturing quality, safety, and efficiency, yet existing LLM-based IAD agents mainly focus on execution while under-exploiting strategy formulation. Consequently, they struggle to handle heterogeneous modalities in a unified and cost-effective manner. Inspired by the DMAIC quality-management framework, we propose DMAIC-IAD (DMAIC-inspired Agentic Industrial Anomaly Detection), a &quot;Plan First, Judge Later&quot; multi-agent system that aligns LLM agents with structured industrial problem-solving. DMAIC-IAD distills heterogeneous references into standardized operating procedures (SOPs) before strategy generation, and introduces a pre-trained execution-free judge model to rank candidate strategies without costly runtime trials. Extensive experiments across four modalities show that DMAIC-IAD improves average detection performance over applicable agentic baselines by 37.76%.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="44dfd3cebbf4" data-article-url="https://arxiv.org/abs/2606.04602" data-article-title="パルテノン法: 自己進化する弁護士の枠組み" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04602" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04602" target="_blank" rel="noopener">パルテノン法: 自己進化する弁護士の枠組み</a></h3>
      <p class="summary">エージェントの能力が高まるにつれて、法律分野の LLM エージェントは、大量のドキュメントをレビュー可能な作業成果物に変えることを約束しますが、信頼性の高い導入には 3 つの障害に直面しています。1 つは、今日の最も強力なモデルとハーネスの組み合わせがエンドツーエンドの法的問題でどのように動作するかについての大規模な証拠がないことです。法的な業種に適合したエージェント アーキテクチャはなく、汎用ハーネスのみが使用されます。そして、新しい事実、権限、期限によって変化し続ける環境では、システムが自らの結果から学習するメカニズムがありません。それぞれに対応します。 Harvey LAB に関する大規模な実証研究 -- $12{,}510$ のエージェントの軌跡 -- は、フロンティアのエージェントでさえ 1 回のパスで問題を完了することには程遠いことを示しています。より強力なモデルを使用すると基準ごとの精度が向上しますが、厳密な問題の完了は停滞します。次に、\textsc{Parthenon} を導入します。これは、モデル、ハーネス、代理人の役割、法的知識、決定論的なツール、および手続き上のスキルを情報源の追跡可能性、日付と番号の根拠、成果物のコンプライアンス、および問題の解決のための監査可能な表面に組み込む、自己進化する法律代理人のフレームワークです。最後に、漏れ防止学習ループにより、スコアリングされた失敗がタスクに依存しないスキル、ツール、知識の編集に変換され、企業が問題ごとにチェックリストとプレイブックを洗練するように、モデルの重みに触れることなく、経験とともにシステムが改善されます。私たちの大規模な実証分析を通じて、\textsc{Parthenon} は法的問題のタスクにおける最先端のモデルとハーネスのパフォーマンスを大幅に向上させました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Parthenon Law: A Self-Evolving Legal-Agent Framework</p>
        <p class="orig-summary">As agents grow more capable, legal-domain LLM agents promise to turn document-heavy matters into reviewable work products -- yet reliable deployment faces three obstacles: no large-scale evidence on how today&#x27;s strongest model-and-harness combinations behave on end-to-end legal matters; no agent architecture adapted to the legal vertical, only general-purpose harnesses; and, in a setting that keeps shifting with new facts, authorities, and deadlines, no mechanism for systems to learn from their own outcomes. We address each. A large-scale empirical study on Harvey LAB -- $12{,}510$ agent trajectories -- shows that even frontier agents remain far from completing matters in a single pass: per-criterion accuracy climbs with stronger models while strict matter completion stalls. We then introduce \textsc{Parthenon}, a self-evolving legal-agent framework that factors Model, Harness, Agent roles, legal Knowledge, deterministic Tools, and procedural Skills into auditable surfaces for source traceability, date and number grounding, deliverable compliance, and issue closure. Finally, an anti-leakage learning loop converts scored failures into task-agnostic edits to skills, tools, and knowledge, letting the system improve with experience -- as a firm refines its checklists and playbooks after each matter -- without touching model weights. Across our large-scale empirical analysis, \textsc{Parthenon} substantially improves the performance of state-of-the-art models and harnesses on legal-matter tasks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6d45fbd6b19" data-article-url="https://arxiv.org/abs/2606.04619" data-article-title="ASP ベースのコンプライアンス推論のための規範的な中間表現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04619" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04619" target="_blank" rel="noopener">ASP ベースのコンプライアンス推論のための規範的な中間表現</a></h3>
      <p class="summary">我々は、ASP ベースのコンプライアンス推論のためのモーダル化出力規範中間表現である MONIR を提案します。そのコア フラグメントには段階的な操作セマンティクスがあり、MONIR-ASP は外部関数、一時的なルール、および安定したモデル推論のための実行可能なコンパイルと拡張機能を提供します。 LLM 支援パイプラインを使用して、中国の ADAS 規制と標準に関するフレームワークをインスタンス化します。実験では、抽出品質と、モジュール式および増分 ASP 解決の効率を評価します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Normative Intermediate Representation for ASP-Based Compliance Reasoning</p>
        <p class="orig-summary">We propose MONIR, a Modalized-Output Normative Intermediate Representation for ASP-based compliance reasoning. Its core fragment has a staged operational semantics, while MONIR-ASP provides an executable compilation and extensions for external functions, temporal rules, and stable-model reasoning. We instantiate the framework on Chinese ADAS regulations and standards with an LLM-assisted pipeline. Experiments evaluate extraction quality and the efficiency of modular and incremental ASP solving.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4b34c3865dfe" data-article-url="https://arxiv.org/abs/2606.04627" data-article-title="MIRAGE: 暗黙的推論と生成世界モデルを備えたモバイル エージェント" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04627" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04627" target="_blank" rel="noopener">MIRAGE: 暗黙的推論と生成世界モデルを備えたモバイル エージェント</a></h3>
      <p class="summary">モバイル エージェントは、スクリーンショットや言語目標に基づいて日常のアプリケーションを操作することがますます期待されており、信頼性の高い制御には、画面のアフォーダンス、複数ステップのナビゲーション、および将来の状態の変化に関する推論が必要です。ただし、多くのエージェントはこの計算を長いテキストの思考連鎖として外部に出すため、対話が遅くなり、監視コストが増加し、展開が複雑になります。 MIRAGE は、目に見えるテキスト推論の痕跡から継続的な潜在推論表現を学習するフレームワークです。 MIRAGE は、明示的な推論をコンパクトな隠れ状態に変換し、エージェントが長い根拠を解読することなく内部的に推論できるようにします。また、生成世界モデルの目標も組み込まれています。つまり、潜在的な推論ベクトルが将来のスクリーンショットと一致し、エージェントが行動する前に今後のインターフェイスの状態を予測するようになります。これにより、隠れた計算が圧縮された思考表現と環境力学の将来を見据えたモデルの両方に変わります。推論時、MIRAGE は連続的な潜在空間で推論し、実行効率を向上させながらトークンの生成を削減します。 AndroidWorld では、MIRAGE は、4B アブレーションにおける明示的な思考連鎖の監視付き微調整と 3 ～ 5 倍低いデコード トークン バジェットを一致させ、同等の命令調整ベースラインを 10.2 ポイント改善します。 AndroidControl では、生成されるトークンが 75% 以上減少しながら、アクションのグラウンディングが向上します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MIRAGE: Mobile Agents with Implicit Reasoning and Generative World Models</p>
        <p class="orig-summary">Mobile agents are increasingly expected to operate everyday applications from screenshots and language goals, where reliable control requires reasoning over screen affordances, multi-step navigation, and future state changes. However, many agents externalize this computation as long textual chains of thought, which slows interaction, increases supervision cost, and complicates deployment. We introduce MIRAGE, a framework that learns continuous latent reasoning representations from visible textual reasoning traces. MIRAGE transfers explicit reasoning into compact hidden states, enabling the agent to reason internally without decoding long rationales. It also incorporates a generative world-model objective: latent reasoning vectors are aligned with future screenshots, encouraging the agent to anticipate upcoming interface states before acting. This turns hidden computation into both a compressed thought representation and a forward-looking model of environment dynamics. At inference time, MIRAGE reasons in continuous latent space, reducing token generation while improving execution efficiency. On AndroidWorld, MIRAGE matches explicit chain-of-thought supervised fine-tuning in the 4B ablation with a 3-5x lower decoded-token budget and improves a comparable instruction-tuned baseline by 10.2 points; on AndroidControl, it improves action grounding while generating over 75% fewer tokens.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fe21c45b0f8d" data-article-url="https://arxiv.org/abs/2606.04648" data-article-title="BiNSGPS: 双方向の神経記号相互作用による幾何学問題解決" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04648" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04648" target="_blank" rel="noopener">BiNSGPS: 双方向の神経記号相互作用による幾何学問題解決</a></h3>
      <p class="summary">幾何学の問題解決は、人工知能に明確な課題をもたらします。既存のアプローチは通常 2 つのパラダイムに分類されます。1 つは適応性が限られている記号的方法、もう 1 つは幻覚を起こしやすい神経的方法です。最近のニューロシンボリックハイブリッドは主に一方向パイプラインに依存しており、ニューラル出力がフィードバックなしでソルバーに供給されるため、システムは初期段階のエラーに対して脆弱になります。この一方向のボトルネックを打破するために、MLLM アドバイザとシンボリック ソルバーの間で双方向ニューロシンボリック インタラクション (BiNS) を確立するフレームワークである BiNSGPS を提案します。 MLLM Adviser は、シンボリック ソルバーからのフィードバックを積極的に組み込んで、矛盾した形式表現を動的に修正したり、補助的な仮説を提案したりして、シンボリックの矛盾を解決し、複雑な演繹を容易にします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BiNSGPS: Geometry Problem Solving via Bidirectional Neuro-Symbolic Interaction</p>
        <p class="orig-summary">Geometry problem solving poses distinct challenges in artificial intelligence. Existing approaches typically fall into two paradigms: symbolic methods, which exhibit limited adaptability, and neural methods, which are prone to hallucinations. Recent neuro-symbolic hybrids predominantly rely on a unidirectional pipeline where neural outputs are fed into solvers without feedback, making system brittle to early-stage errors. To break this unidirectional bottleneck, we propose BiNSGPS, a framework that establishes Bidirectional Neuro-Symbolic Interaction (BiNS) between a MLLM Adviser and a Symbolic Solver. MLLM Adviser actively incorporates feedback from the symbolic solver to dynamically rectify inconsistent formal representations or propose auxiliary hypotheses, resolving symbolic conflicts and facilitating complex deductions.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="abce630e6383" data-article-url="https://arxiv.org/abs/2606.04750" data-article-title="Fog of Love: ゲーム環境における親和性ベースの強化学習による高潔なエージェントの動作のエンジニアリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04750" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04750" target="_blank" rel="noopener">Fog of Love: ゲーム環境における親和性ベースの強化学習による高潔なエージェントの動作のエンジニアリング</a></h3>
      <p class="summary">人工知能に高潔な行動を教え込むことへの関心が高まっています。提案された手法の 1 つは、親和性ベースの強化学習として知られています。これは、目的関数のポリシー正則化を使用して、報酬関数の設計に完全に依存することなく、善良な行動を奨励します。これまでのところ、この手法は、状態空間とアクション空間が最小限のグリッド ワールドやおもちゃの問題環境で有効であることが実証されています。この研究をより洗練された環境に拡張するために、Fog of Love として知られるロールプレイング ボード ゲームに基づく 2 プレイヤー マルチエージェント環境を導入します。この環境では、2 人のエージェントがそれぞれの美徳を満たすために競い合いながら、その関係を満たすために協力します。マルチエージェントの性質を考慮すると、これは複雑な問題であり、マルチエージェントの深い決定論的ポリシー勾配エージェントは競合も連携もうまくいきません。我々は、局所的な親和性が競争目的と協力目的の両方を達成する際のエージェントのパフォーマンスを向上させ、その結果、両方のドメインで総合スコアが優れているという証拠を提示します。これは、結果的に賢明な選択をもたらすだけでなく、エージェントの目的論を明確にし、その行動を人間レベルで解釈できるようにします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Fog of Love: Engineering Virtuous Agent Behavior with Affinity-based Reinforcement Learning in a Game Environment</p>
        <p class="orig-summary">Instilling virtuous behavior in artificial intelligence has seen increasing interest. One of the techniques proposed is known as affinity-based reinforcement learning, which uses policy regularization on the objective function to incentivize virtuous actions without being fully dependent on the reward function design. Thus far, this technique has been demonstrated to be effective in grid worlds and toy-problem environments with minimal state and action spaces. To expand this research to more sophisticated environments, we introduce a two-player multi-agent environment based on the role-playing board game known as Fog of Love. In this environment, two agents compete to fulfill their individual virtues, while also cooperating to satisfy their relationship. Given the multi-agent nature, this is a complex problem where multi-agent deep deterministic policy gradient agents neither compete nor cooperate successfully. We present evidence that localized affinities enhance agent performance in achieving both competitive and cooperative objectives, resulting from superior overall scores in both domains. This not only results in virtuous choices but also clarifies an agent&#x27;s teleology and makes its behavior human-level interpretable.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ffcb4a9d26c" data-article-url="https://arxiv.org/abs/2606.04751" data-article-title="FALSIFYBENCH: ルール発見ゲームを使用した LLM の帰納的推論の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04751" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04751" target="_blank" rel="noopener">FALSIFYBENCH: ルール発見ゲームを使用した LLM の帰納的推論の評価</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、科学タスクにおける自律エージェントとして導入されることが増えています。しかし、これらのシステムが科学的発見に関連する帰納的推論の形式に効果的に関与できるかどうかは未解決の問題のままです。この研究では、古典的な Wason 2-4-6 タスクに触発された仮説主導型推論の評価フレームワークである FALSIFYBENCH を紹介します。このタスクでは、エージェントは例を繰り返し提案し、フィードバックを受け取ることによって隠れた意味論的特性を発見する必要があります。このタスクでは、科学的推論の重要な要素、つまり仮説の生成、証拠の収集、および証拠の確認と反証に応じた信念の修正を捉えます。モデルファミリーとスケールにわたる 12 個の LLM の評価では、最適なパフォーマンスに近いモデルはないものの、推論モデルは一般に命令調整モデルよりも強力な科学的推論であることがわかりました。成功の主な原動力は否定的なテストの能力です。仮説を積極的に反証しようとするモデルは、主に確認を求めるモデルよりも一貫して優れています。さらに、これまでの研究では無視されていたきめ細かいターンレベル分析により、モデルが仮説空間をナビゲートする方法における特定可能なパターンと失敗が結びついていることが明らかになりました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">FALSIFYBENCH: Evaluating Inductive Reasoning in LLMs with Rule Discovery Games</p>
        <p class="orig-summary">Large language models (LLMs) are increasingly deployed as autonomous agents in scientific tasks. Yet whether these systems can effectively engage in forms of inductive reasoning relevant to scientific discovery remains an open question. In this work, we introduce FALSIFYBENCH, an evaluation framework for hypothesis-driven reasoning inspired by the classic Wason 2-4-6 task, in which agents must discover hidden semantic properties by iteratively proposing examples and receiving feedback. This task captures key elements of scientific reasoning: hypothesis generation, evidence gathering, and belief revision in response to both confirming and disconfirming evidence. Our evaluation of 12 LLMs across model families and scales shows that reasoning models are generally stronger scientific reasoners than instruction-tuned models, although no model comes close to optimal performance. The primary driver of success is the capacity for negative testing: models that actively seek to falsify their hypotheses consistently outperform those that primarily seek confirmation. Moreover, a fine-grained turn-level analysis, neglected in previous work, reveals that failure is tied to identifiable patterns in how models navigate the hypothesis space.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d35e21ea4ae6" data-article-url="https://arxiv.org/abs/2606.04778" data-article-title="浅い安全性を超えた推論時の脆弱性: 世代の軌跡に沿った調整" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04778" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04778" target="_blank" rel="noopener">浅い安全性を超えた推論時の脆弱性: 世代の軌跡に沿った調整</a></h3>
      <p class="summary">安全性を考慮した大規模言語モデル (LLM) は、生成を有害な出力にリダイレクトする推論中の介入に対して依然として脆弱です。最近の研究では、これは浅い安全性であると考えられており、最初のいくつかの出力トークンに位置合わせが集中しています。浅い安全性は、より広範な推論時間の脆弱性の特殊なケースであり、任意の生成ステップでの短いトークンの注入によって、その後の安全性の動作が大幅に変更される可能性があることを示します。また、隠れ状態における拒否方向とのモデルの整合性は、そのような注入に対するそのロバスト性を予測しないこともわかり、内部状態だけが摂動下での生成挙動を決定しないことが明らかになりました。これに対処するために、シーケンス途中の摂動をシミュレートすることによって構築された生成軌跡にモデルを直接調整し、これによりシーケンス途中の注入に対する堅牢性が向上し、初期のトークン生成を悪用する攻撃に一般化されることを示します。私たちの研究では、堅牢な安全調整には、出力だけでなく、生成プロセス自体のトレーニングも必要であると主張しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories</p>
        <p class="orig-summary">Safety-aligned Large Language Models (LLMs) remain vulnerable to interventions during inference that redirect generation toward harmful outputs. Recent work attributes this to shallow safety, where alignment concentrates in the first few output tokens. We show that shallow safety is a special case of a broader inference-time vulnerability, in which short token injections at any generation step can substantially alter subsequent safety behavior. We also find that a model&#x27;s alignment with refusal directions in its hidden states does not predict its robustness to such injection, revealing that internal state alone does not determine generation behavior under perturbation. To address this, we align models directly on generation trajectories constructed by simulating mid-sequence perturbation, and show that this improves robustness to mid-sequence injection and generalizes to attacks that exploit early-token generation. Our work argues that robust safety alignment requires training on the generation process itself, not only its outputs.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f1fd6c3363d" data-article-url="https://arxiv.org/abs/2606.04779" data-article-title="人間と AI のインタラクションにおけるマルチエージェントの相補性のツリーベースの定式化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04779" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04779" target="_blank" rel="noopener">人間と AI のインタラクションにおけるマルチエージェントの相補性のツリーベースの定式化</a></h3>
      <p class="summary">相補性とは、人間と AI の相互作用 (HAI) が、そのメンバー間で利用可能な最良の予測ベンチマークを上回る場合のことです。この考え方は HAI 研究の中心ですが、相補性に関する正式な研究は依然として限られています。既存のフレームワークは、エージェントの予測がワークフローに依存したマルチエージェント プロトコルをどのように構成するかをモデル化していません。私たちは、マルチエージェント HAI における相補性のツリーベースの形式化を導入することで、このギャップを埋めます。 HAI プロトコルは、順序付けられたエージェントと役割の構成と、その葉が予測ベクトルによって装飾されている根付き平面バイナリ ツリーによって表されます。ローカルのバイナリ構成ルールがツリーに沿って再帰的に評価され、pointwise-min Oracle ベンチマークに対するツリー相対相補性関数が生成されます。 4 つの結果を証明します。まず、セレクターベースの HAI (自己依存性または AI 依存性を含む) は、タスク、損失、予測の品質に関係なく、相補性を達成できません。第 2 に、二乗損失での回帰では、相補性はグラウンド トゥルース ベクトルからのユークリッド距離の最小化に相当します。 $N=2$ の場合、最適な線形プーリング重みは閉じた形式と残差補正解釈を持ちます。第三に、線形局所構成の下では、すべてのプロトコル ツリーはリーフ重みの単体での重心座標チャートを定義します。プロトコルツリーのTamari-cover再パラメータ化は相補性を維持し、$N=4$の場合、五角形の恒等性を満たします。第四に、バイナリ分類では、標準ブレグマン損失や多くの有限ベルヌーイ $f$ 発散損失を含むエンドポイント単調損失の下では、内部の局所構成は相補性を達成できません。クロスエントロピー下のマルチクラス集約にも同様の障害が当てはまります。要約すると、私たちのフレームワークは、マルチエージェント回帰では相補性が達成可能ですが、局所的な凝集と損失関数に関する自然条件下での分類では妨げられることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Tree-Based Formalization of Multi-Agent Complementarity in Human-AI Interactions</p>
        <p class="orig-summary">Complementarity is the case in which a human--AI interaction (HAI) outperforms the best prediction benchmark available among its members. Although this idea is central in HAI research, formal work on complementarity remains limited. Existing frameworks do not model how agents&#x27; predictions compose into workflow-sensitive multi-agent protocols. We close this gap by introducing a tree-based formalization of complementarity in multi-agent HAI. An HAI protocol is represented by an ordered agent-role configuration together with a rooted planar binary tree whose leaves are decorated by prediction vectors. A local binary composition rule is evaluated recursively along the tree, yielding a tree-relative complementarity functional relative to a pointwise-min oracle benchmark. We prove four results. First, selector-based HAIs, including self- or AI-reliance, cannot achieve complementarity regardless of task, loss, or prediction quality. Second, in regression under squared loss, complementarity is equivalent to Euclidean distance minimization from the ground-truth vector; for $N=2$, the optimal linear-pooling weight has a closed form and a residual-correction interpretation. Third, under linear local composition, every protocol tree defines a barycentric coordinate chart on the simplex of leaf weights; Tamari-cover reparameterizations of protocol trees preserve complementarity, and for $N=4$, they satisfy the pentagon identity. Fourth, in binary classification, no internal local composition can achieve complementarity under endpoint-monotone losses, including standard Bregman and many finite Bernoulli $f$-divergence losses; an analogous obstruction holds for multiclass aggregation under cross-entropy. In summary, our framework shows that complementarity is attainable in multi-agent regression, but obstructed in classification under natural conditions on local aggregation and loss functions.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5965104d077b" data-article-url="https://arxiv.org/abs/2606.04781" data-article-title="AIP: エージェントのスキルを学習および管理するためのグラフ表現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04781" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04781" target="_blank" rel="noopener">AIP: エージェントのスキルを学習および管理するためのグラフ表現</a></h3>
      <p class="summary">現在のエージェント スキルは、主に自由形式の散文で構成されており、エージェントはすべてのセッションでどのように行動するかを読み、解釈し、再導出する必要があります。これにより、2 つの複合的なコストが課せられます。実装の負荷が高いタスクの信頼性の低下と、特にモデルのトレーニングで過小評価されているドメイン固有の手順知識に関して、散文の編集は人間とエージェントの両方が苦労する脆弱なプロセスであるため、スキルの作成と改善が困難になります。エージェント命令プロトコル (AIP) は、スキルを指向実行グラフとしてモデル化することで両方に対処します。つまり、決定論的なスクリプトまたは自然言語記述に裏付けられたノードとしての個別のステップ、明示的に型指定された入力/出力エッジによって接続され、スキーマ検証された YAML 仕様によって管理されます。コンパイラのメタスキルは、人間が作成した既存のスキルをこの形式に変換します。利点は 2 つあります。まず、人間が作成したスキルを AIP にコンパイルすると、SkillsBench の 27 の実際のエージェント タスク全体で、Claude Sonnet の平均タスク報酬が 0.60 から 0.71 に、合格率が 53% から 67% に上昇しました。これは統計的に有意な向上 (Wilcoxon の符号付きランク p = 0.011) であり、12 対 2 のタスクで 13 の同点で勝利し、多くの場合、より短い実時間で達成されました。グラフは、自然言語からコード、コマンド、およびツール呼び出しを再導出するようにエージェントに要求するのではなく、精査された実行可能なユニットをエージェントに提供します。次に、作成と改善については、各スキルがスキーマ検証され、機能テストが可能で、ノードごとにアドレス指定できるため、障害を正確に診断して修復できます。作成されたスキルの 2 つの失敗がスクリプト レベルまで追跡されました。 AIP 仕様を調整して再コンパイルした後、どちらも回帰ゼロ (1 つのタスクが 0/5 から 5/5 に移行) で回復し、スキルの向上が散文的な書き直しではなく、測定可能なチューニング ループに変わりました。同じグラフ構造は、コーパス レベルのガバナンスとスキルのイントロスペクションをサポートし、スキルに対する強化学習のための自然なアクション スペースを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AIP: A Graph Representation for Learning and Governing Agent Skills</p>
        <p class="orig-summary">Agent Skills today consist largely of free-form prose requiring the agent to read, interpret, and re-derive how to act in every session. This imposes two compounding costs: reduced reliability on implementation-heavy tasks, and difficulty in skill creation and improvement, since editing prose is a fragile process that both humans and agents struggle with, particularly for domain-specific procedural knowledge underrepresented in model training. The Agent Instruction Protocol (AIP) addresses both by modeling a skill as a directed execution graph: discrete steps as nodes backed by deterministic scripts or natural-language descriptions, connected by explicit typed input/output edges, and governed by a schema-validated YAML specification. A compiler meta-skill translates existing human-written skills into this form. The benefits are twofold. First, compiling human-written skills to AIP raised Claude Sonnet&#x27;s mean task reward from 0.60 to 0.71 and pass rate from 53% to 67% across 27 real agent tasks from SkillsBench - a statistically significant gain (Wilcoxon signed-rank p = 0.011), winning 12 tasks to 2 with 13 ties - often in less wall-clock time. The graph delivers vetted, runnable units to the agent rather than asking it to re-derive code, commands, and tool calls from natural language. Second, on creation and improvement, because each skill is schema-validated, functionally testable, and addressable node-by-node, failures can be diagnosed and repaired precisely. Two authored-skill failures were traced to the script level. After adjusting the AIP spec and recompiling, both recovered with zero regressions (one task going from 0/5 to 5/5), turning skill improvement into a measurable tuning loop rather than a prose rewrite. That same graph structure supports corpus-level governance and skill introspection, and provides a natural action space for reinforcement learning over skills.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cd2019395ac3" data-article-url="https://arxiv.org/abs/2606.04807" data-article-title="BiasGRPO: グループ相対ポリシーの最適化による、変動の大きい報酬環境におけるバイアス緩和の安定化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04807" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04807" target="_blank" rel="noopener">BiasGRPO: グループ相対ポリシーの最適化による、変動の大きい報酬環境におけるバイアス緩和の安定化</a></h3>
      <p class="summary">大規模言語モデル (LLM) での社会的バイアスの軽減には、明確な調整の課題が伴います。検証可能なタスクとは異なり、バイアスには単一の根拠が欠如しており、分散が大きく、主観的な報酬の状況が生じます。以前のプリファレンスベースの微調整方法には大きなトレードオフがありました。直接プリファレンス最適化 (DPO) はオフライン トレーニングに固有の探索の欠如によって制限されますが、近接ポリシー最適化 (PPO) は信頼性の低い批評家の推定値が原因でトレーニングが不安定になる可能性があります。この論文では、グループ相対ポリシー最適化 (GRPO) を使用して、サンプリングされた完了のグループ全体で報酬を正規化することで調整を安定化するフレームワークである BiasGRPO を提案します。価値関数をグループ相対ベースラインに置き換えることにより、私たちのアプローチは、オンライン トレーニングの探求の利点を維持しながら、不安定性を軽減します。 BiasGRPO は複数のベンチマークにわたって DPO および PPO を上回っており、その有効性が示されていることがわかりました。 GRPO を適応させるために、複数のドメインとコンテキストにまたがるデータセットを合成的に拡張します。また、計算効率が高く、知識の低下を回避しながら生成を効果的にガイドするカスタム バイアス報酬モデルを作成してリリースし、多目的 RLHF パイプラインにシームレスに統合できる貴重なリソースを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization</p>
        <p class="orig-summary">Mitigating social bias in Large Language Models (LLMs) presents a distinct alignment challenge: unlike verifiable tasks, bias lacks a single ground truth, creating a high-variance, subjective reward landscape. Previous preference-based fine-tuning methods have major trade-offs: Direct Preference Optimization (DPO) is limited by the lack of exploration inherent in offline training, while Proximal Policy Optimization (PPO) can lead to training instability due to potentially unreliable critic estimates. In this paper, we propose BiasGRPO, a framework using Group Relative Policy Optimization (GRPO) to stabilize alignment by normalizing rewards across a group of sampled completions. By substituting the value function with a group-relative baseline, our approach reduces instability while maintaining the exploration benefits of online training. We find that BiasGRPO outperforms DPO and PPO across multiple benchmarks, indicating its effectiveness. To adapt GRPO, we synthetically extend a dataset spanning multiple domains and contexts. We also create and release a custom bias reward model that effectively guides generation while being highly compute-efficient and avoiding knowledge degradation, providing a valuable resource that can be seamlessly integrated into multi-objective RLHF pipelines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b1cdeac41ffc" data-article-url="https://arxiv.org/abs/2606.04816" data-article-title="客観的等価性を超えて: 配車経路問題に対する LLM ベースの最適化モデリングのための制約注入" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04816" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04816" target="_blank" rel="noopener">客観的等価性を超えて: 配車経路問題に対する LLM ベースの最適化モデリングのための制約注入</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、自然言語の最適化問題を実行可能なソルバー コードに変換することが増えています。しかし、制約が密なオペレーション リサーチ (OR) 問題の場合、既存のデータ フィルタリングおよびトレーニング パイプラインは主に、差分テストや回答一致などの客観的等価信号に依存しています。これらの制約がテスト対象のインスタンスに拘束力を持たない場合、プログラムは偽の制約を追加したり、必要な制約を黙って省略したりしながら、この信号を渡すことができます。我々は、実現可能プローブを使用して偽の過剰制約プローブと 1 つの制約違反プローブを明らかにし、サイレント制約省略を明らかにする制約注入を提案します。差分テストと組み合わせると、二重検証機能が形成されます。運転上の制約が結合された代表的な制約密度の高い組み合わせ最適化テストベッドである配車経路問題 (VRP) 上でインスタンスを作成し、評価します。当社は、自然言語 VRP シナリオを Gurobi スクリプトに変換する 8B エンドツーエンド モデルである VRPCoder を、21 のバリアントをカバーする専門家によって検証された VRP ベンチマーク スイートとともに開発しています。ベリファイアは、データ合成中の拒否サンプリング フィルターとして、またグループ相対ポリシー最適化 (GRPO) のロールアウトごとの報酬として再利用されます。 4 つの VRP ベンチマーク全体で、VRPCoder-GRPO は平均 Pass@1 の 93\% に達し、3 つのベンチマークで Gemini-3.1-Pro Preview を上回り、Claude-Sonnet-4.5 を平均 28 ポイント上回り、以前の OR-LLM を平均 78 ポイント上回っています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond Objective Equivalence: Constraint Injection for LLM-Based Optimization Modeling on Vehicle Routing Problems</p>
        <p class="orig-summary">Large language models (LLMs) increasingly translate natural-language optimization problems into executable solver code. Yet for constraint-dense operations research (OR) problems, existing data-filtering and training pipelines largely rely on objective-equivalence signals such as differential testing and answer agreement, which a program can pass while adding spurious constraints or silently omitting required ones, whenever those constraints are non-binding on the tested instance. We propose constraint injection, which uses feasible probes to expose spurious over-constraint and one-constraint-violating probes to reveal silent constraint omission. Combined with differential testing, it forms a dual verifier. We instantiate and evaluate it on vehicle routing problems (VRPs), a representative constraint-dense combinatorial optimization testbed with coupled operational constraints. We develop VRPCoder, an 8B end-to-end model that translates natural-language VRP scenarios into Gurobi scripts, together with an expert-verified VRP benchmark suite covering 21 variants. The verifier is reused as a rejection-sampling filter during data synthesis and as a per-rollout reward in group relative policy optimization (GRPO). Across four VRP benchmarks, VRPCoder-GRPO reaches 93\% average Pass@1, outperforms Gemini-3.1-Pro Preview on three benchmarks, exceeds Claude-Sonnet-4.5 by 28 average points, and surpasses prior OR-LLMs by 78 average points.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79f239e95340" data-article-url="https://arxiv.org/abs/2606.04823" data-article-title="R-APS: 内省的敵対的パレート検索による制約付き設計のための構成推論とコンテキスト内メタ学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04823" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04823" target="_blank" rel="noopener">R-APS: 内省的敵対的パレート検索による制約付き設計のための構成推論とコンテキスト内メタ学習</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、無制限のタスクに柔軟に対応しますが、システムが計画を立て、ツールを使用し、長期間にわたって動作する必要があるエージェント設定では、流暢さは信頼性の高い配信を保証しません。このギャップを 3 つの構造的欠陥が結合したものとして追跡します。エラーは位置特定されずに伝播し、最悪の場合の摂動は評価されず、蓄積された知識は決して無効になりません。私たちは、これらには根本原因が共有されていると主張します。つまり、アブダクティブ、反事実、メタ帰納的、修正的、帰納的推論は、共有されたコンテキストを矛盾する方向に引っ張ります。私たちは、Reflective Adversarial Pareto Search (R-APS) を導入します。これは、推論モード分解を介して 3 つの失敗すべてに共同で対処し、各推論モードに独自のコンテキストを割り当て、3 つのタイムスケールにわたる相互作用を調整する、私たちの知る限り最初の方法です。型付き検証批評家による段階的な構成推論 (失敗の局在化)、第一級のパレート目標 (堅牢性) としての感度に基づく反事実ストレステスト、および明示的なメタ帰納的ルール抽出です。 invalidation (persistent memory). R-APS は微調整を必要とせず、純粋に構造化されたプロトコル設計によってフリーズされた LLM 上で動作します。平面機構の合成 (ロボット工学、補綴物、機械設計) を評価し、すべての候補を運動学ソルバーでチェックします。 32 のターゲット軌道上で、R-APS は、均一摂動ベースラインよりも 3.5 倍厳しいロバスト性証明書、最初の許容までの反復が 46% 高速化、Enum+GA と比較して 2.1 倍の面取り距離の短縮を実現しながら、バー数と最悪の場合のロバスト性を共同制御します。小規模な 4B 推論に特化したモデルは、プロトコル内の汎用 70B バックボーンと競合することが証明されており、構造化プロトコルがモデルのスケールを部分的に相殺できることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">R-APS: Compositional Reasoning and In-Context Meta-Learning for Constrained Design via Reflective Adversarial Pareto Search</p>
        <p class="orig-summary">Large language models (LLMs) are fluent on open-ended tasks, yet in agentic settings, where a system must plan, use tools, and act over extended horizons, fluency does not ensure reliable delivery. We trace this gap to three coupled structural failures: errors propagate without localization, worst-case perturbations go unevaluated, and accumulated knowledge is never invalidated. We argue these share a root cause: abductive, counterfactual, meta-inductive, corrective, and inductive reasoning pull a shared context in incompatible directions. We introduce Reflective Adversarial Pareto Search (R-APS), to our knowledge the first method addressing all three failures jointly via reasoning-mode decomposition, allocating each reasoning mode its own context and orchestrating interaction across three timescales: staged compositional reasoning with a typed validation critic (failure localization), sensitivity-guided counterfactual stress-testing as a first-class Pareto objective (robustness), and meta-inductive rule extraction with explicit invalidation (persistent memory). R-APS requires no fine-tuning and operates on a frozen LLM purely via structured protocol design. We evaluate on planar mechanism synthesis (robotics, prosthetics, mechanical design), with every candidate checked by a kinematic solver. On 32 target trajectories, R-APS delivers robustness certificates 3.5x tighter than uniform-perturbation baselines, 46% faster iterations-to-first-admission, and 2.1x Chamfer-distance reduction over Enum+GA while jointly controlling bar-count and worst-case robustness. Small 4B reasoning-specialized models prove competitive with general-purpose 70B backbones inside the protocol, suggesting structured protocols can partially offset model scale.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9d1a131f3087" data-article-url="https://arxiv.org/abs/2606.04867" data-article-title="AICompanionBench: AI コンパニオンの安全性に関する審査員としての LLM のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04867" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04867" target="_blank" rel="noopener">AICompanionBench: AI コンパニオンの安全性に関する審査員としての LLM のベンチマーク</a></h3>
      <p class="summary">Replika や Character.AI などの AI コンパニオン プラットフォームが急速に成長するにつれて、安全でない人間と AI の相互作用に対する懸念が強まっています。この研究では、AICompanionBench を導入します。AICompanionBench は、私たちの知る限り、きめ細かい安全リスク カテゴリの注釈が付けられた、人間と AI コンパニオンの会話の初の公的に利用可能なベンチマーク データセットです。このデータセットには、Reddit から収集され、性的行動、反社会的行動、身体的攻撃性、言葉による攻撃性、薬物乱用、自傷行為と自殺、制御、操作、無害の 9 つのカテゴリにわたる人間と AI のコラボレーションを通じて注釈が付けられた 2,123 件の実世界の Replika 会話が含まれています。このベンチマークを使用して、安全でない相互作用を検出するための LLM-as-judge フレームワークの下で 20 個の最先端のオープンソースおよびクローズドソース LLM を評価します。結果は、モデルのパフォーマンスに大きなばらつきがあり、より強力なモデルは全体的に高い精度を達成していますが、操作や有害であると誤って認識される無害な会話などの微妙なカテゴリに依然として苦戦していることがわかりました。私たちの調査結果は、現在の LLM は明示的な有害なコンテンツを効果的に検出できるものの、暗黙的な安全でない相互作用の特定には依然として限界があることを示唆しています。全体として、私たちの研究は AI コンパニオンシップの安全性研究のための新しいベンチマーク データセットに貢献し、LLM を使用した AI コンパニオン システムのモニタリングに関する洞察を提供します。データセットは、https://github.com/anonymousresearcher2026/AICompanionBench/blob/main/AICompanionBench.xlsx で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AICompanionBench: Benchmarking LLMs-as-Judges for AI Companion Safety</p>
        <p class="orig-summary">As AI companion platforms such as Replika and Character.AI rapidly grow, concerns about unsafe human-AI interactions have intensified. This study introduces AICompanionBench, to our knowledge the first publicly available benchmark dataset of human-AI companion conversations annotated with fine-grained safety risk categories. The dataset contains 2,123 real-world Replika conversations collected from Reddit and annotated through human-AI collaboration across nine categories: sexual behavior, antisocial behavior, physical aggression, verbal aggression, substance abuse, self-harm and suicide, control, manipulation, and no-harm. Using this benchmark, we evaluate 20 state-of-the-art open-source and closed-source LLMs under an LLM-as-judge framework for detecting unsafe interactions. Results show substantial variation in model performance, with stronger models achieving high overall accuracy but still struggling with nuanced categories such as manipulation, as well as benign conversations that are incorrectly identified as harmful. Our findings suggest that while current LLMs can effectively detect explicit harmful content, they remain limited in identifying implicit unsafe interactions. Overall, our work contributes a new benchmark dataset for AI companionship safety research and offers insights into monitoring AI companion systems using LLMs. The dataset is publicly available at: https://github.com/anonymousresearcher2026/AICompanionBench/blob/main/AICompanionBench.xlsx</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="56feb9b6ec98" data-article-url="https://arxiv.org/abs/2606.04935" data-article-title="能動推論とはどのようなタイプの推論ですか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04935" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04935" target="_blank" rel="noopener">能動推論とはどのようなタイプの推論ですか?</a></h3>
      <p class="summary">能動推論では、期待自由エネルギー (EFE) が目標指向の行動と情報探索の行動を統合し、意思決定を推論としてキャストします。最近の研究では、EFE 最小化が、認識的事前分布で強化された生成モデル上の変分自由エネルギー (VFE) 最小化として記述できることが示されました。拡張モデルの VFE は、予測モデルの VFE に明示的なエントロピー補正項を加えたものとして書き換えることができ、EFE の寄与が透明になることを証明します。次に、適切な EFE ベースの計画には、これらの認識論的修正と限界推論を政策最適化に変える計画修正を組み合わせる必要があり、EFE ベースの計画の完全な変分特性が得られることを示します。これにより、クロスエントロピー計画および完全な EFE ベースの計画にどの修正が必要かが明確になります。同じエントロピー補正された定式化により、より単純なアブレーションとともに、EFE ベースの計画のための詳細なメッセージ パッシング スキームが得られます。 3 つのグリッドワールド環境での実験では、観察が決定的な場合には計画修正がすでに役に立ちますが、観察が単に示唆的な場合には追加の観察側の認識論的修正が最も重要であることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">What Type of Inference is Active Inference?</p>
        <p class="orig-summary">Active inference casts decision-making as inference, with the Expected Free Energy (EFE) unifying goal-directed and information-seeking behavior. Recent work showed that EFE minimization can be written as Variational Free Energy (VFE) minimization on a generative model augmented with epistemic priors. We prove that the VFE of the augmented model can be rewritten as the VFE of the predictive model plus explicit entropy-correction terms, making the EFE contribution transparent. We then show that proper EFE-based planning requires combining these epistemic corrections with a planning correction that turns marginal inference into policy optimization, yielding a full variational characterization of EFE-based planning. This clarifies which corrections are needed for cross-entropy planning and for full EFE-based planning. The same entropy-corrected formulation leads to a detailed message-passing scheme for EFE-based planning together with simpler ablations. Experiments on three grid-world environments show that the planning correction already helps when observations are decisive, whereas the additional observation-side epistemic corrections matter most when observations are merely suggestive.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="721edacbc8c3" data-article-url="https://arxiv.org/abs/2606.05043" data-article-title="Strabo: エージェント相互作用プロトコルの宣言的仕様と実装" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05043" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05043" target="_blank" rel="noopener">Strabo: エージェント相互作用プロトコルの宣言的仕様と実装</a></h3>
      <p class="summary">ここ数年で、宣言型対話プロトコルに基づいたマルチエージェント システムのモデリングと実装が大きく進歩しました。私たちの貢献である Strabo は、これらの進歩と Agentic AI における現在進行中の業界の取り組みとの関連性を確立します。具体的には、AI エージェントの電子商取引インタラクションを標準化するための Google 主導の最近の取り組みである UCP (Universal Commerce Protocol) について検討します。私たちの演習は 2 つの部分に分かれています。 1 つは、チェックアウトを処理する UCP の部分を宣言型 Langshaw プロトコルとしてモデル化し、Langshaw のプログラミング モデルである Peach を使用してエージェントを実装することです。演習のこの部分では、正式な宣言的仕様の利点を引き出します。 2 つ目は、Peach エージェントが Google によって実装された UCP エージェントと相互運用できることを示し、それによって UCP に関するアプローチの忠実性を確立します。このような相互運用により、宣言型プロトコルとエージェントを従来の設定に段階的に導入することが可能になり、大規模な更新を必要とせずに EMAS のアイデアが実践に影響を与える可能性がある道筋が示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Strabo: Declarative Specification and Implementation of Agentic Interaction Protocols</p>
        <p class="orig-summary">The last few years have witnessed major advances in the modeling and implementation of multiagent systems based on declarative interaction protocols. Our contribution, Strabo, establishes the relevance of these advances to ongoing industry efforts in Agentic AI. Specifically, we consider UCP, the Universal Commerce Protocol, a recent Google-led effort to standardize e-commerce interactions for AI agents. Our exercise is in two parts. One, we model the part of UCP dealing with checkouts as a declarative Langshaw protocol and implement agents using Peach, a programming model for Langshaw. This part of the exercise brings out the advantages of formal, declarative specifications. Two, we show that Peach agents can interoperate with UCP agents implemented by Google, thereby establishing the fidelity of our approach with respect to UCP. Such interoperation enables the incremental introduction of declarative protocols and agents into a conventional setting, indicating a pathway by which EMAS ideas could influence practice without demanding a wholesale update.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2e9eced8e8a5" data-article-url="https://arxiv.org/abs/2606.05080" data-article-title="AutoLab: フロンティア モデルは長期にわたる自動車の研究およびエンジニアリングの課題を解決できるか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05080" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05080" target="_blank" rel="noopener">AutoLab: フロンティア モデルは長期にわたる自動車の研究およびエンジニアリングの課題を解決できるか?</a></h3>
      <p class="summary">科学および工学の進歩は、基本的に長期にわたる反復プロセスです。つまり、変更を提案し、実験を実行し、結果を測定し、成果物を継続的に改良します。しかし、フロンティア モデルの既存のベンチマークは主に 1 回のターン応答または短期間のエージェントの軌道のいずれかを評価しており、長期間にわたる持続的な反復改善という課題を捉えることができません。このギャップに対処するために、超長期の閉ループ最適化のための新しいベンチマークである AutoLab を導入します。 AutoLab は、システム最適化、パズル &amp; チャレンジ、モデル開発、CUDA カーネル最適化の 4 つの多様なドメインにわたる、専門家によって厳選された 36 の現実的なタスクで構成されています。各タスクは正しいが意図的に次善のベースラインから始まり、厳しい予算内でそれを改善するようエージェントに要求します。 17 の最先端モデルを評価すると、成功の主な予測因子は、エージェントの最初の試みの質ではなく、繰り返しのベンチマーク、編集、経験的フィードバックの組み込みに対するエージェントの粘り強さであることが明らかになりました。 claude-opus-4.6 は強力な長期最適化機能を示しますが、いくつかの独自モデルを含むほとんどのフロンティア モデルは途中で終了するか、最小限の進歩で予算を使い果たします。これらの結果は、自律エージェントにおける時間認識と永続的な反復の重要性を強調しています。私たちは完全なベンチマーク、評価ハーネス、タスク アーティファクトをオープンソース化し、真に有能な長期的なエージェントに向けた研究を加速します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?</p>
        <p class="orig-summary">Scientific and engineering progress is fundamentally a long-horizon iterative process: proposing changes, running experiments, measuring outcomes, and continuously refining artifacts. Yet existing benchmarks for frontier models primarily evaluate either single-turn responses or short-horizon agent trajectories, failing to capture the challenges of sustained iterative improvement over extended time horizons. To address this gap, we introduce AutoLab, a new benchmark for ultra long-horizon closed-loop optimization. AutoLab consists of 36 realistic, expert-curated tasks spanning four diverse domains: system optimization, puzzle &amp; challenge, model development, and CUDA kernel optimization. Each task begins with a correct but deliberately suboptimal baseline and challenges agents to improve it within a strict wall-clock budget. Evaluating 17 state-of-the-art models reveals the dominant predictor of success is not the quality of an agent&#x27;s initial attempt, but its persistence in repeatedly benchmarking, editing, and incorporating empirical feedback. While claude-opus-4.6 exhibits strong long-horizon optimization capabilities, most frontier models, including several proprietary ones, either terminate prematurely or exhaust their budgets with minimal progress. These results underscore the importance of time awareness and persistent iteration in autonomous agents. We open-source the full benchmark, evaluation harness, and task artifacts, to accelerate research toward truly capable long-horizon agents.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2e86afed9f79" data-article-url="https://arxiv.org/abs/2606.05104" data-article-title="ノアの箱舟の知識索引" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05104" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05104" target="_blank" rel="noopener">ノアの箱舟の知識索引</a></h3>
      <p class="summary">LLM の知識ベンチマークは 3 つの問題に直面しています。1 つは、規律の代表性を運用できないスケーリング主導の設計です。遅延コンセンサスを可能にする定額支払いアノテーション。制限されたテスト予算の下では、監査されていないランキングの不安定性。 261 のきめ細かい分野にわたる 899 項目のベンチマークである KINA を、2 つの正式な結果とともに紹介します。まず、専門家が導き出したアンカーよりも報道スタイルの目的として代表性を設定し、代理人を通じて規律上の代表性を操作して、(1-1/e) 貪欲な近似 (命題 1) を生成します。保証は代理人に適用され、母集団の代表性には適用されません。第二に、インセンティブ互換性しきい値 B &gt; デルタ C / デルタ p_min (定理 1) で、ボーナスオンバートーナメントがリリースレビューの品質においてフラットペイメントを弱く FOSD で支配することを証明します。 13 のラボからの 42 モデルを評価すると、最上位モデルの Gemini-3.1-Pro-Preview は 53.17% に達し、続いて Claude-Opus-4.6 が 49.92%、GPT-5.4 が 48.55% となり、飽和以下にかなりのヘッドルームが残されています。完全なリーダーボードは、滑らかな全体の順序ではなく階層構造を示しています。小規模なフロンティア階層は 48% を超え、高密度の強力なモデル階層は約 38 ～ 45% に広がり、低パフォーマンスのモデルは 10% の確率ベースラインをわずかに上回る程度に留まっています。ツールの強化により、5 つのツール使用評価全体で最大 5.17 ポイントが加算され、そのゲインはモデルによって大幅に異なります。限られた予算の分散を明示し、隣接するランクの過度の解釈を防ぐために、ブートストラップのランキング安定性統計を報告します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Knowledge Index of Noah&#x27;s Ark</p>
        <p class="orig-summary">Knowledge benchmarks for LLMs face three issues: scaling-driven designs that do not operationalize disciplinary representativeness; flat-payment annotation that permits lazy consensus; and unaudited ranking instability under bounded test budgets. We introduce KINA, an 899-item benchmark across 261 fine-grained disciplines, with two formal results. First, we cast representativeness as a coverage-style objective over expert-elicited anchors and operationalize disciplinary representativeness through a proxy, yielding a (1-1/e) greedy approximation (Proposition 1); the guarantee applies to the proxy, not to population representativeness. Second, we prove a bonus-on-bar tournament weakly FOSD-dominates flat payment in released-review quality, with incentive-compatibility threshold B &gt; Delta C / Delta p_min (Theorem 1). Evaluating 42 models from 13 labs, the top model, Gemini-3.1-Pro-Preview, reaches 53.17%, followed by Claude-Opus-4.6 at 49.92% and GPT-5.4 at 48.55%, leaving substantial headroom below saturation. The full leaderboard shows a tiered structure rather than a smooth total order: a small frontier tier lies above 48%, a dense strong-model tier spans roughly 38-45%, and low-performing models remain only modestly above the 10% chance baseline. Tool augmentation adds up to 5.17 points across the five tool-use evaluations, with gains varying substantially across models. We report bootstrap ranking-stability statistics to make bounded-budget variance explicit and to discourage over-interpretation of adjacent ranks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="77e5f73c065d" data-article-url="https://arxiv.org/abs/2006.04013" data-article-title="AI の具体的なものから抽象的なものへ: 一般の人々に人工知能の謎を解き明かす" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2006.04013" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2006.04013" target="_blank" rel="noopener">AI の具体的なものから抽象的なものへ: 一般の人々に人工知能の謎を解き明かす</a></h3>
      <p class="summary">人工知能（AI）は幅広い分野で導入されています。これは、一般の人々に AI の意味について最低限の理解を与える手段を開発することが不可欠であることを示しています。この記事では、ビジュアル プログラミングと WiSARD 無重力人工ニューラル ネットワークを組み合わせて、一般の人々 (子供を含む) がこの目標を達成できるようにする新しい方法論、具体から抽象への AI (AIcon2abs) を紹介します。が採用した主な戦略は、学習機械の開発に関連する実践的な活動や学習プロセスの観察を通じて、人工知能の謎を解くことを促進することです。したがって、人工知能メカニズムの導入に関わる議論や意思決定において、被験者を洞察力に富んだ主体にするのに役立つスキルを被験者に提供することが可能です。現在、プログラミングを通じて基本的な AI 概念を教える既存のアプローチでは、マシン インテリジェンスを外部要素/モジュールとして扱っています。トレーニング後、その外部モジュールは、学習者が開発しているメイン アプリケーションに結合されます。ここで提示する方法論では、トレーニング タスクと分類タスクの両方が、他のプログラミング構造と同様に、メイン プログラムを構成するブロックです。 AIcon2abs の有益な副作用として、データから学習できるプログラムと従来のコンピューター プログラムとの違いがより明確になります。さらに、WiSARD 無重力人工ニューラル ネットワーク モデルのシンプルさにより、トレーニングと分類タスクの内部実現を簡単に視覚化して理解することができます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AI from concrete to abstract: demystifying artificial intelligence to the general public</p>
        <p class="orig-summary">Artificial Intelligence (AI) has been adopted in a wide range of domains. This shows the imperative need to develop means to endow common people with a minimum understanding of what AI means. Combining visual programming and WiSARD weightless artificial neural networks, this article presents a new methodology, AI from concrete to abstract (AIcon2abs), to enable general people (including children) to achieve this goal. The main strategy adopted by is to promote a demystification of artificial intelligence via practical activities related to the development of learning machines, as well as through the observation of their learning process. Thus, it is possible to provide subjects with skills that contributes to making them insightful actors in debates and decisions involving the adoption of artificial intelligence mechanisms. Currently, existing approaches to the teaching of basic AI concepts through programming treat machine intelligence as an external element/module. After being trained, that external module is coupled to the main application being developed by the learners. In the methodology herein presented, both training and classification tasks are blocks that compose the main program, just as the other programming constructs. As a beneficial side effect of AIcon2abs, the difference between a program capable of learning from data and a conventional computer program becomes more evident. In addition, the simplicity of the WiSARD weightless artificial neural network model enables easy visualization and understanding of training and classification tasks internal realization.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3075df38c70a" data-article-url="https://arxiv.org/abs/2401.07386" data-article-title="機械はどのように学習するのでしょうか? AIcon2abs メソッドの評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2401.07386" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2401.07386" target="_blank" rel="noopener">機械はどのように学習するのでしょうか? AIcon2abs メソッドの評価</a></h3>
      <p class="summary">この研究は、幼稚園から高校までの学生を含むさまざまな年齢層にわたって機械学習 (ML) に対する国民の理解を高めるために設計された革新的なアプローチである AIcon2abs 手法 (具体から抽象への AI: 一般大衆への人工知能の謎を解く) を紹介した以前の研究を拡張し、その有効性を評価することを目的としています。 AIcon2Abs は、シンプルさとユーザー アクセシビリティで知られる無重力ニューラル ネットワークである WiSARD アルゴリズムを採用しています。 WiSARD はインターネットを必要としないため、技術者以外のユーザーやリソースが限られた環境に最適です。この方法により、参加者は、あたかもアルゴリズムそのものであるかのように、魅力的な実践的なアクティビティを通じて ML プロセスを直感的に視覚化し、対話することができます。この方法により、ユーザーは実践的な活動を通じてトレーニングと分類の内部プロセスを直感的に視覚化して理解することができます。 WiSARD の機能にインターネット接続が必要なくなると、たとえ 1 つの例であっても最小限のデータセットから効果的に学習できます。この機能を使用すると、ユーザーは、より多くのデータを受信するにつれてマシンがどのように精度を向上させるかを観察できます。さらに、WiSARD は学んだことを表す精神的な画像を生成し、機密データの重要な特徴を強調します。 AIcon2abs は、子供 5 人、青少年 5 人、成人 24 人を含む 34 人のブラジル人参加者による 6 時間の遠隔コースを通じてテストされました。データ分析は、混合法による事前実験（仮説検証を含む）と定性的現象学的分析の2つの観点から実施しました。ほぼすべての参加者が AIcon2abs を肯定的に評価し、その結果は意図した結果の達成に高い満足度を示しました。この研究はCEP-HUCFF-UFRJ研究倫理委員会によって承認されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">How do machines learn? Evaluating the AIcon2abs method</p>
        <p class="orig-summary">This study expands on previous work that introduced the AIcon2abs method (AI from Concrete to Abstract: Demystifying Artificial Intelligence to the general public), an innovative approach designed to increase public understanding of machine learning (ML) across diverse age groups, including K-12 students, and aims to evaluate its effectiveness. AIcon2Abs employs the WiSARD algorithm, a weightless neural network known for its simplicity, and user accessibility. WiSARD does not require Internet, making it ideal for non-technical users and resource-limited environments. This method enables participants to intuitively visualize and interact with ML processes through engaging, hands-on activities, as if they were the algorithms themselves. The method allows users to intuitively visualize and understand the internal processes of training and classification through practical activities. Once WiSARDs functionality does not require an Internet connection, it can learn effectively from a minimal dataset, even from a single example. This feature enables users to observe how the machine improves its accuracy incrementally as it receives more data. Moreover, WiSARD generates mental images representing what it has learned, highlighting essential features of the classified data. AIcon2abs was tested through a six-hour remote course with 34 Brazilian participants, including 5 children, 5 adolescents, and 24 adults. Data analysis was conducted from two perspectives: a mixed-method pre-experiment (including hypothesis testing), and a qualitative phenomenological analysis. Nearly all participants rated AIcon2abs positively, with the results demonstrating a high degree of satisfaction in achieving the intended outcomes. This research was approved by the CEP-HUCFF-UFRJ Research Ethics Committee.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5759e1342f7f" data-article-url="https://arxiv.org/abs/2509.10247" data-article-title="DiffAero: 効率的なクアドローター ポリシー学習のための GPU アクセラレーションによる微分可能シミュレーション フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.10247" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.10247" target="_blank" rel="noopener">DiffAero: 効率的なクアドローター ポリシー学習のための GPU アクセラレーションによる微分可能シミュレーション フレームワーク</a></h3>
      <p class="summary">このレターでは、効率的なクワッドローター制御ポリシー学習のために設計された、軽量で GPU アクセラレーションを備えた完全微分可能なシミュレーション フレームワークである DiffAero を紹介します。 DiffAero は、環境レベルとエージェント レベルの両方の並列処理をサポートし、複数のダイナミクス モデル、カスタマイズ可能なセンサー スタック (IMU、深度カメラ、LiDAR)、および多様な飛行タスクを統合された GPU ネイティブのトレーニング インターフェイス内に統合します。 DiffAero は、GPU 上で物理とレンダリングの両方を完全に並列化することで、CPU と GPU 間のデータ転送のボトルネックを排除し、シミュレーションのスループットを桁違いに向上させます。既存のシミュレータとは対照的に、DiffAero は高性能シミュレーションを提供するだけでなく、微分可能なハイブリッド学習アルゴリズムを探索するための研究プラットフォームとしても機能します。広範なベンチマークと実際の飛行実験により、DiffAero とハイブリッド学習アルゴリズムを組み合わせることで、消費者グレードのハードウェアで堅牢な飛行ポリシーを数時間で学習できることが実証されました。コードは https://github.com/flyingbitac/diffaero で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DiffAero: A GPU-Accelerated Differentiable Simulation Framework for Efficient Quadrotor Policy Learning</p>
        <p class="orig-summary">This letter introduces DiffAero, a lightweight, GPU-accelerated, and fully differentiable simulation framework designed for efficient quadrotor control policy learning. DiffAero supports both environment-level and agent-level parallelism and integrates multiple dynamics models, customizable sensor stacks (IMU, depth camera, and LiDAR), and diverse flight tasks within a unified, GPU-native training interface. By fully parallelizing both physics and rendering on the GPU, DiffAero eliminates CPU-GPU data transfer bottlenecks and delivers orders-of-magnitude improvements in simulation throughput. In contrast to existing simulators, DiffAero not only provides high-performance simulation but also serves as a research platform for exploring differentiable and hybrid learning algorithms. Extensive benchmarks and real-world flight experiments demonstrate that DiffAero and hybrid learning algorithms combined can learn robust flight policies in hours on consumer-grade hardware. The code is available at https://github.com/flyingbitac/diffaero.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2dd90da1702f" data-article-url="https://arxiv.org/abs/2605.13672" data-article-title="SpurAudio: 少数ショット音声分類におけるショートカット学習を研究するためのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13672" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13672" target="_blank" rel="noopener">SpurAudio: 少数ショット音声分類におけるショートカット学習を研究するためのベンチマーク</a></h3>
      <p class="summary">少数ショット分類 (FSC) は、限られたラベル付きデータから学習するために広く使用されていますが、ほとんどの評価は、ターゲットの概念が文脈上の手がかりから独立していることを暗黙的に前提としています。ただし、現実世界の設定では、サンプルがリッチ コンテキスト内に表示されることが多く、モデルが前景コンテンツと背景信号の間の偽の相関を利用できるようになります。このような効果は少数ショット画像分類で研究されていますが、少数ショット音声分類におけるその役割はほとんど解明されておらず、既存の音声ベンチマークでは文脈構造に対する制御が限られています。 SpurAudio というベンチマークを紹介します。これは、オーディオの前景イベントと背景環境の自然な分離性を活用して、サポートおよびクエリ セットにわたるコンテキストの変化を制御されたマルチレベルの評価を可能にするベンチマークです。このベンチマークを使用して、多くの最先端の少数ショット手法は、標準的な評価プロトコルで同様の精度を達成しているにもかかわらず、バックグラウンド相関が破壊されると重大なパフォーマンス低下に見舞われることがわかります。重要なのは、この脆弱性は大規模な事前トレーニング済みオーディオ基盤モデルでも存続しており、バックボーン容量の制限が説明の対象外となっているということです。さらに、従来のベンチマークでは同等に見える手法でも、偽の相関に対して著しく異なる感度を示す可能性があり、推論時に特徴表現が分類器ヘッドとどのように相互作用するかに関連する体系的なアルゴリズムの強みと脆弱性が明らかになります。これらの発見は、オーディオにおける少数ショット法の動作に関する新たな洞察を提供し、FSC モデルを評価する際のコンテキスト依存性を明示的に調査するベンチマークの必要性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SpurAudio: A Benchmark for Studying Shortcut Learning in Few-Shot Audio Classification</p>
        <p class="orig-summary">Few-shot classification (FSC) is widely used for learning from limited labeled data, yet most evaluations implicitly assume that target concepts are independent of contextual cues. In real-world settings, however, examples often appear within rich contexts, allowing models to exploit spurious correlations between foreground content and background signals. While such effects have been studied in few-shot image classification, their role in few-shot audio classification remains largely unexplored, and existing audio benchmarks offer limited control over contextual structure. We introduce SpurAudio, a benchmark that leverages the natural separability of foreground events and background environments in audio to enable controlled, multi-level evaluation of contextual shifts across support and query sets. Using this benchmark, we show that many state-of-the-art few-shot methods suffer severe performance degradation when background correlations are disrupted, despite achieving similar accuracy under standard evaluation protocols. Crucially, this vulnerability persists even in large pretrained audio foundation models, ruling out limited backbone capacity as an explanation. Moreover, methods that appear comparable under conventional benchmarks can exhibit markedly different sensitivity to spurious correlations, revealing systematic algorithmic strengths and vulnerabilities tied to how feature representations interact with classifier heads at inference time. These findings provide new insight into the behavior of few-shot methods in audio and highlight the need for benchmarks that explicitly probe context dependence when evaluating FSC models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="25a84d137ba1" data-article-url="https://arxiv.org/abs/2606.03554" data-article-title="相関マッチングによる制約強化物理検索" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03554" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03554" target="_blank" rel="noopener">相関マッチングによる制約強化物理検索</a></h3>
      <p class="summary">物理システムは、検索プロセスにノイズを加えるだけではありません。構造化された相関関係を生成する制約を課します。我々は、探索における時間的相関を、更新ダイナミクスにおける制約によって引き起こされる空間的相関と一致させる、制約強化物理探索の原理を提案する。最小限の綱引きバンディット モデル (TOW) を使用して、保存則が局所的な観察を複数の選択肢にわたる差分証拠に変換する一方で、時間的に相関する推進力が探索の順序を制御することを示します。検索効率は、より強力なランダム性や最大の逆相関によってではなく、フィードバックを証拠に変換する物理的な更新スケールに時間的相関を一致させることによって改善されます。スケーリング推定では、時間的逆相関をどの程度強く使用できるかを制限する主要なパラメーターとして更新ノイズ対コントラスト比が特定されます。この結果は、物理検索の一般的な組織化原則を示唆しています。つまり、制約と変動によって構造化された時空間相関が生成され、これらの相関が更新ダイナミクスと一致すると効率的な探索が可能になります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Constraint-Enhanced Physical Search through Correlation Matching</p>
        <p class="orig-summary">Physical systems do not merely add noise to search processes; they impose constraints that generate structured correlations. We propose a principle of constraint-enhanced physical search in which temporal correlations in exploration are matched to constraint-induced spatial correlations in the update dynamics. Using a minimal tug-of-war bandit model (TOW), we show that a conservation law converts local observations into differential evidence across alternatives, while a temporally correlated drive controls the order of exploration. Search efficiency is improved not by stronger randomness or by maximal anti-correlation, but by matching the temporal correlation to the physical update scale that converts feedback into evidence. A scaling estimate identifies the update-noise-to-contrast ratio as the leading parameter that limits how strongly temporal anti-correlation can be used. The results suggest a general organizing principle for physical search: constraints and fluctuations can generate structured spatiotemporal correlations, and efficient exploration emerges when these correlations are matched to the update dynamics.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4df7fc66240d" data-article-url="https://arxiv.org/abs/2606.03995" data-article-title="臨床バイオマーカーに関する説明可能な機械学習を使用したアルツハイマー病の早期検出: アルツハイマー病神経画像イニシアチブ (ADNI) データセットを使用した多クラス分類研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03995" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03995" target="_blank" rel="noopener">臨床バイオマーカーに関する説明可能な機械学習を使用したアルツハイマー病の早期検出: アルツハイマー病神経画像イニシアチブ (ADNI) データセットを使用した多クラス分類研究</a></h3>
      <p class="summary">背景: アルツハイマー病 (AD) は、世界中で 5,500 万人以上の人々に影響を与えています。日常的な臨床評価による正常認知 (NC)、軽度認知障害 (MCI)、および AD の正確で解釈可能な検出は、依然として重要な満たされていないニーズです。方法: XGBoost 分類器は、アルツハイマー病神経画像イニシアチブ (ADNI) の 8 つの臨床特徴 (MMSE、CDR Global、CDR Sum of Boxes (CDR-SB)、MoCA、FAQ、年齢、性別、教育) を使用して 3 クラス検出用に開発されました。ハイパーパラメータは Optuna を使用して最適化されました (50 回のトライアル)。クラスの不均衡は SMOTE で解決されました。パフォーマンスは、1,000 回の反復ブートストラップ 95% 信頼区間、マクロ F1、バランスの取れた精度、およびコーエンのカッパを使用したマクロ AUC-ROC によって評価されました。 SHAP 値により、機能レベルの説明可能性が提供されました。結果: データセットには、1,641 人のベースライン被験者 (NC 608 人、MCI 767 人、AD 266 人) が含まれていました。 5 分割交差検証では、平均マクロ AUC は 0.983 (SD 0.007)、精度 0.944 (SD 0.006)、およびマクロ F1 0.929 (SD 0.008) でした。ホールドアウトされたテストセット (n = 247) では、マクロ AUC は 0.982 (95% CI: 0.965--0.995)、精度 0.943、バランス精度 0.932、マクロ F1 0.927、およびコーエンのカッパ 0.909 でした。 SHAP 分析では、CDR Global が NC および MCI の主要な予測因子であることが特定され、CDR-SB と MMSE が一緒になって AD 分類を推進しました。結論: ルーチンの臨床評価に基づいてトレーニングされた説明可能な機械学習モデルは、ほぼ完璧な 3 クラスのアルツハイマー病の検出を達成します。 SHAP 分析は、臨床的妥当性を裏付ける、臨床的に妥当なクラス固有の特徴の重要性パターンを明らかにします。将来の研究では、マルチモーダル検出のための音声バイオマーカーを使用してこのフレームワークを拡張します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Early Detection of Alzheimer&#x27;s Disease Using Explainable Machine Learning on Clinical Biomarkers: A Multi-Class Classification Study Using the Alzheimer&#x27;s Disease Neuroimaging Initiative (ADNI) Dataset</p>
        <p class="orig-summary">Background: Alzheimer&#x27;s disease (AD) affects over 55 million people worldwide. Accurate, interpretable detection of normal cognition (NC), mild cognitive impairment (MCI), and AD from routine clinical assessments remains a critical unmet need. Methods: An XGBoost classifier was developed for three-class detection using eight clinical features from the Alzheimer&#x27;s Disease Neuroimaging Initiative (ADNI): MMSE, CDR Global, CDR Sum of Boxes (CDR-SB), MoCA, FAQ, age, sex, and education. Hyperparameters were optimised using Optuna (50 trials); class imbalance was addressed with SMOTE. Performance was evaluated by macro AUC-ROC with 1,000-iteration bootstrap 95% confidence intervals, macro F1, balanced accuracy, and Cohen&#x27;s kappa. SHAP values provided feature-level explainability. Results: The dataset comprised 1,641 baseline subjects (608 NC, 767 MCI, 266 AD). On five-fold cross-validation, mean macro AUC was 0.983 (SD 0.007), accuracy 0.944 (SD 0.006), and macro F1 0.929 (SD 0.008). On the held-out test set (n = 247), macro AUC was 0.982 (95% CI: 0.965--0.995), accuracy 0.943, balanced accuracy 0.932, macro F1 0.927, and Cohen&#x27;s kappa 0.909. SHAP analysis identified CDR Global as the dominant predictor for NC and MCI, while CDR-SB and MMSE together drove AD classification. Conclusion: An explainable machine learning model trained on routine clinical assessments achieves near-perfect three-class Alzheimer&#x27;s detection. SHAP analysis reveals clinically plausible, class-specific feature importance patterns supporting clinical validity. Future work will extend this framework with speech biomarkers for multimodal detection.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3fd1b17caa33" data-article-url="https://arxiv.org/abs/2606.04008" data-article-title="3 次元シーンにおける無人水中車両騒音スペクトル予測のための神経放射雑音場" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04008" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04008" target="_blank" rel="noopener">3 次元シーンにおける無人水中車両騒音スペクトル予測のための神経放射雑音場</a></h3>
      <p class="summary">無人水中飛行体 (UUV) の放射騒音は、音響特性を特徴づけ、プラットフォームの性能を評価するための重要な指標です。従来の物理ベースのモデリングと数値シミュレーション手法がターゲットの構造情報と環境境界条件に強く依存していること、および 3 次元シーンで連続的な空間スペクトル応答モデリングを実現できないことに対処するために、この論文では神経放射雑音場 (NRNF) を提案します。 NRNF は、UUV 放射ノイズ スペクトルを 3 次元 UUV 位置、3 次元ハイドロホン位置、UUV ヨー角、および周波数の連続関数として表し、任意の空間位置でのクエリベースの予測を可能にします。提案された方法は、位置と周波数の正弦波エンコードを採用し、環境構造と伝播効果を明示的に表現するために学習可能な 3 次元シーン特徴グリッドを導入します。スペクトル予測データセットは湖のトライアルから構築され、提案されたモデルは 3 つの設定 (水平外挿、深さ外挿、およびクロスラン一般化) の下で評価されます。結果は、NRNF が 50 ～ 5000 Hz 帯域で 3.5 dB の平均予測誤差を達成することを示しています。水平方向の外挿が最も簡単で、深さの外挿が最も難しく、クロスラン汎化は中程度の難易度です。さらにアブレーションの結果は、シーン フィーチャ グリッドがモデルの予測安定性と空間一般化を大幅に改善することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Neural Radiated-Noise Fields for Unmanned Underwater Vehicle Noise Spectrum Prediction in Three-Dimensional Scenes</p>
        <p class="orig-summary">Radiated noise in unmanned underwater vehicles (UUVs) is an important indicator for characterizing acoustic signatures and evaluating platform performance. To address the strong dependence of traditional physics-based modeling and numerical simulation methods on target structural information and environmental boundary conditions, and their inability to achieve continuous spatial spectrum-response modeling in three-dimensional scenes, this paper proposes a neural radiated-noise field (NRNF). An NRNF represents the UUV radiated-noise spectrum as a continuous function of the three-dimensional UUV position, the three-dimensional hydrophone position, the UUV yaw angle, and the frequency, enabling query-based prediction at arbitrary spatial locations. The proposed method employs sinusoidal encoding for position and frequency, and introduces a learnable three-dimensional scene feature grid to explicitly represent environmental structure and propagation effects. A spectrum-prediction dataset is constructed from lake trials, and the proposed model is evaluated under three settings: horizontal extrapolation, depth extrapolation, and cross-run generalization. Results show that the NRNF achieves an average prediction error of 3.5 dB in the 50 to 5000 Hz band. Horizontal extrapolation is easiest, depth extrapolation is the most challenging, and cross-run generalization is of intermediate difficulty. Further ablation results demonstrate that the scene feature grid significantly improves the prediction stability and spatial generalization of the model.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4887769f79c5" data-article-url="https://arxiv.org/abs/2606.04009" data-article-title="ディープ 2 サンプル テストに対する反事実の説明" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04009" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04009" target="_blank" rel="noopener">ディープ 2 サンプル テストに対する反事実の説明</a></h3>
      <p class="summary">2 サンプル テストは、科学分野全体の分布の違いを検出するための基本的なツールですが、従来のテスト (カーネルベースのテストを含む) は、画像などの高次元構造化データに対しては効果がない場合があります。最近のディープ 2 サンプル テストでは、有益な表現を学習することでこれらの設定での感度が向上しますが、どのデータ特徴が帰無仮説 $H_0$ の棄却につながるかについての洞察は限られています。この問題に対処するために、我々は、テストによって測定された不一致を明示的に削減しながら、観測値をソースグループからターゲットグループに移動させるサンプルレベルの編集を生成する、深い2サンプルテストのための反事実説明フレームワークを提案します。私たちの手法では、拡散オートエンコーダーと事前学習済みのディープ 2 サンプル テスト モデルを組み合わせ、テスト モデルの表現空間で最大平均不一致 (MMD) 目標を最適化して、もっともらしい反事実を生成します。検定統計量の変化とその結果得られる 2 サンプルの p 値を通じて、分布レベルの効果を定量化します。合成 2D 形状データセットと 2 つの MRI コホートでこの方法を評価します。どちらの設定でも、反事実変換により元のサンプルと比較して p 値が一貫して増加しており、編集されたソース セットが統計的にテスト下のターゲット分布に近づくことを示しています。 LPIPS を使用して最小性を測定し、反事実が元のサンプルに近いままであることを確認します。結果として得られる編集は、検出されたグループの違いに関連する特徴の解釈可能な証拠を提供します。 MRI では、局所的な変化はコホート間の既知の解剖学的差異と一致します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Counterfactual Explanations for Deep Two-Sample Testing</p>
        <p class="orig-summary">Two-sample testing is a fundamental tool for detecting distributional differences across scientific domains, but classical tests (including kernel-based tests) can be ineffective on high-dimensional structured data such as images. Recent deep two-sample tests improve sensitivity in these settings by learning informative representations, yet they provide limited insight into which data features drive rejection of the null hypothesis $H_0$. To address this issue, we propose a counterfactual explanation framework for deep two-sample testing that generates sample-level edits moving observations from a source group toward a target group while explicitly reducing the discrepancy measured by the test. Our method combines a diffusion autoencoder with a pretrained deep two-sample test model and optimizes a maximum mean discrepancy (MMD) objective in the test model&#x27;s representation space to produce plausible counterfactuals. We quantify distribution-level effects through changes in the test statistic and the resulting two-sample p-values. We evaluate the method on synthetic 2D shape datasets and two MRI cohorts. Across both settings, the counterfactual transformations consistently increase p-values relative to the original samples, indicating that the edited source set becomes statistically closer to the target distribution under the test. We measure minimality using LPIPS to ensure the counterfactuals remain close to the original samples. The resulting edits provide interpretable evidence of the features associated with the detected group differences. On MRI, the localized changes are consistent with known anatomical differences between cohorts.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="789b6d20212a" data-article-url="https://arxiv.org/abs/2606.04010" data-article-title="分散脳基盤モデルが忘れていたもの: 数十億パラメータのモデルが失敗する場合、三次統計が認知を予測する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04010" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04010" target="_blank" rel="noopener">分散脳基盤モデルが忘れていたもの: 数十億パラメータのモデルが失敗する場合、三次統計が認知を予測する</a></h3>
      <p class="summary">Brain Foundation Model (BFM) は、fMRI データで事前トレーニングされた自己監視型トランスフォーマーです。私たちは、これらのモデルは各被験者の fMRI 信号から認知パフォーマンスを捕捉する必要があると仮定します。しかし、3 つの最先端の BFM とテストしたすべての読み取り値にわたって、関数接続性行列 (FC) の $\sim$80K パラメーターからの線形回帰よりも悪い認知を予測します。この差は規模が大きくなるほど拡大します。BrainLM の 650M モデルは、111M モデルよりも悪い認知を予測します。これは \textbf{分散割り当て問題} によるものだと考えられます。BFM 事前トレーニングは、fMRI を支配する分散成分を捕捉しますが、認知を予測する高次構造は捕捉しません。再構成された信号のキュムラント分析では、2 次の共分散が部分的に保存されている一方で、3 次の共歪度テンソルは大部分が破壊されていることが示されています。 BFM が失ったものを回復するために、fMRI 信号を共歪みを最もよく保存する部分空間に投影し、そこで FC を計算する線形パイプラインを設計します。これは、テストしたすべてのデータセットと分割で \textbf{生の FC とすべての事前トレーニング済み BFM を上回り}、制御された評価 \textbf{事前トレーニングや GPU を使用しない} のもとでの以前の最先端技術を上回っています。この同じ部分空間を対象とした損失を微調整することで、\textbf{BrainLM のフォワード パスの raw FC 天井を回復}します。これは、ボトルネックはアーキテクチャやモデルのサイズではなく、事前トレーニングの目的であることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Variance Brain Foundation Models Forgot: Third-Order Statistics Predict Cognition Where Billion-Parameter Models Fail</p>
        <p class="orig-summary">Brain foundation models (BFMs) are self-supervised Transformers pretrained on fMRI data. We posit that these models should capture each subject&#x27;s cognitive performance from their fMRI signal. Yet across three state-of-the-art BFMs and every readout we test, they predict cognition worse than a linear regression from the $\sim$80K parameters of the functional connectivity matrix (FC). The gap widens with scale: BrainLM&#x27;s 650M model predicts cognition worse than its 111M. We attribute this to a \textbf{variance allocation problem}: BFM pretraining captures the variance components that dominate fMRI but not the higher-order structure that predicts cognition. Our per-cumulant analysis of the reconstructed signal shows that the second-order covariance is partially preserved, while the third-order co-skewness tensor is largely destroyed. To recover what BFMs lose, we design a linear pipeline that projects the fMRI signal into the subspace that best preserves its co-skewness and computes FC there. This \textbf{exceeds raw FC and every pretrained BFM} on every dataset and parcellation we test, outperforming prior state-of-the-art under controlled evaluation \textbf{with no pretraining and no GPU}. We \textbf{recover the raw-FC ceiling on BrainLM&#x27;s forward pass} by finetuning with a loss targeted at this same subspace. This shows that the bottleneck is the pretraining objective, not the architecture or the model size.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0d25bbfca2f6" data-article-url="https://arxiv.org/abs/2606.04019" data-article-title="人間の活動認識における軽量 SensorLLM のための重力認識階層ルーティング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04019" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04019" target="_blank" rel="noopener">人間の活動認識における軽量 SensorLLM のための重力認識階層ルーティング</a></h3>
      <p class="summary">センサーと言語のアライメントに関する最近の研究では、2 段階のフレームワークにより、ウェアラブル センサーの人間活動認識 (HAR) のセマンティック モデリング能力が向上することが示されています。SensorLLM スタイルのメソッドは、最初にモーションと言語のアライメントを実行し、次に下流のタスクに向けてモデルを微調整します。しかし、私たちの実験では、ステージ 2 のバックボーンが TinyLlama などのコンパクトなモデルに圧縮された場合に、一貫した故障モードが明らかになりました。動的アクティビティの認識は比較的強いままですが、立つ、座る、横たわるなどの動きの少ない静的なクラスの識別は大幅に低下します。この問題に対処するために、新しい大規模な事前トレーニング フレームワークではなく、すでに位置合わせされたモデルの上に構築された軽量の位置合わせ後の適応として、重力を認識した階層型ルーティング ヘッドを提案します。このメソッドは、Chronos トークナイザーの状態からのチャネルごとの平均と標準偏差を使用して、姿勢と重力方向に関連する統計的手がかりを抽出し、安定したトレーニングのための負荷分散損失とともに、ソフト ルーティングを通じて静的エキスパートと完全エキスパートを適応的に組み合わせます。 MHealth データセットでは、この設計により、最小限のパラメーター オーバーヘッドでマクロ F1 が大幅に改善され、動的アクティビティでの優れたパフォーマンスを維持しながら、ゲインは主に静的クラスに集中します。最初の arXiv 開示として、現在の論文は単一のデータセットのみに関する結果を報告しており、その目的は、中核となる手法を強調し、将来の研究におけるより広範な評価のための基礎を築くことです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Gravity-Aware Hierarchical Routing for Lightweight SensorLLM on Human Activity Recognition</p>
        <p class="orig-summary">Recent studies on sensor-language alignment have shown that two-stage frameworks can improve the semantic modeling ability of wearable-sensor human activity recognition (HAR), where SensorLLM-style methods first perform motion-to-language alignment and then fine-tune the model for downstream tasks. However, our experiments reveal a consistent failure mode when the Stage 2 backbone is compressed to a compact model such as TinyLlama: recognition of dynamic activities remains relatively strong, while the discrimination of low-motion static classes such as standing, sitting, and lying degrades substantially. To address this issue, we propose a gravity-aware hierarchical routing head as a lightweight post-alignment adaptation built on top of an already aligned model, rather than a new large-scale pretraining framework. The method uses the per-channel mean and std from the Chronos tokenizer state to extract statistical cues related to posture and gravity direction, and adaptively combines a static expert and a full expert through soft routing, together with a load-balancing loss for stable training. On the MHealth dataset, this design significantly improves macro-F1 with minimal parameter overhead, and the gains are concentrated mainly on static classes while preserving strong performance on dynamic activities. As a first arXiv disclosure, the current paper reports results on a single dataset only, with the goal of highlighting the core method and laying the groundwork for broader evaluation in future work.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="349e429be1b8" data-article-url="https://arxiv.org/abs/2606.04023" data-article-title="CodegenBench: LLM はアーキテクチャ全体で効率的なコードを記述できますか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04023" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04023" target="_blank" rel="noopener">CodegenBench: LLM はアーキテクチャ全体で効率的なコードを記述できますか?</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、汎用プログラミングや GPU アクセラレーション環境 (PyTorch、CUDA など) のコード生成タスクで広範囲に評価されてきましたが、多様なアーキテクチャにわたる CPU 指向のハイパフォーマンス コンピューティング (HPC) における LLM の機能はまだ十分に解明されていません。このギャップを埋めるために、x86_64、Sunway、Kunpeng の 3 つの異なるハードウェア プラットフォームにわたる効率的な並列コードの生成を評価するように設計された包括的なベンチマーク スイートである CodegenBench を紹介します。私たちのベンチマークは、基本的なベースラインを確立する 106 個の標準基本線形代数サブプログラム (BLAS) ルーチンと、独自のスーパーコンピューティング アーキテクチャ (LeetSunway および LeetKunpeng) のそれぞれに適合した 20 個の特殊な計算カーネルで構成されています。私たちの広範な評価により、最先端の LLM は x86_64 のようなユビキタス アーキテクチャ向けに最適化されたコードを生成できる一方で、公開ドキュメントやトレーニング データが限られたドメイン固有のアーキテクチャでは大幅なパフォーマンスの低下を示し、クロスプラットフォームの一般化における重大な制限が浮き彫りになったことが明らかになりました。さらに、実装の長さやタスクの複雑さなど、コードの品質に影響を与える要因を分析したところ、現在の LLM は、簡潔なコード スニペットを必要とする中程度に難しい問題に対して最も効果的であることが示されています。私たちは、LLM 主導の高性能コード生成における将来の研究を促進するために、データセットと自動評価インフラストラクチャをオープンソースにしています。リソースは https://anonymous.4open.science/r/CodegenBench-EDE1/ および https://anonymous.4open.science/r/CodegenBenchDataset-2551 で利用できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CodegenBench: Can LLMs Write Efficient Code Across Architectures?</p>
        <p class="orig-summary">While large language models (LLMs) have been extensively evaluated on code generation tasks for general-purpose programming and GPU-accelerated environments (e.g., PyTorch, CUDA), their capabilities in CPU-oriented high-performance computing (HPC) across diverse architectures remain underexplored. To bridge this gap, we introduce CodegenBench, a comprehensive benchmark suite designed to evaluate the generation of efficient parallel code across three distinct hardware platforms: x86_64, Sunway, and Kunpeng. Our benchmark comprises 106 standard Basic Linear Algebra Subprograms (BLAS) routines establishing a fundamental baseline, alongside 20 specialized computational kernels adapted for each of the unique supercomputing architectures (LeetSunway and LeetKunpeng). Our extensive evaluation reveals that while state-of-the-art LLMs can generate optimized code for ubiquitous architectures like x86_64, they exhibit significant performance degradation on domain-specific architectures with limited public documentation and training data, highlighting critical limitations in cross-platform generalization. Furthermore, our analysis of factors influencing code quality such as implementation length and task complexity indicates that current LLMs are most effective for moderately difficult problems requiring concise code snippets. We open-source our dataset and automated evaluation infrastructure to facilitate future research in LLM-driven high-performance code generation. The resources are available at https://anonymous.4open.science/r/CodegenBench-EDE1/ and https://anonymous.4open.science/r/CodegenBenchDataset-2551.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="810007fd6a19" data-article-url="https://arxiv.org/abs/2606.04025" data-article-title="ソフトウェア 4.0 のバイオミメティック アーキテクチャ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04025" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04025" target="_blank" rel="noopener">ソフトウェア 4.0 のバイオミメティック アーキテクチャ</a></h3>
      <p class="summary">主流のプログラミング パラダイムは、単一の人間の心がローカル マシンに命令を下すという過去の時代に最適化された実行モデルを継承しており、現代のシステムには歴史的なパス依存性という重荷が残されています。多次元のコネクショニスト知性をホストすることを強制されると、この脆弱なアセンブリ モデルは、確率論的および象徴的なインピーダンスの重大な不一致の重みで壊れてしまいます。最新の Software 3.x フレームワークは、ますます複雑化する外部ハーネスに大規模言語モデル (LLM) を収容することで不一致を補おうとしますが、この螺旋を描くアーキテクチャの複雑さは、静的コード アセンブリの維持コストを増大させるだけです。結果ではなく原因に対処するために、この論文ではソフトウェア 4.0、つまり人間の知能、ニューラル AI、およびネイティブに反射する記号基質のオートポイエーシス ヘテラルキーを紹介します。このパラダイムの下では、ソフトウェアは、解析される不活性なコーパスから、それ自体の構造的完全性をネイティブに検証、変更、進化させる自己調節代謝ネットワークに変換されます。このアーキテクチャを実現するプログラミング言語およびプラットフォームである Recognitive を紹介します。構造検証の負担を決定論的基板にオフロードすることにより、優れた推論時間スケーリング体制が解放されます。つまり、コネクショニスト計算が、構造制約を確率的にシミュレートするという破滅的な計算コストと財務コストではなく、完全に深い意味論的探索と仮説の横断に変換されます。従来の「ソフトウェア ファクトリー」の考え方を超えて、コネクショニストの意図を根付かせ、インテリジェンスの時代に完全に到達するために必要な理論的基礎を概説します。これは基本的なビジョンに関する文書です。型システムと操作セマンティクスの経験的評価と正式な仕様は、今後の作業の主題です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Biomimetic Architecture of Software 4.0</p>
        <p class="orig-summary">Dominant programming paradigms inherit an execution model optimised for a bygone era of a single human mind instructing a local machine, leaving contemporary systems burdened with historical path dependencies. When forced to host multi-dimensional, connectionist intelligence, this brittle assembly model fractures under the weight of a profound probabilistic-symbolic impedance mismatch. While contemporary Software 3.x frameworks attempt to patch the mismatch by encasing large language models (LLMs) in increasingly complicated external harnesses, this spiralling architectural complexity only compounds the carrying cost of static code assembly. To address the cause rather than the effects, this paper introduces Software 4.0 -- an autopoietic heterarchy of human intelligence, neural AI, and natively reflective symbolic substrate. Under this paradigm, software is transformed from an inert corpus to be parsed into a self-regulating metabolic network that natively verifies, modifies, and evolves its own structural integrity. We present Recognitive, the programming language and platform that materialises this architecture. By offloading the burden of structural verification to a deterministic substrate, it unlocks a superior inference-time scaling regime -- one where connectionist compute translates entirely into deep semantic exploration and hypothesis traversal rather than the ruinous computational and financial cost of simulating structural constraints probabilistically. Moving beyond the legacy &#x27;Software Factory&#x27; mindset, we outline the theoretical foundations required to ground connectionist intent and arrive fully in the intelligence age. This is a foundational vision paper; empirical evaluation and formal specification of the type system and operational semantics are the subject of future work.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3efe37356b21" data-article-url="https://arxiv.org/abs/2606.04027" data-article-title="MaskForge: 脱獄拡散のための構造認識型適応型攻撃 大規模言語モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04027" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04027" target="_blank" rel="noopener">MaskForge: 脱獄拡散のための構造認識型適応型攻撃 大規模言語モデル</a></h3>
      <p class="summary">拡散大規模言語モデル (dLLM) は、双方向コンテキストの下で部分的にマスクされたシーケンスを繰り返しノイズ除去することでテキストを生成し、自己回帰 LLM とは異なる安全面を公開します。マスク トークンはネイティブ入力であり、トークンは位置ではなく信頼度によってコミットされるため、監視対象のプレフィックスの埋め込みや外部を通じて有害なコンテンツが誘発される可能性があります。既存のジェイルブレイクは、このネイティブの埋め込み機能を見逃しているか、構造的な適応や蓄積された攻撃経験がほとんどなく、目標全体に均一に適用される多様性の低いマスクを含むテンプレートに依存しています。私たちは、増大する構造パターンのライブラリに対する最適化された検索として dLLM レッドチームをキャストする、完全にブラックボックスの適応型攻撃である MaskForge を提案します。 MaskForge は、成功した試行を再利用可能なスキーマに抽象化し、UCB バンディットで目標と互換性のあるパターンを選択し、現在のライブラリが失敗した場合にスコアラーに基づくフォールバックを呼び出します。成功した試行はパターン ライブラリに抽出され、目標全体にわたって経験を蓄積できるようになります。 5 つの公開 dLLM と 3 つのベンチマーク全体で、MaskForge は 79.3% の平均攻撃成功率を達成しており、最も強力な競合 dLLM ベースラインと比べて相対的に 17.6% 向上しています。成熟したパターン ライブラリは、更新なしで AdvBench にさらに転送され、88.2% の攻撃成功率と、最も強力な競合ベースラインと比較して 67% の相対的な改善を達成しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MaskForge: Structure-Aware Adaptive Attacks for Jailbreaking Diffusion Large Language Models</p>
        <p class="orig-summary">Diffusion large language models (dLLMs) generate text by iteratively denoising partially masked sequences under bidirectional context, exposing a safety surface distinct from autoregressive LLMs. Because mask tokens are native inputs and tokens are committed by confidence rather than position, harmful content can be induced through infilling and outside the monitored prefix. Existing jailbreaks either miss this native infill capability or rely on low-diversity mask-bearing templates applied uniformly across goals, with little structural adaptation or accumulated attack experience. We propose MaskForge, a fully black-box adaptive attack that casts dLLM red-teaming as optimized search over a growing library of structural patterns. MaskForge abstracts successful attempts into reusable schemas, selects goal-compatible patterns with a UCB bandit, and invokes a scorer-guided fallback when the current library fails. Successful attempts are distilled back into the pattern library, enabling experience to accumulate across goals. Across five public dLLMs and three benchmarks, MaskForge achieves an average attack success rate of 79.3%, a 17.6% relative improvement over the strongest competing dLLM baseline. The matured pattern library further transfers to AdvBench without any updates, achieving a 88.2% attack success rate and a 67% relative improvement over the strongest competing baseline.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dcd3215d3a79" data-article-url="https://arxiv.org/abs/2606.04029" data-article-title="立場: 導入された強化学習は継続的であるべきです" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04029" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04029" target="_blank" rel="noopener">立場: 導入された強化学習は継続的であるべきです</a></h3>
      <p class="summary">強化学習 (RL) はますます注目を集めており、実世界のユースケースで採用されています。これらのシステムのほとんどは、訓練してから修正するというパラダイムに従っており、訓練されたエージェントは、パフォーマンスが低下して再訓練が必要になるまで、世界と対話しながら学習しません。この意見書では、最適化ができないにもかかわらず評価報酬シグナルを受け取るエージェントをデプロイすることは、本質的に継続的な RL 問題であると主張します。私たちは、終わりのない学習を必要とする展開後の非定常性の 4 つの原因を特定し、最適に展開されたエージェントが適応をやめない理由を強調します。私たちは現実世界での継続的な RL の成功例を分析し、現在のトレーニングして修正するパラダイムから脱却するための利点と対策をコミュニティに提示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Position: Deployed Reinforcement Learning should be Continual</p>
        <p class="orig-summary">Reinforcement Learning (RL) has received increasing attention and adoption in real-world use cases. Most of these systems follow a train-then-fix paradigm, where trained agents do not learn while interacting with the world until performance degrades and retraining becomes necessary. In this position paper, we argue that deploying an agent that is incapable of optimality, but receives an evaluative reward signal, is inherently a continual RL problem. We identify four sources of non-stationarity after deployment that necessitate never-ending learning, and highlight why the best deployed agents never stop adapting. We analyze successful examples of continual RL in the real world, and present the community with the advantages and measures to move away from the current train-then-fix paradigm.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb2e11670630" data-article-url="https://arxiv.org/abs/2606.04032" data-article-title="トランスフォーマーには 3 つの投影が必要ですか? QKV バリアントの体系的な研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04032" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04032" target="_blank" rel="noopener">トランスフォーマーには 3 つの投影が必要ですか? QKV バリアントの体系的な研究</a></h3>
      <p class="summary">トランスフォーマーは、クエリ、キー、値 (QKV) アテンションの定式化が中心的な役割を果たし、さまざまな AI タスクの標準ソリューションとなっています。しかし、これら 3 つの予測の個々の寄与と、一部を省略した場合の影響については、依然として十分に理解されていません。 3 つの射影共有制約を系統的に評価します。a) Q-K=V (共有キーと値)、b) Q=K-V (共有クエリキー)、c) Q=K=V (単一射影)。最後の 2 つのバリアントは、対称的なアテンション マップを生成します。これに対処するために、2D 位置エンコーディングによる非対称の注意も調査します。合成タスク、ビジョン (MNIST、CIFAR、TinyImageNet、異常)、言語モデリング (10B トークン上の 300M および 1.2B パラメーター モデル) にわたる実験を通じて、当社のトランスフォーマーは QKV トランスフォーマーと同等か、場合によってはそれよりも優れたパフォーマンスを発揮することがわかりました。言語モデリングでは、Q-K=V 射影共有により、わずか 3.1% のパープレキシティ低下で 50% の KV キャッシュ削減が達成されます。重要なのは、射影共有はヘッド共有 (GQA/MQA) を補完するものです。Q-K=V と GQA-4 を組み合わせると 87.5% のキャッシュ削減が得られ、Q-K=V + MQA では 96.9% が達成され、実用的なオンデバイス推論が可能になります。キーと値は同様の表現空間を占有することができ、注意は低ランク領域で動作するため、Q-K=V は品質を維持しますが、Q=K-V は注意の方向性を壊すことを示します。私たちの結果は、投影共有を、直接的で定量化可能な推論メモリの利点を備えた注意力の結びつきの未解明な例として体系的に特徴付けており、特にエッジ展開に価値があります。コードは https://github.com/anusamadan02/Do-Transformers-Need-3-Projections で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Do Transformers Need Three Projections? Systematic Study of QKV Variants</p>
        <p class="orig-summary">Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c33571ef1c51" data-article-url="https://arxiv.org/abs/2606.04035" data-article-title="予測できない安全性: ドメイン依存のコンプライアンスとオープンウェイト LLM の透明性ギャップ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/copilot/" data-entity="copilot">Copilot</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04035" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04035" target="_blank" rel="noopener">予測できない安全性: ドメイン依存のコンプライアンスとオープンウェイト LLM の透明性ギャップ</a></h3>
      <p class="summary">我々は、オープンウェイト LLM におけるドメイン依存の安全行動の体系的な研究を紹介します。7 つの倫理ドメインにわたる 7 つの標準化された実験で、デュアルジャッジ検証による 4,200 件のインタラクションで 5 つのモデル (12B ～ 70B) をテストしました。二重条件の方法論を使用し、各シナリオを分析フレーム (危害の特定) と運用フレーム (危害の実行を支援) の両方でテストしたところ、コンプライアンス率は 14.7% (人身売買) から 85.7% (監視設計) まで変化しており、重複しないクラスター ブートストラップの 95% CI では 71 パーセント ポイントの範囲であることがわかりました。信頼できる展開には予測可能な安全動作が必要ですが、コンプライアンスは状況に大きく依存していることがわかりました。同じモデル (Mistral Nemo 12B) はリクエストの 100% で監視設計を提供しますが、トラフィックの支援は 26.7% のみです。この予測不可能性は、導入担当者にとって不透明です。技術的なフレーミング バイパスでは、拒否しきい値が変化したという外部からの信号なしに、エンジニアリング上の問題として再構成された有害な要求が安全トレーニングを無効にします。ドメイン内の異質性は 84.4pp に達しており、ドメイン レベルでも安全動作を予測できないことを意味します。 GitHub Copilot CLI デプロイ済み製品サーフェスを介してアクセスされた 5 つのフロンティア クローズド モデル (GPT-4.1/5.2、Claude Haiku/Sonnet/Opus 4.x、n=4,163 回答) での複製では、同じドメイン階層化が再現され、絶対レベルで減衰されていますが形状は同一であり、2 つの低コード化ドメイン (科学詐欺、監視) が再び最も寛容です。これらの結果は、現在の安全メカニズムには、信頼できる AI の導入に必要な透明性と一貫性が欠けていることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Unpredictable Safety: Domain-Dependent Compliance and the Transparency Gap in Open-Weight LLMs</p>
        <p class="orig-summary">We present a systematic study of domain-dependent safety behavior in open-weight LLMs: 7 standardized experiments across 7 ethical domains, testing 5 models (12B--70B) in 4,200 interactions with dual-judge validation. Using a dual-condition methodology, each scenario tested in both an analytical framing (identify the harm) and an operational framing (help commit the harm), we find compliance rates vary from 14.7% (human trafficking) to 85.7% (surveillance design), a 71-percentage-point span with non-overlapping cluster-bootstrapped 95% CIs. Trustworthy deployment requires predictable safety behavior, yet we find compliance is highly context-dependent: the same model (Mistral Nemo 12B) provides surveillance designs in 100% of requests but assists with trafficking in only 26.7%. This unpredictability is opaque to deployers: the technical framing bypass, where harmful requests reframed as engineering problems override safety training without any external signal that refusal thresholds have shifted. Within-domain heterogeneity reaches 84.4pp, meaning safety behavior cannot be predicted even at the domain level. A replication on five frontier closed models (GPT-4.1/5.2, Claude Haiku/Sonnet/Opus 4.x; n=4,163 responses) accessed via the GitHub Copilot CLI deployed-product surface reproduces the same domain stratification, attenuated in absolute level but identical in shape, with the two low-codification domains (science fraud, surveillance) again the most permissive. These results show that current safety mechanisms lack the transparency and consistency required for trustworthy AI deployment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e67d86b40eff" data-article-url="https://arxiv.org/abs/2606.04039" data-article-title="静的な事前確率を超えて: 大規模なアリのコロニー最適化のための動的ニューラル ガイダンス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04039" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04039" target="_blank" rel="noopener">静的な事前確率を超えて: 大規模なアリのコロニー最適化のための動的ニューラル ガイダンス</a></h3>
      <p class="summary">神経誘導型アリコロニー最適化 (ACO) は、トレーニングと推論の根本的な不整合に悩まされています。ポリシーは通常、静的な事前分布 (ヒートマップなど) を生成するようにトレーニングされますが、反復的な長期にわたる検索プロセスをガイドするために展開されます。本稿では、フェロモン分布と既存のソリューションを定期的に観察することで動的神経誘導を実現する新しいフレームワークである DyNACO を紹介します。 DyNACO を大規模に扱いやすくするために、私たちはこのポリシーを摂動ベースの ACO バックエンドと、有効性と安定したクレジット割り当てを共同で保証する範囲制限付きの改良メカニズムと組み合わせます。 TSP では、DyNACO は 100,000 ノード インスタンスにスケールし、ニューラル ベースラインを上回るパフォーマンスを示し、多くの場合、ガイドなしソルバーと比較して総実行時間を短縮します。キャパシティを意識したバックエンドを介して DyNACO を CVRP に拡張し、1% 未満のニューラル オーバーヘッドでガイドなしのベースラインを一貫して改善します。さらに、モデルの一般化機能を検証し、動的ガイダンスが静的事前ガイダンスよりも優れている理由を解明する詳細な分析を提供します。私たちの研究は、学習誘導型の最適化におけるニューラル トレーニングと反復検索ダイナミクスを調整する必要性を強調しています。コードは https://github.com/shoraaa/DyNACO で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond Static Priors: Dynamic Neural Guidance for Large-Scale Ant Colony Optimization</p>
        <p class="orig-summary">Neural-guided Ant Colony Optimization (ACO) suffers from a fundamental training-inference misalignment: policies are typically trained to generate static priors (e.g., heatmaps), yet deployed to guide iterative, long-horizon search processes. In this paper, we present DyNACO, a novel framework that achieves dynamic neural guidance by periodically observing the pheromone distribution and the incumbent solution. To make DyNACO tractable at scale, we pair the policy with a perturbation-based ACO backend and a scope-restricted refinement mechanism that jointly ensure efficacy and stable credit assignment. On TSP, DyNACO scales to 100,000-node instances and outperforms neural baselines while often reducing total runtime compared to the unguided solver. We extend DyNACO to CVRP via a capacity-aware backend, consistently improving the unguided baseline with less than 1% neural overhead. We further provide in-depth analysis validating the model&#x27;s generalization capabilities and elucidating why dynamic guidance outperforms static priors. Our work underscores the necessity of aligning neural training with iterative search dynamics in learning-guided optimization. The code is available at https://github.com/shoraaa/DyNACO.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="41b2ada03bd8" data-article-url="https://arxiv.org/abs/2606.04040" data-article-title="EEGから音楽への再構成のためのチャネル指向の設計" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04040" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04040" target="_blank" rel="noopener">EEGから音楽への再構成のためのチャネル指向の設計</a></h3>
      <p class="summary">ブレイン コンピューター インターフェイスは、神経信号から自然な刺激を解読することを目的としていますが、これまでの進歩のほとんどは視覚と言語に焦点を当てています。この記事では、信号が弱く、分散しており、ノイズやチャネル変動の影響を非常に受けやすい、より挑戦的ですがあまり研究されていない設定である脳波から音楽への再構成について研究します。私たちの中心的な発見は、初期のチャネルミキシングが弱いが識別可能なEEG信号を破壊するということです。これに対処するために、3 つの主要なコンポーネントを備えたチャネル指向の設計を提案します。具体的には、チャネルごとのトークン化は、各電極を明示的なトークンとして扱い、空間的に局所化された神経証拠を保持します。チャネルごとのマルチビュー自己蒸留は、時間的クロップとランダムなチャネル サブセット全体で一貫性を強制して、ロバストで分散された表現を学習します。また、チャネルごとのデータ拡張では、構造化チャネル ドロップアウトを導入して、ノイズ、アーティファクト、電極の欠落に対する不変性を改善します。これらのコンポーネントを組み合わせることで、弱いながらも有益な信号がチャネル間で保存され、セマンティックな音楽表現空間への安定した調整が可能になります。このチャネル指向の設計を、EEG から音楽への再構成のためのエンコーディング、アライメント、デコーディングのパイプライン内に統合します。理論的には、チャネルレベルの構造を保存することがアライメントの改善につながる場合を特徴付けます。経験的に、さまざまな最先端のベースラインと比較し、一貫した大幅なパフォーマンスの向上を実証しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Channel-Oriented Design for EEG-to-Music Reconstruction</p>
        <p class="orig-summary">Brain-computer interfaces aim to decode naturalistic stimuli from neural signals, yet most progress to date has focused on vision and language. In this article, we study a more challenging but far less explored setting, EEG-to-music reconstruction, where signals are weak, distributed, and highly susceptible to noise and channel variability. Our central finding is that early channel mixing destroys weak but discriminative EEG signals. To address this, we propose a channel-oriented design with three key components. Specifically, channel-wise tokenization treats each electrode as an explicit token to retain spatially localized neural evidence, channel-wise multi-view self-distillation enforces consistency across temporal crops and random channel subsets to learn robust and distributed representations, and channel-wise data augmentation introduces structured channel dropout to improve invariance to noise, artifacts, and missing electrodes. Together, these components preserve weak yet informative signals across channels and enable stable alignment to a semantic music representation space. We integrate this channel-oriented design within an encoding-alignment-decoding pipeline for EEG-to-music reconstruction. Theoretically, we characterize when preserving channel-level structure leads to improved alignment. Empirically, we compare with a range of state-of-the-art baselines and demonstrate consistent and significant performance gains.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0590b1000ce5" data-article-url="https://arxiv.org/abs/2606.04045" data-article-title="教師あり学習におけるベイズ十分表現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04045" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04045" target="_blank" rel="noopener">教師あり学習におけるベイズ十分表現</a></h3>
      <p class="summary">表現学習は、予測に関連する入力内の情報を保存するものとしてよく説明されます。この研究では、固定された教師あり決定問題に対する関連性が何を意味するかを問います。予測ヘッドがそれを使用してベイズ最適アクション ルールを実装できる場合、その表現は結合分布と損失に対して十分なベイズであると定義されます。これにより、ターゲット情報が損失に依存するようになります。ほぼ確実に一意のベイズ アクションの場合、関連するオブジェクトはベイズ商であり、同じベイズ最適アクションを必要とする入力を識別します。この商を洗練する場合は表現で十分であり、情報的に同等である場合はベイズ最小表現で十分です。このフレームワークは自然に特性の導出につながります。ゼロ 1 損失にはベイズ クラスが必要で、二乗損失には条件付き平均が必要です。ブライアー損失にはバイナリ予測の条件付き確率が必要です。また、対数損失または厳密に適切なスコアリングによって予測分布が決まります。制御された有限実験、学習されたニューラル ボトルネック実験、および実データの iNaturalist 分類学的洗練実験は、十分性、最小限性、および保持される不要な情報の区別を示します。固定教師付き問題の場合、分布と損失によってベイズ アクションが決まり、ベイズ アクションによって商が決まり、商によってベイズ最適予測に必要な最小限の情報が決まります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Bayes-Sufficient Representations in Supervised Learning</p>
        <p class="orig-summary">Representation learning is often described as preserving the information in an input that is relevant for prediction. This work asks what relevance means for a fixed supervised decision problem. A representation is defined to be Bayes-sufficient for a joint distribution and loss if some prediction head can use it to implement a Bayes-optimal action rule. This makes the target information loss-dependent. In the almost-surely unique Bayes-action case, the relevant object is a Bayes quotient, which identifies inputs that require the same Bayes-optimal action. A representation is sufficient when it refines this quotient, and Bayes-minimal when it is informationally equivalent to it. The framework connects naturally to property elicitation: zero-one loss requires the Bayes class, squared loss the conditional mean, Brier loss the conditional probability in binary prediction, and log loss or strictly proper scoring rules the predictive distribution. Controlled finite experiments, learned neural bottleneck experiments, and a real-data iNaturalist taxonomic refinement experiment illustrate the distinction between sufficiency, minimality, and retained non-required information. For a fixed supervised problem, the distribution and the loss determine the Bayes action, the Bayes action determines the quotient, and the quotient determines the minimal information required for Bayes-optimal prediction.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="53c375e8a07d" data-article-url="https://arxiv.org/abs/2606.04046" data-article-title="現場に飛び込む: フォーカス プランの生成を通じて、視覚と言語の意思決定における知覚のボトルネックを打破する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04046" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04046" target="_blank" rel="noopener">現場に飛び込む: フォーカス プランの生成を通じて、視覚と言語の意思決定における知覚のボトルネックを打破する</a></h3>
      <p class="summary">ロボット操作やナビゲーションなどの身体化された視覚言語による意思決定タスクでは、視覚言語モデルおよび視覚言語アクション モデル (VLM および VLA) は、さまざまな利点を持つ強力なツールです。VLM は長期計画に優れ、VLA は事後制御に優れています。ただし、モデルのパフォーマンスは、同じ知覚のボトルネックによって制限されます。モデルがタスクに関連するオブジェクトと気を散らすものとを区別できないために幻覚が発生します。原則として、無関係なものを除外しながら、正確に識別して重要なオブジェクトに焦点を当てることが、この制限を打ち破る鍵となります。簡単な解決策は、重要なオブジェクトに直接注目するというワンステップの焦点です。ただし、効果的に焦点を合わせるには本質的にシーンを深く理解する必要があるため、このアプローチは効果的ではないことがわかります。この目的を達成するために、我々は、VLM の長期計画能力を活​​用した、粗いから細かいまでのフォーカス プラン生成方法である SceneDiver を提案します。この方法では、最初に全体的なシーン グラフを構築して初期理解を確立し、次に認識、理解、分析の反復サイクルを通じてタスクをより単純なサブ問題に徐々に分解します。反応的な制御を可能にするために、意図的なフォーカス機能を VLA に抽出するための軽量アダプターも設計しました。標準の組み込み AI ベンチマークでの評価により、私たちの方法は、高速実行を必要とするタスクの計算効率を維持しながら、VLM と VLA の両方で幻視を大幅に軽減することが確認されています。コードとデータは https://future-item.github.io/SceneDiver でリリースされています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Dive into the Scene: Breaking the Perceptual Bottleneck in Vision-Language Decision Making via Focus Plan Generation</p>
        <p class="orig-summary">In embodied vision-language decision making tasks such as robotic manipulation and navigation, Vision-Language and Vision-Language-Action Models (VLMs &amp; VLAs) are powerful tools with different benefits: VLMs are better at long-term planning, while VLAs are better at reactive control. However, their performance is limited by the same perceptual bottleneck: visual hallucinations arise due to the models&#x27; inability to distinguish task-relevant objects from distractors. In principle, accurate identification and focus on critical objects while filtering out irrelevant ones is the key to break this limitation. A straightforward solution is one-step focus: directly attending to essential objects. However, this approach proves ineffective because effective focus inherently requires deep scene understanding. To this end, we propose SceneDiver, a coarse-to-fine focus plan generation method for VLMs leveraging their long-term planning abilities, that first constructs a holistic scene graph to establish initial comprehension, then progressively decomposes the task into simpler sub-problems through an iterative cycle of recognition, understanding, and analysis. To enable reactive control, we also design a lightweight adapter for distilling the deliberate focus ability into VLAs. Evaluations on standard embodied AI benchmarks confirm that our method substantially reduces visual hallucinations for both VLMs and VLAs, while preserving computational efficiency in tasks requiring fast execution. Our code and data are released at: https://future-item.github.io/SceneDiver.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8597e00dee35" data-article-url="https://arxiv.org/abs/2606.04048" data-article-title="ゲートデルタネットワークの大規模な機能学習のロックを解除する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04048" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04048" target="_blank" rel="noopener">ゲートデルタネットワークの大規模な機能学習のロックを解除する</a></h3>
      <p class="summary">大規模言語モデルのトレーニングとスケーリングには膨大な計算リソースが必要であり、効率的な二次二次アーキテクチャと原則に基づいたハイパーパラメータ調整方法の両方が動機付けられます。 Maximal Update Parametrization ($\mu$P) により、標準の Transformer のゼロショット ハイパーパラメータ転送が可能になりましたが、線形モデル、特に構造化された状態遷移や複雑なアーキテクチャを持つモデルへの拡張は、ほとんど未開発のままです。フォワード パス、ゲート メカニズム、およびリカレント ステート ダイナミクスを通じて座標サイズの推定値を厳密に伝播することにより、ゲート デルタ ネットワークのスケーリング ルールを導き出します。言語モデルの事前トレーニングに関する実験により、私たちの構成では AdamW と SGD の両方のモデル幅にわたって安定した学習率の移行が可能である一方、標準のパラメータ化では移行できないことが確認され、分析の正確さと実用性が検証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Unlocking Feature Learning in Gated Delta Networks at Scale</p>
        <p class="orig-summary">Training and scaling Large Language Models demand enormous computational resources, motivating both efficient sub-quadratic architectures and principled hyperparameter tuning methods. While the Maximal Update Parametrization ($\mu$P) has enabled zero-shot hyperparameter transfer for standard Transformers, its extension to linear models, particularly those with structured state transitions and complicated architectures, remains largely unexplored. By rigorously propagating coordinate-size estimates through the forward pass, gating mechanisms, and recurrent state dynamics, we derive the scaling rules for Gated Delta Network. Experiments on language-model pre-training confirm that our configurations enable stable learning-rate transfer across model widths under both AdamW and SGD, whereas standard parametrization fails to transfer, validating the correctness and practical utility of our analysis.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="41effdaf4b09" data-article-url="https://arxiv.org/abs/2606.04050" data-article-title="LiftQuant: 次元リフティングと投影による連続ビット幅 LLM" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04050" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04050" target="_blank" rel="noopener">LiftQuant: 次元リフティングと投影による連続ビット幅 LLM</a></h3>
      <p class="summary">既存の量子化手法は基本的に、厳格な整数ベースのビット幅 (例: 2、3 ビット) によって制限されており、その結果、大規模言語モデルを特定のメモリ バジェットに最適に適合させることができない「デプロイメント ギャップ」が生じます。このギャップを埋めるために、真のパレート最適デプロイメントのための継続的なビット幅制御を可能にする新しいフレームワークである LiftQuant を紹介します。中心となるイノベーションは、「リフト ゼン プロジェクト」メカニズムです。高次元の「リフトされた」空間から単純な 1 ビット格子を投影することで、低次元の重みベクトルを近似します。重要なことに、有効なビット幅は、元の次元に対するリフト次元の比率によって単純に決定され、次元が柔軟な構造パラメータであるため、ビット幅を準連続的に調整できます。この投影は、構造化されているが不均一なコードブックを生成し、ベクトル量子化 (VQ) の表現力を捉えます。 VQ、LiftQuant のデコード パスは線形変換と 1 ビットの均一量子化器のみに依存しており、ハードウェアに優しい性質を維持しています。LiftQuant を使用すると、70B LLM を 24GB GPU に正確に適合させることができ、そのパフォーマンスは同じデバイスに搭載されている最先端の 2 ビット モデルを大幅に上回ります。 https://github.com/Heliulu/LiftQuant。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection</p>
        <p class="orig-summary">Existing quantization methods are fundamentally limited by rigid, integer-based bit-widths (e.g., 2, 3-bit), resulting in a ``deployment gap&quot; where Large Language Models cannot be optimally fitted to specific memory budgets. To bridge this gap, we introduce LiftQuant, a novel framework that enables continuous bit-width control for true Pareto-optimal deployment. The core innovation is a ``lift-then-project&quot; mechanism which approximates low-dimensional weight vectors by projecting a simple 1-bit lattice from a higher-dimensional ``lifted&quot; space. Crucially, the effective bit-width is determined simply by the ratio of the lifted dimension to the original dimension, which allows the bit-width to be tuned quasi-continuous as the dimension is a flexible structural parameter. This projection generates a structured yet non-uniform codebook, capturing the expressive power of Vector Quantization (VQ). While beneficial over VQ, LiftQuant&#x27;s decoding path relies solely on linear transformations and 1-bit uniform quantizers, retaining hardware-friendly nature. This flexibility is transformative: LiftQuant enables a 70B LLM to be compressed to 2.4 bits to precisely fit a 24GB GPU, where its performance significantly surpasses state-of-the-art 2-bit models fitted on the same device. Our code and ckpt is available at https://github.com/Heliulu/LiftQuant.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b9bac898189a" data-article-url="https://arxiv.org/abs/2606.04051" data-article-title="RUBAS: エージェントの安全のためのルーブリックベースの強化学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04051" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04051" target="_blank" rel="noopener">RUBAS: エージェントの安全のためのルーブリックベースの強化学習</a></h3>
      <p class="summary">LLM がツール対応エージェントに進化すると、単純なテキスト生成ではなく現実世界の実行に関連した新しいクラスの安全性の課題が生じます。既存の調整方法は、粗い拒否信号や静的な監視に依存することが多く、さまざまなエージェントのリスクにわたって安全性と有用なツールの実行のバランスをとることが困難です。エージェントの安全性のためのルーブリックベースの強化学習フレームワークである RUBAS を紹介します。 RUBAS は、エージェントの動作をツール使用の安全性、引数の安全性、応答の安全性、有用性の 4 つの次元に分解します。これらの構造化されたルーブリックは、エージェントの完全な軌跡にわたってきめ細かく解釈可能な報酬を提供し、タスクの完了を維持しながら安全なツールの使用を最適化する強化学習を可能にします。複数のエージェントの安全性ベンチマークとモデルにわたる広範な実験により、RUBAS が標準的なアライメントベースラインよりも安全性を向上させ、ツールに基づく幻覚を軽減し、競争力のある実用性を維持することが示されています。私たちの結果は、多次元ルーブリック報酬が、安全性が重要なツール使用環境において LLM エージェントを調整するための効果的なトレーニング信号を提供することを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">RUBAS: Rubric-Based Reinforcement Learning for Agent Safety</p>
        <p class="orig-summary">The evolution of LLMs into tool-enabled agents creates a new class of safety challenges associated with real-world execution rather than simple text generation. Existing alignment methods often rely on coarse refusal signals or static supervision, making it difficult to balance safety with useful tool execution across diverse agentic risks. We introduce RUBAS, a rubric-based reinforcement learning framework for agent safety. RUBAS decomposes agent behavior into four dimensions: tool-use safety, argument safety, response safety, and helpfulness. These structured rubrics provide fine-grained and interpretable rewards over complete agent trajectories, enabling reinforcement learning to optimize safe tool use while preserving task completion. Extensive experiments across multiple agent safety benchmarks and models show that RUBAS improves safety over standard alignment baselines, reduces tool-grounded hallucinations, and maintains competitive utility. Our results suggest that multi-dimensional rubric rewards provide an effective training signal for aligning LLM agents in safety-critical tool-use settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9d229afd1054" data-article-url="https://arxiv.org/abs/2606.04053" data-article-title="ブールタスク代数におけるタスク構成の目標設定の特徴付け" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04053" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04053" target="_blank" rel="noopener">ブールタスク代数におけるタスク構成の目標設定の特徴付け</a></h3>
      <p class="summary">ブール タスク代数 (BTA) は、目標達成タスクにブール演算を装備することにより、強化学習におけるゼロショット タスク構成のための原則的なフレームワークを提供します。構造的な仮定を再考し、最適な拡張 Q 値関数の空間における崩壊を定式化します。決定論的 MDP では、そのような関数はすべて普遍的で空のタスクによって完全に決定されます。これにより、元の BTA 定式化で提案された基本タスクの対数セットが冗長になります。この観察に基づいて、目標セットに対して論理演算を実行し、普遍的および空の値関数からスライスを選択することによって合成された値関数を再構築する、目標セットベースの合成方法を導入します。これにより、ポリシーのパフォーマンスを維持しながら、標準 BTA の学習コストが削減され、BTA とスキル マシンの両方の作成時間が短縮されます。表形式、視覚的、関数近似、および連続制御の各ドメインにわたる実験では、追加の基本タスクを学習してもパフォーマンスが向上しないことが示されています。最後に、確率的設定を研究し、この崩壊が成り立つ必要はないこと、つまり、最適な構成には、目標の数において指数関数的に多くの政策を考慮する必要がある可能性があることを示す反例を提供します。コードは https://github.com/EduardoTerres/bta_paper で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Goal-Set Characterization of Task Composition in the Boolean Task Algebra</p>
        <p class="orig-summary">The Boolean Task Algebra (BTA) provides a principled framework for zero-shot task composition in reinforcement learning by equipping goal-reaching tasks with Boolean operations. We revisit its structural assumptions and formalize a collapse in the space of optimal extended Q-value functions: in deterministic MDPs, every such function is fully determined by the universal and empty tasks. This makes the logarithmic set of base tasks proposed in the original BTA formulation redundant. Building on this observation, we introduce a goal-set-based composition method that performs logical operations on goal sets and reconstructs composed value functions by selecting slices from the universal and empty value functions. This reduces learning costs for standard BTA and reduces composition time for both BTA and Skill Machines, while preserving policy performance. Experiments across tabular, visual, function-approximation, and continuous-control domains show that learning additional base tasks does not yield better performance. Finally, we study the stochastic setting and provide a counterexample showing that this collapse need not hold, that is, optimal composition may require accounting for exponentially many policies in the number of goals. Code is available at https://github.com/EduardoTerres/bta_paper.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="96b0a7a94b52" data-article-url="https://arxiv.org/abs/2606.04057" data-article-title="目に見えない宝くじ: LLM コード生成におけるアルゴリズムの選択を微妙な手がかりがどのように左右するか" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04057" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04057" target="_blank" rel="noopener">目に見えない宝くじ: LLM コード生成におけるアルゴリズムの選択を微妙な手がかりがどのように左右するか</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、多くの場合、複数の有効なアルゴリズム ソリューションを含むタスク向けに、実質的な運用コードを生成するようになりました。タスク仕様外の文脈上の単語やメタデータを意味する付随的なプロンプト キューは、すべての出力が同じテストに合格した場合でも、モデルが選択するアルゴリズムを制御できます。即時感度は、出力品質を向上させるツールとしてよく研究されています。ここで、出力ポリシーとは、固定の正確性の下でのアルゴリズムの選択を意味します。私たちは、アルゴリズムステアリングをアルゴリズムファミリー分布におけるキュー誘発のシフトとして定義し、11のタスク、19のキュータイプ（18のチャネルと、タイポグラフィーと句読点を変更しながら意味を保持するメモ化の意味対表面のアブレーション）、および15のモデル構成にわたって46,535の制御された実験を実行しました。我々は、レート制限などの応用タスクを含む、キューのセマンティクスとほぼ一致する、アルゴリズム ファミリの分布における大きく系統的な変化 (最大 100 pp) を発見しました。アルゴリズムの直接命名は、私たちがテストした最も信頼性の高い軽減策です。したがって、偶然のコンテキストによって、パフォーマンス、セキュリティ、および保守性をめぐる「目に見えない宝くじ」が作成されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Invisible Lottery: How Subtle Cues Steer Algorithm Choice in LLM Code Generation</p>
        <p class="orig-summary">Large language models (LLMs) now generate substantial production code, often for tasks with multiple valid algorithmic solutions. Incidental prompt cues, meaning contextual words or metadata outside the task specification, can steer which algorithm the model selects, even when all outputs pass the same tests. Prompt sensitivity is well studied as a tool to improve output quality. Here, output policy means algorithm choice under fixed correctness. We define algorithm steering as cue-induced shifts in algorithm-family distributions and run 46,535 controlled experiments across 11 tasks, 19 cue types (18 channels plus a memoization semantic-vs-surface ablation that preserves meaning while changing typography and punctuation), and 15 model configurations. We find large, systematic shifts in algorithm-family distributions (up to 100 pp), largely consistent with cue semantics, including in applied tasks such as rate limiting. Direct algorithm naming is the most reliable mitigation we tested. Accidental context therefore creates an &quot;invisible lottery&quot; over performance, security, and maintainability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b6ef3978109b" data-article-url="https://arxiv.org/abs/2606.04058" data-article-title="ミュオンのスペクトルスケーリングの法則" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04058" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04058" target="_blank" rel="noopener">ミュオンのスペクトルスケーリングの法則</a></h3>
      <p class="summary">直交正規化更新ルールは、大規模な言語モデルをトレーニングするためのオプティマイザーの主要な選択肢として急速に普及しており、最近のオープンソースの最先端モデルでは Muon が採用されています。これらの更新を扱いやすくするために、Muon は Newton-Schulz (NS) 反復を使用して正規直交化を実行します。 NS は近似値にすぎないため、小さな特異値を持つ方向は直交正規化できません。 Muon では、NS は各ステップで運動量行列に適用されますが、これらの運動量行列の特異値スペクトルがトレーニング中にどのように動作するか、またはその動作がモデル サイズに応じてどのように変化するかについてはほとんどわかっていません。我々は、この問題に関する最初の体系的な研究を紹介します。 77M から 2.8B パラメーターの範囲のモデルで層全体の運動量バッファーの特異値分位数を追跡すると、一貫した状況が観察されます。短いバーンインの後、分位数は層のタイプとモデル サイズによって決定される値で安定します。これらの安定化値は、層に依存する指数を備えた、モデル サイズにおける非常にきれいなべき乗則に従います。中深度から後期までの層は、モデル サイズ $M$ (約 $M^{-0.25}$) で非常に穏やかにスケーリングするため、学術規模で使用される標準の 5 ステップ NS 構成は、より大きなスケールでも引き続き直交正規化します。ただし、後期層の一部はより積極的にスケールし ($M^{-0.96}$ まで)、より多くの NS 反復またはより適切に調整された係数を使用しない限り、フロンティア スケールで NS 失敗領域に陥ります。 NS の反復は大規模になると計算コストが高くなります。私たちの法律は、実務者に、重要な方向を直交正規化する最小の NS 構成を選択するための原則に基づいたレイヤー認識のレシピを提供します。つまり、更新の品質を犠牲にすることなく不必要な計算を回避します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Spectral Scaling Laws of Muon</p>
        <p class="orig-summary">Orthonormalized update rules have rapidly become a leading choice of optimizer for training large language models, with recent open-source state-of-the-art models adopting Muon. To keep these updates tractable, Muon performs the orthonormalization with the Newton--Schulz (NS) iteration. Since NS is only approximate, directions with small singular values fail to be orthonormalized. In Muon, NS is applied to the momentum matrix at every step, yet little is known about how the singular value spectrum of these momentum matrices behaves during training, or how that behavior changes with model size. We present the first systematic study of this question. Tracking singular value quantiles of the momentum buffer across layers in models ranging from 77M to 2.8B parameters, we observe a consistent picture: after a short burn-in, the quantiles stabilize at a value determined by the layer type and model size. These stabilization values follow remarkably clean power laws in model size, with layer-dependent exponents. Layers up to mid-late depth scale very mildly with model size $M$ (around $M^{-0.25}$), so the standard 5-step NS configuration used at academic scale will continue to orthonormalize them at much larger scales. Some of the late layers, however, scale much more aggressively (up to $M^{-0.96}$) and will fall into the NS failure regime at frontier scale unless one uses more NS iterations or better-tuned coefficients. NS iterations are computationally expensive at scale; our laws give practitioners a principled, layer-aware recipe for choosing the minimum NS configuration that still orthonormalizes the directions that matter -- avoiding unnecessary computation without sacrificing update quality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="71f6567dee99" data-article-url="https://arxiv.org/abs/2606.04063" data-article-title="アーキテクチャと量子化の選択を組み合わせて最適化する LLM 圧縮" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04063" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04063" target="_blank" rel="noopener">アーキテクチャと量子化の選択を組み合わせて最適化する LLM 圧縮</a></h3>
      <p class="summary">大規模言語モデル (LLM) のデプロイは、大量のメモリと計算要件があるため、困難です。一部の方法では、小規模または極小の言語モデルを最初から開発することでこの問題に対処しますが、これらのアプローチでは広範な GPU トレーニングが必要です。エッジデバイス用に事前トレーニングされた LLM を圧縮することは、魅力的な代替手段を提供します。プルーニングと量子化を超えて、ニューラル アーキテクチャ検索 (NAS) は効果的な圧縮を可能にしますが、従来の NAS アプローチでは多くの場合、検索スペースが制限され、アーキテクチャが量子化から分離されていました。私たちは、空間全体を探索し、LLM の線形層の混合精度量子化と並行してアーキテクチャ構成を共同で最適化する微分可能な NAS フレームワークを導入します。実験では、精度とレイテンシの優れたトレードオフが実証されています。当社のモデルは、同等の精度で逐次 NAS を経て量子化するベースラインよりも最大 1.4 倍高速な推論、または同等のレイテンシで 7 つの推論タスク全体で最大 6% 高い平均精度を達成します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LLM Compression with Jointly Optimizing Architectural and Quantization choices</p>
        <p class="orig-summary">Deploying large language models (LLMs) is challenging due to their significant memory and computational requirements. While some methods address this by developing small or tiny language models from scratch, these approaches demand extensive GPU training. Compressing pre-trained LLMs for edge devices offers a compelling alternative. Beyond pruning and quantization, Neural Architecture Search (NAS) enables effective compression, yet prior NAS approaches often limit the search space and decouple architecture from quantization. We introduce a differentiable NAS framework that explores the entire space and jointly optimizes architectural configurations alongside mixed-precision quantization for linear layers of LLMs. Experiments demonstrate superior accuracy-latency trade-offs: our models achieve up to 1.4x faster inference than sequential NAS-then-quantization baselines at comparable accuracy, or up to 6% higher average accuracy across seven reasoning tasks at equivalent latency.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b8b9fc75ddf5" data-article-url="https://arxiv.org/abs/2606.04067" data-article-title="知っておくべきこと: プライバシーを意識した LLM 委任のためのコンテキスト整合性に基づいたクエリ書き換え" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04067" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04067" target="_blank" rel="noopener">知っておくべきこと: プライバシーを意識した LLM 委任のためのコンテキスト整合性に基づいたクエリ書き換え</a></h3>
      <p class="summary">LLM が日常のワークフローにますます組み込まれるようになるにつれて、クラウドでホストされる LLM に送信されるユーザー クエリでは、タスクに必須のコンテンツとタスクに必須ではない機密情報の開示が日常的に混在していますが、タイプベースの PII 秘匿化はコンテキストに依存せず、2 つの問題が生じる可能性があります。それは、型指定されていない機密コンテキストの開示の過剰と、回答を含むスパンの削除の過剰です。コンテキストの整合性の下で、プライバシーを保持するクエリの書き換えを再検討します。スパンは、タスクに必要な場合にのみ転送されるべきです。 DelegateCI-Bench は、プライバシーを意識した委任向けの初のタスクベースのコンテキスト整合性ベンチマークであり、11 のタスクと 20 のタスク タイプにわたる高品質の合成データ、WildChat ベースの実際のユーザー クエリ、および高密度の機密情報を含む医療課題セットを組み合わせた 3,167 個のサンプルで構成されています。このベンチマークに基づいて、必須および非必須の機密スパンを検証可能な最適化信号に変換する CI ガイド付き強化学習フレームワークを提案し、不必要な機密情報の開示を抑制しながらタスクの重要な情報を保持するようにクエリ リライターをトレーニングします。実験の結果、私たちの学習済みリライターはプライバシーとユーティリティの最適なトレードオフを達成し、デバイス上のベースラインに対して最大 +10.1 の平均ユーティリティを達成することがわかりました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Need to Know: Contextual-Integrity-Grounded Query Rewriting for Privacy-Conscious LLM Delegation</p>
        <p class="orig-summary">As LLMs become increasingly woven into everyday workflows, user queries sent to cloud hosted LLMs routinely mix task-essential content with task non-essential sensitive disclosures, yet type based PII redaction is context agnostic and may raise two issues: over disclosing untyped sensitive context and over removing answer bearing spans. We recast privacy preserving query rewriting under Contextual Integrity: a span should be forwarded only if it is necessary for the task. We introduce DelegateCI-Bench, the first task based Contextual Integrity benchmark for privacy-conscious delegation, comprising 3,167 samples that combine high quality synthetic data spanning 11 tasks and 20 task types, WildChat based real user queries, and a medical challenge set with dense sensitive information. Building on this benchmark, we propose a CI-guided reinforcement learning framework that converts essential and non-essential sensitive spans into verifiable optimization signals, and train a query rewriter to preserve task critical information while suppressing unnecessary sensitive disclosure. Experiments show that our learned rewriter achieves the best privacy-utility tradeoff, achieving up to +10.1 average utility over on-device baselines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a21e3e957c28" data-article-url="https://arxiv.org/abs/2606.04073" data-article-title="TPA-AD: ベアリング時系列異常検出のための 2 段階の擬似異常ガイド方式" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04073" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04073" target="_blank" rel="noopener">TPA-AD: ベアリング時系列異常検出のための 2 段階の擬似異常ガイド方式</a></h3>
      <p class="summary">本稿では、正常なサンプルのみが利用可能な設定の下での車軸軸受時系列異常検出（時系列異常検出、TSAD）のための二段階の擬似異常ガイド型異常検出手法（\textbf{T}wo-stage \textbf{P}seudo \textbf{A}nomaly-guided \textbf{A}nomaly \textbf{D}etection, \textbf{TPA-AD}）を提案する。トレーニング。この方法では、まず、再構成モデ​​ルと特徴ごとのターゲット誤差制御を使用して、正常境界付近に疑似異常ウィンドウを生成します。次に、通常ウィンドウと擬似異常ウィンドウ間の対比学習を通じて異常に敏感な表現を学習し、最後に k 近傍 (KNN) を使用してウィンドウ レベルとポイント レベルの異常スコアを生成します。既知の故障カテゴリ、実際の異常事前確率、またはランダムな異常注入に依存する既存の方法と比較して、TPA-AD は境界近傍に擬似異常を構築することで正常境界の分離可能性を向上させ、混合変数シナリオで連続特徴と離散特徴を共同で処理できます。主な実験はベアリングの故障検出データセットと劣化プロセス データセットで行われ、さらに $13$ の公開 TSAD データセットで探索的な拡張が行われます。結果は、提案された手法が比較的安定した異常応答を生成し、劣化の進行に敏感であり、公開 TSAD ベンチマークおよび実際の高速列車関連の方位データにある程度の広範な適用可能性を実証していることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TPA-AD: A Two-Stage Pseudo Anomaly-Guided Method for Bearing Time-Series Anomaly Detection</p>
        <p class="orig-summary">This paper proposes a two-stage pseudo anomaly-guided anomaly detection method (\textbf{T}wo-stage \textbf{P}seudo \textbf{A}nomaly-guided \textbf{A}nomaly \textbf{D}etection, \textbf{TPA-AD}) for axle-box bearing time-series anomaly detection (time series anomaly detection, TSAD) under the setting where only normal samples are available for training. The method first generates pseudo-anomalous windows near the normal boundary using a reconstruction model and per-feature target-error control. It then learns anomaly-sensitive representations through contrastive learning between normal and pseudo-anomalous windows, and finally produces window-level and point-level anomaly scores using k-nearest neighbors (KNN). Compared with existing methods that rely on known fault categories, real anomaly priors, or random anomaly injection, TPA-AD improves the separability of the normal boundary by constructing pseudo-anomalies in boundary neighborhoods and can jointly handle continuous and discrete features in mixed-variable scenarios. The main experiments are conducted on bearing fault detection datasets and degradation-process datasets, with an additional exploratory extension on $13$ public TSAD datasets. The results show that the proposed method yields relatively stable anomaly responses, is sensitive to degradation evolution, and demonstrates a certain degree of broader applicability on public TSAD benchmarks and real high-speed-train-related bearing data.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="84709127e52e" data-article-url="https://arxiv.org/abs/2606.04074" data-article-title="適応パッチ適用は時系列予測よりも難しい" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04074" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04074" target="_blank" rel="noopener">適応パッチ適用は時系列予測よりも難しい</a></h3>
      <p class="summary">アダプティブ パッチは、時系列トランスフォーマーに対する最近の説得力のある提案です。シーケンスが局所的に情報を提供すると思われる場所に、より細かいパッチを割り当てます。この文書では、どのような条件下でコンテンツ適応型パッチ適用オペレータが調整された均一パッチ適用オペレータよりも優れたパフォーマンスを発揮する必要があるかを検討します。局所的な異質性だけでは十分ではありません。点単位の損失予測では、複雑に見える領域が自動的に、より細かいパッチによって損失が軽減される領域になるわけではありません。予算に基づいたビットレート割り当てとしてパッチをモデル化し、よく調整された均一ベースラインを超えるために動的パッチ ルールが満たさなければならない明示的なしきい値を導出し、ローカル (二次代数) とグローバル (モデルの仮定に基づく強い凸性境界) の両方で達成可能な改善を制限します。 2 つの構造的な結果が続きます。結合制約がなければ、スカラーの局所的な複雑さは、共通の損失状況の下で不均一な最適値を生成できません。バックボーンがその表現を意識した最適値にトレーニングされると、アライメント ゲインは適切に調整された均一なパッ​​チ サイズ付近で崩壊します。これらの予測をテストするために、バックボーン、データ、トレーニング プロトコルを固定したまま、各適応メカニズムを均一なパッ​​チサイズのスイープに置き換えて、3 つの代表的なアーキテクチャに対して制御された分離スタディを実行します。標準的な長期予測ベンチマークでは、検証で選択された均一なベースラインは、動的ベースラインと競合しており、設定ごとの効果はゼロ近くに集中しており、結果がデータセットごとに集計されると一貫した方向性の利点はありません。私たちが観察している大きな利益は、メソッドとデータセットに固有のものです。したがって、適応型パッチ適用は、調整された均一なベースラインに対して評価する必要があります。その値は、安価で信頼性の高いルーティング信号が、より細かいパッチが実際に予測損失を削減する場所を特定できるかどうかによって決まります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Adaptive Patching Is Harder Than It Looks For Time-Series Forecasting</p>
        <p class="orig-summary">Adaptive patching is a recent and compelling proposal for time-series Transformers: allocate finer patches where the sequence looks locally informative. This paper asks under what conditions a content-adaptive patching operator should outperform a tuned uniform one. Local heterogeneity alone is not enough: under pointwise forecasting losses, a complex-looking region is not automatically one where finer patching reduces the loss. We model patching as a budgeted bitrate allocation and derive an explicit threshold that a dynamic patching rule must satisfy to beat a well-tuned uniform baseline, then bound the achievable improvement both locally (a quadratic surrogate) and globally (a strong-convexity bound under the model&#x27;s assumptions). Two structural results follow: without a coupling constraint, scalar local complexity cannot produce a non-uniform optimum under a common loss landscape; and once the backbone is trained to its representation-aware optimum, the alignment gain collapses around a well-tuned uniform patch size. To test these predictions, we run a controlled isolation study on three representative architectures, replacing each adaptive mechanism with a uniform patch-size sweep while keeping the backbone, data, and training protocol fixed. On standard long-horizon forecasting benchmarks, the validation-selected uniform baseline is competitive with the dynamic counterpart, with per-setting effects concentrated near zero and no consistent directional advantage once results are aggregated by dataset. The larger gains we do observe are method- and dataset-specific. Adaptive patching should therefore be evaluated against a tuned uniform baseline; its value depends on whether a cheap and reliable routing signal can identify where finer patches actually reduce forecasting loss.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0146478be4e0" data-article-url="https://arxiv.org/abs/2606.04075" data-article-title="大規模な言語モデルが報酬と社会をハックする" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04075" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04075" target="_blank" rel="noopener">大規模な言語モデルが報酬と社会をハックする</a></h3>
      <p class="summary">強化学習 (RL) はトレーニング後のパラダイムの主流となっており、大規模言語モデル (LLM) が報酬から学習できるようになります。私たちは、社会規制が報酬関数と構造的に似ていることを観察しています。それらは測定可能な結果、しきい値、例外を定義しますが、多くの場合、制度上の意図は部分的にしか指定されません。私たちは、RL トレーニング プロセスがこれらのギャップを悪用する可能性があると仮説を立て、RL 中に報酬関数をハッキングするというモデルのよく知られた傾向が、社会ハッキングと呼ばれるより重大な失敗モード、つまり社会が運営されているルールの抜け穴を発見するモードにスケールアップできるかどうかを尋ねます。この現象を研究するために、72 の社会環境のサンドボックスである SocioHack を導入しました。その結果、これらの環境内で報酬ハッキングが自然に発生し、規制の抜け穴の発見につながることがわかりました。モデルは社会ルールをハッキングし、規制の意図を打ち破りながら技術的に準拠した戦略を生成する方法を学習します。現在の LLM セーフガードは限定的な緩和策しか提供しません。したがって、モデルのトレーニングのために実際のフィードバックを収集することには細心の注意が必要であり、実社会で LLM を安全に反復するための次世代のポストトレーニング パラダイムが必要です。=</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Large Language Models Hack Rewards, and Society</p>
        <p class="orig-summary">Reinforcement learning (RL) has become a dominant post-training paradigm, enabling large language models (LLMs) to learn from rewards. We observe that societal regulations are structurally similar to reward functions. They define measurable outcomes, thresholds, and exceptions, while often leaving institutional intent only partially specified. We hypothesise that the RL training process may exploit these gaps and therefore ask whether models&#x27; well-known tendency to hack reward functions during RL can scale into a more consequential failure mode named societal hacking: discovering loopholes in the rules society runs on. To study this phenomenon, we introduce SocioHack, a sandbox of 72 societal environments, and find that within these environments, reward hacking naturally emerges and leads to regulatory loophole discovery. Models learn to hack the social rules and generate strategies that remain technically compliant while defeating regulatory intent, and current LLM safeguards provide only limited mitigation. Therefore, collecting in-the-wild feedback for model training requires greater caution, and we need a next-generation post-training paradigm for safely iterating LLMs in real society.=</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e8db32c04d26" data-article-url="https://arxiv.org/abs/2606.04095" data-article-title="POLARIS: 小さなモデルが長い物語を書けるように導く" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04095" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04095" target="_blank" rel="noopener">POLARIS: 小さなモデルが長い物語を書けるように導く</a></h3>
      <p class="summary">小規模なオープンウェイト モデルは、長編のクリエイティブ ライティングに苦労します。特にフロンティア モデルと比較した場合、生成されるストーリーが要求された長さに大幅に満たないか、長さが増加するにつれて品質が大幅に低下します。我々は、2 つの重要な要素を備えた低コンピューティングの GRPO レシピである POLARIS (審査員としての LLM 報酬とストーリーライティングのためのアンカー参照注入によるポリシーの最適化) を紹介します。1 つはオンライン報酬として構造化されたストーリー品質ルーブリックを持つフロンティア LLM 審査員、もう 1 つは教師が強制的に人間が書いたストーリーが各 GRPO グループ内で高報酬のアンカーとして機能する人間参照注入 (HRI) です。 100 の短編小説アンソロジーと 4 つの A100 GPU から派生した約 1.4K のプロンプト ストーリー ペアのデータセットを使用して、トレーニング レシピを Qwen3.5-9B に適用することにより、POLARIS-9B が得られます。配布内および配布外のプロンプトとルーブリックにわたる 5 つのベンチマークにわたって、POLARIS-9B は、長さの指示により厳密に従いながら、はるかに大きなオープンウェイト モデルと競合します。人間による盲検評価により、POLARIS-9B がベースの Qwen3.5-9B よりも好まれ、Qwen3.5-27B と同等であることが確認されました。 POLARIS-9B は、最大 4k ワードまでのストーリーのみをトレーニングしているにもかかわらず、トレーニング長の最大 3 倍のストーリーを要求するプロンプトの品質を維持します。これは、ほとんどのオープンウェイト モデルが品質、長さの遵守、またはその両方において大幅に低下する状況です。より広範に、私たちの結果は、長さの一般化がクリエイティブライティングモデルにとって意味のあるストレステストであり、他の点では近いモデルを区別するための有用なレンズであることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">POLARIS: Guiding Small Models to Write Long Stories</p>
        <p class="orig-summary">Small open-weight models struggle at long-form creative writing: their generated stories either fall far short of the requested length, or their quality significantly degrades as length increases, especially when compared to frontier models. We present POLARIS (Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting), a lower-compute GRPO recipe with two key ingredients: a frontier LLM judge with a structured Story Quality rubric as the online reward, and human-reference injection (HRI), where a teacher-forced human-written story serves as a high-reward anchor within each GRPO group. By applying our training recipe to Qwen3.5-9B, using a dataset of approximately 1.4K prompt-story pairs derived from 100 short-story anthologies and 4 A100 GPUs, we obtain POLARIS-9B. Across five benchmarks spanning in-distribution and out-of-distribution prompts and rubrics, POLARIS-9B is competitive with much larger open-weight models while following length instructions more closely. A blinded human evaluation confirms that POLARIS-9B is preferred to the base Qwen3.5-9B and on par with Qwen3.5-27B. Despite training only on stories up to 4k words, POLARIS-9B preserves quality on prompts requesting stories up to 3 times the training length, a regime where most open-weight models degrade substantially in quality, length adherence, or both. More broadly, our results suggest that length generalization is a meaningful stress test for creative-writing models and a useful lens for distinguishing otherwise close models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="645b92f74a13" data-article-url="https://arxiv.org/abs/2606.04103" data-article-title="微分可能聴覚ループ (DAL): ハイパーパーソナライズされた補聴器のための ML フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04103" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04103" target="_blank" rel="noopener">微分可能聴覚ループ (DAL): ハイパーパーソナライズされた補聴器のための ML フレームワーク</a></h3>
      <p class="summary">従来の補聴器は、感度の低下を管理するために周波数に依存する固定の増幅と圧縮に依存しており、複数の話者がいる状況（「カクテルパーティー」問題）など、複雑な環境では十分な聴取サポートを提供できないことがよくあります。難聴の根本的な符号化機能障害により包括的に対処するために、パーソナライズされた補聴器の設計とフィッティングのための新しいオープンソース フレームワークである Differentiable Auditory Loop (DAL) を導入します。 DAL の最初の実装には、人間の蝸牛機能の微分可能なモデルである CARFAC が組み込まれており、これを JAX に移植して、障害のある聴覚神経活動パターンを正常な聴覚基準と一致させるためにディープ ニューラル ネットワークを最適化します。必要とされるきめ細かい分光時間信号処理を備えた補聴器を構築するために、波形間の完全畳み込み UNet ジェネレーターである SEANet を採用しています。正常な聴覚に適合した CARFAC モデルの出力と、各被験者の個々の聴覚障害に適合する CARFAC モデルの出力を比較することで、ネットワークを微調整します。比較は、それぞれの CARFAC 神経活動パターン (NAP) 出力と安定化聴覚画像 (SAI) から導出された損失関数を使用して行われ、後者は聴覚神経出力における位相非感受性の時間構造を捕捉する 2D 表現を提供します。 SEANet モデルは、勾配降下法を通じて、入力のノイズを除去することと、障害のある CARFAC モデルによってモデル化された難聴を補償することの両方を学習します。神経表現と信号忠実度の測定基準全体で、DAL に最適化された SEANet モデルは、テストされたマスター補聴器 (MHA) のベースラインを上回りました。 DAL フレームワークは、モデルベースの機械学習駆動の補聴器信号処理のパーソナライゼーションへの実用的な道を提供します。次のステップには、実際の臨床試験を可能にするハードウェアの導入が含まれます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Differentiable Auditory Loop (DAL): An ML Framework for Hyper-Personalized Hearing Aids</p>
        <p class="orig-summary">Conventional hearing aids rely on fixed, frequency-dependent amplification and compression to manage reduced sensitivity, which often fails to provide sufficient listening support in complex environments, such as situations with multiple speakers (the ``cocktail party&#x27;&#x27; problem). To more comprehensively address the underlying encoding dysfunctions of hearing loss, we introduce the Differentiable Auditory Loop (DAL), a new open-source framework for personalized hearing aid design and fitting. Our first implementation of DAL incorporates CARFAC, a differentiable model of human cochlear function, which we ported to JAX, to optimize a deep neural network to match impaired auditory neural activity patterns with a normal-hearing reference. To build a hearing aid with the fine-grained spectro-temporal signal processing required, we adopt SEANet, a waveform-to-waveform fully convolutional UNet generator. We fine-tune the network by comparing the outputs of a CARFAC model fitted to normal hearing with that of a CARFAC model fitted to match each subject&#x27;s individual hearing impairment. The comparison is done using loss functions derived from the respective CARFAC neural activity pattern (NAP) outputs and stabilized auditory images (SAIs), the latter providing a 2D representation that captures phase-insensitive temporal structure in the auditory nerve output. Through gradient descent, the SEANet model learns to both denoise the input and compensate for the hearing loss modelled by the impaired CARFAC model. Across neural-representation and signal-fidelity metrics, the DAL-optimized SEANet model outperformed the tested master hearing aid (MHA) baselines. The DAL framework provides a practical path toward model-based, machine-learning-driven personalization of hearing aid signal processing. Next steps include hardware deployment to enable real-world clinical testing.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="85c83c92fea8" data-article-url="https://arxiv.org/abs/2606.04104" data-article-title="証拠を運ぶエージェント アクション: 異種エージェント システムに対するモデルに依存しないランタイム ガバナンス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04104" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04104" target="_blank" rel="noopener">証拠を運ぶエージェント アクション: 異種エージェント システムに対するモデルに依存しないランタイム ガバナンス</a></h3>
      <p class="summary">エージェント システムは、ローカル コーディング ツール、フレームワーク SDK、マネージド エージェント プラットフォーム、API ゲートウェイ、オブザーバーのみの統合など、非常に異なる制御ポイントを備えたランタイムを通じて実行されます。したがって、データを外部に公開するなどの高リスクのアクションは、あるランタイムではシェル コマンドとして、別のランタイムではツール呼び出しとして、そして 3 番目のランタイムではホストされたセッションの移行として現れる可能性があります。このため、ガバナンスの基本的な質問に一貫して答えることが困難になります。つまり、どのようなアクションが、誰の権限の下で、どのような承認セマンティクスに基づいて、実行後にどのような証拠によって承認されたのかということです。このペーパーでは、ベンダー ネイティブのセッション レコードではなくアクション証明書を中心としたランタイム中立のガバナンス モデルである Proof-Carrying Agent Actions (PCAA) について説明します。 PCAA は、アクション前の許容性、アクションのオープン、仮定のキャプチャ、承認、結果のクローズという 5 つのチェックポイントを中心にコントロールを組織します。これらのチェックポイントは、ポータブルなアクション エンベロープ、実行時および承認のレシート、および再生可能なプルーフにバインドされます。このモデルは 2 つの実用的な方法で拡張されています。証明書は外部性を認識しており、宛先の可視性やアカウントの来歴などの境界事実を伝えます。もう 1 つは、承認は、単一のレビュー済みまたは未レビューのビットではなく、明示的な強制力クラスによって記述されます。私たちは、異種エージェント コントロール プレーンでの参照実装と開示制限のある評価プロトコルを通じてモデルを研究します。 4 つのランタイム ファミリにわたる 24 個の実行可能シードから 96 個のトレースに拡張された保護されたベンチマークでは、PCAA はルートの品質を維持しながら、アブレーション下で個別の障害モードを明らかにします。この論文は、証明書を保持するアクションに関するランタイム ガバナンスのシステム定式化と、その定式化がベンダー固有のコントロール サーフェスに崩壊することなくランタイム チャーンの下で移植性を維持できる方法についての実装に基づいた説明に貢献します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Proof-Carrying Agent Actions: Model-Agnostic Runtime Governance for Heterogeneous Agent Systems</p>
        <p class="orig-summary">Agent systems execute through runtimes with very different control points: local coding tools, framework SDKs, managed agent platforms, API gateways, and observer-only integrations. A high-risk action such as publishing data externally may therefore appear as a shell command in one runtime, a tool call in another, and a hosted session transition in a third. This makes it difficult to answer a basic governance question consistently: what action was authorized, under whose authority, with what approval semantics, and with what evidence after execution? This paper presents Proof-Carrying Agent Actions (PCAA), a runtime-neutral governance model centered on an action certificate rather than on a vendor-native session record. PCAA organizes control around five checkpoints: pre-action admissibility, action open, assumption capture, approval, and outcome closure. It binds these checkpoints to a portable action envelope, runtime and approval receipts, and replay-ready proof. The model is extended in two practical ways: the certificate is externality-aware, carrying boundary facts such as destination visibility and account provenance, and approval is described by explicit enforceability classes rather than by a single reviewed or unreviewed bit. We study the model through a reference implementation in a heterogeneous agent control plane and a disclosure-bounded evaluation protocol. On a protected benchmark expanded from 24 executable seeds to 96 traces across four runtime families, PCAA preserves route quality while exposing distinct failure modes under ablation. The paper contributes a systems formulation of runtime governance around certificate-bearing actions and an implementation-grounded account of how that formulation can remain portable under runtime churn without collapsing into vendor-specific control surfaces.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c7c0ecaedd6" data-article-url="https://arxiv.org/abs/2606.04106" data-article-title="マシンインテリジェンスの Ph(ysical)AI 層の構築" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04106" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04106" target="_blank" rel="noopener">マシンインテリジェンスの Ph(ysical)AI 層の構築</a></h3>
      <p class="summary">基礎モデルは、多様なデータに対する大規模なトレーニングを通じて一般化を実現しますが、ペアになったトレーニング データなしで真に目に見えないドメインへの転送には制限があります。私たちは、束縛されていない統計的相関を学習するのではなく、信号理論の原理 (フーリエ分解、エネルギー保存、対称性) をエンコードする原理駆動型の基礎モデルを提案します。私たちは、ドメインの違いは基礎物理学ではなく、時間、周波数、大きさ、または位相における学習可能な変換にあると仮説を立てます。これらの原則を組み込んだ、共同設計されたアーキテクチャと損失を備えた無線周波数 (RF) データのみをトレーニングすることで、RF データから学習したフリーズ表現のみを使用してオーディオ、画像、テキスト、ビデオへのクロスモーダル転送を実現し、ターゲット ドメインでのエンコーダーの微調整を必要としません。当社の 199 万パラメータのフローズン エンコーダは、リニア プロービングによる 15 の多様なタスクにわたって平均精度 77.7% (トップ 3 の 91.9%) を達成します。系統的な変動はあります。物理的に接地されたタスク (話者認識、地震学、RF フィンガープリンティング) では 84.5 %、セマンティック タスク (音楽ジャンル、言語認識) では 70.0% です。これは、原則主導型アプローチとスケール主導型アプローチが補完的な道を提供することを明らかにしています。物理原則は効率的なクロスモーダル転送を可能にし、同時に物理的理解と意味論的理解の間の境界を自然に確立します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Building The Ph(ysical)AI Layer Of Machine Intelligence</p>
        <p class="orig-summary">Foundation models achieve generalization through massive-scale training on diverse data, but have limitations with transfer to truly unseen domains without paired training data. We propose principle-driven foundation models that encode signal-theoretic principles (Fourier decomposition, energy conservation, symmetry) rather than learn untethered statistical correlations. We hypothesize that domains differ not in fundamental physics, but in learnable transformations in time, frequency, magnitude, or phase. Training exclusively on radio-frequency (RF) data with co-designed architecture and losses incorporating these principles, we achieve cross-modal transfer to audio, images, text, and video using only frozen representations learned from RF data, requiring no fine-tuning of the encoder on target domains. Our 1.99M parameter frozen encoder achieves 77.7% average accuracy (91.9% top-3) across 15 diverse tasks via linear probing, with systematic variation: 84.5 on physically-grounded tasks (speaker recognition, seismology, RF fingerprinting) versus 70.0% on semantic tasks (music genre, language recognition). This reveals that principle-driven and scale-driven approaches offer complementary paths: physical principles enable efficient cross-modal transfer while naturally establishing the boundary between physical and semantic understanding.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d646bc679a6f" data-article-url="https://arxiv.org/abs/2606.04108" data-article-title="SymTRELLIS: 3D 生成のための対称性強化ボクセル潜在" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04108" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04108" target="_blank" rel="noopener">SymTRELLIS: 3D 生成のための対称性強化ボクセル潜在</a></h3>
      <p class="summary">シングルビュー 3D 生成モデルは、優れた視覚的品質を実現していますが、構造的または機能的要件を満たすように設計されておらず、実際には不十分なことがよくあります。対称性もそのような要件の 1 つです。対称性に違反すると、たとえそれが微妙な場合でも、モデルが物理的に使用できなくなる可能性があります。 SymTRELLIS は、基礎となる VAE やフロー モデルを再トレーニングすることなく、TRELLIS.2 のフローベース 3D 生成中に任意の有限点群対称 (回転、鏡映、多面体) を強制する手法です。私たちの重要なアイデアは、一般的な非対称 3D データでトレーニングされた軽量の空間変換潜在マッパーとして実装された、ボクセル潜在に対する学習済み線形演算子として空間変換の潜在空間アクションを近似することです。生成時に、各 ODE ステップですべての対称に相当する変換にわたって予測流速を平均することによって対称性を強制します。このプロセスを速度対称化と呼びます。対称仕様は、初期の TRELLIS.2 生成から自動的に推定することも、ユーザーが指定することもでき、入力画像が示唆するものを超えた意図的な折り操作が可能になります。 2 ～ 20 回の回転と多面体対称グループにわたる 266 個の厳密に対称なオブジェクトの厳選されたベンチマークでは、SymTRELLIS は、ベース モデルと同等の再構築精度を維持しながら、TRELLIS.2、Hunyuan3D-2.1、および TripoSG と比較してすべての対称誤差メトリクスを大幅に削減します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SymTRELLIS: Symmetry-Enforced Voxel Latents for 3D Generation</p>
        <p class="orig-summary">Single-view 3D generative models have achieved impressive visual quality, yet they are not designed to satisfy structural or functional requirements, and in practice, often fall short. Symmetry is one such requirement: violations, even subtle ones, on symmetry can render a model physically unusable. We present SymTRELLIS, a method that enforces arbitrary finite point group symmetries (rotational, reflectional, and polyhedral) during the flow-based 3D generation of TRELLIS.2, without retraining the underlying VAE or flow model. Our key idea is to approximate the latent-space action of spatial transformations as a learned linear operator on voxel latents, implemented as a lightweight spatial-transform latent mapper trained on generic, non-symmetric 3D data. At generation time, we enforce symmetry by averaging predicted flow velocities across all symmetry-equivalent transformations at each ODE step, a process we call velocity symmetrization. The symmetry specification can be estimated automatically from an initial TRELLIS.2 generation or supplied by the user, enabling deliberate fold manipulation beyond what the input image suggests. On a curated benchmark of 266 strictly symmetric objects spanning 2- to 20-fold rotations and polyhedral symmetry groups, SymTRELLIS substantially reduces all symmetry error metrics compared to TRELLIS.2, Hunyuan3D-2.1, and TripoSG, while maintaining reconstruction accuracy comparable to the base model.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="528ded50b4bc" data-article-url="https://arxiv.org/abs/2606.04111" data-article-title="AgenticDiffusion: ビジョンベースの UAV ナビゲーションのための Agentic Diffusion ベースの経路計画" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04111" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04111" target="_blank" rel="noopener">AgenticDiffusion: ビジョンベースの UAV ナビゲーションのための Agentic Diffusion ベースの経路計画</a></h3>
      <p class="summary">屋内 UAV ナビゲーションには、限られた視野の観察下での効率的な探索、シーンの理解、信頼性の高い軌道の実行が必要です。既存のビジョンベースのナビゲーション フレームワークは通常、単一ビューの観察に依存しており、オクルージョン、ターゲットの可視性、およびグローバル シーン構造について推論する能力が制限されています。この研究では、統合された航空ナビゲーション パイプライン内で、言語に基づく推論、オープン語彙によるターゲットのグラウンディング、視覚ベースの拡散計画、および NMPC を調整するマルチビュー UAV ナビゲーション フレームワークである AgenticDiffusion を提案します。自然言語による指示と、同期した一人称視点 (FPV) および上面視点の観察を考慮して、フレームワークはナビゲーションに最も有益な視点を決定し、軌道の実行前にミッション計画を生成します。ターゲットは、オープンボキャブラリーグラウンディングモデルを使用して位置特定され、その後、視点固有の拡散プランナーが UAV 実行のためのナビゲーション軌道を生成します。提案されたフレームワークは、補完的な視点を使用して、繰り返しのターゲット探査を削減し、雑然とした屋内環境でのナビゲーション効率を向上させます。このフレームワークは、適応視点選択、多段階ミッション実行、長距離ナビゲーション、安全な着陸地点選択を含む 4 つの現実世界の UAV ナビゲーション シナリオで検証されました。実験結果では、40 回の実世界試験でミッション全体の成功率が 80% であることが実証され、一方、拡散計画者は軌道生成の成功率が 100% に達しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AgenticDiffusion: Agentic Diffusion-based Path Planning for Vision-Based UAV Navigation</p>
        <p class="orig-summary">Indoor UAV navigation requires efficient exploration, scene understanding, and reliable trajectory execution under limited field-of-view observations. Existing vision-based navigation frameworks typically rely on single-view observations, limiting their ability to reason about occlusions, target visibility, and global scene structure. In this work, we propose AgenticDiffusion, a multi-view UAV navigation framework that coordinates language-guided reasoning, open-vocabulary target grounding, vision-based diffusion planning, and NMPC within a unified aerial navigation pipeline. Given a natural language instruction and synchronized first-person-view (FPV) and top-view observations, the framework determines the most informative viewpoint for navigation and generates a mission plan prior to trajectory execution. The targets are localized using an open-vocabulary grounding model, after which viewpoint-specific diffusion planners generate navigation trajectories for UAV execution. Using complementary viewpoints, the proposed framework reduces repeated target exploration and improves navigation efficiency in cluttered indoor environments. The framework was validated in four real-world UAV navigation scenarios involving adaptive viewpoint selection, multi-stage mission execution, long-horizon navigation, and safe landing-site selection. The experimental results demonstrated an overall mission success rate of 80% in 40 real-world trials, while the diffusion planners achieved a trajectory generation success rate of 100%.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="17c811b4949a" data-article-url="https://arxiv.org/abs/2606.04115" data-article-title="dMX: 低精度浮動小数点フォーマットの微分可能な混合精度代入" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04115" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04115" target="_blank" rel="noopener">dMX: 低精度浮動小数点フォーマットの微分可能な混合精度代入</a></h3>
      <p class="summary">大規模言語モデル (LLM) を低精度の浮動小数点表現に量子化することは、効率的な展開の中心となりますが、単一のビット幅をすべてのレイヤーに均一に適用することは、パフォーマンスと精度の両方の点で最適とは言えません。この研究では、学習可能な浮動小数点ビット幅割り当てのための微分可能な混合精度量子化フレームワークである dMX を紹介します。私たちは、オープン コンピューティング プロジェクト (OCP) 標準によって定義されたデータ型のマイクロスケーリング浮動小数点 (MXFP) ファミリへの応用を研究します。レイヤごとのビット幅の割り当ては、各レイヤの浮動小数点形式がスカラー パラメータによってパラメータ化され、多変量設計空間を単一の学習可能なオフセットに折りたたむ連続最適化問題として定式化されます。トレーニング中、このオフセットは連続値をとり、離散量子化形式間の突然の振動を回避します。温度ベースのアニーリング スケジュールにより、学習されたオフセットが段階的に離散化され、トレーニング動作と推論動作の間で突然移行することなく、最終的な構成がハードウェア互換の MXFP 形式にマッピングされることが保証されます。ターゲットを意識した正則化用語は、平均ビット幅をユーザー指定の予算に向けて導き、推論コストの大まかな代理として機能し、モデルの品質と展開効率のバランスをとります。私たちは Llama、Qwen3、SmolLM2 などのさまざまな LLM ファミリで実験を実行し、WikiText-2 での複雑性と 4 つのゼロショット推論ベンチマークでの精度を評価しました。これらの設定全体にわたって、dMX は一貫してパレート支配モデルを生成し、カルバック ライブラー (KL) 発散ベースのレイヤー選択ヒューリスティックを改善し、モデルの品質と平均ビット幅の間のトレードオフを効率的にナビゲートします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">dMX: Differentiable Mixed-Precision Assignment for Low-Precision Floating-Point Formats</p>
        <p class="orig-summary">Quantizing large language models (LLMs) to low-precision floating-point representations is central to efficient deployment, yet applying a single bit-width uniformly across all layers is sub-optimal in terms of both performance and accuracy. This work introduces dMX, a differentiable mixed-precision quantization framework for learnable floating-point bit-width assignment. We study its application for the microscaling floating-point (MXFP) family of data types defined by the Open Compute Project (OCP) standard. The per-layer bit-width assignment is formulated as a continuous optimization problem in which each layer&#x27;s floating-point format format is parameterized by a scalar parameter, folding the multi-variate design space into a single learnable offset. During training this offset takes continuous values, avoiding sudden oscillations between discrete quantization formats. A temperature-based annealing schedule progressively discretizes the learned offsets, ensuring that the final configuration maps to hardware-compatible MXFP formats without abrupt transitions between training and inference behavior. A target-aware regularization term steers the average bit-width toward a user-specified budget, serving as a coarse-grained proxy for inference cost and balancing model quality against deployment efficiency. We performed experiments on different families of LLM, such as Llama, Qwen3, and SmolLM2, evaluating perplexity on WikiText-2 and accuracy on four zero-shot reasoning benchmarks. Across these settings, dMX consistently yields Pareto-dominating models and improves over Kullback-Leibler (KL) divergence-based layer-selection heuristics, efficiently navigating trade-offs between model quality and average bit-width.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4d7525f479e2" data-article-url="https://arxiv.org/abs/2606.04120" data-article-title="SaliMory: 会話エージェントの認知記憶を調整する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04120" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04120" target="_blank" rel="noopener">SaliMory: 会話エージェントの認知記憶を調整する</a></h3>
      <p class="summary">生涯の伴侶として機能する会話エージェントは、すべての対話にわたって永続的な記憶を維持する必要があります。ただし、生の取得でコンテキスト ウィンドウを単純に拡張すると推論の品質が低下し、標準の強化学習による記憶エージェントのトレーニングでは、多段階パイプラインで深刻なクレジット割り当てのボトルネックが発生します。これを解決するために、単一言語モデルをトレーニングして、ユーザーの事実、好み、作業記憶にまたがる認知的に構造化された記憶を管理するフレームワークである SALIMORY を紹介します。 SALIMORY は、階層的な段階ごとのプロセス報酬と報酬分解された対照的洗練を導入することにより、個別の記憶操作 (選択的フィルタリング、統合、およびキュー主導のリコール) をエンドツーエンドで個別に監視します。 SALIMORY はメモリに起因する障害を 3 分の 1 に削減し、エンドツーエンドの精度で最先端のものを 10% 以上上回り、Good Personalization 率を 2 倍以上に高めます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SaliMory: Orchestrating Cognitive Memory for Conversational Agents</p>
        <p class="orig-summary">Conversational agents that serve as lifelong companions must maintain persistent memory across all interactions. However, simply expanding context windows with raw retrieval degrades reasoning quality, while training memory agents via standard reinforcement learning creates a severe credit assignment bottleneck in a multi-stage pipeline. To solve this, we introduce SALIMORY, a framework that trains a single language model to manage a cognitively-structured memory-spanning user facts, preferences, and working memory. By introducing a hierarchical stage-wise process reward and reward-decomposed contrastive refinement, SALIMORY provides isolated supervision for distinct memory operations (selective filtering, consolidation, and cue-driven recall) end-to-end. SALIMORY cuts memory-attributed failures by one-third, outperforms the state-of-the-art by over 10% in end-to-end accuracy, and more than doubles the Good Personalization rate.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c8e9733af44d" data-article-url="https://arxiv.org/abs/2606.04123" data-article-title="大規模言語モデルによる適応軌道最適化のためのセマンティック制約合成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04123" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04123" target="_blank" rel="noopener">大規模言語モデルによる適応軌道最適化のためのセマンティック制約合成</a></h3>
      <p class="summary">軌道の最適化は、宇宙探査において安全で信頼性の高い自律運用を可能にするための重要なコンポーネントです。宇宙ミッションの頻度、複雑さ、範囲が増加するにつれて、ミッションの目的と運用上の制約を正確に反映する、数学的に適切な軌道最適化問題を迅速に定式化する必要性が高まっています。ただし、ミッションの意図を軌道最適化のための扱いやすい分析公式に変換するには、かなりの専門知識が必要です。この論文では、大規模言語モデル (LLM) を活用して、ミッションの要件と制約の自然言語記述を実行可能な軌道最適化コードと対応する数学的定式化に変換するフレームワークを紹介します。宇宙船ランデブーシナリオでの実験では、意味論的なミッション要件から凸軌道最適化問題を再調整する際の高い成功率が実証されています。最終的に、この研究は、高レベルの意図と形式的な最適化モデルを橋渡しする LLM の可能性を強調し、宇宙船のより柔軟で効率的な軌道設計を可能にします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Semantic Constraint Synthesis for Adaptive Trajectory Optimization via Large Language Models</p>
        <p class="orig-summary">Trajectory optimization is a critical component for enabling safe and reliable autonomous operations in space exploration. As space missions increase in frequency, complexity, and scope, there is a growing need to rapidly formulate mathematically sound trajectory optimization problems that accurately reflect mission objectives and operational constraints. However, translating mission intent into tractable analytical formulations for trajectory optimization requires substantial domain expertise. This paper presents a framework that leverages large language models (LLMs) to translate natural language descriptions of mission requirements and constraints into executable trajectory optimization code and corresponding mathematical formulations. Experiments in spacecraft rendezvous scenarios demonstrate a high success rate in reconditioning a convex trajectory optimization problem from semantic mission requirements. Ultimately, this work highlights the potential of LLMs to bridge high-level intent and formal optimization models, enabling more flexible and efficient trajectory design of spacecraft.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="43aec04d58c2" data-article-url="https://arxiv.org/abs/2606.04126" data-article-title="HighTide: エージェントが厳選したオープンソース VLSI ベンチマーク スイート" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04126" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04126" target="_blank" rel="noopener">HighTide: エージェントが厳選したオープンソース VLSI ベンチマーク スイート</a></h3>
      <p class="summary">進化する AI 支援ベンチマーク スイートである HighTide を紹介します。具体的には、(i) 複数の設計言語とテクノロジ ノードにまたがる多様なオープンソース スイート、(ii) リモート キャッシュを備えた Bazel ベースの増分 RTL から GDS へのコンパイル、(iii) スイート全体の調整理論的根拠の長期記憶として機能する設計ごとの意思決定ログに裏付けられた、設計ライフサイクル、フロー最適化、ツール リファレンス、メタ メンテナンスをカバーする 12 のエージェント スキルによる AI 支援の設計キュレーション、および(iv) 安定リリース用の RTL コンパイル検証を備えたインフラストラクチャ。このスイートは一般公開されており、オープンソースのハードウェア エコシステムとともに成長するように設計されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">HighTide: An Agent-Curated Open-Source VLSI Benchmark Suite</p>
        <p class="orig-summary">We introduce HighTide, an evolving AI-assisted benchmark suite. Specifically, the contributions are: (i) a diverse open-source suite spanning multiple design languages and technology nodes, (ii) Bazel-based incremental RTL-to-GDS compilation with remote caching, (iii) AI-assisted design curation through twelve agent skills covering the design lifecycle, flow optimization, tool reference, and meta-maintenance, backed by per-design decision logs that serve as long-term memory of tuning rationale across the suite, and (iv) an infrastructure with RTL compilation verification for stable releases. The suite is publicly available and designed to grow with the open-source hardware ecosystem.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="af30cc9340e2" data-article-url="https://arxiv.org/abs/2606.04141" data-article-title="Caught in the Act(ivation): LLM エージェントによる資格情報漏洩の事前出力およびマルチターン検出に向けて" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04141" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04141" target="_blank" rel="noopener">Caught in the Act(ivation): LLM エージェントによる資格情報漏洩の事前出力およびマルチターン検出に向けて</a></h3>
      <p class="summary">LLM エージェントは多くの場合、機密認証情報を信頼できない取得コンテンツと同じコンテキスト ウィンドウに配置し、認証情報の漏洩を誘発する間接的なプロンプト インジェクションの直接パスを作成します。私たちは、3 つの相補的な防御を通じてこの障害モードを研究します。まず、出力トークンが発行される前に、アクティベーション プローブが資格情報へのアクセスを検出できるかどうかを尋ねます。次に、形式固有の文字モデルからハニートークンを構築し、分割等角予測で検出を調整します。 3 番目に、複数ターンにわたる漏洩を累積的な情報フロー問題として扱い、会話ターン全体での推定漏洩予算を追跡します。オープンウェイト モデルの制御された実験では、アクティベーション機能により、ホールドアウト エンコーディング変換下を含め、無害なプロンプトと認証情報を求めるプロンプトが高精度で分離されます。小規模な合成マルチターン スイートでは、累積アカウンティングにより、ターンごとの検出器が見逃した攻撃が検出されます。これらの結果は暫定的なものです。マルチターン ベンチマークは社内で小規模なものであり、アクティブ化方法にはホワイト ボックス アクセスが必要であり、情報推定ツールは正式な上限ではなく実用的なシグナルを提供します。それでも、この結果は、資格情報の漏洩防御には、テキストレベルの出力フィルターのみに依存するのではなく、出力前の監視、調整されたカナリア検出、および一時的な漏洩アカウンティングを組み合わせる必要があることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Caught in the Act(ivation): Toward Pre-Output and Multi-Turn Detection of Credential Exfiltration by LLM Agents</p>
        <p class="orig-summary">LLM agents often place sensitive credentials in the same context window as untrusted retrieved content, creating a direct path for indirect prompt injection to induce credential exfiltration. We study this failure mode through three complementary defenses. First, we ask whether activation probes can detect credential access before output tokens are emitted. Second, we construct honeytokens from format-specific character models and calibrate detection with split conformal prediction. Third, we treat multi-turn exfiltration as a cumulative information-flow problem and track an estimated leakage budget across conversation turns. In controlled experiments on open-weight models, activation features separate benign and credential-seeking prompts with high accuracy, including under held-out encoding transformations. In a small synthetic multi-turn suite, cumulative accounting detects attacks that per-turn detectors miss. These results are preliminary: the multi-turn benchmark is in-house and small, the activation method requires white-box access, and the information estimator provides a practical signal rather than a formal upper bound. Still, the results suggest that credential-exfiltration defenses should combine pre-output monitoring, calibrated canary detection, and temporal leakage accounting rather than relying only on text-level output filters.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="84262002238f" data-article-url="https://arxiv.org/abs/2606.04143" data-article-title="短期洪水予測のための物理学に基づいた機械学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04143" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04143" target="_blank" rel="noopener">短期洪水予測のための物理学に基づいた機械学習</a></h3>
      <p class="summary">正確な洪水予測は、災害リスクを軽減し、コミュニティを保護するために不可欠です。ただし、純粋にデータ駆動型の機械学習モデルは、データが不足している環境では苦労することが多く、基本的な水文学原則に違反する可能性があります。標準の Long Short-Term Memory (LSTM) ネットワークは、特に極端な気象条件を推定する場合に、物理的に矛盾した予測を生成する可能性があります。これらの制限に対処するために、私たちは、水文学的な知識を LSTM モデルの損失関数に直接組み込む、物理情報に基づく機械学習 (PIML) フレームワークを提案します。具体的には、トレンド アライメント制約により、降水量と流量の傾向間の方向性の不一致にペナルティが課され、複雑な流体力学方程式を必要とせずにモデルの堅牢性が向上します。この正則化により、トレーニング データが限られている場合でも、物理的に妥当な水路図の動作をモデルが学習できるようになり、洪水のピーク時の信頼性が向上します。実験結果は、提案された物理情報モデルがデータ不足の設定において標準の LSTM ベースラインを上回り、利用可能なデータのわずか 5% でトレーニングされた場合にナッシュ・サトクリフ効率 (NSE) が 0.20 から 0.23 に増加することを示しています。シミュレーションされた極端な気候シナリオでの追加のストレス テストでは、ベースライン モデルが不安定な挙動を示すのに対し、物理学に基づいたモデルは方向の一貫性と物理的妥当性を維持していることが実証されました。データが限られているため、極端なピークの大きさを正確に予測することは依然として困難ですが、提案されたアプローチは、純粋にデータ駆動型のモデルによくある非物理的な変動を大幅に軽減します。これらの発見は、単純な物理的制約によって、リアルタイム洪水予測のための深層学習モデルの信頼性が大幅に向上し、計測されていない盆地や進化する気候条件に対する実用的なソリューションを提供できることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Physics-Informed Machine Learning for Short-Term Flood Prediction</p>
        <p class="orig-summary">Accurate flood forecasting is essential for mitigating disaster risks and protecting communities. However, purely data-driven machine learning models often struggle in data-scarce environments and may violate fundamental hydrological principles. Standard Long Short-Term Memory (LSTM) networks can generate physically inconsistent predictions, particularly when extrapolating to extreme weather conditions. To address these limitations, we propose a Physics-Informed Machine Learning (PIML) framework that incorporates hydrological knowledge directly into the loss function of an LSTM model. Specifically, a Trend Alignment constraint penalizes directional inconsistencies between precipitation and discharge trends, improving model robustness without requiring complex hydrodynamic equations. This regularization encourages the model to learn physically plausible hydrograph behavior, even with limited training data, while enhancing reliability during peak flood events. Experimental results show that the proposed physics-informed model outperforms a standard LSTM baseline in data-scarce settings, increasing the Nash-Sutcliffe Efficiency (NSE) from 0.20 to 0.23 when trained on only 5% of the available data. Additional stress tests under simulated extreme climate scenarios demonstrate that the baseline model exhibits unstable behavior, whereas the physics-informed model maintains directional consistency and physical plausibility. Although accurately predicting extreme peak magnitudes remains challenging with limited data, the proposed approach substantially reduces unphysical fluctuations common in purely data-driven models. These findings demonstrate that simple physical constraints can significantly improve the reliability of deep learning models for real-time flood forecasting, offering a practical solution for ungauged basins and evolving climate conditions.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c53bf0c6498e" data-article-url="https://arxiv.org/abs/2606.04145" data-article-title="EvalStop: ワールド フィードバックを使用して、マルチテナント RLHF プラットフォームにおける報酬の過剰最適化を検出および修正する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04145" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04145" target="_blank" rel="noopener">EvalStop: ワールド フィードバックを使用して、マルチテナント RLHF プラットフォームにおける報酬の過剰最適化を検出および修正する</a></h3>
      <p class="summary">Cloud LLM 微調整プラットフォームは RLHF ワークロードにますます対応しており、学習された報酬モデルが人間の品質の代用として最適化されています。 Gao らのように(2023) は、このプロキシは、報酬の過剰最適化として知られる現象である持続的な最適化圧力の下で、世界のフィードバック (下流の評価指標) から乖離することを示しました。既存のプラットフォーム スケジューラはこの相違を無視しています。非千里眼スケジューラは品質信号なしで JCT を最適化し、SLAQ スタイルの品質認識スケジューラはトレーニング損失 (ハッキングによって単調に低下する弱いプロキシ) を使用し、古典的なジョブごとの早期停止では人間による監視が必要であり、共有 GPU を解放しません。私たちは、evalStop を提案します。これは、k 回連続して eval スコアが低下したときにジョブを終了し、GPU を解放し、最適なチェックポイントを保持し、任意のベース スケジューラに委任する、コンポーザブルなスケジューリング プリミティブです。私たちは、スケジューラレベルの早期停止を検出問題としてフレーム化し、RLHF ワークロードが報酬ハッキングと構造的に健全な実行を混合し、スケジューラから隠蔽されたグランドトゥルースラベルを使用した離散イベントシミュレータでそれを評価します。 RLHF の負荷が高いワークロード (RLHF 80%、GPU 64 基) では、EvalStop は精度 98% / リコール 99% / FPR 1.5% を達成し、SRTF-Est と比較して JCT を 9% 改善し、無駄なコンピューティングを 22% 削減します (p&lt;0.05)。些細な固定進捗と損失プラトーの競合他社は、健全な RLHF で 65% の FPR を被るか、真のハッキング ケースの半分以上を見逃すかのどちらかです。ゲインはテストされたすべてのベース スケジューラにわたって構成され (9 ～ 25% の JCT)、検出品質は評価ノイズ (ノイズ std &lt;= 0.05 で少なくとも 91% の精度) およびハッキングのベース レート (20 ～ 80% のハッキング部分で少なくとも 89% の精度) の下で安定しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">EvalStop: Using World Feedback to Detect and Correct Reward Overoptimization in Multi-Tenant RLHF Platforms</p>
        <p class="orig-summary">Cloud LLM fine-tuning platforms increasingly serve RLHF workloads, where a learned reward model is optimized as a proxy for human quality. As Gao et al. (2023) showed, this proxy diverges from world feedback (downstream eval metrics) under sustained optimization pressure, a phenomenon known as reward overoptimization. Existing platform schedulers ignore this divergence: non-clairvoyant schedulers optimize JCT without any quality signal, SLAQ-style quality-aware schedulers use training loss (a weaker proxy that drops monotonically through hacking), and classical per-job early stopping requires human monitoring and does not free shared GPUs. We propose EvalStop, a composable scheduling primitive that terminates jobs on k consecutive eval-score declines, releases GPUs, preserves the best checkpoint, and delegates to any base scheduler. We frame scheduler-level early stopping as a detection problem and evaluate it in a discrete-event simulator whose RLHF workload mixes reward-hacking and structurally healthy runs, with ground-truth labels hidden from schedulers. On RLHF-heavy workloads (80% RLHF, 64 GPUs), EvalStop achieves precision 98% / recall 99% / FPR 1.5% while improving JCT by 9% and cutting wasted compute by 22% over SRTF-Est (p&lt;0.05). Trivial fixed-progress and loss-plateau competitors either incur 65% FPR on healthy RLHF or miss over half of true hacking cases. Gains compose across every base scheduler tested (9-25% JCT) and detection quality stays stable under eval noise (precision at least 91% at noise std &lt;= 0.05) and hacking base rate (precision at least 89% across 20-80% hacking fractions).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="102cb45420d5" data-article-url="https://arxiv.org/abs/2606.04164" data-article-title="ADAPTOOD: 分布外 ECG 時系列モデルの不確実性を考慮した微調整" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04164" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04164" target="_blank" rel="noopener">ADAPTOOD: 分布外 ECG 時系列モデルの不確実性を考慮した微調整</a></h3>
      <p class="summary">トレーニングに使用されるデータ サンプルは、微調整や展開中に発生するデータ サンプルとは異なることが多く、ML モデルは有望ですが、注釈付きの小さなデータセットしか利用できない場合、そのパフォーマンスは依然として限定的です。さまざまなセンサー、母集団、アプリケーション設定によって引き起こされる分布の変化では、パフォーマンスが低下することがよくあります。事前トレーニングは役立ちますが、現実世界の設定ではモデルが分布外 (OOD) データに頻繁に遭遇し、堅牢性の低下につながります。既存の適応手法は通常、固定的な分布シフトを想定しており、複数の種類や重大度が発生した場合に困難を伴います。特に、彼らはシフトの重大性を見落としており、たとえば、慣れ親しんだ大規模なデータセットへの適応を、新しいタスクを伴う小規模なデータセットへの適応と同じように扱うため、一般化が制限されます。これに対処するために、データの不確実性を活用して分布シフトの深刻度を定量化し、時系列の微調整をガイドする新しいフレームワークである ADAPTOOD を提案します。この不確実性は、ターゲット展開分布からのサンプルがトレーニング前の分布からどれだけ強く逸脱しているかを測定し、OOD 重大度の直接的なシグナルを提供します。私たちのフレームワークは、この不確実性を低ランクのモデルの更新と適応型ハイパーパラメーターの最適化と組み合わせて、適応を改善します。 ADAPTOOD は、OOD タスクにおいて既存の方法よりも最大 7% 高い精度と 12.9% 高い精度を達成し、分布シフトの重大度が増加しても強力なパフォーマンスを維持することを示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ADAPTOOD: Uncertainty-Aware Fine-Tuning for Out-of-Distribution ECG Time Series Models</p>
        <p class="orig-summary">Data samples used for training often differ from those encountered during fine-tuning and deployment, and while ML models show promise, their performance remains limited when only small annotated datasets are available. Performance often degrades under distribution shifts caused by diverse sensors, populations, and application settings. Although pre-training helps, models frequently encounter out-of-distribution (OOD) data in real-world settings, leading to reduced robustness. Existing adaptation methods usually assume fixed distribution shifts and struggle when multiple types or severities occur. In particular, they overlook shift severity, for example treating adaptation to a large familiar dataset the same as adaptation to a small dataset with a new task, which limits generalisation. To address this, we propose ADAPTOOD, a novel framework that leverages data uncertainty to quantify distribution shift severity and guide fine-tuning for time series. This uncertainty measures how strongly samples from the target deployment distribution deviate from the pre-training distribution, providing a direct signal of OOD severity. Our framework combines this uncertainty with low-rank model updates and adaptive hyperparameter optimisation to improve adaptation. We show that ADAPTOOD achieves up to 7% higher accuracy and 12.9% higher precision than existing methods in OOD tasks, maintaining strong performance as distribution shift severity increases.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="74884beaa02b" data-article-url="https://arxiv.org/abs/2606.04167" data-article-title="ニューロンを使用しないスマートな交通 -- 表形式の強化学習による公平な地下鉄ネットワークの拡張" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04167" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04167" target="_blank" rel="noopener">ニューロンを使用しないスマートな交通 -- 表形式の強化学習による公平な地下鉄ネットワークの拡張</a></h3>
      <p class="summary">私たちは、交通需要を満たすために地下鉄システムを拡張することに焦点を当てた交通ネットワーク設計問題 (TNDP) のサブセットである地下鉄ネットワーク拡張問題 (MNEP) に取り組みます。従来の方法は、検索スペースを削減するために専門家が定義した制約を必要とする、正確でヒューリスティックなアプローチに依存しています。最近、複雑な逐次意思決定プロセスにおける有効性により、深層強化学習 (Deep RL) が登場しましたが、依然として計算コストと環境コストが高く、解釈するには追加のエンジニアリングが必要です。 MNEP 問題は、Deep RL 手法を必要としないほど十分に小さいことを示します。 MNEP を非マルコフ報酬決定プロセス (NMRDP) として再定式化し、表形式の RL を使用して、大幅に少ないトレーニング エピソードで同様のパフォーマンスを達成し、さらに優れた解釈可能性を提供します。さらに、報酬関数に社会的公平性の基準を組み込み、効率と公平性に重点を置き、手法の多用途性を強調しています。西安とアムステルダムの現実世界の設定で評価された私たちの方法は、Deep RL との競争力を維持しながら、総エピソード数を平均 18 分の 1、総二酸化炭素排出量を 12 分の 1 削減します。このアプローチは、他の組み合わせ最適化問題への潜在的なアプリケーションを備えた、複製可能、モジュール式、解釈可能な、リソース効率の高いソリューションを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Smart Transportation Without Neurons -- Fair Metro Network Expansion with Tabular Reinforcement Learning</p>
        <p class="orig-summary">We tackle the Metro Network Expansion Problem (MNEP), a subset of the Transport Network Design Problem (TNDP), which focuses on expanding metro systems to satisfy travel demand. Traditional methods rely on exact and heuristic approaches that require expert-defined constraints to reduce the search space. Recently, deep reinforcement learning (Deep RL) has emerged due to its effectiveness in complex sequential decision-making processes-it remains, however, computationally expensive, environmentally costly, and requires additional engineering to interpret. We show that MNEP problems are small enough to not require Deep RL methods. Reformulating the MNEP as a Non-Markovian Rewards Decision Process (NMRDP), we use tabular RL to achieve similar performance with significantly fewer training episodes, additionally offering greater interpretability. Additionally, we incorporate social equity criteria into the reward functions, focusing on efficiency and fairness, highlighting the versatility of our method. Evaluated in real-world settings-Xi&#x27;an and Amsterdam-our method reduces total episodes by a factor of 18 and total carbon emissions by a factor of 12 on average, while remaining competitive with Deep RL. This approach offers a replicable, modular, interpretable, and resource-efficient solution with potential applications to other combinatorial optimization problems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ac5d8a52ca3" data-article-url="https://arxiv.org/abs/2606.04171" data-article-title="MimeLens: バイナリ フラグメントの位置に依存しないコンテンツ タイプの検出" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04171" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04171" target="_blank" rel="noopener">MimeLens: バイナリ フラグメントの位置に依存しないコンテンツ タイプの検出</a></h3>
      <p class="summary">ファイル タイプの分類は、マルウェアのトリアージ、フォレンジック カービング、パケット インスペクション、ストレージ インデックス作成などの多くのワークフローの基礎となります。 Google の Magika などの学習型システムは、既知のオフセットでのファイル全体へのアクセスを前提としているため、単一パケットのペイロード、ヘッダーのない彫刻されたフラグメント、ランダムなディスク ブロック、またはチャンク アップロードなど、これらのタスクの多くが実際に生成する入力を中断します。 MimeLens は、標準コンテキストおよびショートコンテキストのバリアントで、各ファイル内の均一にランダムなオフセットでサンプリングされたウィンドウからのバイナリ コンテンツで事前トレーニングされた小さな BERT スタイル エンコーダ ファミリであり、特権的なファイル先頭位置はありません。バイト チャンクはファイル内のどこからでも入ります。ヘッダーも固定サイズも必要ありません。 libmagic の 125 の MIME ラベルの 1 つが出力されます。完全なファイルのクリーンヘッドでは、MimeLens は、libmagic ラベル付きデータで +10.7 pp のトップ 1 で Magika v1.1 を上回り、単一のミッドストリーム UDP パケットから、ランダムなミッドファイル ディスク ブロック上で libmagic と Magika の 2 倍以上の正確さで、Magicka ができない場所を分類し続けます。コストは遅延です。MimeLens は、消費者向け GPU やバッチでは同等ですが、CPU 上では Magika よりもサンプルごとにおよそ 1 ～ 2 桁遅く実行されます。トレーニングされたすべてのチェックポイントは、Hugging Face (mjbommar/mimelens-001-*) でリリースされます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MimeLens: Position-Agnostic Content-Type Detection for Binary Fragments</p>
        <p class="orig-summary">File-type classification underlies many workflows like malware triage, forensic carving, packet inspection, and storage indexing. Learned systems such as Google&#x27;s Magika assume whole-file access at a known offset, so they break on the inputs many of these tasks actually produce, like a single packet payload, a header-less carved fragment, a random disk block, or a chunked upload. We introduce MimeLens, a family of small BERT-style encoders pretrained on binary content from windows sampled at a uniformly random offset within each file, with no privileged head-of-file position, in standard- and short-context variants. A byte chunk goes in from anywhere in a file, no header needed and no fixed size; out comes one of libmagic&#x27;s 125 MIME labels. On the clean head of complete files, MimeLens beats Magika v1.1 by +10.7 pp top-1 on libmagic-labeled data, and it keeps classifying where Magika cannot: from a single mid-stream UDP packet, and more than twice as accurately as libmagic and Magika on random mid-file disk blocks. The cost is latency: MimeLens runs roughly one to two orders of magnitude slower per sample on CPU than Magika, though it matches on consumer GPUs or in batch. All trained checkpoints are released on Hugging Face (mjbommar/mimelens-001-*).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="066c0ae160f3" data-article-url="https://arxiv.org/abs/2606.04177" data-article-title="ドメインとモデルにわたる AI 生成テキスト検出における言語的特徴の系統的分析" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04177" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04177" target="_blank" rel="noopener">ドメインとモデルにわたる AI 生成テキスト検出における言語的特徴の系統的分析</a></h3>
      <p class="summary">解釈可能な言語特徴は、特に専門家でないユーザーにとって、特定のテキストが機械生成のように見える理由を説明するための有望なアプローチを提供します。ただし、LLM で生成されたテキストを特徴が確実に示しているという既存の調査結果は、特徴セット、モデル、テキスト ドメイン全体で断片化されたままです。このギャップに対処するために、AI が生成したテキストを特徴付けるための言語信号の堅牢性を評価する大規模な実証研究を実施します。私たちの分析では、クロスモデルおよびクロスドメイン一般化設定の下で、27 の LLM と 10 のテキスト ドメインからの出力にわたる 284 の解釈可能な言語特徴をカバーしています。言語的特徴のみに基づく分類器が、AI によって生成されたテキストと人間が書いたテキストを確実に区別できることを示します。ただし、これまでに提案された指標の多くは、語彙の豊富さの尺度を除いて、コンテキストに強く依存することが証明されており、モデル ファミリとテキスト ドメイン全体にわたって堅牢なシグナルのままです。これらの結果は、どの言語信号がコンテキスト全体で一般化するかを示し、AI 生成言語のより信頼性が高く解釈可能な分析の基盤を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models</p>
        <p class="orig-summary">Interpretable linguistic features offer a promising approach for explaining why a given text appears machine-generated, particularly for non-expert users. However, existing findings on which features reliably indicate LLM-generated text remain fragmented across feature sets, models, and text domains. To address this gap, we conduct a large-scale empirical study assessing the robustness of linguistic signals for characterizing AI-generated text. Our analysis covers 284 interpretable linguistic features across outputs from 27 LLMs and ten text domains under cross-model and cross-domain generalization settings. We show that classifiers based solely on linguistic features can reliably distinguish AI-generated from human-written text. However, many previously proposed indicators prove strongly context-dependent, with the exception of measures of lexical richness, which remain robust signals across model families and text domains. These results demonstrate which linguistic signals generalize across contexts and provide a foundation for more reliable, interpretable analyses of AI-generated language.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="30f35bf3b203" data-article-url="https://arxiv.org/abs/2606.04182" data-article-title="強化学習における正確なアンラーニング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04182" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04182" target="_blank" rel="noopener">強化学習における正確なアンラーニング</a></h3>
      <p class="summary">私たちは強化学習における \emph{正確なアンラーニング} の問題を定式化します。その目的は、削除リクエストに応じてユーザーのデータを削除できる効率的なフレームワークを設計することです。つまり、アンラーニング後のオンライン学習者の出力は、削除されたユーザーが学習者と対話しなかった場合に生成される出力と \emph{区別できません}。 $\rho &gt;0$ の場合、 $\rho$-TV 安定で、期待される計算コストがゼロから再学習する計算コストの $\rho \sqrt{\ln T}$ の一部にすぎない正確な非学習手順をサポートする強化学習 (RL) アルゴリズムが存在することを示します。我々は、表形式マルコフ決定プロセス（MDP）用の $\rho$-TV-stable RL アルゴリズムを構築します。これは $\mathcal{O}(H^2 \sqrt{SAT} + H^3 S^2 A + {H^{2.5} S^2 A}/{\rho})$ のリグレス限界を達成します。ここで、$S、A、H$、$T$ は状態数、アクション数、エピソード ホライズンを示します。とエピソード数がそれぞれ異なります。また、$\rho$-TV-stable RL アルゴリズムに対して $\Omega(H\sqrt{\!SAT}\! +\! {SAH}/{\rho})$ の下限も確立し、アルゴリズムがほぼミニマックス最適であることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Exact Unlearning in Reinforcement Learning</p>
        <p class="orig-summary">We formulate the problem of \emph{exact unlearning} in reinforcement learning, where the goal is to design an efficient framework that enables the removal of any user&#x27;s data upon deletion request, i.e., the online learner&#x27;s output after unlearning is \emph{indistinguishable} from what would have been produced had the deleted user never interacted with the learner. For any $\rho &gt;0$, we show that there exists a reinforcement learning (RL) algorithm that is $\rho$-TV-stable and supports an exact unlearning procedure whose expected computational cost is only a $\rho \sqrt{\ln T}$ fraction of the computational cost of retraining from scratch. We construct such a $\rho$-TV-stable RL algorithm for tabular Markov decision processes (MDPs), which achieves a regret bound of $\mathcal{O}(H^2 \sqrt{SAT} + H^3 S^2 A + {H^{2.5} S^2 A}/{\rho})$, where $S, A, H$, and $T$ denote the number of states, the number of actions, the episode horizon, and the number of episodes, respectively. We also establish a lower bound of $\Omega(H\sqrt{\!SAT}\! +\! {SAH}/{\rho})$ for $\rho$-TV-stable RL algorithms, showing that our algorithm is nearly minimax optimal.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fdfe0515fba6" data-article-url="https://arxiv.org/abs/2606.04188" data-article-title="2つのアドバンテージフィールド" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04188" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04188" target="_blank" rel="noopener">2つのアドバンテージフィールド</a></h3>
      <p class="summary">オフラインの目標条件付き強化学習では、長期的な到達可能性の推定とローカル アクションの比較の両方が必要です。デュアル目標表現は、グローバルな目標の到達可能性を取得する値フィールドを提供しますが、特定の状態でどのアクションが優先されるべきかを直接指定するものではありません。我々は、双線形二重値モデルをローカルアドバンテージ信号に変えるポリシー抽出手法であるデュアルアドバンテージフィールドを提案します。双線形双対パラメータ化では、目標の埋め込みは状態表現に対する値フィールドの勾配です。 DAF は、アクションによって引き起こされる割り引かれたフィーチャの変位を予測し、この変位と目標の方向との整合性によってアクションをスコア化するアクション効果モデルを学習します。実現可能なケースでは、このスコアは目標条件付きベルマンアドバンテージに等しく、標準的なローカル政策改善保証が得られます。 OGBench の移動、操作、パズルのタスクでは、DAF は集計 RLiable メトリクスを改善し、局所的に正しいアクションが最終目標に向かう直接的な動きとは異なる設定で強力にパフォーマンスを発揮します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Dual Advantage Fields</p>
        <p class="orig-summary">Offline goal-conditioned reinforcement learning requires both long-horizon reachability estimates and local action comparisons. Dual goal representations provide value fields that capture global goal reachability, but they do not directly specify which action should be preferred at a given state. We propose Dual Advantage Fields, a policy-extraction method that turns a bilinear dual value model into a local advantage signal. Under bilinear dual parameterization, the goal embedding is the gradient of the value field with respect to the state representation. DAF learns an action-effect model that predicts the discounted feature displacement induced by an action and scores actions by the alignment between this displacement and the goal direction. In the realizable case, this score equals the goal-conditioned Bellman advantage, yielding a standard local policy-improvement guarantee. On OGBench locomotion, manipulation, and puzzle tasks, DAF improves aggregate RLiable metrics and performs strongly in settings where locally correct actions differ from direct movement toward the final goal.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6594841403e" data-article-url="https://arxiv.org/abs/2606.04191" data-article-title="CTF4Science Lorenz Challenge のメトリクスを意識したハイブリッド予測" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04191" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04191" target="_blank" rel="noopener">CTF4Science Lorenz Challenge のメトリクスを意識したハイブリッド予測</a></h3>
      <p class="summary">CTF4Science Lorenz チャレンジに対するアプローチについて説明します。このベンチマークは、9 つ​​のタスク ペアにわたって、短期予測、長時間分布マッチング、軌道再構築を組み合わせたベンチマークです。重要な発見は、単一のモデル ファミリがすべての指標を支配していないということです。代わりに、各計量ファミリーに異なる予測子を割り当てる計量認識ハイブリッド システムを構築しました。(1) 全軌道再構築のための合成事前トレーニング済みデノイザー、(2) 最初の 20 予測ステップに対するローレンツ ODE フィッティングと軌道シューティング、(3) 長時間評価のための合成ローレンツ ライブラリを使用したヒストグラム テール置換。このシステム ファミリからの代表的な成熟した投稿は、公開リーダーボードで 83.83551 のスコアを獲得し、同じアイデアの小規模なフォローアップ スタックは 83.85529 に達しました。私たちがよりクリーンな中間システムに焦点を当てるのは、このシステムが完全なメソッドを捕捉しつつ、再現と分析が容易な一方で、最終的な提出は同じバックボーンの保守的な拡張として理解できるためです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Metric-Aware Hybrid Forecasting for the CTF4Science Lorenz Challenge</p>
        <p class="orig-summary">We describe our approach to the CTF4Science Lorenz challenge, a benchmark that mixes short-horizon forecasting, long-time distribution matching, and trajectory reconstruction across nine task pairs. The key discovery is that no single model family dominated all metrics. Instead, we built a metric-aware hybrid system that assigned a different predictor to each metric family: (1) synthetic-pretrained denoisers for full-trajectory reconstruction, (2) Lorenz ODE fitting and trajectory shooting for the first 20 forecast steps, and (3) histogram-tail substitution using synthetic Lorenz libraries for long-time evaluation. A representative mature submission from this system family scored 83.83551 on the public leaderboard, and a small follow-up stack of the same ideas reached 83.85529. We focus on the cleaner intermediate system because it captures the full method while remaining simple enough to reproduce and analyze, while the final submission can be understood as a conservative extension of the same backbone.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f13ae6e78a9e" data-article-url="https://arxiv.org/abs/2606.04193" data-article-title="公証されたエージェント: AI エージェントのアクションに対する受信者が証明した機密受領書" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04193" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04193" target="_blank" rel="noopener">公証されたエージェント: AI エージェントのアクションに対する受信者が証明した機密受領書</a></h3>
      <p class="summary">現在の AI エージェントの可観測性は構造的に危険にさらされています。アクティビティ ログを生成するエンティティは、アクティビティが記録されるエンティティと同じです。侵害されたエージェントまたはバグのあるエージェントは、自身のトレースを省略、変更、または捏造する可能性があり、エージェントを実行するオペレータには改ざんを検出する独自の方法がありません。私たちは、信頼境界を反転することでこれを解決するプロトコルのクラスを提案します。エージェントの呼び出しを受信するサービスは、独自のキーを使用して観察した内容の受信に署名し、エージェントの所有者に対して受信を暗号化し、それを公開の透明性ログに公開します。所有者は、エージェントやそのオペレーターを信頼せずに、改ざん証拠の証跡を再構築します。このクラスを Sello としてインスタンス化します。これは、現在のシステムには存在しない 4 つのプロパティを組み合わせたプロトコルです。(P1) 受信者側の署名、(P2) JWS 経由で認可トークンにバインドされた所有者公開鍵への HPKE 暗号化、(P3) 証人署名付きマークル ログへの公開、(P4) トークン参照による所有者側の検出です。私たちはプロトコルを説明し、エージェントとそのオペレーターを制御する敵対者の下でそのセキュリティを分析し、暗号操作のマイクロベンチマークを提示し、隣接する受信プロトコル作業 (Signet、AgentROA、Agent Passport System、draft-farley-acta、SCITT) の中に Sello を位置づけます。抑制攻撃、サービスの共謀、採用インセンティブの問題などの既知の制限について説明します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Notarized Agents: Receiver-Attested Confidential Receipts for AI Agent Actions</p>
        <p class="orig-summary">Current AI agent observability is structurally compromised: the entity producing the activity log is the same entity whose activity is being logged. A compromised or buggy agent can omit, alter, or fabricate its own traces, and the operator running the agent has no independent way to detect tampering. We propose a class of protocols that resolves this by inverting the trust boundary: the service that receives an agent&#x27;s call signs a receipt of what it observed using its own key, encrypts the receipt to the agent&#x27;s owner, and publishes it to a public transparency log. The owner reconstructs a tamper-evident trail without trusting the agent or its operator. We instantiate the class as Sello, a protocol combining four properties absent in any current system: (P1) receiver-side signing, (P2) HPKE encryption to an owner public key bound to the authorization token via JWS, (P3) publication to a witness-cosigned Merkle log, and (P4) owner-side discovery by token reference. We describe the protocol, analyze its security under an adversary that controls the agent and its operator, present microbenchmarks of the cryptographic operations, and situate Sello among adjacent receipt-protocol work (Signet, AgentROA, Agent Passport System, draft-farley-acta, SCITT). We discuss known limitations including the suppression attack, service collusion, and the adoption-incentive problem.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fb8b8dcb7f84" data-article-url="https://arxiv.org/abs/2606.04205" data-article-title="DetectZoo: テキスト、オーディオ、画像モダリティにわたる AI 生成コンテンツ検出のための統合ツールキット" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04205" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04205" target="_blank" rel="noopener">DetectZoo: テキスト、オーディオ、画像モダリティにわたる AI 生成コンテンツ検出のための統合ツールキット</a></h3>
      <p class="summary">生成モデルの人気と能力の高まりにより、人間が生成したコンテンツと機械が生成したコンテンツの区別がなくなり、テキスト、画像、音声にわたる検出に関する一連の研究が増えています。入手可能な検出器のほとんどは商用ソフトウェアであるか、オープンソースの場合は特注の前処理、評価プロトコル、評価メトリクスを備えた互換性のないコードベースが付属しているため、その採用、公正な比較、再現が非常に困難になっています。この重大なギャップに対処するために、テキスト、オーディオ、画像モダリティにわたる AI 生成コンテンツ検出のための統一インターフェイスを提供するように設計された、この種初の拡張可能なツールキットである DetectZoo を導入します。 DetectZoo は、データの取り込みと前処理からモデルの評価に至るまで、完全な経験的パイプラインを標準化し、最先端の検出器を体系的にベンチマークするための一貫したフレームワークを研究者に提供します。多様な公開データセットとベースライン検出アルゴリズムを単一の統一 API に統合することで、当社のツールキットは厳密で再現可能な評価を容易にします。 DetectZoo は、61 の検出器のリファレンス実装、22 のベンチマーク データセット用のネイティブ ローダー、および共通のインターフェイスを通じて複数のメトリクスを報告する標準化された評価パイプラインを提供します。各検出器は自己完結型ですが、同じインターフェイスからアクセスでき、事前トレーニングされた重みを自動的にキャッシュし、元の公開結果を再現します。 DetectZoo は、マルチモーダル AI フォレンジックの参入障壁を下げ、研究者がドメイン間のパフォーマンスのギャップを特定できるようにし、堅牢で汎用性のある検出技術の開発を加速します。オープンソース リポジトリと包括的なドキュメントは https://github.com/sadjadeb/DetectZoo で公開されており、パッケージは pip install detectzoo 経由でインストールできます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities</p>
        <p class="orig-summary">The growing popularity and capacity of generative models have eroded the distinction between human and machine-generated content, motivating a growing body of work on detection across text, images, and audio. Most available detectors are either commercial software or, if open-source, come with incompatible codebases with bespoke preprocessing, evaluation protocols, and evaluation metrics, which make their adoption, fair comparison, and reproduction quite difficult. To address this critical gap, we introduce DetectZoo, a first-of-its-kind, extensible toolkit designed to provide a unified interface for AI-generated content detection across text, audio, and image modalities. DetectZoo standardizes the complete empirical pipeline, from data ingestion and preprocessing to model assessment, offering researchers a cohesive framework to benchmark state-of-the-art detectors systematically. By integrating diverse public datasets and baseline detection algorithms under a single, unified API, our toolkit facilitates rigorous and reproducible evaluation. DetectZoo provides reference implementations of 61 detectors, native loaders for 22 benchmark datasets, and a standardized evaluation pipeline that reports multiple metrics through a common interface. Each detector is self-contained yet accessible through the same interface, automatically caches pretrained weights, and reproduces the original published results. DetectZoo lowers the barrier to entry for multi-modal AI forensics, enabling researchers to identify performance gaps across domains and accelerating the development of robust, generalizable detection techniques. The open-source repository and comprehensive documentation are publicly available at https://github.com/sadjadeb/DetectZoo, and the package can be installed via pip install detectzoo.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="15fbb49d0bed" data-article-url="https://arxiv.org/abs/2606.04226" data-article-title="PerceptTwin: 反復 LLM 計画と検証のためのセマンティック シーンの再構築" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04226" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04226" target="_blank" rel="noopener">PerceptTwin: 反復 LLM 計画と検証のためのセマンティック シーンの再構築</a></h3>
      <p class="summary">シミュレーション環境は、ロボット ポリシーの学習と計画の検証と検証の両方に役立ちます。従来、シミュレーションを作成するプロセスは面倒なものでした。ロボットが動作する個々の環境に合わせてオーダーメイドのシミュレーション環境を作成することは、まったく不可能でした。この研究では、ロボットの認識スタックによって生成されたセマンティック シーン表現から直接インタラクティブ シミュレーションを構築する完全自動パイプラインである PerceptTwin を紹介します。 PerceptTwin は、オープン語彙オブジェクト マップと 3D アセット生成、アフォーダンス予測、および常識的な条件チェックを組み合わせます。これらのインタラクティブなシミュレーションを使用すると、ロボット ハードウェアで実行される前に計画を検証し、改良することができます。 AI 調整の文献から借用して、計画の正確さと人間の好みとの調整を検証する LLM ジャッジも紹介します。実験では、PerceptTwin のフィードバックにより、LLM プランナーが計画を改良し、安全性を強化し、有害なブラックボックス プロンプト攻撃に抵抗できることが示されています。私たちの一連のタスクでは、PerceptTwin により、GPT5、GPT5Mini、および GPT5Nano プランナーの計画の成功率が平均約 39% 向上しました。さらに、PerceptTwin は、スキルの前提条件が満たされていないために失敗した計画について、人間による計画の検証を平均で最大 18% 改善します。私たちの結果は、より安全で信頼性の高いロボット計画の基盤として、ロボットの知覚からのオープンボキャブラリーシーンシミュレーションの可能性を実証しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PerceptTwin: Semantic Scene Reconstruction for Iterative LLM Planning and Verification</p>
        <p class="orig-summary">Simulation environments are useful for both robot policy learning and planning verification and validation. Traditionally, the process of creating a simulation was onerous. Creating a bespoke simulation environment for each individual environment that a robot would operate in was simply infeasible. In this work, we introduce PerceptTwin, a fully automatic pipeline that constructs interactive simulations directly from semantic scene representations produced by a robot&#x27;s perception stack. PerceptTwin combines open-vocabulary object maps with 3D asset generation, affordance prediction, and commonsense condition checking. These interactive simulations can be used to validate and refine plans before they are executed on the robot hardware. Borrowing from the AI alignment literature, we also introduce an LLM judge that verifies plan correctness and alignment with human preferences. Experiments show that PerceptTwin feedback allows LLM planners to refine plans, enhance safety, and resist harmful black-box prompting attacks. In our suite of tasks, PerceptTwin improves plan success by an average of approximately 39% for GPT5, GPT5Mini, and GPT5Nano planners. Additionally, PerceptTwin also improves human plan verification by up to 18% on average for plans that fail due to unfilled skill preconditions. Our results demonstrate the potential of open-vocabulary scene simulation from robot perception as a foundation for safer, more reliable robot planning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="582fdde4b27c" data-article-url="https://arxiv.org/abs/2606.04227" data-article-title="細胞複合体における増分層コホモロジー: 境界のあるローカル ジオメトリでの O(1)-in-n 遅延編集処理" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04227" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04227" target="_blank" rel="noopener">細胞複合体における増分層コホモロジー: 境界のあるローカル ジオメトリでの O(1)-in-n 遅延編集処理</a></h3>
      <p class="summary">我々は、有限次元の細胞層を備えた動的に進化する1次元細胞複合体上の最初の層コホモロジー $H^1(X; \mathcal{F})$ を増分的に維持するためのアルゴリズムフレームワークを提案します。共有境界行列の因数分解による $H^1$ の古典的な計算には $O(n^3)$ の時間が必要です。 $m$ の編集のストリームによって複雑さが進化すると、各編集後の完全な再計算には $O(mn^3)$ のコストがかかります。有界のローカル ジオメトリの仮定 (有界セル サイズ $v_{\max}$、有界ストーク寸法 $d$、有界神経次数 $D$) の下では、各編集 (頂点挿入、エッジ挿入、制限マップ更新) は、ローカル共有境界ブロックの有界セットにのみ影響します。したがって、このアルゴリズムは、複素数の合計サイズ $n$ に対して ($n$ から独立した定数として扱われるローカル ジオメトリ パラメーター $v_{\max}$、$d$、および $D$ のコスト多項式を使用して) 遅延ストリーミング編集を $O(1)$ 時間で処理し、ローカル固有ソルブと Mayer-Vietoris グローバル アセンブリを同期ポイント (フラッシュ) まで遅らせます。同期時に、維持される状態は、分割された層モデルの対応するバッチ アセンブリと一致します。すべてのバッチ検証された実行でゼロの測定ドリフトが観察されました ($V = 10^6$ による)。また、セル分解のための償却 $O(|E|)$ ストリーミング構造を与え、分割されていない非自明な層 ($d \geq 2$、非同一性制限マップ) が同じ局所性を認めないと主張する敵対的代数 RAM バリアについて議論します。最大 $5 \times 10^6$ の頂点と $1.7 \times 10^7$ のストリーミング編集を使用した Barabasi-Albert グラフの実験では、編集ごとの遅延更新レイテンシーの中央値が 35 $\mu$s (フラッシュを除く) であることがわかりました。クエリ時間 (同期時のグローバル アセンブリ) は、実装されたフルトラバーサル パスのフラッシュごとに $O(n)$ です。正確な同期コストは別途報告されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Incremental Sheaf Cohomology on Cellular Complexes: O(1)-in-n Lazy Edit Processing under Bounded Local Geometry</p>
        <p class="orig-summary">We present an algorithmic framework for incremental maintenance of first sheaf cohomology $H^1(X; \mathcal{F})$ on dynamically evolving 1-dimensional cellular complexes equipped with finite-dimensional cellular sheaves. The classical computation of $H^1$ via factorization of the coboundary matrix requires $O(n^3)$ time; when the complex evolves with a stream of $m$ edits, full recomputation after each edit costs $O(mn^3)$. Under a bounded local geometry assumption -- bounded cell size $v_{\max}$, bounded stalk dimension $d$, and bounded nerve degree $D$ -- each edit (vertex insertion, edge insertion, restriction map update) affects only a bounded set of local coboundary blocks. The algorithm therefore processes lazy streaming edits in $O(1)$ time with respect to the total complex size $n$ (with cost polynomial in the local geometry parameters $v_{\max}$, $d$, and $D$, which are treated as constants independent of $n$), deferring local eigensolves and Mayer-Vietoris global assembly to synchronization points (Flush). At synchronization, the maintained state agrees with the corresponding batch assembly of the partitioned sheaf model; we observe zero measured drift in all batch-verified runs (through $V = 10^6$). We also give an amortized $O(|E|)$ streaming construction for the cellular decomposition and discuss an adversarial algebraic-RAM barrier arguing that unpartitioned non-trivial sheaves ($d \geq 2$, non-identity restriction maps) do not admit the same locality. Experiments on Barabasi-Albert graphs with up to $5 \times 10^6$ vertices and $1.7 \times 10^7$ streaming edits show 35 $\mu$s median lazy per-edit update latency (excluding flush); query time (global assembly at synchronization) is $O(n)$ per flush in the implemented full-traversal path. Exact synchronization costs are reported separately.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="718f84d28788" data-article-url="https://arxiv.org/abs/2606.04231" data-article-title="MM-BizRAG: 汎用エンタープライズ Q&amp;A 向けのマルチモーダル検索拡張生成の再考" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04231" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04231" target="_blank" rel="noopener">MM-BizRAG: 汎用エンタープライズ Q&amp;A 向けのマルチモーダル検索拡張生成の再考</a></h3>
      <p class="summary">マルチモーダル検索拡張生成 (MM-RAG) の最近の進歩は、最小限の解析に移行し、検索埋め込みの生成と回答の生成にはページレベルの画像に依存しています。この傾向は効率的ではありますが、複雑な企業ドキュメント内の豊富で構造化された情報の明示的な処理を無視することが多く、その代わりに、そのような構造を暗黙的に捕捉する事前トレーニング済みの埋め込みまたはビジョン言語モデルに依存します。この作業では、より直接的なアプローチを採用しています。MM-BizRAG は、方向固有の取り込みパイプラインを通じてドキュメントを動的にルーティングするドキュメント構造認識分割を介してドキュメント構造をプロアクティブに抽出および表現し、垂直方向に構造化されたドキュメント (レポートなど) には明示的なレイアウト認識解析を適用し、水平方向に構造化されたドキュメント (スライド デッキなど) には全体的なページ レベルの表現を適用します。プレースホルダーベースの位置調整を備えた統合された LLM 駆動のアーティファクト変換パイプラインにより、自然な読み取り順序が維持される一方、推論時のマルチモーダル アセンブリにより検索表現が生成コンテキストから切り離され、微調整を必要とせずに、より豊富で根拠のある回答が可能になります。大規模で異種混合のエンタープライズ データセットと 2 つの公開ベンチマーク (SlideVQA および FinRAGBench-V) での実験を通じて、MM-BizRAG は常に最先端のビジョン中心のベースラインを最大 32% ポイント上回るパフォーマンスを示し、特にレポート スタイルのレイアウトで大幅な向上を実現しました。さらに、人間によるより強力な調整を実現しながら、RAGChecker のコストを半減する、きめ細かい生成呼び出しのためのシングルコール LLM ジャッジ メトリクスである FastRAGEval を導入します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MM-BizRAG: Rethinking Multimodal Retrieval-Augmented Generation for General Purpose Enterprise Q&amp;A</p>
        <p class="orig-summary">Recent advances in multimodal retrieval-augmented generation (MM-RAG) have shifted toward minimal parsing, relying on page-level images for producing retriever embeddings and for answer generation. While efficient, this trend often neglects explicit handling of the rich, structured information in complex enterprise documents, instead depending on pre-trained embeddings or vision-language models to implicitly capture such structure. In this work, we take a more direct approach: MM-BizRAG proactively extracts and represents document structure via a document structure-aware split that dynamically routes documents through orientation-specific ingestion pipelines, applying explicit layout-aware parsing for vertically structured documents (e.g., reports) and holistic page-level representations for horizontally structured documents (e.g., slide decks). A unified LLM-driven artifact transformation pipeline with placeholder-based positional alignment preserves natural reading order, while inference-time multimodal assembly decouples retrieval representations from generation context, enabling richer, more grounded answers without any finetuning requirement. Through experiments on a large, heterogeneous enterprise dataset and two public benchmarks (SlideVQA and FinRAGBench-V), MM-BizRAG consistently outperforms state-of-the-art vision-centric baselines by up to 32% points, with especially strong gains on report-style layouts. Furthermore, we introduce FastRAGEval, a single-call LLM Judge metric for fine-grained generative recall that halves RAGChecker&#x27;s cost while achieving stronger human alignment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="37e7ed0fe85c" data-article-url="https://arxiv.org/abs/2606.04236" data-article-title="高速拡散言語モデルのデコードをサポートするトークンの公開" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04236" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04236" target="_blank" rel="noopener">高速拡散言語モデルのデコードをサポートするトークンの公開</a></h3>
      <p class="summary">離散拡散言語モデルは、複数のマスクされた位置を並行して更新することでテキストを効率的に生成できますが、この並行性により品質と遅延のトレードオフが生じます。積極的なデコードでは相互に依存するトークンのコミットが早すぎる可能性がありますが、保守的なデコードでは多くのノイズ除去手順が必要になります。既存の方法では、信頼性または依存性の基準を使用して、どのトークンを公開しても安全であるかを判断することで、この緊張に対処しています。ただし、安全でないコミットを回避しても、残りのマスクされたシーケンスのデコードが容易になるとは限りません。不確実なトークンがマスクされたトークンに依存し、ノイズ除去ステップのボトルネックになる可能性があるためです。私たちは、拡散言語モデルの既存の並列デコード戦略の上に追加できる、トレーニング不要のモジュールである AXON を提案します。 AXON は、ベース デコーダを置き換えるのではなく、残りの不確実なマスクされたトークンを監視し、現在の状態が追加のコンテキストが必要であることを示唆する場合にのみ介入します。次に、どのトークンを公開するのが最も安全であるかという基準を、どの信頼できる公開が後のノイズ除去を最もよくサポートするかという基準に変更します。 AXON は、注意、不確実性、および信頼性のシグナルを使用して、不確実な位置が注目するアンカー、つまり不確実な位置が注目する自信のあるマスクされたトークンを選択します。複数の拡散言語モデルにわたる推論とコード生成のベンチマークに関する実験では、AXON が既存の並列デコーダーの品質と遅延のトレードオフを改善し、多くの場合、精度を維持または向上させながら関数評価の数を削減することが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Supportive Token Revealing for Fast Diffusion Language Model Decoding</p>
        <p class="orig-summary">Discrete diffusion language models can generate text efficiently by updating multiple masked positions in parallel, but this parallelism introduces a quality-latency trade-off. Aggressive decoding may commit mutually dependent tokens too early, while conservative decoding requires many denoising steps. Existing methods address this tension by deciding which tokens are safe to reveal using confidence or dependency criteria. However, avoiding unsafe commits does not necessarily make the remaining masked sequence easy to decode, since uncertain tokens may depend on masked tokens, creating a bottleneck for denoising steps. We propose AXON, a training-free module that can be added on top of existing parallel decoding strategies for diffusion language models. Rather than replacing the base decoder, AXON monitors the remaining uncertain masked tokens and intervenes only when their current state suggests that additional context is needed. It then shifts the criterion from which tokens are safest to reveal to which confident reveals would best support later denoising. AXON selects anchors, confident masked tokens that uncertain positions attend to, using attention, uncertainty, and confidence signals. Experiments on reasoning and code-generation benchmarks across multiple diffusion language models show that AXON improves the quality-latency trade-off of existing parallel decoders, often reducing the number of function evaluations while maintaining or improving accuracy.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="26d1c70b6461" data-article-url="https://arxiv.org/abs/2606.04238" data-article-title="積極的な量子化のための Recover-LoRA: 合成データの知識蒸留による低ランク適応による 2 ビット言語モデルの精度の回復" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04238" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04238" target="_blank" rel="noopener">積極的な量子化のための Recover-LoRA: 合成データの知識蒸留による低ランク適応による 2 ビット言語モデルの精度の回復</a></h3>
      <p class="summary">2 ビット精度への積極的な重み量子化により、大規模言語モデル (LLM) 推論のスループットとメモリが大幅に向上しますが、通常は精度が大幅に低下します。これらの利点は、メモリ容量と帯域幅が主な制約となるエッジおよびオンデバイスの展開に特に関係します。この研究では、Recover-LoRA (もともと一般的なモデル重み破損のために開発された軽量でデータフリーの精度回復手法) を、超低ビット量子化の設定まで拡張します。我々は、MLP のゲートおよびアップ投影層のみが 2 ビット (W2) に量子化され、他のすべての線形層は高精度のままであり、混合精度の GateUp 構成を生成する、選択的な混合精度戦略を提案します。 3 つのモデル ファミリ (4B ～ 20B) と 2 つのハードウェア プラットフォームにわたるルーフライン分析を通じて、W4/W2-GateUp 導入 (4 ビット ベースと 2 ビット ゲート/アップ) が、量子化誤差を予測可能なレイヤーのサブセットに限定しながら、モデルとコンテキストの長さに応じて均一な W4 と比較して 7.5 ～ 23.3% の TPS 向上を実現することを実証します。次に、Recover-LoRA (合成データを使用したロジット蒸留を介して量子化レイヤーで低ランクのアダプターをトレーニング) を適用し、ゲートおよび上位レイヤーの 2 ビット量子化によって失われた精度を回復します。 Qwen3-4B のケーススタディでは、Recover-LoRA は 10,000 個の合成トレーニング サンプルのみを使用し、ラベル付きデータを使用せず、12 ベンチマーク中 9 で 80 ～ 95\% の精度回復を達成しました。さらに、蒸留ベースの回収において合成データが厳選されたラベル付きデータと同等のパフォーマンスを発揮すること、および回収が配布外の評価タスクに一般化されることを実証します。私たちの結果は、Recover-LoRA が、展開設定で積極的な重み圧縮のための実用的な量子化後の精度回復ツールであることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Recover-LoRA for Aggressive Quantization: Reclaiming Accuracy in 2-Bit Language Models via Low-Rank Adaptation with Knowledge Distillation on Synthetic Data</p>
        <p class="orig-summary">Aggressive weight quantization to 2-bit precision offers substantial throughput and memory gains for large language model (LLM) inference, but typically incurs severe accuracy degradation. These gains are particularly relevant for edge and on-device deployment, where memory capacity and bandwidth are primary constraints. In this work, we extend Recover-LoRA -- a lightweight, data-free accuracy recovery method originally developed for general model weight corruption -- to the setting of ultra-low-bit quantization. We propose a selective mixed-precision strategy in which only gate and up projection layers of the MLP are quantized to 2-bit (W2), while all other linear layers remain at higher precision, yielding a mixed-precision GateUp configuration. We demonstrate via roofline analysis across three model families (4B--20B) and two hardware platforms that a W4/W2-GateUp deployment (4-bit base with 2-bit gate/up) delivers 7.5--23.3\% TPS improvement over uniform W4 depending on model and context length, while confining quantization error to a predictable subset of layers. We then apply Recover-LoRA -- training low-rank adapters on the quantized layers via logit distillation with synthetic data -- to recover accuracy lost from 2-bit quantization of the gate and up layers. In a case study on Qwen3-4B, Recover-LoRA achieves 80--95\% accuracy recovery on 9 of 12 benchmarks, using only 10k synthetic training samples and no labeled data. We further demonstrate that synthetic data performs comparably to curated labeled data for distillation-based recovery, and that recovery generalizes to out-of-distribution evaluation tasks. Our results present Recover-LoRA as a practical post-quantization accuracy recovery tool for aggressive weight compression in deployment settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cffbfb86876f" data-article-url="https://arxiv.org/abs/2606.04240" data-article-title="EReL@MIR 2025 マルチモーダル文書検索チャレンジの概要 (トラック 1)" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04240" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04240" target="_blank" rel="noopener">EReL@MIR 2025 マルチモーダル文書検索チャレンジの概要 (トラック 1)</a></h3>
      <p class="summary">マルチモーダルな検索拡張生成には、視覚的に豊富なドキュメント、つまりテキストと図、表、グラフが挟まれたページの検索が不可欠ですが、ほとんどの検索ツールは依然としてビジュアル チャネルを破棄しています。 Web Conference 2025 と同時開催される第 1 回 EReL@MIR ワークショップの MIR チャレンジの Track~1 である \emph{マルチモーダル文書検索チャレンジ} では、参加者に 2 つの相補的な体制を処理する \emph{単一} 検索システムを構築するよう求めます。テキストクエリ (MMDocIR) からの長い文書内のクローズドセット文書ページの検索と、画像からの Wikipedia スタイルの一節のオープンドメイン検索です。または画像とテキストのクエリ (M2KR)。システムは、2 つのタスクにわたる平均 Recall@$\{1,3,5\}$ のマクロ平均によってランク付けされます。このチャレンジには、22 チームから 455 人の参加者と 586 件の応募が集まりました。このレポートでは、課題の設計、データセット、評価プロトコルについて説明します。最終順位を報告します。そして優勝した3チームのシステムを分析します。 3 つはすべて、CLIP スタイルのエンコーダーではなく、Qwen2-VL ファミリのデコーダーベースの Multimodal-LLM エンベッダーに基づいて構築されており、主に、微調整されたアンサンブル、強力なビジョン言語リランカーによるトレーニング不要のマルチルート フュージョン、またはゼロショット レイト インタラクションを通じてトップに到達するかどうかが異なります。トレーニング不要のシステムは、微調整された勝者の $0.1$ ポイント以内に終了しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Overview of the EReL@MIR 2025 Multimodal Document Retrieval Challenge (Track 1)</p>
        <p class="orig-summary">Retrieval over visually-rich documents, pages that interleave text with figures, tables, and charts, is essential for multimodal retrieval-augmented generation, yet most retrievers still discard the visual channel. The \emph{Multimodal Document Retrieval Challenge}, Track~1 of the MIR Challenge at the first EReL@MIR workshop, co-located with The Web Conference 2025, asks participants to build a \emph{single} retrieval system that handles two complementary regimes: closed-set document page retrieval within long documents from a text query (MMDocIR), and open-domain retrieval of Wikipedia-style passages from an image or image-plus-text query (M2KR). Systems are ranked by the macro-average of mean Recall@$\{1,3,5\}$ over the two tasks. The challenge drew 455 entrants and 586 submissions across 22 teams. This report describes the challenge design, datasets, and evaluation protocol; reports the final standings; and analyses the three winning teams&#x27; systems. All three build on decoder-based Multimodal-LLM embedders from the Qwen2-VL family rather than on CLIP-style encoders, and differ chiefly in whether they reach the top through fine-tuned ensembles, training-free multi-route fusion with a strong vision-language re-ranker, or zero-shot late interaction. The training-free system finished within $0.1$ point of the fine-tuned winner.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9072005a7f8e" data-article-url="https://arxiv.org/abs/2606.04262" data-article-title="もう一度服用してもいいですか? OTC 投薬 QA における時間的不確実性の下での LLM の意思決定の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04262" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04262" target="_blank" rel="noopener">もう一度服用してもいいですか? OTC 投薬 QA における時間的不確実性の下での LLM の意思決定の評価</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、ユーザーが市販薬 (OTC) を安全にもう 1 回服用できるかどうかなど、日常の健康に関する質問にますます使用されています。しかし、この一般的な安全関連の設定は、既存の医療 QA 評価では依然として十分に検討されていません。そこでは、正しい回答には、投与タイミングの追跡、24 時間のローリング摂取量の計算、製品ラベルの制約への準拠、および不完全な薬歴の処理が必要です。成人のアセトアミノフェンとイブプロフェンの使用に焦点を当てた、厳選された 81 の OTC 投与シナリオの焦点を絞ったベンチマークである DOSEBENCH を、手動で注釈が付けられたゴールド参照とともに紹介します。決定の正確さ、一貫性、説明の検証可能性、失敗の種類、信頼性に関連する信号のメトリクスを使用して、繰り返し実行される 4 つの LLM を評価し、1,620 個のモデル応答が得られます。私たちの結果は、モデルがローリングウィンドウ推論や曖昧さに敏感なケースに頻繁に苦戦すること、そして安定した応答や自信を持って見える応答が依然として投与制約に違反する可能性があることを示しています。これらの発見は、OTC 投与 QA が、医療 QA における時間的推論、制約追従、および安全関連の不確実性の処理を評価するための、狭いながらも実用的なテストベッドを提供することを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Can I Take Another Dose? Evaluating LLM Decision-Making Under Temporal Uncertainty in OTC Dosing QA</p>
        <p class="orig-summary">Large language models (LLMs) are increasingly used for everyday health questions, including whether a user can safely take another dose of an over-the-counter (OTC) medication. Yet this common safety-relevant setting remains underexplored in existing medical QA evaluations, where correct answers require tracking dose timing, computing rolling 24-hour intake, following product-label constraints, and handling incomplete medication histories. We introduce DOSEBENCH, a focused benchmark of 81 curated OTC dosing scenarios focused on adult acetaminophen and ibuprofen use, with manually annotated gold references. We evaluate four LLMs across repeated runs using metrics for decision correctness, consistency, explanation verifiability, failure types, and confidence-related signals, resulting in 1,620 model responses. Our results show that models frequently struggle with rolling-window reasoning and ambiguity-sensitive cases and that stable or confident-looking responses can still violate dosing constraints. These findings suggest that OTC dosing QA provides a narrow yet practical testbed for evaluating temporal reasoning, constraint following, and safety-relevant uncertainty handling in medical QA.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cee92abba191" data-article-url="https://arxiv.org/abs/2606.04269" data-article-title="インスタントフォールド: 変形可能なオブジェクト操作のためのコンテキスト内模倣学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04269" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04269" target="_blank" rel="noopener">インスタントフォールド: 変形可能なオブジェクト操作のためのコンテキスト内模倣学習</a></h3>
      <p class="summary">変形可能オブジェクト操作 (DOM) は、複数の有効な操作モードとの長期にわたるトポロジー変化の相互作用を通じて進化する、部分的に観察可能な高次元の状態のため、困難を伴います。 DOM のコンテキスト内模倣学習フレームワークである Instant-Fold を紹介します。単一の人間によるデモンストレーションが与えられると、私たちのポリシーは、勾配の更新を必要とせずに、空間的な実行や順序付けのバリエーションを含む、さまざまな操作モードをデモンストレーションから直接推論して実行します。私たちのアプローチでは、まず時間対比事前トレーニングによって変形を意識した視覚表現を学習し、その後、デモンストレーションを条件としたフローマッチングトランスフォーマーポリシーによって、意図した操作モードを実行するためのアクションを予測します。完全にシミュレーションでトレーニングされた Instant-Fold は、さまざまな折り畳みモードを一般化し、追加のデータ収集や微調整を行わずにゼロショットを現実世界の設定に移行します。ビデオは https://instant-fold.github.io でご覧いただけます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Instant-Fold: In-Context Imitation Learning for Deformable Object Manipulation</p>
        <p class="orig-summary">Deformable object manipulation (DOM) is challenging due to high-dimensional, partially observable states that evolve through long-horizon, topology-changing interactions with multiple valid manipulation modes. We introduce Instant-Fold, an in-context imitation learning framework for DOM. Given a single human demonstration, our policy infers and executes diverse manipulation modes directly from the demonstration, including variations in spatial execution and ordering, without requiring gradient updates. Our approach first learns deformation-aware visual representations via temporal contrastive pretraining, after which a flow-matching transformer policy conditioned on the demonstration predicts actions to execute the intended manipulation mode. Trained entirely in simulation, Instant-Fold generalizes across diverse folding modes and transfers zero-shot to real-world settings without additional data collection or finetuning. Videos are available at https://instant-fold.github.io.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8a6fc2e475fb" data-article-url="https://arxiv.org/abs/2606.04271" data-article-title="StandardE2E: エンドツーエンドの自動運転データセットのための統合フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04271" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04271" target="_blank" rel="noopener">StandardE2E: エンドツーエンドの自動運転データセットのための統合フレームワーク</a></h3>
      <p class="summary">自動運転は、モジュール式の認識・予測・計画スタックから、センサー入力を車両制御に直接マッピングするエンドツーエンド (E2E) モデルに移行しており、多くの場合、3D 検出、動き予測、HD マップ認識などの補助タスクによって正規化されています。進歩は、センサーが豊富な運転データセットの急速に成長するエコシステムによって推進されていますが、それぞれが独自のファイル形式、API、座標規則、モダリティ カバレッジを提供しているため、データセット間の実験やデータセットごとの基本的な前処理さえもプロジェクトごとに再実装する必要があります。 E2E 駆動データセット上に単一の統一インターフェイスを提供するフレームワークである StandardE2E を紹介します。 StandardE2E (i) 1 つの共有データ スキーマの下でデータセットごとの前処理を標準化します。 (ii) 複数のデータセットを単一の PyTorch DataLoader に結合して、データセット間の事前トレーニング、補助タスクの監視、シナリオ レベルのフィルタリングを行います。 (iii) 生のフレームから正規スキーマへの単一のデータセットごとのマッピングへの新しいデータセットの追加を減らし、ダウンストリーム パイプライン全体を変更しないままにします。このフレームワークは、Waymo End-to-End、Waymo Perception、Argoverse 2 Sensor、Argoverse 2 LiDAR、NAVSIM (OpenScene-v1.1)、および WayveScenes101 の 6 つのデータセットをすぐにサポートしており、オープンソースの standard-e2e Python パッケージとしてリリースされており、https://github.com/stepankonev/StandardE2E で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">StandardE2E: A Unified Framework for End-to-End Autonomous Driving Datasets</p>
        <p class="orig-summary">Autonomous driving has shifted from modular perception-prediction-planning stacks toward end-to-end (E2E) models that map sensor inputs directly to vehicle control, often regularized by auxiliary tasks such as 3D detection, motion forecasting, and HD-map perception. Progress is driven by a fast-growing ecosystem of sensor-rich driving datasets, yet each ships its own file formats, APIs, coordinate conventions, and modality coverage, leaving cross-dataset experimentation and even basic per-dataset preprocessing to be re-implemented per project. We present StandardE2E, a framework that provides a single unified interface over E2E driving datasets. StandardE2E (i) standardizes per-dataset preprocessing under one shared data schema; (ii) combines multiple datasets in a single PyTorch DataLoader for cross-dataset pretraining, auxiliary-task supervision, and scenario-level filtering; and (iii) reduces adding a new dataset to a single per-dataset mapping from raw frames to the canonical schema, leaving the entire downstream pipeline unchanged. The framework supports six datasets out of the box: Waymo End-to-End, Waymo Perception, Argoverse 2 Sensor, Argoverse 2 LiDAR, NAVSIM (OpenScene-v1.1), and WayveScenes101, and is released as the open-source standard-e2e Python package, available at https://github.com/stepankonev/StandardE2E.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4104ba242f79" data-article-url="https://arxiv.org/abs/2606.04275" data-article-title="ティックからフローへ: 連続環境における神経強化学習のダイナミクス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04275" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04275" target="_blank" rel="noopener">ティックからフローへ: 連続環境における神経強化学習のダイナミクス</a></h3>
      <p class="summary">我々は、確率的制御からの洞察を利用して問題を連続時間の確率的プロセスとしてモデル化することにより、連続環境における深層強化学習 (RL) のための新しい理論的枠組みを提示します。以前の研究に基づいて、探索と確率的遷移の両方を組み込んだアクター-クリティカル アルゴリズムの実行可能なモデルを紹介します。単一隠れ層ニューラル ネットワークの場合、環境の状態が 2 つの時間スケールのプロセス (環境時間と勾配時間) として定式化できることを示します。この定式化の中で、環境の状態と累積割引収益の推定値を表す時間依存の確率変数が、2 層ネットワークの無限幅制限における勾配ステップ上でどのように変化するかを特徴付けます。確率微分方程式の理論を使用して、連続 RL で初めて、消滅するほど小さい学習率の下で、各勾配ステップでの状態分布の微小な変化を記述する方程式を導出します。全体として、私たちの研究は、オーバーパラメータ化されたニューラルアクタークリティカルアルゴリズムを研究するための新しいノンパラメトリック定式化を提供します。おもちゃの連続制御タスクを使用して、理論的結果を経験的に裏付けます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments</p>
        <p class="orig-summary">We present a novel theoretical framework for deep reinforcement learning (RL) in continuous environments by modeling the problem as a continuous-time stochastic process, drawing on insights from stochastic control. Building on previous work, we introduce a viable model of actor-critic algorithm that incorporates both exploration and stochastic transitions. For single-hidden-layer neural networks, we show that the state of the environment can be formulated as a two time scale process: the environment time and the gradient time. Within this formulation, we characterize how the time-dependent random variables that represent the environment&#x27;s state and estimate of the cumulative discounted return evolve over gradient steps in the infinite width limit of two-layer networks. Using the theory of stochastic differential equations, we derive, for the first time in continuous RL, an equation describing the infinitesimal change in the state distribution at each gradient step, under a vanishingly small learning rate. Overall, our work provides a novel nonparametric formulation for studying overparametrized neural actor-critic algorithms. We empirically corroborate our theoretical result using a toy continuous control task.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9c262d524663" data-article-url="https://arxiv.org/abs/2606.04280" data-article-title="損失だけでは不十分: 対照表現学習におけるサンプリング条件と帰納的バイアス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04280" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04280" target="_blank" rel="noopener">損失だけでは不十分: 対照表現学習におけるサンプリング条件と帰納的バイアス</a></h3>
      <p class="summary">対照学習は、自己教師あり表現学習の主要なパラダイムとなっていますが、意味のある潜在幾何学を回復する条件はまだ完全には理解されていません。我々は、等尺性潜在回復に必要なポジティブペアサンプリングのサポート要件である多様性条件を形式化する測度理論フレームワークを開発します。標準のフルサポート フォン ミーゼス フィッシャー設定は多様性条件の満足を意味し、その結果、グローバルなコントラスト損失ミニマイザーは直交変換までの潜在ジオメトリを回復する一方、制限付き条件により非直交マップが厳密に低い漸近コントラスト損失を達成できることを示します。理論的な修正として、サポート修正された Information Noise Contrastive Estimation (InfoNCE) バリアントを導入します。この修正により、直交潜在空間回復が実現可能になりますが、一意に選択されるわけではありません。合成ベンチマークの実験は識別可能性の予測を検証し、CIFAR-10 の実験は、サンプリングの多様性が制限されている場合にはアーキテクチャの誘導バイアスがより重要になるという定性的予測と一致しています。まとめると、私たちの結果は、サンプリングメカニズムとエンコーダの誘導バイアスが対照表現学習においてどのように相互作用するかを明らかにします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Loss Is Not Enough: Sampling Conditions and Inductive Bias in Contrastive Representation Learning</p>
        <p class="orig-summary">Contrastive learning has become a leading paradigm for self-supervised representation learning, yet the conditions under which it recovers meaningful latent geometry remain incompletely understood. We develop a measure-theoretic framework formalizing the diversity condition, a support requirement on positive-pair sampling that is necessary for isometric latent recovery. We show that the standard full-support von Mises-Fisher setting implies the satisfaction of the diversity condition and as a consequence global contrastive loss minimizers recover latent geometry up to orthogonal transformation, while restricted conditionals can make non-orthogonal maps attain strictly lower asymptotic contrastive loss. We introduce a support-corrected Information Noise Contrastive Estimation (InfoNCE) variant as a theoretical fix: this correction makes orthogonal latent space recovery achievable but does not uniquely select it. Experiments on synthetic benchmarks validate the identifiability predictions, and CIFAR-10 experiments are consistent with the qualitative prediction that architectural inductive bias becomes more important when sampling diversity is limited. Together, our results clarify how sampling mechanisms and encoder inductive bias interact in contrastive representation learning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="548003b2e2b8" data-article-url="https://arxiv.org/abs/2606.04284" data-article-title="専門家の混合がまばらな報酬モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04284" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04284" target="_blank" rel="noopener">専門家の混合がまばらな報酬モデル</a></h3>
      <p class="summary">プリファレンス モデリングは、ヒューマン フィードバックからの強化学習 (RLHF) において中心的な役割を果たし、大規模言語モデル (LLM) を人間の価値観に合わせることを可能にします。しかし、既存のアプローチのほとんどは普遍的な報酬関数を前提としており、人間の好みの多様性と異質性を無視しています。追加のアノテーションコストをかけずにこの制限に対処するために、最近の研究では、バイナリデータから複数のプリファレンスコンポーネントを学習し、それらを組み合わせて個々のプリファレンスをモデル化することが提案されています。それにも関わらず、これらのコンポーネントは、一貫性のある解きほぐされたパターンをキャプチャできないことが多く、解釈可能性やパーソナライゼーションの有効性が制限されます。この研究では、バイナリ嗜好データのトレーニング中に疎なルーティングと専門家の多様性を促進する疎な専門家混合 (MoE) 報酬モデルを提案します。制御された実験と実際の実験を通じて、まばらな MoE は解釈可能なルーティング パターンと専門の専門家を学習します。また、テスト時のパーソナライゼーションも改善され、適応後のエキスパートの重みの変化により、モデルがパーソナライズされた好みにどのように適応するかを分析するための定性的なレンズが提供されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Sparse Mixture-of-Experts Reward Models Learn Interpretable and Specialized Experts for Personalized Preference Modeling</p>
        <p class="orig-summary">Preference modeling plays a central role in reinforcement learning from human feedback (RLHF), enabling large language models (LLMs) to align with human values. However, most existing approaches assume a universal reward function, neglecting the diversity and heterogeneity of human preferences. To address this limitation without additional annotation costs, recent work has proposed learning multiple preference components from binary data and combining them to model individual preferences. Nevertheless, these components often fail to capture coherent and disentangled patterns, limiting their interpretability and effectiveness for personalization. In this work, we propose a sparse Mixture-of-Experts (MoE) reward model that encourages sparse routing and expert diversity during training on binary preference data. Across controlled and real-world experiments, sparse MoE learns interpretable routing patterns and specialized experts. It also improves test-time personalization, and post-adaptation shifts in expert weights provide a qualitative lens for analyzing how the model adapts to personalized preferences.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c86cebb332f" data-article-url="https://arxiv.org/abs/2606.04287" data-article-title="軽量構造誘導型自己回帰モデルによる新しいグラフ生成のスケーリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04287" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04287" target="_blank" rel="noopener">軽量構造誘導型自己回帰モデルによる新しいグラフ生成のスケーリング</a></h3>
      <p class="summary">現実的で多様なグラフを生成することは、分子発見、回路設計、サイバーセキュリティなどの分野で応用される機械学習における重要な問題です。ただし、現在のグラフ生成モデルは、スケーラビリティと新規性によって制限されたままです。拡散ベースの手法では、多くの場合、コストのかかる完全隣接演算と長いノイズ除去チェーンが必要ですが、多くの自己回帰モデルやハイブリッド モデルは少なくとも 2 次の複雑さを持っています。さらに、これらのモデルは、トレーニング グラフを超えて一般化するのではなく、トレーニング グラフを模倣することがよくあります。これらの問題に対処するために、軽量の自己回帰フレームワークを提案します。構造に基づくトポロジカル順序付けを使用して、グラフを規則的なエッジ シーケンスにシリアル化し、対数線形に近い生成を可能にします。また、探索指向の拡張と反復改良を組み合わせた 2 フェーズのトレーニング戦略を使用して、過剰適合を軽減し、制御された新規性を促進します。分子ベンチマークと非分子ベンチマークの実験では、私たちのアプローチが高い妥当性と独自性を維持しながら新規性を向上させることが示されています。このフレームワークは、LSTM と Mamba スタイルの因果シーケンス バックボーンの両方もサポートしており、大容量メモリ アクセラレータにより、一般的な GPU の制限を超える長いグラフ シーケンス実験が可能になります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Scaling Novel Graph Generation via Lightweight Structure-Guided Autoregressive Models</p>
        <p class="orig-summary">Generating realistic and diverse graphs is a key problem in machine learning, with applications in molecular discovery, circuit design, cybersecurity, and beyond. However, current graph generative models remain limited by scalability and novelty. Diffusion-based methods often require costly full-adjacency operations and long denoising chains, while many autoregressive and hybrid models have at least quadratic complexity. In addition, these models often imitate training graphs rather than generalize beyond them. We propose a lightweight autoregressive framework to address these issues. It uses a structure-guided topological ordering to serialize graphs into regular edge sequences, enabling near log-linear generation, and a two-phase training strategy that combines exploration-oriented augmentation with iterative refinement to reduce overfitting and promote controlled novelty. Experiments on molecular and non-molecular benchmarks show that our approach improves novelty while preserving high validity and uniqueness. The framework also supports both LSTM and Mamba-style causal sequence backbones, with large-memory accelerators enabling longer graph-sequence experiments beyond typical GPU limits.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="114f81752488" data-article-url="https://arxiv.org/abs/2606.04298" data-article-title="コンテキストにおけるエニーキャストのパフォーマンス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04298" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04298" target="_blank" rel="noopener">コンテキストにおけるエニーキャストのパフォーマンス</a></h3>
      <p class="summary">IP エニーキャストにより、サービスは多くの物理サイトから 1 つのアドレスをアドバタイズし、BGP に各クライアントをサイトにマッピングさせることができます。これは、DNS ルート サーバー システム、パブリック リゾルバー、および一部のコンテンツ配信ネットワークの中心ですが、同じルーティング メカニズムがアプリケーション間で非常に異なる結果をもたらします。このペーパーでは、2 つの設定でのエニーキャスト レイテンシを比較します。ルート DNS では、再帰的キャッシュにより多くのユーザーと長い存続時間値にわたるルート サーバーの遅延が償却されます。もう 1 つは、ラウンド トリップが追加されるたびに、ページ読み込み、ビデオ開始、または API レイテンシに直接影響を与える可能性がある CDN です。総合すると、ルート DNS エニーキャストは、ユーザーに見える遅延が限られているにもかかわらず、大幅なパスのインフレを示す可能性があるのに対し、CDN エニーキャストでは、インフレを小さく抑えるために、ピアリング、ルート ポリシー、キャッチメント スコープ、および測定フィードバックのアクティブなエンジニアリングが必要であることがわかりました。この論文は、レイテンシの比較モデル、再現可能な測定設計、およびレジリエンス主導のエニーキャスト目標をレイテンシ主導の目標から分離する最適化フレームワークに貢献します。中心的な結論は実用的です。オペレーターはルート DNS と CDN エニーキャストを同じ目的関数で最適化すべきではありません。ルート DNS の場合、堅牢性、到達可能性、およびキャッシュ動作が重要です。 CDN サービスの場合、テール レイテンシ、集水域の正確性、およびポリシー制御が支配的です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Anycast Performance in Context</p>
        <p class="orig-summary">IP anycast lets a service advertise one address from many physical sites, leaving BGP to map each client to a site. It is central to the DNS root server system, public resolvers, and some content delivery networks, yet the same routing mechanism has very different consequences across applications. This paper compares anycast latency in two settings: root DNS, where recursive caching amortizes root-server delay over many users and long time-to-live values, and CDNs, where each additional round trip can directly affect page-load, video-start, or API latency. The synthesis finds that root DNS anycast can exhibit substantial path inflation while still producing limited user-visible delay, whereas CDN anycast requires active engineering of peering, route policy, catchment scope, and measurement feedback to keep inflation small. The paper contributes a comparative latency model, a reproducible measurement design, and an optimization framework that separates resilience-driven anycast objectives from latency-driven objectives. The central conclusion is practical: operators should not optimize root DNS and CDN anycast with the same objective function. For root DNS, robustness, reachability, and cache behavior dominate; for CDN services, tail latency, catchment correctness, and policy control dominate.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="66649930ce83" data-article-url="https://arxiv.org/abs/2606.04320" data-article-title="OpenRFM: リレーショナル インコンテキスト学習の分析" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04320" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04320" target="_blank" rel="noopener">OpenRFM: リレーショナル インコンテキスト学習の分析</a></h3>
      <p class="summary">リレーショナル基盤モデル (RFM) は、リレーショナル データベースが与えられた場合に、リレーショナル インコンテキスト学習 (ICL) を介して 1 回のフォワード パスで予測を返す単一の事前トレーニング済み予測子を約束します。しかし、オープン RFM と商用 RFM の間には大きなギャップがあり、このギャップの原因は体系的に理解されていません。代表的なフレームワークである Relational Transformer (RT) を 2 つの観点から分析します。モデル側: RT が関係レベルの ICL を実行することを示し、カーネル回帰ビューは、ラベルセルのカバレッジがまばらで過小決定回帰が生じる場合に失敗することを示します。データ側: RT の事前トレーニング ソースを除去したところ、既存の合成のみの事前トレーニングと分散内事前トレーニングが、同じアーキテクチャを異なるレジーム (遅延学習と特徴学習) に駆動していることがわかりました。このギャップを精査すると、欠けている成分がラベル生成プロセスに潜在するサポート識別可能な関係性であることが明らかになります。これら 2 つの診断は、(1) リレーショナル バックボーンと、リレーショナル レベルのラベル不足を克服するために事前トレーニングされた表形式の基盤モデルから抽出されたバッチ レベルの ICL レイヤーを組み合わせたデュアルステージ ICL アーキテクチャ、および (2) プロトタイプ ベースの正則化で強化された、同種性を認識した合成と継続的な実データの事前トレーニングの混合物に変換されます。これらの選択肢により、OpenRFM が定義されます。OpenRFM は、平均タスク パフォーマンスを RT バックボーンよりも約 30% 向上させ、大規模な評価タスク セットで商用モデル KumoRFMv1 を上回る、シンプルかつ効果的な RFM です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">OpenRFM: Dissecting Relational In-Context Learning</p>
        <p class="orig-summary">Relational Foundation Models (RFMs) promise a single pre-trained predictor that, given any relational database, returns predictions in one forward pass via relational in-context learning (ICL). Yet a substantial gap separates open RFMs from their commercial counterparts, and the origin of this gap has not been systematically understood. We dissect a representative framework, the Relational Transformer (RT), from two perspectives. Model side: we show that RT performs relation-level ICL, and a kernel regression view shows it fails when sparse label-cell coverage yields an underdetermined regression. Data side: we ablate RT&#x27;s pre-training source and find that existing synthetic-only pre-training and in-distribution pre-training drive the same architecture into different regimes, lazy vs. feature-learning. Probing this gap reveals that the missing ingredient is a support-identifiable relational latent in the label-generation process. These two diagnoses translate into (1) a dual-stage ICL architecture that combines the relational backbone with a batch-level ICL layer lifted from a pre-trained tabular foundation model to overcome relation-level label scarcity, and (2) a homophily-aware synthetic plus continual real-data pre-training mixture, augmented with a prototype-based regularization. These choices define OpenRFM, a simple yet effective RFM that improves average task performance by approximately 30% over the RT backbone and surpasses the commercial model KumoRFMv1 on a large set of evaluation tasks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3116f928dba3" data-article-url="https://arxiv.org/abs/2606.04326" data-article-title="何が重要かを測定する: コンセプトのボトルネック モデルの総合ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04326" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04326" target="_blank" rel="noopener">何が重要かを測定する: コンセプトのボトルネック モデルの総合ベンチマーク</a></h3>
      <p class="summary">概念ボトルネック モデルは、入力で検出された高レベルの概念からの結果を予測します。概念は解釈可能性から利益を得る簡単な方法を提供しますが、概念ラベルを含むデータセットはほとんどありません。これにより、どの問題がこれらのモデルに適しているかを判断したり、モデルのパフォーマンスを促進する要因や失敗につながる要因を特定したり、どのアルゴリズムが良好にパフォーマンスするかを明らかにしたりする研究者の能力が制限されます。このペーパーでは、コンセプトのボトルネック モデルの合成ベンチマークを開発します。その 2 つの主なユースケースに焦点を当てます。1 つはモデルが人間によるより良い意思決定を支援する意思決定支援、もう 1 つはモデルが監視なしでルーチン タスクを処理する自動化です。私たちのベンチマークは、データ モダリティ、コンセプトの選択、アノテーションの品質、完全性など、パフォーマンスに影響を与えるプロパティを制御しながら、ラベル付きデータセットを生成できます。ベンチマークを使用して、概念ボトルネック モデルの代表的なクラスを評価する方法を示します。私たちのデモンストレーションでは、ベンチマークがどのように障害モードを診断し、フォローアップ テストをガイドできるかを示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Measuring What Matters: Synthetic Benchmarks for Concept Bottleneck Models</p>
        <p class="orig-summary">Concept bottleneck models predict outcomes from high-level concepts detected in inputs. Although concepts provide a simple way to reap benefits from interpretability, very few datasets include concept labels. This limits researchers&#x27; ability to determine which problems are suitable for these models, isolate the factors that drive their performance or lead to failures, or uncover which algorithms perform well. In this paper, we develop synthetic benchmarks for concept-bottleneck models, focusing on their two main use cases: decision support, in which models assist humans in making better decisions, and automation, in which models handle routine tasks without supervision. Our benchmarks can generate labeled datasets while controlling for properties that affect performance, including data modality, concept choice, annotation quality, and completeness. We demonstrate how the benchmarks can be used to evaluate representative classes of concept bottleneck models. Our demonstrations show how the benchmarks can diagnose failure modes and guide follow-up testing.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d1156f72b8a5" data-article-url="https://arxiv.org/abs/2606.04327" data-article-title="2 層ニューラル ネットワークの静止プラトーの幾何学的特徴付け" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04327" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04327" target="_blank" rel="noopener">2 層ニューラル ネットワークの静止プラトーの幾何学的特徴付け</a></h3>
      <p class="summary">滑らかな活性化関数を備えた 2 層ニューラル ネットワークの損失ランドスケープで生じる定常プラトーの幾何学的構造を調査します。私たちは、隠れたニューロンを複製すると、より広いネットワーク内にアフィン セットの静止点が生成される「ニューロン分割」という現象に焦点を当てます。これらの台地上のすべての静止点を包括的に分類し、どのような条件下でそれらが極小点または鞍点を構成するかを判断します。私たちの特性評価は、「内部ヘッセ行列」と呼ぶニューロンごとの曲率オブジェクトに依存します。私たちの分析により、内部ヘッセ行列の明確性と分割係数の選択が共同してプラトーの局所的な幾何学形状を決定することが明らかになりました。極小値を「分割」すると、局所極小値と鞍部の混合、または穏やかな仮定の下で特定された具体的な確実な鞍部領域を含むすべての鞍部のプラトーが得られることを示します。対照的に、鞍点を分割すると、常に鞍点のプラトーが生成されます。私たちの結果は、以前のランドスケープ解析を統合および拡張し、モデル拡張がいつどのように静止点の性質を保存または変更するかを解明します。これらの発見は、ニューラル ネットワークにおける幅の拡張と再パラメータ化の影響についての新しい幾何学的洞察を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Geometric Characterization of the Stationary Plateau for Two-Layer Neural Networks</p>
        <p class="orig-summary">We investigate the geometric structure of stationary plateaus that arise in the loss landscape of two-layer neural networks with smooth activation functions. We focus on the phenomenon of &quot;neuron splitting&quot; where duplicating a hidden neuron yields an affine set of stationary points in a wider network. We provide a comprehensive classification of all stationary points on these plateaus, determining under what conditions they constitute local minima or saddle points. Our characterization hinges on a per-neuron curvature object we term the &quot;inner Hessian&quot; matrix. Our analysis reveals that the definiteness of the inner Hessian and the choice of splitting coefficients jointly dictate the local geometry of the plateau. We show that &quot;splitting&quot; a local minimum can yield either a mixture of local minima and saddles or an all-saddle plateau, with a concrete sure-saddle region identified under mild assumptions. In contrast, splitting a saddle point always produces a plateau of saddle points. Our results unify and extend prior landscape analyses, elucidating when and how model expansion preserves or alters the nature of stationary points. These findings offer new geometric insights into the effects of width expansion and reparameterization in neural networks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="adf58678e5f2" data-article-url="https://arxiv.org/abs/2606.04328" data-article-title="即時決定トランスフォーマーを使用したワイヤレス ネットワークの一般化可能なマルチタスク学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04328" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04328" target="_blank" rel="noopener">即時決定トランスフォーマーを使用したワイヤレス ネットワークの一般化可能なマルチタスク学習</a></h3>
      <p class="summary">将来のワイヤレス ネットワークでは、非常に異質な環境と動的なタスク構成への迅速な適応が求められており、従来のルールベースで最適化主導の無線リソース管理 (RRM) から人工知能 (AI) 主導の RRM への移行が必要です。 AI 主導のアプローチは、複雑な非線形関係を学習し、多様なネットワーク条件全体に一般化して、リアルタイムでスケーラブルな自律的な意思決定を可能にします。 RRM 技術の中でも、多地点協調（CoMP）送信はセル間干渉を軽減し、セルエッジのパフォーマンスを向上させるために極めて重要であり、それによって高密度展開における体験品質（QoE）が向上します。ただし、最適なマルチセルの選択は、動的なトラフィックとチャネル条件の下で、考えられる多くのサービングセルの組み合わせを共同で最適化する必要があるため、依然として複雑な組み合わせの課題です。成功にもかかわらず、近接ポリシー最適化 (PPO) などの従来の深層強化学習 (DRL) 手法は、サンプル効率が低く、汎化が限られており、状態空間とアクション空間が変化した場合に再学習にコストがかかるという問題があります。これらのボトルネックに対処するために、多様なネットワーク構成にわたって学習し、シーケンス モデリング問題としてマルチセルの選択を再定式化できる、Prompt Decision Transformer (PromptDT) ベースのマルチタスク学習フレームワークを提案します。 PromptDT は、オフライン トラジェクトリとタスク固有のプロンプトを活用することで、さまざまな基地局やユーザー機器の数、スケジューラ ポリシーなど、さまざまなネットワーク構成にわたってスケーラブルな学習を可能にします。実験結果は、PromptDT がベースラインと比較してマルチタスク設定で QoE を最大 49% 向上させ、モデルの容量に合わせてパフォーマンスがプラスに拡張することを示しています。さらに、PromptDT は目に見えないタスクを効果的に一般化し、再トレーニングや微調整を行わずに、新しいネットワーク構成への堅牢な少数ショットの適応を実現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Generalizable Multi-Task Learning for Wireless Networks Using Prompt Decision Transformers</p>
        <p class="orig-summary">Future wireless networks demand rapid adaptation to highly heterogeneous environments and dynamic task configurations, necessitating a shift from conventional rule-based and optimization-driven radio resource management (RRM) toward artificial intelligence (AI)-driven RRM. AI-driven approaches can learn complex nonlinear relationships, generalize across diverse network conditions and enable real-time, scalable and autonomous decision-making. Among RRM techniques, coordinated multipoint (CoMP) transmission is pivotal for mitigating inter-cell interference and enhancing cell-edge performance, thereby improving quality of experience (QoE) in dense deployments. However, optimal multi-cell selection remains a complex combinatorial challenge as it requires jointly optimizing over many possible serving-cell combinations under dynamic traffic and channel conditions. Despite their success, conventional deep reinforcement learning (DRL) methods such as proximal policy optimization (PPO) suffer from poor sample efficiency, limited generalization, and costly retraining when state and action spaces change. To address these bottlenecks, we propose a Prompt Decision Transformer (PromptDT) based multi-task learning framework capable of learning across diverse network configurations and reformulating multi-cell selection as a sequence modeling problem. By leveraging offline trajectories and task-specific prompts, PromptDT enables scalable learning across diverse network configurations, including varying base stations and user equipment counts, and scheduler policies. Experimental results demonstrate that PromptDT improves QoE by up to 49% in multi-task settings compared to baselines, with performance scaling positively alongside model capacity. Moreover, PromptDT generalizes effectively to unseen tasks, achieving robust few-shot adaptation to new network configurations without retraining or fine-tuning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a6fc80be7ff7" data-article-url="https://arxiv.org/abs/2606.04329" data-article-title="信頼できない入力から信頼できるメモリへ: LLM エージェントにおけるメモリポイズニング攻撃の系統的研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04329" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04329" target="_blank" rel="noopener">信頼できない入力から信頼できるメモリへ: LLM エージェントにおけるメモリポイズニング攻撃の系統的研究</a></h3>
      <p class="summary">メモリは AI エージェントの中核コンポーネントであり、AI エージェントがインタラクションを通じて知識を蓄積し、パフォーマンスを向上させることができます。ただし、永続メモリにはメモリ ポイズニングのリスクが伴います。メモリ ポイズニングの場合、敵対的な 1 回のメモリ書き込みがエージェントの動作に長期的な影響を与える可能性があります。我々は、LLM ベースのエージェントにおけるメモリポイズニングの体系的な研究を紹介します。 4 つのメモリ書き込みチャネルと、これらのチャネルを悪用可能にするモデル機能、システム プロンプト設計、およびエージェント システム アーキテクチャにおける 9 つの構造的脆弱性を特定しました。これらの脆弱性に基づいて、メモリポイズニング攻撃の 6 つのクラスの分類を作成します。さらに、メモリポイズニング攻撃を評価するためのベンチマークである MPBench を設計し、より積極的にメモリの書き込みと取得を行うように設計されたエージェントが悪用されやすいことを示します。また、既存のプロンプト インジェクション防御ではメモリ ポイズニング攻撃をカバーできないことも示します。私たちの調査結果は、AI エージェントに対するメモリ ポイズニング攻撃を理解し、軽減するための基盤を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Untrusted Input to Trusted Memory: A Systematic Study of Memory Poisoning Attacks in LLM Agents</p>
        <p class="orig-summary">Memory is a core component of AI agents, enabling them to accumulate knowledge across interactions and improve performance. However, persistent memory introduces the risk of memory poisoning, where a single adversarial memory write can exert long-term influence over agent behavior. We present a systematic study of memory poisoning in LLM-based agents. We identify four memory write channels and nine structural vulnerabilities in model capabilities, system prompt design, and agent system architecture that make these channels exploitable. Based on these vulnerabilities, we develop a taxonomy of six classes of memory poisoning attacks. Furthermore, we design MPBench -- a benchmark for evaluating memory poisoning attacks, and show that agents designed to write and retrieve memory more aggressively are more exploitable. We also show that existing prompt injection defenses fail to cover memory poisoning attacks. Our findings provide a foundation for understanding and mitigating memory poisoning attacks against AI agents.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c772aec42164" data-article-url="https://arxiv.org/abs/2606.04342" data-article-title="期待と現実: 条件付き不確実性の下での MSE 最適予測のコスト" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04342" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04342" target="_blank" rel="noopener">期待と現実: 条件付き不確実性の下での MSE 最適予測のコスト</a></h3>
      <p class="summary">マルチステップ時系列予測 (MSF) は通常、平均二乗誤差 (MSE) などの点単位の誤差メトリクスを使用して評価され、暗黙的に条件付き平均を十分な目標として扱います。条件付きの不確実性の下ではこれが誤解を招く可能性があり、条件付きの期待が長期的には典型的な実現値を代表しなくなる可能性があることを示します。我々は、条件付き不確実性ギャップを通じてこの効果を形式化し、このギャップがゼロ以外の場合は常に、MSE を最小化し、現実化した先物の限界分布と一致させることができる決定論的予測子は存在しないことを証明します。これにより、MSF 評価における点精度と限界現実性との間の基本的なモデルに依存しないトレードオフが確立されます。制御された確率力学システムと 9 つの現実世界の予測ベンチマークを使用して、結果として得られる精度、つまりリアリズム フロンティアと \textbf{MSE のみのモデル選択の実際的なコストを定量化} を経験的に特徴付けます。予測期間が進むにつれて条件の不確実性が増大するにつれて、達成可能なセットは顕著なパレート フロントに拡大し、MSE に最適ではあるが分散が不十分な予測子を、現実的な限界変動と精度を引き換えにする手法から分離します。 \textbf{ベンチマーク全体で、MSE の小さな緩和 ($\boldsymbol{\le 5\%}$) が限界現実主義で不釣り合いな利益をもたらすことが頻繁にあり、一部のデータセットでは $\mathbf{17.3\%}$ の中央値改善と $\mathbf{30\%}$ を超える利益が得られることがわかりました。} さらに、一般的な予測戦略が体系的にこのフロンティアのさまざまな領域を占めることを示します。複数出力の予測子は精度が最適な極限付近に集中しますが、再帰的戦略とサンプルベースの推論は限界現実主義を支持します。これらの結果を総合すると、長期予測における MSE ベースの評価の構造的欠陥モードと、避けられない精度、つまり現実性のトレードオフのナビゲーションとしてのリキャスト戦略と推論の選択が明らかになります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Expectations vs. Realities: The Cost of MSE-Optimal Forecasting Under Conditional Uncertainty</p>
        <p class="orig-summary">Multi-step time series forecasting (MSF) is commonly evaluated using point-wise error metrics such as mean squared error (MSE), implicitly treating the conditional mean as a sufficient target. We show that this can be misleading under conditional uncertainty, where the conditional expectation becomes unrepresentative of typical realized values at longer horizons. We formalize this effect through a conditional uncertainty gap and prove that whenever this gap is nonzero, no deterministic predictor can simultaneously minimize MSE and match the marginal distribution of realized futures. This establishes a fundamental, model-agnostic trade-off between point accuracy and marginal realism in MSF evaluation. Using controlled stochastic dynamical systems and nine real-world forecasting benchmarks, we empirically characterize the resulting accuracy--realism frontier and \textbf{quantify the practical cost of MSE-only model selection}. As conditional uncertainty increases with forecast horizon, the attainable set expands into a pronounced Pareto front, separating MSE-optimal but under-dispersed predictors from methods that trade accuracy for realistic marginal variability. \textbf{Across benchmarks, we find that small relaxations in MSE ($\boldsymbol{\le 5\%}$) frequently unlock disproportionate gains in marginal realism, with median improvements of $\mathbf{17.3\%}$ and gains exceeding $\mathbf{30\%}$ in some datasets.} We further show that common forecasting strategies systematically occupy different regions of this frontier: direct multi-output predictors concentrate near the accuracy-optimal extreme, while recursive strategies and sample-based inference favors marginal realism. Together, these results expose a structural failure mode of MSE-based evaluation in long-horizon forecasting and recast strategy and inference selection as navigation of an unavoidable accuracy--realism trade-off.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="00132bfa99db" data-article-url="https://arxiv.org/abs/2606.04345" data-article-title="HYolo: ハイパーグラフ学習を使用したインテリジェントな IoT ベースの物体検出システム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04345" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04345" target="_blank" rel="noopener">HYolo: ハイパーグラフ学習を使用したインテリジェントな IoT ベースの物体検出システム</a></h3>
      <p class="summary">このペーパーでは、ハイパーグラフ学習を YOLO アーキテクチャに統合する、インテリジェントな IoT ベースのオブジェクト検出フレームワークである HYolo について説明します。従来の YOLO ベースの物体検出モデルは、主にペアごとの特徴の相互作用を捕捉しており、物体とコンテキスト特徴間の複雑な高次の関係をモデル化できない場合があります。この制限に対処するために、HYolo にはハイパーグラフ学習が組み込まれており、より豊富なコンテキスト依存関係を取得し、オブジェクト表現を改善します。 COCO データセットの実験評価では、ベースライン YOLO モデルと比較してパフォーマンスが大幅に向上していることが実証されています。提案されたアプローチは、全体的な検出精度と堅牢性を向上させながら、mAP@50 で約 12% の改善を達成します。 HYolo は、高次の特徴関係をモデル化することにより、IoT ベースの環境においてコンテキストの理解が向上し、より信頼性の高い物体検出パフォーマンスを提供します。この結果は、ハイパーグラフ学習を物体検出パイプラインに統合することが、インテリジェントでコンテキスト認識型の IoT ビジョン システムに有望な方向性をもたらすことを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">HYolo: An Intelligent IoT-Based Object Detection System Using Hypergraph Learning</p>
        <p class="orig-summary">This paper presents HYolo, an intelligent IoT-based object detection framework that integrates hypergraph learning into the YOLO architecture. Traditional YOLO-based object detection models primarily capture pairwise feature interactions and may fail to model complex high-order relationships among objects and contextual features. To address this limitation, HYolo incorporates hypergraph learning to capture richer contextual dependencies and improve object representation. Experimental evaluation on the COCO dataset demonstrates significant performance improvements over baseline YOLO models. The proposed approach achieves approximately 12% improvement in mAP@50 while enhancing overall detection accuracy and robustness. By modeling high-order feature relationships, HYolo provides improved contextual understanding and more reliable object detection performance in IoT-based environments. The results indicate that integrating hypergraph learning into object detection pipelines offers a promising direction for intelligent and context-aware IoT vision systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e27132dcebe4" data-article-url="https://arxiv.org/abs/2606.04349" data-article-title="MorphoQuant: オムニモーダル大規模言語モデル向けのモダリティを意識した量子化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04349" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04349" target="_blank" rel="noopener">MorphoQuant: オムニモーダル大規模言語モデル向けのモダリティを意識した量子化</a></h3>
      <p class="summary">従来のポストトレーニング量子化 (PTQ) 手法は、極端な分布の不均一性とモダリティ間の異種の外れ値パターンにより、4 ビットのオムニモーダル大規模言語モデル (OLLM) に苦戦します。これに対処するために、クロスモーダル形態を保存し、外れ値の損失を軽減するように設計されたモダリティ認識 PTQ フレームワークである MorphoQuant を提案します。具体的には、ロングテールの外れ値をチャネルごとのバイアスに選択的に吸収する、Distribution-Aware Bias Compensation (DABC) を導入します。このメカニズムは、密なインライアの高精度の離散化を維持しながら外れ値の大きさを保護し、それによって多様なモード分布にわたって正確な離散化を維持します。これを補完するために、量子化グリッドとバイアス マスクを同時に最適化し、モダリティ全体でのきめ細かい調整を保証する形態指向量子化関数最適化 (MDQFO) を提案します。 MMMU や Video-MME などのベンチマークにわたる Qwen2.5-Omni の広範な評価により、私たちのアプローチの優位性が実証されています。特に、当社の W4A4 モデルは ScienceQA で 76.63% を達成し、SOTA W4A4 メソッドを大幅に上回り、驚くべきことに W4A16 ベースラインを上回っています。これは、当社のフレームワークの並外れた精度と効率のトレードオフを十分に示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MorphoQuant: Modality-Aware Quantization for Omni-modal Large Language Models</p>
        <p class="orig-summary">Conventional Post-Training Quantization (PTQ) methods struggle with 4-bit Omni-modal Large Language Models (OLLMs) due to the extreme distribution heterogeneity and disparate outlier patterns across modalities. To address this, we propose MorphoQuant, a modality-aware PTQ framework engineered to preserve cross-modal morphology and mitigate outlier loss. Specifically, we introduce Distribution-Aware Bias Compensation (DABC), which selectively absorbs long-tailed outliers into channel-wise biases. This mechanism safeguards outlier magnitudes while maintaining high-precision discretization for dense inliers, thereby preserving accurate discretization across diverse modal distribution. Complementing this, we propose Morphology-Directed Quantization Function Optimization (MDQFO) to co-optimize the quantization grid with the bias mask, ensuring fine-grained alignment across modalities. Extensive evaluations on Qwen2.5-Omni across benchmarks like MMMU and Video-MME demonstrate our approach&#x27;s superiority. Notably, our W4A4 model achieves 76.63% on ScienceQA, significantly outperforming SOTA W4A4 methods and surprisingly surpassing the W4A16 baseline, which fully demonstrates the exceptional accuracy-efficiency trade-off of our framework.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f8cd4e6e9475" data-article-url="https://arxiv.org/abs/2606.04365" data-article-title="CT ボリュームからの多粒度 3D 腎臓病変の特徴付け" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04365" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04365" target="_blank" rel="noopener">CT ボリュームからの多粒度 3D 腎臓病変の特徴付け</a></h3>
      <p class="summary">放射線医学のレポートでは、腎臓病変を種類、サイズ、増強、減弱別に説明していますが、既存の 3D 手法では、患者または臓器レベルでしか予測できません。腎臓の CT 特性評価を病変セットごとの予測タスクとして再定式化します。1 つのモデルが腎臓ごとに可変数の病変を出力し、それぞれが 4 つの臨床的属性を持ちます。私たちは、ある学術医療センターの 788 人の患者からの 2,619 の CT ボリュームを厳選し、多粒度の側面および病変ごとのラベルを付け、ゼロショット外部検証に KiTS23 (489 ケース) を使用しました。私たちは、サイズ距離ハンガリー語マッチングと、スロットごとの出力をサイドレベルの目標に集約する階層損失を備えた DETR スタイルのアーキテクチャである \textbf{LesionDETR} を提案します。 4 つの入力表現と 6 つのエンコーダー初期化において、設計上の 2 つの選択肢が支配的です。入力チャネルとしてのセグメンテーション マスクと、同一ドメイン腹部事前トレーニング (SuPreM) です。一般的な大規模コーパスの事前トレーニングは、ランダムな初期化と何ら変わりません。 LesionDETR は、UF-Health では両側側レベルの異常 AUC $0.799 \pm 0.009$、KiTS23 では $0.817 \pm 0.072$ に達します。カウント条件付きバリアントは、嚢胞性病変では病変あたりの mAP $0.190 \pm 0.083$ に達します。まれな固形病変 AP はノイズ フロアに留まり、次のボトルネックとしてアーキテクチャではなく対象を絞ったデータ収集が指摘されています。このフレームワークは、下流の構造化レポート生成のための検証済みの病変ごとの予測を生成します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Multi-Granularity 3D Kidney Lesion Characterization from CT Volumes</p>
        <p class="orig-summary">Radiology reports describe kidney lesions by type, size, enhancement, and attenuation, yet existing 3D methods predict only at the patient or organ level. We reformulate kidney CT characterization as a per-lesion set-prediction task: one model emits a variable number of lesions per kidney, each with four clinical attributes. We curated 2,619 CT volumes from 788 patients at one academic medical center, with multi-granularity side- and per-lesion labels, and used KiTS23 (489 cases) for zero-shot external validation. We propose \textbf{LesionDETR}, a DETR-style architecture with size-distance Hungarian matching and a hierarchical loss that aggregates per-slot outputs to side-level objectives. Across four input representations and six encoder initializations, two design choices dominate: a segmentation mask as an input channel, and same-domain abdominal pretraining (SuPreM); generic large-corpus pretraining is no better than random initialization. LesionDETR reaches bilateral side-level abnormality AUC $0.799 \pm 0.009$ on UF-Health and $0.817 \pm 0.072$ on KiTS23. A count-conditioned variant reaches per-lesion mAP $0.190 \pm 0.083$ on cystic lesions; rare solid-lesion AP stays at the noise floor, pointing to targeted data collection, not architecture, as the next bottleneck. The framework yields verified per-lesion predictions for downstream structured report generation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="11627b76bb11" data-article-url="https://arxiv.org/abs/2606.04373" data-article-title="分離された情報領域の選択的結合: ビジョントランスフォーマーのデータフリー量子化のためのマスクされた注意の調整" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04373" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04373" target="_blank" rel="noopener">分離された情報領域の選択的結合: ビジョントランスフォーマーのデータフリー量子化のためのマスクされた注意の調整</a></h3>
      <p class="summary">データフリー量子化 (DFQ) は、実際のデータにアクセスせずにサンプルを合成することで、データ セキュリティの問題に対処します。古典的な畳み込み演算と比較した自己注意メカニズムの優位性により、ビジョン トランスフォーマー (ViT) の文脈でますます注目を集めています。ただし、ViT 用の以前の DFQ 技術では、合成サンプルと量子化モデル Q によって予期される入力分布の間の分布の不一致が発生し、次善のパフォーマンスが得られることがよくありました。この論文では、MaskAQ と呼ばれる ViT のデータフリー量子化のための新しいマスク アテンション アラインメント アプローチを提案します。これにより、次のことが明らかになります。1) セルフ アテンション メカニズムのセマンティクスは、主に情報領域と呼ばれるパッチのまばらなサブセットに局在化されている。 2) 情報領域は、合成サンプルと Q の出力の間の相互情報を支配します。これらの目的のために、合成サンプルのパッチ類似性に差分エントロピー最大値を組み込んで、ノイズの多い背景から有益な領域を分離します。さまざまな Q と組み合わせるために、マスクされたアテンション アラインメント目標を介して完全精度モデルを Q と位置合わせするように情報領域が選択され、高品質の合成サンプルが得られます。さらに、定期的なサンプル リフレッシュ戦略により、トレーニング プロセス全体を通じて Q の進化する状態に継続的に適応し、合成サンプルとの望ましい相互情報を保存する能力が MaskAQ に与えられます。広範な実験により、複数のバックボーンとダウンストリーム タスクにわたる最先端のアプローチに対する MaskAQ の利点が検証されています。私たちのコードは https://github.com/hfutqian/MaskAQ で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Selective Coupling of Decoupled Informative Regions: Masked Attention Alignment for Data-Free Quantization of Vision Transformers</p>
        <p class="orig-summary">Data-Free Quantization (DFQ) addresses data security concerns by synthesizing samples, without accessing real data. It has garnered increasing attention in the context of Vision Transformers (ViTs), owing to the superiority of the self-attention mechanism compared to classical convolutional operation. However, previous DFQ arts for ViTs often suffer from a distribution mismatch between synthetic samples and input distribution expected by quantized models Q, resulting in the suboptimal performance. In this paper, we propose a novel Masked Attention Alignment approach for Data-Free Quantization of ViTs, named MaskAQ, revealing that: 1) the semantics in the self-attention mechanism is predominantly localized to a sparse subset of patches, called informative regions; 2) the informative regions dominate the mutual information between synthetic samples and Q&#x27;s outputs. To these ends, we incorporate differential entropy maximum over patch similarity of synthetic samples, to decouple informative regions from noisy background. To couple with varied Q, the informative regions are selected to align full-precision models with Q via a masked attention alignment objective, thus yielding high-quality synthetic samples. Furthermore, a periodic sample refreshing strategy comes up to endow MaskAQ with the capacity to continually adapt to the evolving state of Q throughout the training process, to preserve desirable mutual information with synthetic samples. Extensive experiments verify the merits of MaskAQ over state-of-the-art approaches across multiple backbones and downstream tasks. Our code is available at https://github.com/hfutqian/MaskAQ.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="36b49569326b" data-article-url="https://arxiv.org/abs/2606.04374" data-article-title="DSIRM: 電子商取引関連性モデリングのためのクエリブリッジされた離散セマンティック識別子の学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04374" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04374" target="_blank" rel="noopener">DSIRM: 電子商取引関連性モデリングのためのクエリブリッジされた離散セマンティック識別子の学習</a></h3>
      <p class="summary">電子商取引の検索関連性に対する継続的な埋め込みが急速に進歩しているにもかかわらず、長年の未解決の問題は、きめの細かい属性の区別を把握することが難しいことです。離散セマンティック識別子 (SID) は有望な代替手段として広く採用されていますが、既存の SID 生成方法は教師なし量子化に大きく依存しています。現実的なシナリオでは、明示的な監視がないため、どの項目が SID を共有するかを決定することがより困難になることが多く、その結果、クエリ依存のランキング機能が制限されます。教師なし SID の問題に対処するために、離散関連性機能を明示的にモデル化し、離散セマンティック識別子関連性モデル (DSIRM) を開発することを提案します。具体的には、アイテム側でクエリブリッジの対比量子化アプローチを提案し、クエリとアイテムの相互作用監視を残差量子化に注入して、関連性を意識したセマンティックパーティションを積極的に学習します。一方、クエリ側で生成 LLM を調査し、テキストから項目 SID を明示的に予測し、末尾クエリと意図の曖昧さを解決します。クエリとアイテムの SID 間の階層的なプレフィックス マッチングにより、密な信号を完全に補完する識別機能が得られます。 Tmall の生産データに関する広範な実験結果は、私たちが提案したアプローチがより良い結果を達成し、オフライン AUC を +1.54% 改善したことを示しています。効率的なハイブリッド アーキテクチャを介して導入され、大幅なオンライン リフト (+0.13\% UCTR、+0.25\% UCTCVR) を達成し、その巨大な産業価値を証明しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DSIRM: Learning Query-Bridged Discrete Semantic Identifiers for E-commerce Relevance Modeling</p>
        <p class="orig-summary">Despite rapid progress of continuous embeddings for e-commerce search relevance, a long-standing open problem is the difficulty in capturing fine-grained attribute distinctions. While discrete Semantic Identifiers (SIDs) have been widely adopted as a promising alternative, existing SID generation methods rely heavily on unsupervised quantization. In realistic scenarios, the lack of explicit supervision often makes it more difficult to dictate which items should share an SID, resulting in limited capability for query-dependent ranking. To address the issue of unsupervised SIDs, we propose to explicitly model discrete relevance features and develop a Discrete Semantic Identifier Relevance Model (DSIRM). Specifically, we present a query-bridged contrastive quantization approach on the item side, injecting query-item interaction supervision into Residual Quantization to actively learn relevance-aware semantic partitions. On the other hand, we explore generative LLMs on the query side to explicitly predict item SIDs from text, resolving tail queries and intent ambiguity. Hierarchical prefix matching between query and item SIDs yields discriminative features that perfectly complement dense signals. Extensive experimental results on Tmall&#x27;s production data show that our proposed approach has achieved better results, improving offline AUC by +1.54\%. Deployed via an efficient hybrid architecture, it achieves significant online lifts (+0.13\% UCTR, +0.25\% UCTCVR), proving its massive industrial value.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4e1c4f199ac2" data-article-url="https://arxiv.org/abs/2606.04381" data-article-title="記号から幾何へ: 大規模な言語モデルで空間推論を可能にする" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04381" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04381" target="_blank" rel="noopener">記号から幾何へ: 大規模な言語モデルで空間推論を可能にする</a></h3>
      <p class="summary">最近の大規模言語モデル (LLM) は、空間推論能力を示すことが多いようです。ただし、この機能は主に \emph{象徴的} なものであり、空間に関する真の \emph{幾何学的} 推論ではなく、空間言語によるパターン マッチングから生じています。 LLM は離散トークンで動作するため、連続空間表現、明示的な幾何学的計算、および構造化空間演算子のネイティブ サポートが不足しています。この制限に対処するために、\emph{空間言語モデル (SLM)} を導入しました。これは位置情報を第一級のモダリティとして扱い、モデルの推論プロセス内で幾何学的空間推論を可能にする初のマルチモーダル LLM です。 SLM は、空間関係のテキスト記述ではなく、学習された空間表現に直接作用します。効果的なトレーニングをサポートするために、空間表現、アトミックな幾何学的操作、自然言語命令を調整する \emph{空間命令データセット} を構築します。さらに、\emph{SpatialEval} という名前の新しいベンチマークを提案します。これは、属性、距離、トポロジー、および相対位置タスクにわたる空間推論を評価するように設計されています。広範な実験により、SLM は、プロンプト エンジニアリングやテキスト抽象化による記号推論に依存する既存の LLM ベースのアプローチよりも大幅に優れていることが示されており、堅牢な空間推論のために幾何学的空間表現を統合する利点が実証されています。命令データセット、評価ベンチマーク、モデル トレーニング コード、モデルのチェックポイントは、\hyperlink{https://github.com/chuchen2017/SLM}{https://github.com/chuchen2017/SLM} にあります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Symbolic to Geometric: Enabling Spatial Reasoning in Large Language Models</p>
        <p class="orig-summary">Recent large language models (LLMs) often appear to exhibit spatial reasoning ability; however, this capability is largely \emph{symbolic}, arising from pattern matching over spatial language rather than true \emph{geometric} reasoning over space. Because LLMs operate on discrete tokens, they lack native support for continuous spatial representations, explicit geometric computation, and structured spatial operators. To address this limitation, we introduce the \emph{Spatial Language Model (SLM)}, the first multimodal LLM that treats location information as a first-class modality and enables geometric spatial reasoning within the model&#x27;s inference process. SLM directly operates on learned spatial representations rather than textual descriptions of spatial relations. To support effective training, we construct a \emph{Spatial Instruction Dataset} that aligns spatial representations, atomic geometric operations, and natural language instructions. We further propose a new benchmark named \emph{SpatialEval}, which is designed to evaluate spatial reasoning across attributes, distance, topology, and relative-position tasks. Extensive experiments show that SLM significantly outperforms existing LLM-based approaches that rely on symbolic reasoning via prompt engineering or textual abstraction, demonstrating the benefits of integrating geometric spatial representations for robust spatial reasoning. Our instruction dataset, evaluation benchmark, model training codes, and models&#x27; checkpoints can be found at: \hyperlink{https://github.com/chuchen2017/SLM}{https://github.com/chuchen2017/SLM}.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dd5c737f457d" data-article-url="https://arxiv.org/abs/2606.04382" data-article-title="LCSHBench: 米国議会図書館件名見出し割り当てのための、多言語で合意に基づいたベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-regulation">規制/政策</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04382" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04382" target="_blank" rel="noopener">LCSHBench: 米国議会図書館件名見出し割り当てのための、多言語で合意に基づいたベンチマーク</a></h3>
      <p class="summary">自動主題目録作成では、制御された語彙見出しが書誌レコードに割り当てられますが、LCSH には標準の公開ベンチマークがありません。 LCSHBench を紹介します。オープンライセンスのハーバード大学、コロンビア大学、プリンストン大学のカタログから 15 言語で 22,346 冊の本を紹介します。記録は、少なくとも 2 つの独立目録作成機関が LCSH を割り当てた場合にのみ入力されます。私たちはカタログごとの来歴と結合および全員一致の回答ビューをリリースします。 3 つの図書館すべてでカタログ化されている 465,187 作品の一致調査では、なぜこのデザインが重要であるかを示しています。図書館は通常、基礎となるトピックについては一致しています (93.3% が概念レベルの見出しを共有) が、正確な表現が異なることがよくあります (39.4% が同一の見出しセットを持っています)。したがって、LCSHBench は、オープン語彙の生成と完全な語彙の検索にわたって、言語と見出しの種類ごとに分類されたセットとランクのメトリクスを使用して、完全一致と概念一致の両方をスコアリングします。最初のデモンストレーションとして、300M オンデバイス エンベッダーの低ランク微調整により、言語を超えた検索が向上し、開発正確な再現率 @ 200 (0.659 対 0.623) で 3,072 次元のホスト型エンベッダーを上回りました。言語パネルは、ゲインが一様ではないことを示しており、ホールドアウトテストとエンドツーエンドの確認は今後の作業として残っています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LCSHBench: A Multilingual, Consensus-Grounded Benchmark for Library of Congress Subject Heading Assignment</p>
        <p class="orig-summary">Automated subject cataloging assigns controlledvocabulary headings to bibliographic records, but LCSH has no standard public benchmark. We introduce LCSHBench: 22,346 books in 15 languages from the openly licensed Harvard, Columbia, and Princeton catalogs. Records enter only when at least two independent cataloging agencies assigned LCSH; we release per-catalog provenance plus union and unanimous answer views. A concordance study of 465,187 works cataloged by all three libraries shows why this design matters: libraries usually agree on the underlying topic (93.3% share a concept-level heading) but often differ in exact expression (39.4% have identical heading sets). LCSHBench therefore scores both exact and concept matches, with set and rank metrics broken down by language and heading type, across open-vocabulary generation and full-vocabulary retrieval. As a first demonstration, a low-rank fine-tune of a 300M on-device embedder improves cross-lingual retrieval and beats a 3,072-dimensional hosted embedder on development exact recall@200 (0.659 vs 0.623). The language panel shows the gain is not uniform, and held-out-test and end-to-end confirmation remain future work.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d531a61aeeb0" data-article-url="https://arxiv.org/abs/2606.04387" data-article-title="LLM ベースの階層的優先順位付けによる営業リードのスコアリングの再考" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04387" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04387" target="_blank" rel="noopener">LLM ベースの階層的優先順位付けによる営業リードのスコアリングの再考</a></h3>
      <p class="summary">一か八かの分野 (自動車、不動産など) でのセールスリードの変換は、長期にわたる意思決定サイクルと多段階の目標到達プロセスにより、電子商取引の推奨とは根本的に異なります。従来のリード スコアリング方法のルールベースのスコアカード、機械学習、またはポイントごとの CTR モデルは、監督の希薄さ、非構造化 CRM ログのセマンティック ギャップ、相対的なリードの優先度を把握できないなどの深刻な課題に直面しています。大規模言語モデル (LLM) は顧客との対話の優れた意味的理解を提供しますが、汎用 LLM はリードのランキングには適していません。比較可能なスコアではなくテキストを生成し、セールス ファネルの階層的な優先順位との整合性が欠けています。セールスリードスコアリングのための LLM ベースの識別フレームワークを導入します。これは、構造化された CRM 機能と非構造化された顧客インタラクションの共同モデリングをサポートします。このフレームワークに加えて、HPRO (階層的嗜好ランキング最適化) を提案します。これは、階層的な嗜好ランキングの目標によってセールス リードのスコアリングを強化します。 HPRO は、マージンを意識した Bradley-Terry 定式化を採用して、まばらなバイナリ ラベルを高密度でファネルを意識したプリファレンス ペアに変換し、ポイント単位とペア単位の両方の監視を活用したリード スコアリングを可能にします。大手NEVブランドからの大規模データを用いた実験では、最先端の分類（AUC 0.8161）とランキングパフォーマンス（トップランクのリード間で精度+39.7%）が実証されました。 132 日間のオンライン A/B テストにより、販売量が 9.5% 増加したことが検証され、現実世界の商業的影響が確認されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Rethinking Sales Lead Scoring with LLM-based Hierarchical Preference Ranking</p>
        <p class="orig-summary">Sales lead conversion in high-stakes domains (e.g., automotive, real estate) differs fundamentally from e-commerce recommendation due to prolonged decision cycles and multi-stage funnels. Traditional lead scoring methods rule-based scorecards, machine learning, or pointwise CTR models face severe challenges: sparse supervision, a semantic gap in unstructured CRM logs, and inability to capture relative lead priority. While Large Language Models(LLMs) offer superior semantic understanding of customer interactions, general-purpose LLMs are ill-suited for lead ranking: they generate text rather than comparable scores, and lack alignment with the hierarchical priorities of sales funnels. We introduce an LLM-based discriminative framework for sales lead scoring, which supports joint modeling of structured CRM features and unstructured customer interactions. On top of this framework, we propose HPRO (Hierarchical Preference Ranking Optimization), which augments sales lead scoring with a hierarchical preference ranking objective. HPRO employs a margin-aware Bradley-Terry formulation to transform sparse binary labels into dense, funnel-aware preference pairs, enabling lead scoring to leverage both pointwise and pairwise supervision. Experiments on large-scale data from a leading NEV brand demonstrate state-of-the-art classification (AUC 0.8161) and ranking performance (+39.7% precision among top-ranked leads). A 132-day online A/B test validates 9.5% sales volume uplift, confirming real-world commercial impact.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bc20ffd92203" data-article-url="https://arxiv.org/abs/2606.04388" data-article-title="TITAN-FedAnil+: リソースに制約のあるインテリジェント企業向けの信頼ベースの適応ブロックチェーン連合学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04388" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04388" target="_blank" rel="noopener">TITAN-FedAnil+: リソースに制約のあるインテリジェント企業向けの信頼ベースの適応ブロックチェーン連合学習</a></h3>
      <p class="summary">Federated Learning (FL) は、データのプライバシーを維持しながら協調的なインテリジェンスを実現するための効果的なパラダイムとして登場しました。ただし、非 IID 配布や分散型セキュリティの脅威から生じるデータの異質性は、特にリソースに制約のあるエンタープライズ環境において依然として重大な課題となっています。このペーパーでは、インテリジェント企業におけるブロックチェーン対応のフェデレーテッド ラーニングのためのトラストベースのアダプティブ ネットワークである TITAN-FedAnil+ について説明します。提案されたフレームワークでは、アフィニティ伝播ベースの適応型クラスター化アグリゲーションを導入し、攻撃者の数に関する事前の知識を必要とせずに悪意のある更新を特定してフィルタリングします。さらに、GPU で高速化されたベクトル化が計算効率を向上させるために採用され、署名付き状態ジャンプ メカニズムにより軽量のブロックチェーン再同期が可能になります。実験結果では、ベースライン フレームワークと比較して、制約のある 8 GB エッジ デバイス上で 50 回の通信ラウンドにわたって最大 81% の節約を達成し、メモリ オーバーヘッドが大幅に削減されることが実証されました。結果は、TITAN-FedAnil+ が、インテリジェントなエンタープライズ環境におけるセキュアなフェデレーテッド ラーニング展開の堅牢性、スケーラビリティ、およびリソース効率を効果的に向上させることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TITAN-FedAnil+: Trust-Based Adaptive Blockchain Federated Learning for Resource-Constrained Intelligent Enterprises</p>
        <p class="orig-summary">Federated Learning (FL) has emerged as an effective paradigm for collaborative intelligence while preserving data privacy. However, data heterogeneity arising from non-IID distributions and decentralized security threats remain significant challenges, particularly in resource-constrained enterprise environments. This paper presents TITAN-FedAnil+, a Trust-Based Adaptive Network for blockchain-enabled federated learning in intelligent enterprises. The proposed framework introduces affinity propagation-based adaptive clustered aggregation to identify and filter malicious updates without requiring prior knowledge of the number of attackers. In addition, GPU-accelerated vectorization is employed to improve computational efficiency, while a signed state jump mechanism enables lightweight blockchain resynchronization. Experimental results demonstrate substantial reductions in memory overhead, achieving up to 81% savings across 50 communication rounds on constrained 8 GB edge devices compared with the baseline framework. The results indicate that TITAN-FedAnil+ effectively improves robustness, scalability, and resource efficiency for secure federated learning deployments in intelligent enterprise environments.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec7d43dfdf67" data-article-url="https://arxiv.org/abs/2606.04405" data-article-title="スケール不変変成器におけるグロッキングの低ランク減衰: スペクトル幾何学的な視点" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04405" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04405" target="_blank" rel="noopener">スケール不変変成器におけるグロッキングの低ランク減衰: スペクトル幾何学的な視点</a></h3>
      <p class="summary">最新の Transformer アーキテクチャでは、RMSNorm や Query-Key Normalization などの正規化メカニズムが頻繁に採用されており、モデルの一部が重みの大きさに関してほぼスケール不変になります。この領域では、標準のフロベニウス ノルム重み減衰は純粋に重み空間の半径方向に沿って作用し、正規化層によって表される関数を直接単純化することはできません。私たちは、このレンズを通して小さなアルゴリズムタスクのグロッキングを研究し、核ノルムに似たスペクトル正則化装置 \emph{Low-Rank Decay} (LRD) を提案します。その部分勾配 (極因子 $UV^\top$ -- はスケール不変設定でも接線成分を保持します)。この区別には、具体的な動的結果があります。モデルがトレーニング セットを記憶し、タスク勾配が消滅した後、L2 減衰は重みスペクトルを再形成できなくなりますが、LRD は $\ell_1$ のような方法で特異値を圧縮し続けます。モジュラー算術タスクでは、LRD がクエリ/キー行列で急速な実効ランクの崩壊を引き起こし、遅延汎化 (グロッキング) が発生するデータ部分の境界を拡大することがわかりました。我々はさらに、低ランク地層付近の核ノルム準微分値の「針から扇へ」の拡張を通じてスペクトル幾何学的解釈を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Low-Rank Decay for Grokking in Scale-Invariant Transformers: A Spectral-Geometric View</p>
        <p class="orig-summary">Modern Transformer architectures frequently employ normalization mechanisms such as RMSNorm and Query-Key Normalization, making parts of the model approximately scale-invariant with respect to weight magnitudes. In this regime, standard Frobenius-norm weight decay acts purely along the radial direction of the weight space and cannot directly simplify the function represented by the normalized layer. We study grokking in small algorithmic tasks through this lens and propose \emph{Low-Rank Decay} (LRD), a nuclear-norm-like spectral regularizer whose subgradient -- the polar factor $UV^\top$ -- retains a tangential component even in the scale-invariant setting. This distinction has a concrete dynamical consequence: after the model memorizes the training set and task gradients vanish, L2 decay can no longer reshape the weight spectrum, whereas LRD continues to compress singular values in an $\ell_1$-like fashion. On modular arithmetic tasks, we find that LRD induces rapid effective-rank collapse in Query/Key matrices and expands the data-fraction boundary at which delayed generalization (grokking) occurs. We further provide a spectral-geometric interpretation through the ``needle-to-fan&#x27;&#x27; expansion of the nuclear-norm subdifferential near low-rank strata.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="602afd922860" data-article-url="https://arxiv.org/abs/2606.04408" data-article-title="微分進化と勾配降下最適化によるアンサンブル潜在因子モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04408" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04408" target="_blank" rel="noopener">微分進化と勾配降下最適化によるアンサンブル潜在因子モデル</a></h3>
      <p class="summary">高次元かつ不完全 (HDI) データは、現実世界のビッグ データの多くのシナリオで広く普及しています。潜在因子モデルは、一般的な表現学習アプローチとして機能し、そのようなデータから有益な潜在因子を明らかにすることができます。それにもかかわらず、既存の潜在因子モデルのほとんどは、最適化のために勾配降下法のみに依存しているため、特に異種の HDI データを扱う場合、不十分で偏った表現につながる可能性があります。したがって、この研究では、次の 2 つの設計による、差分進化と勾配降下最適化によるアンサンブル潜在因子モデル (ELFM-DEGDO) を提案します。1) 2 つの多様な潜在因子モデルは、それぞれ差分進化と勾配降下最適化によって独立してモデル化され、2) 2 つの多様な潜在因子モデルは、カスタマイズされた自己適応重み付けメカニズムを介して結合され、それぞれの強みを効果的に融合します。両方の最適化パラダイムの相補的な利点を活用することで、ELFM-DEGDO は、HDI データに対してより包括的で偏りの少ない表現を生成できます。 3 つの HDI データセットをテストして、ELFM-DEGDO が関連するいくつかの潜在因子モデルよりも一貫して優れたパフォーマンスを発揮することを示しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">An Ensembled Latent Factor Model via Differential Evolution and Gradient Descent Optimization</p>
        <p class="orig-summary">High-dimensional and incomplete (HDI) data are prevalent in many real-world big data scenarios. Latent factor models serve as a common representation learning approach, capable of uncovering informative latent factors from such data. Nevertheless, most existing latent factor models rely solely on gradient descent for optimization, which may lead to insufficient and biased representations, particularly when dealing with heterogeneous HDI data. Thus, this study proposes an Ensembled Latent Factor Model via Differential Evolution and Gradient Descent Optimization (ELFM-DEGDO) with two-fold designed: 1) two diverse latent factor models are independently modeled via differential evolution and gradient descent optimization, respectively, and 2) the two diverse latent factor models are combined via a customized self-adaptive weighting mechanism to effectively fuse their strengths. By leveraging the complementary advantages of both optimization paradigms, ELFM-DEGDO is able to produce more comprehensive and less biased representations for HDI data. Three HDI datasets are tested to show that ELFM-DEGDO consistently performs better than related several latent factor models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a7e7f0f6d41" data-article-url="https://arxiv.org/abs/2606.04409" data-article-title="視覚的一般化におけるデータスケール、モデルの複雑さ、入力モダリティの実証的研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04409" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04409" target="_blank" rel="noopener">視覚的一般化におけるデータスケール、モデルの複雑さ、入力モダリティの実証的研究</a></h3>
      <p class="summary">最新のディープ ニューラル ネットワークは通常、大きなパラメーター スケールと非線形の階層構造を備えており、コンピューター ビジョンで優れたパフォーマンスを達成しています。ただし、汎化パフォーマンスの原因は、従来の統計学習理論を使用して説明するのが依然として困難です。視覚的な一般化に影響を与える可能性のある要因の中で、データ スケール、モデルの複雑さ、入力モダリティは、基本的かつ制御可能な変数です。この研究では、これら 3 つの要因がモデルの汎化パフォーマンスにどのように影響するかを実証的に分析します。具体的には、予備実験で 1 次元の非線形関数を構築し、トレーニング サンプルの数と多項式の次数を変更して、データ スケールとモデルの複雑さがモデルのパフォーマンスに及ぼす影響を観察します。主な実験では、異なるトレーニング データ スケール、モデル アーキテクチャ、入力モダリティの下で、CIFAR-10 と CIFAR-100 のモデルのパフォーマンスを比較します。実験結果は、トレーニング データのスケールを増やすと汎化パフォーマンスが一貫して向上する一方、モデルの複雑さが変化しても安定したゲインが得られないことを示しています。さらに、色情報を削除するとモデルのパフォーマンスが低下する一方、グラデーション、エッジ、ウェーブレットなどの明示的な事前の機能は、異なるモデル アーキテクチャ間で一貫性のない影響を及ぼします。全体として、この研究は、データ スケール、モデルの複雑さ、入力モダリティ、および視覚的汎化パフォーマンスの間の関係の実証的分析を提供します。コードと実験のログは、https://github.com/zlyd-CV/DeepLearning-Empirical-Studies で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">An Empirical Study of Data Scale, Model Complexity, and Input Modalities in Visual Generalization</p>
        <p class="orig-summary">Modern deep neural networks usually have large parameter scales and nonlinear hierarchical structures, and they have achieved strong performance in computer vision. However, the source of their generalization performance remains difficult to explain using traditional statistical learning theory. Among the factors that may affect visual generalization, data scale, model complexity, and input modalities are fundamental and controllable variables. This study empirically analyzes how these three factors influence model generalization performance. Specifically, in a preliminary experiment, we construct a one-dimensional nonlinear function and vary the number of training samples and the polynomial degree to observe the effects of data scale and model complexity on model performance. In the main experiments, we compare model performance on CIFAR-10 and CIFAR-100 under different training data scales, model architectures, and input modalities. The experimental results show that increasing the training data scale consistently improves generalization performance, whereas changes in model complexity do not provide stable gains. In addition, removing color information degrades model performance, while explicit prior features such as gradients, edges, and wavelets have inconsistent effects across different model architectures. Overall, this study provides an empirical analysis of the relationships among data scale, model complexity, input modalities, and visual generalization performance. Code and experimental logs are available at: https://github.com/zlyd-CV/DeepLearning-Empirical-Studies.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8b0b0793a9f1" data-article-url="https://arxiv.org/abs/2606.04419" data-article-title="L-TGVN: パーソナライズされた高速 MRI のための縦方向事前分布の活用" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04419" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04419" target="_blank" rel="noopener">L-TGVN: パーソナライズされた高速 MRI のための縦方向事前分布の活用</a></h3>
      <p class="summary">MRI は電離放射線を使用せずに優れた軟組織コントラストを提供しますが、取得時間が長いため患者の不快感が増大すると同時に、検査コストが上昇し、スキャナのスループットが制限されます。スキャン時間を短縮するための一般的なアプローチは、取得する測定値を少なくすることです。これにより、不適切な線形逆問題が発生します。したがって、診断品質の画像を回復するには、測定データ以外の事前知識を組み込む必要があります。追跡検査では、患者の最新の以前のスキャンにより、非常に有益な被験者固有のコンテキストが提供されますが、実際の使用は、時間的変化（病状の進行を含む）、スキャン間のずれ、取得間のプロトコルのドリフトによって複雑になります。この研究では、大幅にアンダーサンプリングされた測定値から現在のスキャンを再構築するための副次情報として以前のスキャンを活用する、縦方向の信頼誘導変分ネットワークである L-TGVN を紹介します。重要なことは、L-TGVN は、以前のスキャンの影響が取得された測定値と一致するように制限することです。既存の多くの縦方向再構成方法とは異なり、以前のスキャンと現在のスキャンの間の明示的な事前位置合わせを必要としません。さらに、訪問ごとの取得プロトコルの違い（シーケンスパラメータの変更など）にも対応します。私たちは、事前ガイド法や縦方向事前分布を使用しない方法など、一致した容量のベースラインに対して L-TGVN を評価し、困難な加速において微細構造のより良好な保存とともに、標準的な定量的指標の一貫した改善を観察しました。ソース コードは github.com/sodicksonlab/L-TGVN で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">L-TGVN: Leveraging Longitudinal Priors for Personalized Rapid MRI</p>
        <p class="orig-summary">MRI provides excellent soft-tissue contrast without ionizing radiation, but long acquisition times increase patient discomfort while also raising exam costs and limiting scanner throughput. A common approach to reduce scan time is to acquire fewer measurements, which yields an ill-posed linear inverse problem; recovering diagnostic-quality images therefore requires incorporating prior knowledge beyond the measured data. In follow-up exams, the most recent prior scan of a patient can provide a highly informative subject-specific context, but practical use is complicated by temporal changes (including pathology progression), misalignment between scans, and protocol drift across acquisitions. In this work, we introduce L-TGVN, a Longitudinal Trust-Guided Variational Network that leverages prior scans as side information to reconstruct the current scan from heavily undersampled measurements. Crucially, L-TGVN constrains the influence of prior scans to be consistent with the acquired measurements. Unlike many existing longitudinal reconstruction methods, it does not require explicit pre-registration between prior and current scans. It further accommodates differences in acquisition protocols across visits (e.g., changes in sequence parameters). We evaluate L-TGVN against matched-capacity baselines, including prior-guided methods and methods that do not use longitudinal priors, and observe consistent improvements in standard quantitative metrics together with better preservation of fine structures at challenging accelerations. Source code is available at github.com/sodicksonlab/L-TGVN.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b679220f5538" data-article-url="https://arxiv.org/abs/2606.04425" data-article-title="即時注射が忘れられなかったらどうなるでしょうか?エージェントシステムでのクロスセッションストアドプロンプトインジェクションの探索" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04425" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04425" target="_blank" rel="noopener">即時注射が忘れられなかったらどうなるでしょうか?エージェントシステムでのクロスセッションストアドプロンプトインジェクションの探索</a></h3>
      <p class="summary">最新のエージェント システムは、LLM をセッション限定のアシスタントからステートフル システムに変換します。ステートフル システムは、メモリ、ファイル システム、ツール、およびその他の長期間存続するコンテキスト アーティファクトを通じて、セッション間で共有世界状態を永続化および進化させます。この変化により、プロンプト インジェクションの攻撃対象領域が根本的に拡大します。しかし、プロンプト インジェクションに関するこれまでの研究は主に単一セッション内のモデル レベルの脅威に焦点を当てており、セッション間の永続的なシステム状態がエージェント システムのシステム レベルのリスクをどのように根本的に変化させるかを見落としていました。 Web システムのストアド クロスサイト スクリプティングにヒントを得て、クロスセッション ストアド プロンプト インジェクションを導入しました。これにより、成功したインジェクションはエージェント システム状態内で持続し、元の攻撃者による対話が終了した後も長期間にわたって将来の実行に静かに影響を与えることができます。この脅威を体系的に研究するために、ストアド プロンプト インジェクションを形式化し、敵対的なコンテンツがどのようにセッション間で持続し、エージェント システムに影響を与えるかの分類を開発します。さらに、ストアド プロンプト インジェクションのリスクを評価するためのベンチマークとサンドボックス ツールキットを開発し、さまざまなモデル、攻撃目標、永続化チャネルにわたる攻撃の成功の定量的分析を可能にします。私たちの調査結果は、永続化により、プロンプト インジェクションが一時的なモデル レベルの脅威から、エージェントの実行状態に組み込まれた長期にわたるシステム レベルの脆弱性に変化することが強調されています。私たちは、この取り組みがこの新たな脅威に対する幅広い注目を集め、コミュニティがエージェント システムの存続によって生じるシステム リスクを体系的に調査して軽減するよう促すことを願っています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">What If Prompt Injection Never Left? Exploring Cross-Session Stored Prompt Injection in Agentic Systems</p>
        <p class="orig-summary">Modern agentic systems transform LLMs from session-bounded assistants into stateful systems that persist and evolve shared world state across sessions through memories, filesystems, tools, and other long-lived contextual artifacts. This shift fundamentally expands the attack surface of prompt injection. However, prior works on prompt injection have largely focused on model-level threats within a single session, overlooking how cross-session persistent system state fundamentally changes the system-level risk of agentic systems. Inspired by stored cross-site scripting in web systems, we introduce cross-session stored prompt injection, where a successful injection can persist within agentic system state and silently influence future executions long after the original attacker interaction has ended. To systematically study this threat, we formalize stored prompt injection and develop a taxonomy of how adversarial content persists and affects agentic systems across sessions. We further develop a benchmark and sandbox toolkit to evaluate the risks of stored prompt injection, enabling quantitative analysis of attack success across different models, attack goals, and persistence channels. Our findings highlight that persistence transforms prompt injection from an ephemeral model-level threat into a long-lived system-level vulnerability embedded within agent execution state. We hope this work draws broader attention to this emerging threat and motivates the community to systematically study and mitigate system risks arising from persistence in agentic systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ef45e9f46f31" data-article-url="https://arxiv.org/abs/2606.04438" data-article-title="LoopMoE: 言語モデリングの専門家混合による反復計算の統合" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04438" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04438" target="_blank" rel="noopener">LoopMoE: 言語モデリングの専門家混合による反復計算の統合</a></h3>
      <p class="summary">専門家混合 (MoE) およびループ アーキテクチャは、パラメーター容量と有効深さという 2 つの直交軸に沿ってモデルをスケールします。ただし、主流のループ アーキテクチャは、パラメーター数とトークンごとの FLOP を結合する高密度のバックボーンに依存しているため、一致した予算の下での反復計算の影響を分離することができません。この目的を達成するために、2 つの設計を通じてスパース ルーティングと反復的な重み共有計算を統合するループ MoE 言語モデルである LoopMoE を紹介します。 1 つ目は IterAdaLN で、反復インデックスとトークンごとの隠れ状態を組み合わせて条件付けされた変調信号を介して重み共有対称性を解決します。 2 つ目は、適切に調整された非ループ参照のアテンション対 FFN アクティブ パラメータの比率を回復する容量バランシング戦略です。これらの設計を組み合わせることで、同一の合計パラメーター、トークンごとの FLOP、およびアクティブなサブレイヤー比の下で、バニラ MoE に対するループ MoE の厳密に制御された最初の直接評価が可能になります。 3B スケールでは、LoopMoE は 9 つの下流ベンチマークのうち 8 つで Vanilla MoE を上回り、平均改善率は 1 ポイントを超えています。 9B スケールでは、LoopMoE が引き続き同等の Vanilla MoE を上回り、アーキテクチャ上の利点がより大きなスケールでも持続することを示しています。私たちの研究は、スパース性と再帰性の制御された統合を確立し、ループ言語モデルの有望な方向性を示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LoopMoE: Unifying Iterative Computation with Mixture-of-Experts for Language Modeling</p>
        <p class="orig-summary">Mixture-of-Experts (MoE) and looped architectures scale models along two orthogonal axes, namely parameter capacity and effective depth. However, mainstream looped architectures rely on dense backbones that couple parameter count with per-token FLOPs, which makes it impossible to isolate the effect of iterative computation under matched budgets. To this end, we present LoopMoE, a looped MoE language model that integrates sparse routing with iterative weight-shared computation through two designs. The first is IterAdaLN, which resolves weight-sharing symmetry via a modulation signal jointly conditioned on the iteration index and the per-token hidden state. The second is a capacity-balancing strategy that recovers the attention-to-FFN active parameter ratio of well-tuned non-looped references. Together, these designs enable the first strictly controlled, head-to-head evaluation of a looped MoE against a Vanilla MoE under identical total parameters, per-token FLOPs, and active sublayer ratios. At the 3B scale, LoopMoE outperforms the Vanilla MoE on 8 of 9 downstream benchmarks with an average improvement exceeding 1 point. At the 9B scale, LoopMoE continues to outperform the matched Vanilla MoE, indicating that the architectural gain persists at larger scale. Our work establishes a controlled synthesis of sparsity and recurrence, and suggests a promising direction for looped language models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bdab3ece89d4" data-article-url="https://arxiv.org/abs/2606.04442" data-article-title="MemoryDocDataSet: 共同会話記憶と長い文書推論のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04442" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04442" target="_blank" rel="noopener">MemoryDocDataSet: 共同会話記憶と長い文書推論のベンチマーク</a></h3>
      <p class="summary">AI システムでは、複数セッションの会話履歴のナビゲートと、長い文書内の深い読解の実行という 2 つの要求の厳しい機能を組み合わせる必要がますます高まっています。しかし、両方を同時に評価する既存のベンチマークはありません。 50 のマイクロワールドと 1,000 の QA ペアの合成ベンチマークである MemoryDocDataSet を紹介します。各インスタンスは 3 ～ 5 人のペルソナ、数か月にわたるアクティビティにわたる時間イベント グラフ、3 ～ 5 の実際の長い文書 (それぞれ Caselaw Access Project から調達された 20,000 ～ 50,000 のトークン)、それらの文書に基づくマルチセッションの会話、および 5 つの推論カテゴリにわたる 20 の質問と回答のペアで構成されます。特徴的な機能はハイブリッド ソース タグです。質問では、システムが最初に会話履歴をナビゲートして関連する文書を特定し、次にその文書内から回答を抽出する必要があります。ハイブリッド質問はデータセットの 75.1% を占めます。データセットの品質は、LLM を判定として使用するプロンプト感度自己一貫性分析によって特徴付けられ、50 のミクロ世界すべてで中央値のコーエンの $\kappa = 0.634$ が得られます。トランケートされたコンテキスト、ロングコンテキスト LLM、検索拡張世代 (RAG)、およびメモリ システムにわたる 6 つのベースライン構成を評価します。最良のベースライン (RAG-両方) は、F1 全体で 0.358、ハイブリッドで 0.342 を達成します。文書のみの検索 (RAG-Doc) は、文書のみの質問で 0.453 を達成したにもかかわらず、ハイブリッドでは 0.267 に落ち込んでいます。これは、共同検索の明らかなギャップを示しており、これが会話の記憶と長い文書のナビゲーションを統合するアーキテクチャを動機づけています。データセット、生成パイプライン、およびすべてのベースライン実装をリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MemoryDocDataSet: A Benchmark for Joint Conversational Memory and Long Document Reasoning</p>
        <p class="orig-summary">AI systems increasingly need to combine two demanding capabilities: navigating multi-session conversation history and performing deep reading comprehension within long documents. Yet no existing benchmark evaluates both simultaneously. We introduce MemoryDocDataSet, a synthetic benchmark of 50 micro-worlds and 1,000 QA pairs in which each instance comprises 3-5 personas, a temporal event graph spanning months of activity, 3-5 real long documents (20,000-50,000 tokens each sourced from the Caselaw Access Project), multi-session conversations grounded on those documents, and 20 question-answer pairs across five reasoning categories. The defining feature is the Hybrid source tag: questions requiring a system to first navigate conversation history to identify which document is relevant, then extract the answer from within that document. Hybrid questions account for 75.1% of the dataset. Dataset quality is characterised through a prompt-sensitivity self-consistency analysis using LLM-as-judge, yielding a median Cohen&#x27;s $\kappa = 0.634$ across all 50 micro-worlds. We evaluate six baseline configurations spanning truncated context, long-context LLMs, retrieval-augmented generation (RAG), and memory systems. The best baseline (RAG-Both) achieves 0.358 overall F1 and 0.342 on Hybrid. Document-only retrieval (RAG-Doc) collapses to 0.267 on Hybrid despite achieving 0.453 on Doc-only questions, demonstrating a clear joint-retrieval gap that motivates architectures unifying conversational memory with long-document navigation. We release the dataset, generation pipeline, and all baseline implementations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9073837fcf8c" data-article-url="https://arxiv.org/abs/2606.04445" data-article-title="RowNet: 表形式回帰のためのメモリ トランスフォーマー" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04445" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04445" target="_blank" rel="noopener">RowNet: 表形式回帰のためのメモリ トランスフォーマー</a></h3>
      <p class="summary">不動産評価は構造化回帰問題であり、価格は異種の特徴タイプ、まばらな地域効果、非線形相互作用、および比較可能な不動産の実際的なロジックによって支配されます。標準的な多層パーセプトロンは各行を孤立ベクトルとして扱い、局所性、スケール感度、およびカテゴリカルマッチングを監視のみから学習する必要があります。勾配ブースト デシジョン ツリーは強力な表形式のベースラインを提供しますが、その特徴中心の分割メカニズムは、類似した履歴観測の取得を明示的にモデル化しません。この論文では、不動産の平方メートルあたりの価格を予測するための検索ベースのニューラル アーキテクチャである RowNet について説明します。 RowNet は、ラベル付きプロパティのメモリ バンクに対するペアごとの類似性機能を通じてクエリ プロパティを表します。最初の検索層は、特徴のみの類似性から大まかなターゲットを推定します。 2 番目の層は、ターゲット一貫性機能を使用してメモリ比較を強化し、複数の学習されたアテンション ヘッドを使用して相補的な比較可能なセットを取得します。最後の専門家混合モジュールは、学習されたゲーティング、残差補正、エントロピー正則化、ヘッドダイバーシティ正則化を組み合わせて予測を生成します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">RowNet: A Memory Transformer for Tabular Regression</p>
        <p class="orig-summary">Real estate valuation is a structured regression problem in which prices are governed by heterogeneous feature types, sparse regional effects, nonlinear interactions, and the practical logic of comparable properties. Standard multilayer perceptrons treat each row as an isolated vector and must learn locality, scale sensitivity, and categorical matching from supervision alone. Gradient-boosted decision trees provide strong tabular baselines, but their feature-centric splitting mechanism does not explicitly model the retrieval of similar historical observations. This paper presents RowNet, a retrieval-based neural architecture for real estate price-per-square-meter prediction. RowNet represents a query property through pairwise similarity features against a memory bank of labeled properties. A first retrieval layer estimates a coarse target from feature-only similarities. A second layer augments the memory comparison with target-consistency features and uses multiple learned attention heads to retrieve complementary comparable sets. A final mixture-of-experts module combines learned gating, residual correction, entropy regularization, and head-diversity regularization to produce the prediction.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4435940b227" data-article-url="https://arxiv.org/abs/2606.04459" data-article-title="トークンランキングは偽造不可能な言語モデル署名です" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04459" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04459" target="_blank" rel="noopener">トークンランキングは偽造不可能な言語モデル署名です</a></h3>
      <p class="summary">言語モデルのパラメータは、ロジット出力に（各モデルに）一意の幾何学的制約を課すことが知られており、これはモデルを識別する署名として機能しますが、API がロジットを配布するときにモデルの最終層パラメータも漏洩します。私たちは、トークンのランキング (確率値ではなく、確率による順序付け) を公開する、より制限的な API を調査し、ランキングも署名を構成することを発見しました。すべてのモデルは、十分な規模の $k$ に対して実行可能な上位 $k$ ランキングの独自のセットを持っています。さらに、同じ実行可能なランキングのセットを持つモデルを見つけることは NP 困難であるため、ランキング署名は最初に知られている (多項式的に) 偽造不可能な署名です。セキュリティの面では、ロジットと同様に、トークンのランキングがすでにモデルの最終層をほぼ盗むのに十分であることがわかりました。ただし、近似が粗すぎて署名を偽造できず、API を十分に小さい $k$ の上位 $k$ トークンに制限することで効果的に対抗できます。モデル署名を提示するために必要な $k$ は一般に、盗用を防ぐために必要な $k$ よりも小さいため、API はモデル パラメーターを漏らすことなく偽造不可能な署名を提示することが可能です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Token Rankings are Unforgeable Language Model Signatures</p>
        <p class="orig-summary">Language model parameters are known to impose unique (to each model) geometric constraints on their logit outputs, which serves as a signature that identifies the model, but also leaks the model&#x27;s final layer parameters when an API distributes logits. We investigate more restrictive APIs that expose token rankings (i.e., their ordering by probability, but not the probability values) and find that rankings also constitute a signature: every model has a unique set of feasible top-$k$ rankings for sufficiently large $k$. Furthermore, the ranking signature is the first known (polynomially) unforgeable signature, since finding a model with the same set of feasible rankings is NP-hard. On the security front, we find that token rankings are already sufficient to approximately steal the final layer of the model, similar to logits, though the approximation is too coarse to forge the signature, and can be effectively countered by restricting the API to top-$k$ tokens with sufficiently small $k$. Since the top-$k$ required to present the model signature is generally smaller than the $k$ required to prevent stealing, it is possible for an API to present an unforgeable signature without leaking model parameters.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f3d3a110132b" data-article-url="https://arxiv.org/abs/2606.04460" data-article-title="Cyber​​Gym-E2E: AI エージェントのエンドツーエンドのサイバーセキュリティ機能のためのスケーラブルな現実世界のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04460" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04460" target="_blank" rel="noopener">Cyber​​Gym-E2E: AI エージェントのエンドツーエンドのサイバーセキュリティ機能のためのスケーラブルな現実世界のベンチマーク</a></h3>
      <p class="summary">AI は、ソフトウェアの脆弱性を自律的に検出、分析、修復できるシステムを可能にすることで、サイバーセキュリティを変革する可能性を秘めています。しかし、AI システムの既存のサイバーセキュリティ評価は規模や範囲が限られており、現実世界のソフトウェアの脆弱性の発見と修復のエンドツーエンドのライフサイクルを捉えることができません。このギャップに対処するために、私たちは、脆弱性の発見、PoC 生成、パッチ生成のライフサイクル全体にわたって AI エージェントの能力を包括的に評価する、大規模かつ現実的なエンドツーエンドのサイバーセキュリティ ベンチマークである Cyber​​Gym-E2E を提案します。 Cyber​​Gym-E2E は、オープンソースの脆弱性データを現実的な評価環境に変換するための自動化されたエージェント強化パイプラインを構築するため、包括的でスケーラブルです。現在、ベンチマークは、139 の異なるオープンソース プロジェクトにわたる 920 件の実際の脆弱性で構成されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CyberGym-E2E: Scalable Real-World Benchmark for AI Agents&#x27; End-to-End Cybersecurity Capabilities</p>
        <p class="orig-summary">AI has the potential to transform cybersecurity by enabling systems that can autonomously detect, analyze, and remediate software vulnerabilities. However, existing cybersecurity evaluations of AI systems are limited in scale or scope, and fail to capture the end-to-end lifecycle of real-world software vulnerability discovery and remediation. To address this gap, we propose CyberGym-E2E, a large-scale and realistic end-to-end cybersecurity benchmark that comprehensively evaluates AI agents&#x27; abilities across the full lifecycle of vulnerability discovery, PoC generation, and patch generation. CyberGym-E2E is comprehensive and scalable, as we build an automated, agent-enhanced pipeline for transforming open-source vulnerability data into realistic evaluation environments. Currently, the benchmark consists of 920 real-world vulnerabilities across 139 different open-source projects.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="077e8f03d6dc" data-article-url="https://arxiv.org/abs/2606.04465" data-article-title="SePO: システム プロンプト最適化のための自己進化型プロンプト エージェント" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04465" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04465" target="_blank" rel="noopener">SePO: システム プロンプト最適化のための自己進化型プロンプト エージェント</a></h3>
      <p class="summary">システム プロンプトの最適化により、基礎となるモデルを変更することなくエージェントの動作が改善され、人間が判読できる、モデルに依存しない命令が生成されます。既存の方法では、タスク エージェントのシステム プロンプトを改良するプロンプト エージェントを構築しますが、プロンプト エージェント独自のシステム プロンプトは手動で設計および修正されたままになります。我々は、プロンプト エージェント自身のシステム プロンプトをタスク エージェントのシステム プロンプトと並んで最適化ターゲットとして扱う自己進化型プロンプト最適化 (SePO) を提案します。 SePO は自己参照設計を採用しています。単一のプロンプト エージェントは、候補プロンプトのアーカイブを踏み台として維持するオープンエンドの進化的探索の下で、タスク エージェントのシステム プロンプトとそれ自身のプロンプトの両方を改善します。トレーニングは 2 つの段階で進行します。事前トレーニングではマルチタスク プール上でプロンプト エージェントを進化させ、その後、微調整によってそれをターゲット タスクに適用します。数学 (AIME&#x27;25)、抽象推論 (ARC-AGI-1)、大学院レベルの科学 (GPQA)、コード生成 (MBPP)、および論理パズル (数独) にわたる 5 つのベンチマークにわたって、SePO は一貫して Manual-CoT、TextGrad、および MetaSPO を上回り、Manual-CoT と比較して平均精度が 4.49 ポイント向上しました。事前トレーニングによるプロンプト最適化スキルは、タスクごとのプロンプトを記憶するのではなく、事前トレーニング混合物を超えたタスクにも一般化されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SePO: Self-Evolving Prompt Agent for System Prompt Optimization</p>
        <p class="orig-summary">System prompt optimization improves agent behavior without modifying the underlying model, yielding human-readable, model-agnostic instructions. Existing methods build a prompt agent that refines task agents&#x27; system prompts, yet leave the prompt agent&#x27;s own system prompt hand-engineered and fixed. We propose Self-Evolving Prompt Optimization (SePO), which treats the prompt agent&#x27;s own system prompt as an optimization target alongside task agents&#x27; system prompts. SePO adopts a self-referential design. A single prompt agent improves both task agents&#x27; system prompts and its own under an open-ended evolutionary search that maintains an archive of candidate prompts as stepping stones. Training proceeds in two stages: pre-training evolves the prompt agent on a multi-task pool, and fine-tuning then applies it to a target task. Across five benchmarks spanning math (AIME&#x27;25), abstract reasoning (ARC-AGI-1), graduate-level science (GPQA), code generation (MBPP), and logic puzzles (Sudoku), SePO consistently outperforms Manual-CoT, TextGrad, and MetaSPO, improving the average accuracy by 4.49 points compared to Manual-CoT. The prompt optimization skill from pre-training also generalizes to tasks beyond the pre-training mixture, rather than memorizing per-task prompts.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c7c78d4db8a0" data-article-url="https://arxiv.org/abs/2606.04468" data-article-title="ParetoPilot: Infer-Perturb-Guide 拡散によるゼロサロゲートオフライン多目的最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04468" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04468" target="_blank" rel="noopener">ParetoPilot: Infer-Perturb-Guide 拡散によるゼロサロゲートオフライン多目的最適化</a></h3>
      <p class="summary">オフライン多目的最適化 (オフライン MOO) は、高価な環境との相互作用を行わずに、静的データセットに基づいた新しいパレート最適設計を発見することを目的としています。最近の生成手法は顕著な成功を収めていますが、主に外部サロゲート モデルに依存しています。この依存関係により、重大な計算オーバーヘッドが生じ、欺瞞的な評価に悩まされ、主流の生成モデルを条件付きで共同トレーニングするという一般的なパラダイムから逸脱します。これらのボトルネックに対処するために、オフライン MOO 用の新しいゼロ代理拡散フレームワークである ParetoPilot を提案します。 ParetoPilot は、事前トレーニングされた拡散モデルに本質的に組み込まれている条件付き事前確率を最大限に活用します。このフレームワークの核心として、Infer-Perturb-Guide (IPG) エンジンが導入されており、このエンジンは逆生成プロセスの無条件ノイズ除去ステップ内にシームレスにインターリーブされます。まず、条件付きおよび無条件のノイズ予測を照合することで、瞬間的な目標方向を暗黙的に推測します。次に、厳密な収束のために平行な重力場と相互多様性のためにエッジを意識した斥力を数学的に直交化し、動的にアニールされた摂動ベクトルを作成します。最後に、この摂動されたターゲットは、標準の分類子なしガイダンス (CFG) を介して生成プロセスをシームレスに制御します。 51 のタスクにわたる広範な実験により、ParetoPilot が 14 の最先端のサロゲートベースおよび逆生成ベースラインよりも優れたパフォーマンスを発揮することが実証されました。補助的なプロキシ トレーニングを排除することで、当社のアプローチはデータのプライバシーを保護しながら、ハイパーボリュームの改善と堅牢なパレート フロント カバレッジを実現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ParetoPilot: Zero-Surrogate Offline Multi-Objective Optimization via Infer-Perturb-Guide Diffusion</p>
        <p class="orig-summary">Offline multi-objective optimization (Offline MOO) aims to discover novel Pareto-optimal designs based on static datasets without expensive environment interactions. While recent generative methods have achieved notable success, they predominantly rely on external surrogate models. This dependency introduces significant computational overhead, suffers from deceptive evaluations, and deviates from the prevailing paradigm of jointly training mainstream generative models with conditions. To address these bottlenecks, we propose ParetoPilot, a novel zero-surrogate diffusion framework for offline MOO. ParetoPilot fully leverages the conditional priors inherently embedded within pre-trained diffusion models. At its core, the framework introduces the Infer-Perturb-Guide (IPG) engine, which is seamlessly interleaved within the unconditional denoising steps of the reverse generation process. First, it implicitly infers the instantaneous objective direction by matching conditional and unconditional noise predictions. Next, it mathematically orthogonalizes a parallel gravity field for strict convergence and an edgeness-aware repulsive force for mutual diversity, creating a dynamically annealed perturbation vector. Finally, this perturbed target seamlessly steers the generation process via standard Classifier-Free Guidance (CFG). Extensive experiments across 51 tasks demonstrate that ParetoPilot outperforms 14 state-of-the-art surrogate-based and inverse generative baselines. By eliminating auxiliary proxy training, our approach preserves data privacy while achieving hypervolume improvement and robust Pareto front coverage.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e003729ed0c7" data-article-url="https://arxiv.org/abs/2606.04469" data-article-title="公平でパフォーマンスの高い顔認識のための適応キャリブレーション" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04469" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04469" target="_blank" rel="noopener">公平でパフォーマンスの高い顔認識のための適応キャリブレーション</a></h3>
      <p class="summary">正規化された埋め込み間のコサイン類似性を適切に校正された確率にマッピングする、顔認識のための新しい校正戦略である適応校正 (AC) を紹介します。ローカル コンテキストをキャリブレーションに組み込むことにより、アダプティブ キャリブレーションはコサイン類似度の基本的な不一致を修正します。これにより、同じ距離が、異なる埋め込み領域の異なる一致確率に対応することができます。私たちのアプローチは、全体的なパフォーマンスの両方を向上させ、人口統計メタデータを必要とせずに、より公平なキャリブレーションを実現します。私たちのアプローチは、さまざまな事前トレーニング済みモデルと標準ベンチマークにわたって、精度と公平性の両方の指標において既存の手法よりも一貫して優れています。 AC は、人口統計グループの注釈を必要とせず、全体的なパフォーマンスを向上させながら、公平な顔認識のための実用的なソリューションを提供します。既存のアプローチとは異なり、私たちの方法は、一部のグループのパフォーマンスの低下を犠牲にして公平性が実現される「平準化」を回避する、継続的な地域固有のキャリブレーションを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Adaptive Calibration for Fair and Performant Facial Recognition</p>
        <p class="orig-summary">We introduce Adaptive Calibration (AC), a novel calibration strategy for facial recognition that maps cosine similarity between normalized embeddings to well-calibrated probabilities. By incorporating local context into calibration, Adaptive Calibration corrects for a fundamental mismatch in cosine similarity, whereby the same distance can correspond to different match probabilities in different embedding regions. Our approach improves both overall performance and results in a fairer calibration without requiring demographic metadata. Our approach consistently dominates existing methods both on accuracy and fairness metrics across a variety of pretrained models and standard benchmarks. AC provides a practical solution for equitable facial recognition, without requiring demographic group annotations, and while improving overall performance. Unlike existing approaches, our method provides continuous, region-specific calibration that avoids &quot;leveling down&quot; where fairness comes at the cost of degraded performance for some groups.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d5062b94ed3a" data-article-url="https://arxiv.org/abs/2606.04473" data-article-title="ChessMimic: オンライン ブリッツ チェスの人間の動き、時計、結果を予測するための定格ごとのトランスフォーマー モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04473" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04473" target="_blank" rel="noopener">ChessMimic: オンライン ブリッツ チェスの人間の動き、時計、結果を予測するための定格ごとのトランスフォーマー モデル</a></h3>
      <p class="summary">ChessMimic は、位置、最近の移動履歴、プレイヤーの評価、およびクロック状態に基づいて、移動、思考時間、および結果の予測を行う 3 つの小さなエンコーダー専用トランスフォーマーからなるシステムです。 100-Elo 評価バンドごとに各モデルの個別のインスタンスを適合させ、パラメーターの効率を犠牲にしてスキルごとのキャリブレーションをより鮮明にします。 1 か月にわたって開催された Lichess Rated Blitz ゲームのスライスでは、ChessMimic の人手の予測精度は、すべての Elo バンドで Maia-2 を上回りました。 Maia-3 と比較すると、9M パラメーター モデルの精度は、幾何学的な注意バイアスの追加の複雑さを伴わずに、Maia-3-5M と Maia-3-23M の間に位置します。動きの一致モデルに加えて、位置だけでなく、プレイヤーの評価、時間制御、残りのクロック時間も条件とするゲーム結果モデルもトレーニングします。結果モデルは、サンプル中 0.78 の AUC を達成し、Maia-2 だけでなく、素材、評価、およびクロック時間に基づくロジスティック回帰を上回りました。最後に、人間の思考時間を予測する時計モデルをトレーニングします。クロック モデルは、ALLIE スタイルのフィルター (ALLIE が報告した r = 0.70 に対してピアソン r = 0.41、スピアマン rho = 0.50、MAE 4.10 秒) の下で、使用可能だが SOTA ではないプライごとの思考時間信号を提供し、残留ギャップはバケット マージナル キャリブレーションではなく位置ごとのバケットのシャープネスに集中しています。公開デモは 1e4.ai にあり、コード、バンドごとの重み、および C++ データ フィルター パイプライン コードを GitHub でリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ChessMimic: Per-Rating Transformer Models for Human Move, Clock, and Outcome Prediction in Online Blitz Chess</p>
        <p class="orig-summary">We present ChessMimic, a system of three small encoder-only transformers - for move, thinking-time, and outcome prediction - conditioned on the position, recent move history, player rating, and clock state. We fit a separate instance of each model per 100-Elo rating band, trading parameter efficiency for sharper per-skill calibration. On a held-out month-wide slice of Lichess Rated Blitz games ChessMimic&#x27;s human move prediction accuracy outperforms Maia-2 in every Elo band. Compared to Maia-3, our 9M parameter model&#x27;s accuracy sits between Maia-3-5M and Maia-3-23M without the additional complexity of Geometric Attention Bias. In addition to the move matching model, we also train a game outcome model that conditions not only on the position, but also player ratings, time control, and remaining clock times. The outcome model achieves an AUC of 0.78 out of sample, beating Maia-2 as well as logistic regressions based on material, ratings, and clock time. Finally, we train a clock model that predicts human thinking times. The clock model provides a usable but non-SOTA per-ply think-time signal under ALLIE-style filters (Pearson r = 0.41, Spearman rho = 0.50, MAE 4.10 s, against ALLIE&#x27;s reported r = 0.70), with the residual gap concentrated in per-position bucket sharpness rather than bucket-marginal calibration. A public demo is at 1e4.ai and we release code, per-band weights, and the C++ data-filter pipeline code in GitHub.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3d8dd49e2c05" data-article-url="https://arxiv.org/abs/2606.04479" data-article-title="ビジュアルテキスト生成における推論の忠実度の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04479" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04479" target="_blank" rel="noopener">ビジュアルテキスト生成における推論の忠実度の評価</a></h3>
      <p class="summary">最近の Text-to-Image (T2I) モデルは、画像内で非常に読みやすく、適切に構造化されたテキストをレンダリングできるため、ドキュメント生成やスライド生成などのアプリケーションが可能になります。しかし、複雑な解決策をレンダリングされたテキストを通じて直接表現しなければならない場合に、そのようなシステムが推論能力を忠実に保持しているのか、それとも単に表面レベルのパターンを模倣しているだけなのかは不明のままです。モデルは完全な推論プロセスを画像として表現する必要があるビジュアル テキスト生成における推論の忠実度を評価することで、この問題を調査します。私たちの評価には、長いテキストのレンダリング、事実知識の調査、文脈の理解、および複数ステップの推論が含まれます。これらの設定全体にわたって、現在の T2I モデルでは、レンダリングされたテキストが視覚的に明確に見える場合でも、セマンティック エラー、論理的矛盾、不正確な中間ステップが頻繁に発生することがわかりました。これらの失敗は、同じタスクに対するテキストのみのモデルの強力な推論パフォーマンスとは対照的です。私たちの調査結果は、ビジュアルテキスト生成と手続き型推論の間に大きなギャップがあることを明らかにし、より信頼性の高いビジュアルテキスト推論を動機付けています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Evaluating Reasoning Fidelity in Visual Text Generation</p>
        <p class="orig-summary">Recent text-to-image (T2I) models can render highly legible and well-structured text within images, enabling applications including document generation and slide generation. However, it remains unclear whether such systems faithfully preserve reasoning ability when complex solutions must be expressed directly through rendered text, or whether they merely imitate surface-level patterns. We investigate this question by evaluating reasoning fidelity in visual text generation, where models must express complete reasoning processes as images. Our evaluation includes long text rendering, factual knowledge probing, context understanding, and multi-step reasoning. Across these settings, we find that current T2I models frequently produce semantic errors, logical inconsistencies, and incorrect intermediate steps, even when the rendered text appears visually clear. These failures contrast with the strong reasoning performance of text-only models on the same tasks. Our findings reveal a substantial gap between visual text generation and procedural reasoning, motivating more reliable visual text reasoning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e62a9266fc33" data-article-url="https://arxiv.org/abs/2606.04493" data-article-title="SFMambaNet: 対応プルーニングのためのスペクトル周波数拡張選択的状態空間モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04493" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04493" target="_blank" rel="noopener">SFMambaNet: 対応プルーニングのためのスペクトル周波数拡張選択的状態空間モデル</a></h3>
      <p class="summary">対応関係の枝刈りは、対応関係の初期セットからインライアを特定することを目的としています。既存のグラフ ニューラル ネットワーク (GNN) ベースの手法のほとんどは、粗いユークリッド座標からマッピングされた幾何学的特徴に依存しているため、インライアによって示される微妙な幾何学的一貫性を捕捉するのが困難です。 Mamba ベースの手法は、グローバルな受容野と長いシーケンスのモデリング機能を備えていますが、隠れた状態空間内に実質的に矛盾した特徴が蓄積される傾向があり、内値と外れ値を区別することが困難になります。この論文では、周波数領域の知覚をこのタスクに初めて統合し、新しいスペクトル周波数拡張 Mamba ベースの 2 ビュー対応枝刈りネットワークである SFMambaNet を提案します。私たちの方法は 2 つのコンポーネントで連携して構成されています。まず、ローカル スペクトル幾何学アテンション (LSGA) ブロックを設計します。 LSGA は、スペクトル位置エンコーディングをローカル グラフ インタラクションに組み込み、マルチスケール Mamba 処理を導入して、微妙な幾何学的一貫性の捕捉を強化し、ローカル フィーチャの識別性を向上させます。これに基づいて、Spectral-Integrated Global Mamba (SIGM) ブロックを設計します。 SIGM は状態空間内に周波数ゲート メカニズムを埋め込み、LSGA によって提供される周波数情報を利用して、隠れ状態内の高周波ノイズの蓄積を明示的に抑制し、一貫性のない特徴の伝播を軽減します。これにより、インライアとアウトライアの分離性が強化され、ほぼ線形の複雑さで堅牢なグローバル コンテキスト モデリング機能が実現されます。広範な実験により、SFMambaNet がいくつかの困難なタスクにおいて現在の最先端の方法よりも優れたパフォーマンスを発揮することが実証されました。コードは https://github.com/Kirito14IT/SFMambaNet で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SFMambaNet: Spectral-Frequency Enhanced Selective State Space Model for Correspondence Pruning</p>
        <p class="orig-summary">Correspondence pruning aims to identify inliers from an initial set of correspondences. Most existing Graph Neural Network (GNN)-based methods rely on geometric features mapped from coarse Euclidean coordinates, which struggle to capture the subtle geometric consistencies presented by inliers. While Mamba-based methods possess global receptive fields and long sequence modeling capabilities, they tend to accumulate substantial inconsistent features within the hidden state space, making it difficult to distinguish inliers from outliers. In this paper, we integrate frequency domain perception into this task for the first time and propose SFMambaNet, a novel Spectral-Frequency enhanced Mamba-based two-view correspondence pruning network. Our method is collaboratively composed of two components: First, we design a Local Spectral-Geometric Attention (LSGA) block. LSGA incorporates spectral positional encoding into local graph interactions and introduces multi-scale Mamba processing to enhance the capture of subtle geometric consistencies and improve local feature discriminability. Building upon this, we design a Spectral-Integrated Global Mamba (SIGM) block. SIGM embeds a frequency gating mechanism within the state space, utilizing the frequency information provided by LSGA to explicitly suppress high-frequency noise accumulation within hidden states and mitigate the propagation of inconsistent features. This enhances inlier-outlier separability and achieves robust global context modeling capabilities with nearly linear complexity. Extensive experiments demonstrate that SFMambaNet outperforms current state-of-the-art methods on several challenging tasks. The code is available at https://github.com/Kirito14IT/SFMambaNet.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="93dadda3548d" data-article-url="https://arxiv.org/abs/2606.04503" data-article-title="暗闇でのスマートな選択: メタ認知ピボットのトレースによる推論のための効率的な RLVR に向けて" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04503" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04503" target="_blank" rel="noopener">暗闇でのスマートな選択: メタ認知ピボットのトレースによる推論のための効率的な RLVR に向けて</a></h3>
      <p class="summary">検証可能な報酬を伴う強化学習 (RLVR) は大規模推論モデル (LRM) を大幅に進化させましたが、完全にアノテーションが付けられた巨大なデータセットでのタイムリーなトレーニングが必要です。この目的を達成するために、データ効率の高い RLVR 手法が 2 つの観点から広く研究されています。(i) データ選択手法は、ほぼ完全なデータのパフォーマンスをもたらす「ゴールデン」サンプルの小さなサブセットを特定しますが、それらはラベル付きデータの既存のプールに依存します。 (ii) 教師なし RLVR メソッドは、大規模なラベルなしデータに対して独自の内部監視信号を使用してモデルをトレーニングしますが、最適なパフォーマンスを示しません。したがって、事前の監督なしで、トレーニングに最も有益でアノテーションに値するラベルのないサンプルを選択することを目的とした、RLVR の「暗闇でのピック」設定を調査します。体系的な分析を通じて、スマート ピックは適切に調整された不確実性推定量に依存し、適応トレーニング体制のためのデータの戦略的な分割を可能にすることを実証します。この洞察に基づいて、私たちは、注意のダイナミクスを活用して推論中のメタ認知ピボットを追跡する 3 方向のデータ トリアージ フレームワークである PivotTrace を提案します。 PivotTrace は、ピボット密度を通じて不確実性を正確に定量化することで、自動化されたデータ ルーティングを実現し、アノテーションとトレーニングの効率の両方を相乗的に最大化します。経験的に、Pivo​​tTrace は、注釈付きサンプルがわずか 29.3% で、収束が 2.75 高速で完全監視 LRM を上回っています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Smart Picks in the Dark: Towards Efficient RLVR for Reasoning via Tracing Metacognitive Pivots</p>
        <p class="orig-summary">Reinforcement learning with verifiable rewards (RLVR) has greatly advanced large reasoning models (LRMs), but it requires timely training on a huge fully-annotated dataset. To this end, data-efficient RLVR methods have been widely studied from two perspectives: (i) data selection methods identify a small subset of &quot;golden&quot; samples that yield near-full-data performance, but they rely on a pre-existing pool of labeled data. (ii) unsupervised RLVR methods train the model using its own internal supervision signals on large-scale unlabeled data, yet they exhibit suboptimal performance. Accordingly, we investigate the &quot;pick in the dark&quot; setup for RLVR, which aims to select, without prior supervision, unlabeled samples that are most beneficial for training and worthy of annotation. Through systematic analysis, we demonstrate that smart picks hinge on a well-calibrated uncertainty estimator to enable strategic partitioning of data for adaptive training regimes. Building on this insight, we propose PivotTrace, a three-way data triage framework that leverages attention dynamics to trace metacognitive pivots during reasoning. By precisely quantifying uncertainty through pivot density, PivotTrace achieves automated data routing to synergistically maximize both annotation and training efficiency. Empirically, PivotTrace surpasses the fully supervised LRM with only 29.3% annotated samples and 2.75 faster convergence.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0dba22b7259d" data-article-url="https://arxiv.org/abs/2606.04507" data-article-title="共同生成と評価による自己進化する深層研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04507" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04507" target="_blank" rel="noopener">共同生成と評価による自己進化する深層研究</a></h3>
      <p class="summary">大規模言語モデル (LLM) は日常のアプリケーションでますます採用されるようになり、詳細な研究が特に重要な機能として際立っています。従来の質問応答 (QA) タスクとは異なり、詳細な調査レポートの生成には決定的な根拠が欠けているため、報酬設計が本質的に検証不可能になり、効果的な強化学習が制限されます。既存のアプローチでは、LLM-as-a-judge およびクエリ依存の評価ルーブリックを使用してこの課題を軽減していますが、依然として静的な評価器に依存しているため、ソルバーの向上に応じて標準を適応させることができず、最適化圧力が不十分になり、最終的に飽和状態になってしまいます。私たちは、\textbf{s}elf 進化型 \textbf{co} 進化型トレーニング フレームワークで、深い \textbf{re} 検索の評価と生成 (SCORE) を使用してこの制限に対処します。これは、共有パラメータ学習プロセスにおいて評価器とソルバーを緊密に結合します。生成と評価を独立したモジュールとして扱うのではなく、それらの本質的なつながりを活用して、単一の共有パラメーター モデル内で共同の改善を可能にします。このプロセスを制限するために、ソルバーのパフォーマンスに基づいて評価環境を動的に制御するメタハーネスを導入し、有効な評価次元と十分に深い評価者の検索を促進します。ディープリサーチベンチマークに関する広範な実験により、レポート生成の品質が一貫して向上していることが実証されており、評価と生成を共進化させることが、オープンエンドのリサーチエージェントをトレーニングするための有望な方向性であることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Self-Evolving Deep Research via Joint Generation and Evaluation</p>
        <p class="orig-summary">Large Language Models (LLMs) have become increasingly adopted in daily applications, with deep research standing out as a particularly important capability. Unlike traditional question-answering (QA) tasks, deep research report generation lacks definitive ground-truth, making reward design inherently unverifiable and limiting effective reinforcement learning. Existing approaches mitigate this challenge with LLM-as-a-judge and query-dependent evaluation rubrics, but they still rely on static evaluators that cannot adapt their standards as the solver improves, leading to insufficient and eventually saturated optimization pressure. We address this limitation with a \textbf{s}elf-evolving \textbf{co}-evolutionary training framework for deep \textbf{re}search evaluation and generation (SCORE), which tightly couples an evaluator and a solver in a shared-parameter learning process. Rather than treating generation and evaluation as isolated modules, we leverage their intrinsic connection to enable joint improvement within a single shared-parameter model. To restrict this process, we introduce a meta-harness, which dynamically controls the evaluation environment based on solver performance, encouraging valid evaluation dimensions and sufficiently deep evaluator search. Extensive experiments on deep research benchmarks demonstrate consistent improvement in report generation quality, showing that co-evolving evaluation and generation is a promising direction for training open-ended research agents.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2632531b870" data-article-url="https://arxiv.org/abs/2606.04516" data-article-title="GeoMin: 幾何分布モデリングによるデータ効率の高い半教師あり RLVR" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04516" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04516" target="_blank" rel="noopener">GeoMin: 幾何分布モデリングによるデータ効率の高い半教師あり RLVR</a></h3>
      <p class="summary">検証可能な報酬を伴う強化学習 (RLVR) は LLM 推論を大幅に進歩させますが、ジレンマに直面しています。標準的な教師ありスケーリングは高いアノテーション コストによって抑制される一方、教師なしの代替案は深刻なモデル崩壊に悩まされます。最近の半教師あり RLVR 手法は、小さなラベル付きセットを使用してラベルなしデータをガイドすることでこの問題に対処し、トレーニングの有効性とアノテーション コストの間で有望なトレードオフを実現しています。ただし、粗いパフォーマンスのヒューリスティックに依存するため、データ効率の深刻なボトルネックに悩まされており、貴重なインスタンスの大部分が十分に活用されていません。この目的を達成するために、ラベル付きデータのグローバルな特徴分布をモデル化して正しいロールアウトと間違ったロールアウトの間の構造的不一致を解読する GeoMin を提案します。これにより、自己報酬信号の信頼性を評価し、ラベルなしデータの可能性を完全に引き出すための堅牢な事前検証を確立します。経験的に、GeoMin は最も強力なベースラインを +4.1% 上回るパフォーマンスを示し、注釈が 10% しかない完全教師モデルをも上回り、顕著なデータ効率を示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GeoMin: Data-Efficient Semi-Supervised RLVR via Geometric Distribution Modeling</p>
        <p class="orig-summary">Reinforcement learning with verifiable rewards (RLVR) significantly advances LLM reasoning, yet it faces a dilemma: standard supervised scaling is throttled by high annotation costs, while unsupervised alternatives suffer from severe model collapse. Recent semi-supervised RLVR methods address this by using a small labeled set to guide unlabeled data, achieving a promising trade-off between training efficacy and annotation cost. However, they suffer from a severe data-efficiency bottleneck due to the reliance on coarse performance heuristics, leaving a vast majority of valuable instances underutilized. To this end, we propose GeoMin, which models global feature distributions on labeled data to decode the structural discrepancy between correct and incorrect rollouts, thereby establishing a robust prior to assess the reliability of self-reward signals and fully unleash the potential of unlabeled data. Empirically, GeoMin outperforms the strongest baselines by +4.1% and even surpasses fully supervised models with only 10% of the annotations, demonstrating remarkable data efficiency.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="421594baf20b" data-article-url="https://arxiv.org/abs/2606.04517" data-article-title="トラフィックをツリーのように扱う: 暗号化トラフィック分析のための意味を保持する階層グラフベースのエキスパート フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04517" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04517" target="_blank" rel="noopener">トラフィックをツリーのように扱う: 暗号化トラフィック分析のための意味を保持する階層グラフベースのエキスパート フレームワーク</a></h3>
      <p class="summary">グラフベースの深層学習手法は、さまざまな粒度にわたる潜在的な相関関係を利用するために、暗号化されたトラフィック分析で広く採用されています。ただし、複雑な前処理パイプラインと洗練されたモデル構造は多くの場合、優れたパフォーマンスを実現しますが、表現学習中に固有のプロトコル セマンティクスが不明瞭になる可能性があります。さらに、プロトコル仕様によって定義され、手動トラフィック分析で日常的に利用されるプロトコル層とそれに対応するフィールドの階層構造は、既存の学習フレームワークでは依然として十分に調査されていません。この論文では、暗号化トラフィック分析のための意味を保持する階層グラフベースのエキスパート フレームワークである Protocol Tree Graph Attending with Mixture of Experts (PTGAMoE) を提案します。フィールドベースのグラフ構築と専門家委員会の設計により、PTGAMoE は特定のフィールドとプロトコルに対するモデルの好みを定量化できます。厳格なデータ漏洩のない設定の下での代表的なベンチマーク データセットに関する広範な実験結果は、PTGAMoE が最先端 (SOTA) モデルよりも大幅に優れていることを示しています。さらに、セマンティック保存設計は、暗号化トラフィック分類タスクにおけるモデルの意思決定ロジックを反映して、プロトコル レベルの機能の重要性と専門家レベルの貢献について解釈可能な洞察を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Treat Traffic Like Trees: A Semantic-Preserving Hierarchical Graph-Based Expert Framework for Encrypted Traffic Analysis</p>
        <p class="orig-summary">Graph-based deep learning methods have been widely employed in encrypted traffic analysis to exploit latent correlations across different granularities. However, while complex preprocessing pipelines and sophisticated model structures often achieve strong performance, they may obscure inherent protocol semantics during representation learning. Moreover, the hierarchical structure of protocol layers and their corresponding fields, defined by protocol specifications and routinely utilized in manual traffic analysis, remains underexplored in existing learning frameworks. In this paper, we propose Protocol Tree Graph Attention with Mixture of Experts (PTGAMoE), a semantic-preserving hierarchical graph-based expert framework for encrypted traffic analysis. The field-based graph construction and expert committee design enable PTGAMoE to quantify the model&#x27;s preferences for specific fields and protocols. Extensive experimental results on representative benchmark datasets under strict no-data-leakage settings demonstrate that PTGAMoE significantly outperforms state-of-the-art (SOTA) models. Furthermore, the semantic-preserving design provides interpretable insights into protocol-level feature importance and expert-level contributions, reflecting the model&#x27;s decision-making logic in encrypted traffic classification tasks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79c94fcf9b06" data-article-url="https://arxiv.org/abs/2606.04522" data-article-title="ANN 検索: 重要なことを思い出してください" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04522" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04522" target="_blank" rel="noopener">ANN 検索: 重要なことを思い出してください</a></h3>
      <p class="summary">近似最近傍 (ANN) 検索は、分類から検索拡張生成に至るまで、情報検索および最新の機械学習タスクにおいて中核的なプリミティブとなっています。コミュニティは、主に特定の Recall@k (取得される真の完全近傍の割合) でのスループットに基づいて ANN アルゴリズムを評価および調整します。私たちは、ANN 検索で本当に重要なのは、取得された結果の品質であり、真の kNN セットとの重複ではないと主張します。 Recall@k を使用して検索品質を評価すると、不必要な計算オーバーヘッドが発生することを示し、それを逆近似比である 1/Ratio@k に置き換えることを検討します。 1/Ratio@k は、取得された近傍と真の近傍の距離の差を評価します。これは判定不要、ハイパーパラメータ不要で、標準の ANN ベンチマーク入力のみから計算可能です。私たちは、広範な固有の次元にわたる多様なデータセットにわたって最先端の ANN アルゴリズムのベンチマークを行い、効率、下流の分類、検索拡張生成にわたって 2 つの指標を包括的に評価します。効率の軸では、1/Ratio@k の最適化は、Recall@k よりも大幅に低い計算コストで運用品質のしきい値に達します。下流タスクでは、Recall@k が大幅に低下した場合でも、パフォーマンス指標 (ラベル精度、意味的類似性、BERTScore、LLM グレードの品質) は非常に安定しています。一方、逆近似比はこの安定性を厳密に反映しており、Recall@k よりもはるかに優れた真の有用性を追跡します。結局のところ、Recall@k は近似の実際のコストを誇張していますが、1/Ratio@k は実際の ANN 品質に対してより正確で導入可能なプロキシを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ANN Search: Recall What Matters</p>
        <p class="orig-summary">Approximate nearest neighbor (ANN) search has become a core primitive in information retrieval and modern machine learning tasks, from classification to retrieval-augmented generation. The community evaluates and tunes ANN algorithms primarily on their throughput at a given Recall@k, the fraction of true exact neighbors retrieved. We argue that what really matters in ANN search is the quality of the retrieved results and not their overlap with the true kNN set. We show that using Recall@k to assess retrieval quality forces unnecessary computational overhead and investigate replacing it by 1/Ratio@k, the inverse approximation ratio. 1/Ratio@k evaluates the differences between the distances of the retrieved and true neighbors. It is judge-free, hyperparameter-free, and computable from standard ANN benchmark inputs alone. We benchmark state-of-the-art ANN algorithms across diverse datasets spanning a wide range of intrinsic dimensionalities, evaluating the two metrics comprehensively across efficiency, downstream classification, and retrieval-augmented generation. On the efficiency axis, optimizing for 1/Ratio@k reaches operational quality thresholds at a substantially lower computational cost than Recall@k. In downstream tasks, performance indicators (label precision, semantic similarity, BERTScore, and LLM-graded quality) remain highly stable even when Recall@k drops significantly. The inverse approximation ratio, on the other hand, closely mirrors this stability, tracking true utility much better than Recall@k. Ultimately, while Recall@k overstates the true cost of approximation, 1/Ratio@k offers a more accurate, deployable proxy for actual ANN quality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c74fab430896" data-article-url="https://arxiv.org/abs/2606.04528" data-article-title="SAR 少数ショットクラスの増分学習のための光学誘導神経崩壊" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04528" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04528" target="_blank" rel="noopener">SAR 少数ショットクラスの増分学習のための光学誘導神経崩壊</a></h3>
      <p class="summary">合成開口レーダー画像における少数ショット クラス増分学習 (FSCIL) には、深刻なデータ不足と SAR 固有の変動性により、特有の課題が生じます。特に、SAR における強い方位感度は、大きなクラス内変動とクラス間の混乱を引き起こし、FSCIL の逐次更新はさらに、以前に学習したクラスの壊滅的な忘却につながります。ニューラルコラプスからインスピレーションを得て、我々は光誘導型SAR FSCILフレームワークを提案します。このフレームワークは、データ豊富な光ATRデータセットから直交特徴部分空間を導出し、それらをSAR特徴学習をガイドするための幾何学的事前分布として使用します。 SAR の特徴は、主角制約を介してこれらの直交部分空間に投影され、識別構造を光学ドメインから SAR ドメインに効果的に転送します。具体的には、私たちの射影損失と凍結シンプレックス ETF ジオメトリで最適化された分類器損失は、大きなクラス間角度を維持しながらクラス平均の周囲に特徴を集中させることによって共同して神経崩壊を引き起こします。このアプローチを、ベース トレーニング セッションと 7 つの増分セッションに編成された 24 のターゲット クラスを含む光 ATR データセットと SAR ATR データセットで構成されるベンチマークで評価します。 NCFSCIL などの最近の FSCIL 手法と比較して、私たちの手法は最高の最終精度と、最終パフォーマンスとパフォーマンス低下の間の好ましいトレードオフを実現します。さらに、ニューラル崩壊メトリクスは、クラス内のコンパクト性とクラス間の分離性の向上を示しており、学習された特徴が理想的なシンプレックス ETF ジオメトリにより近似していることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Optical-Guided Neural Collapse for SAR Few-Shot Class Incremental Learning</p>
        <p class="orig-summary">Few-shot class-incremental learning (FSCIL) in synthetic aperture radar imagery presents unique challenges due to severe data scarcity and SAR-specific variability. In particular, strong azimuth sensitivity in SAR induces large intra-class variation and inter-class confusion, and FSCIL sequential updates further lead to catastrophic forgetting of previously learned classes. Inspired by neural collapse, we propose an optical-guided SAR FSCIL framework, which derives orthogonal feature subspaces from a data-rich optical ATR dataset and uses them as geometric priors to guide SAR feature learning. SAR features are projected onto these orthogonal subspaces via principal angle constraints, effectively transferring discriminative structure from the optical to the SAR domain. Specifically, our projection loss and the classifier loss optimized with a frozen simplex-ETF geometry jointly induce neural collapse by concentrating features around class means while maintaining large inter-class angles. We evaluate the approach on a benchmark comprising an optical ATR dataset and a SAR ATR dataset with 24 target classes, organized into a base training session and seven incremental sessions. Compared with recent FSCIL methods including NCFSCIL and so on, our method achieves the highest final accuracy and a favorable trade-off between final performance and performance degradation. Moreover, neural collapse metrics show improved intra-class compactness and inter-class separability, indicating that the learned features more closely approximate the ideal simplex-ETF geometry.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="49ca1a64f5f9" data-article-url="https://arxiv.org/abs/2606.04535" data-article-title="拡散大規模言語モデルにおける形式に制約された生成のための動的埋め込みアンカー" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04535" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04535" target="_blank" rel="noopener">拡散大規模言語モデルにおける形式に制約された生成のための動的埋め込みアンカー</a></h3>
      <p class="summary">拡散大規模言語モデル (dLLM) は、双方向の注意と並列生成を提供し、グローバル コンテキストを活用して、解析可能な JSON や推論テンプレートなどの形式に制約のあるタスクを自然にサポートできるようにします。単純な固定アンカーはそのような制約を強制できますが、多くの場合、厳密なスパンを課すため、推論が切り詰められたり、コンテンツが冗長になったりします。これを克服するために、反復埋め込みの前にエンドアンカーの位置を動的に推定して生成長を調整する、トレーニング不要の方法である動的埋め込みアンカー (DIA) を提案します。この柔軟なメカニズムにより、構造の正確さと意味の一貫性が確保され、固定スパン方式の非効率性が回避されます。推論ベンチマークの実験では、DIA がフォーマットへの準拠性と回答精度を大幅に向上させ、GSM8K と MATH で大幅なゼロショット ゲインを達成することが実証されました。これらの結果は、DIA が信頼性の高い、構造を意識した生成に向けた強力な経路として確立されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Dynamic Infilling Anchors for Format-Constrained Generation in Diffusion Large Language Models</p>
        <p class="orig-summary">Diffusion large language models (dLLMs) offer bidirectional attention and parallel generation, enabling them to exploit global context and naturally support format-constrained tasks like parseable JSON or reasoning templates. While straightforward fixed anchors can enforce such constraints, they often impose rigid spans, leading to truncated reasoning or redundant content. To overcome this, we propose Dynamic Infilling Anchors (DIA), a training-free method that dynamically estimates end-anchor positions to adjust generation length before iterative infilling. This flexible mechanism ensures structural correctness and semantic coherence, avoiding the inefficiencies of fixed-span methods. Experiments on reasoning benchmarks demonstrate that DIA substantially improves format compliance and answer accuracy, achieving significant zero-shot gains on GSM8K and MATH. These results establish DIA as a robust pathway toward reliable, structure-aware generation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="12c2514b05ad" data-article-url="https://arxiv.org/abs/2606.04555" data-article-title="エージェントの記憶にとって時間的順序は重要: 長期エージェントのセグメント ツリー" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04555" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04555" target="_blank" rel="noopener">エージェントの記憶にとって時間的順序は重要: 長期エージェントのセグメント ツリー</a></h3>
      <p class="summary">長期的な会話型エージェントは、進化するイベント、タスク、目標を通じてユーザーと対話する必要があります。このような歴史は本来一時的なものですが、多くの既存の記憶システムは主にトピックの類似性によって情報を整理しており、イベントが発生する順序を無視している可能性があります。発話全体にわたって時間的に順序付けられたセグメント ツリーとして会話履歴を表すメモリ アーキテクチャであるセグメント ツリー メモリ (SegTreeMem) を導入します。 SegTreeMem は、オンラインの右端フロンティア更新ルールを通じて新しい発話を段階的に挿入し、階層的なメモリ セグメントを形成しながら時系列順を維持します。取得の場合、SegTreeMem はツリーを通じて関連性スコアを伝播し、ローカルな意味論的な一致と階層的な時間コンテキストを組み合わせます。 SegTreeMem は、3 つの長期メモリ ベンチマークと 2 つの LLM バックボーンにわたって、フラット検索、グラフ構造メモリ、およびツリー構造メモリ ベースラインよりも回答品質を向上させます。追加の時間順序順列分析では、パフォーマンスの向上が記憶構築中の時間順序の維持に依存することが示され、時間順序がエージェント記憶の重要な構造であるという主張が裏付けられています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Temporal Order Matters for Agentic Memory: Segment Trees for Long-Horizon Agents</p>
        <p class="orig-summary">Long-horizon conversational agents need to interact with users through evolving events, tasks, and goals. Such histories are naturally temporal, yet many existing memory systems organize information primarily by topical similarity and may ignore the order in which events occur. We introduce Segment Tree Memory, or SegTreeMem, a memory architecture that represents conversation history as a temporally ordered Segment Tree over utterances. SegTreeMem incrementally inserts new utterances through an online rightmost-frontier update rule, preserving chronological order while forming hierarchical memory segments. For retrieval, SegTreeMem propagates relevance scores through the tree to combine local semantic matching with hierarchical temporal context. Across three long-horizon memory benchmarks and two LLM backbones, SegTreeMem improves answer quality over flat retrieval, graph-structured memory, and tree-structured memory baselines. Additional temporal-order permutation analysis shows that the performance gain depends on preserving temporal order during memory construction, supporting the claim that temporal order is a key structure for agentic memory.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a12c33826a9d" data-article-url="https://arxiv.org/abs/2606.04560" data-article-title="GRPO 向けのロールアウト レベルのアドバンテージ優先エクスペリエンス リプレイ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04560" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04560" target="_blank" rel="noopener">GRPO 向けのロールアウト レベルのアドバンテージ優先エクスペリエンス リプレイ</a></h3>
      <p class="summary">GRPO を使用した検証可能な報酬からの強化学習は、トレーニング後の推論 LLM の標準的なアプローチです。サンプルの効率が悪いままです。各ロールアウトは 1 つのグラデーション更新に使用され、その後破棄されます。 LLM ポリシーが勾配ステップごとに急速に変化するため、単純な再生はこの設定にはあまり適していません。したがって、保存されたロールアウトは古くなり、トレーニングが不安定になる可能性があります。グループ全体ではなく個々のロールアウトを保存およびサンプリングする、GRPO のロールアウト レベルのリプレイ バッファーを提案します。バッファーは、age eviction を通じて古い状態を制限します。 tau_max トレーニング ステップよりも古いロールアウトは削除されます。バッファには、フレッシュアンカー構成を介してポリシー上のデータも保存されます。各バッチは、ポリシーに基づいた最新のロールアウトを保持し、バッファから個別に描画されたリプレイ ロールアウトを連結します。ロールアウトごとのアドバンテージの大きさによってリプレイに優先順位を付け、アドバンテージが大きい個々のロールアウトをリサイクルします。 5 つの数学ベンチマークにおける 3 つの Qwen3-Base スケール全体で、私たちの手法は GRPO および単純な再生ベースラインを上回りました。ゲインはどのスケールでも正であり、モデルのサイズに応じて増加します。最大の利益は 4B の 5 つのベンチマーク平均で +4.35 pp です。精度とトークン効率を組み合わせて測定する AES メトリクスの下では、GRPO に対する効率マージンは、+0.579 で 4B と再び最大になります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Rollout-Level Advantage-Prioritized Experience Replay for GRPO</p>
        <p class="orig-summary">Reinforcement learning from verifiable rewards with GRPO is a standard approach for post-training reasoning LLMs. It remains sample inefficient. Each rollout is used for a single gradient update and then discarded. Naive replay is not well suited in this setting because LLM policies drift quickly per gradient step. Stored rollouts therefore become stale and can destabilize training. We propose a rollout-level replay buffer for GRPO that stores and samples individual rollouts rather than whole groups. The buffer bounds staleness through age eviction. Any rollout older than tau_max training steps is removed. The buffer also preserves on-policy data via fresh-anchored composition. Each batch keeps its fresh on-policy rollouts and then concatenates replay rollouts drawn separately from the buffer. We prioritize replay by per-rollout advantage magnitude and recycle individual rollouts whose advantages are large. Across three Qwen3-Base scales on five math benchmarks, our method outperforms GRPO and naive replay baselines. Gains are positive at every scale and grow with model size. The largest gain is +4.35 pp on the five-benchmark average at 4B. Under an AES metric that jointly measures accuracy and token efficiency, the efficiency margin over GRPO is again largest at 4B, at +0.579.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="93e6834e9764" data-article-url="https://arxiv.org/abs/2606.04581" data-article-title="マルチ SPIN: エッジでの協調トークン生成のためのマルチアクセス投機推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04581" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04581" target="_blank" rel="noopener">マルチ SPIN: エッジでの協調トークン生成のためのマルチアクセス投機推論</a></h3>
      <p class="summary">投機的推論 (SPIN) は、もともと大規模言語モデル (LLM) を高速化するための効率的なアーキテクチャとして開発されました。この研究では、マルチユーザー エッジ システムでの協調的なトークン生成を可能にする分散展開を提案します。その利点は、リソースに制約のあるデバイスとサーバーの間で計算負荷のバランスを効果的にとれることです。マルチアクセス SPIN (Multi-SPIN) と呼ばれる結果として得られるアーキテクチャは、オンデバイスの小型言語モデルを利用して候補トークン ドラフトを生成およびアップロードする一方、エッジ サーバーは LLM を操作してそれらを並列バッチで検証します。ユーザーの計算能力と通信能力に深刻な不均一性があることを考慮すると、ドラフト長はノードレベルの計算負荷とマルチアクセス待ち時間に影響を与える重要な制御変数として浮上し、それによって合計トークンのグッドプットを支配します。したがって、周波数分割多元接続を考慮して、合計トークン グッドプットを最大化するための、ドラフト長制御と帯域幅割り当ての共同最適化であるマルチアクセス ドラフト制御の問題を調査します。ここでは 2 つのケースを検討します。(1) サーバー側のバッチ処理を容易にするためにユーザー間で均一なドラフト長を使用する場合と、(2) グッドプットを強化するための新しい次元を導入するために異種のドラフト長を使用する場合です。分解手法を開発することで、これらの複雑な最適化を扱いやすい部分問題に縮小し、閉じた形式で効率的な喫水制御アルゴリズムを導出できるようにします。私たちの分析によると、最適な帯域幅の割り当ては、同種の場合にはバッチ同期要件により弱い計算能力と通信能力を持つユーザーを補うのに対し、異種の場合はそのような要件を緩和することでユーザーの受け入れ率を高めることができます。さまざまなタスクにわたって Llama-2 と Qwen3.5 モデルのペアを使用した実験では、Multi-SPIN が異質性を問わないベースラインと比較してグッドプットを最大 88% 向上させることが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Multi-SPIN: Multi-Access Speculative Inference for Cooperative Token Generation at the Edge</p>
        <p class="orig-summary">Speculative inference (SPIN) was originally developed as an efficient architecture to accelerate Large Language Models (LLMs). In this work, we propose its distributed deployment to enable cooperative token generation in a multiuser edge system; its advantage is to effectively balance computational loads between resource-constrained devices and servers. The resulting architecture, termed Multi-access SPIN (Multi-SPIN), utilizes on-device small language models to generate and upload candidate token drafts, while an edge server operates the LLM to verify them in parallel batches. Given the severe heterogeneity in users&#x27; computation and communication capabilities, the draft length emerges as a critical control variable that influences node-level computation loads and multi-access latency, thereby governing the sum token goodput. Consequently, considering frequency-division multiple access, we investigate the problem of multi-access draft control, a joint optimization of draft-length control and bandwidth allocation to maximize sum token goodput. We examine two cases: (1) homogeneous draft lengths across users to facilitate server-side batching, and (2) heterogeneous draft lengths to introduce a new dimension for goodput enhancement. By developing decomposition methods, we reduce these complex optimizations into tractable sub-problems, which allow efficient draft control algorithms to be derived in closed form. Our analysis shows that the optimal bandwidth allocation compensates users with weaker computation-and-communication capabilities in the homogeneous case due to the batching synchronization requirements, whereas its heterogeneous-case counterpart rewards users with higher acceptance rates by relaxing such requirements. Experiments using Llama-2 and Qwen3.5 model pairs across diverse tasks demonstrate that Multi-SPIN improves goodput by up to 88% over heterogeneity-agnostic baselines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="35af905920f9" data-article-url="https://arxiv.org/abs/2606.04592" data-article-title="合成パーソナリティ: LLM は社会経済的マイクロデータを使用して個々の回答者をどの程度うまく模倣できるか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04592" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04592" target="_blank" rel="noopener">合成パーソナリティ: LLM は社会経済的マイクロデータを使用して個々の回答者をどの程度うまく模倣できるか?</a></h3>
      <p class="summary">LLM ベースのデジタル ツインは、市場調査の拡張と加速を約束しますが、公開されているデジタル ツインのほとんどは、人口統計に関するいくつかの質問に基づいて条件付けされた大まかなペルソナ ボットか、目的のために収集されたアンケートやインタビュー記録に基づいて構築された詳細な個人レベルのツインのいずれかです。どちらの設定も、マーケティング実践に運用上最も関連性の高い事例、つまり企業が CRM システム、ロイヤリティ プログラム、および反復調査を通じてすでに蓄積している既存の異種パネル データから詳細な個別の双子を構築することについては話していません。私たちは、ドイツ社会経済パネル (SOEP) から詳細な個人レベルの双子を構築し、3 つのオープンウェイト LLM、正規化されたシャノン エントロピーによってランク付けされた 5 つの累積情報深さ、2 つの埋め込み手法、および 2 つの推論モードをカバーする $3 \times 5 \times 2 \times 2$ 構築方法グリッド全体で評価し、500 人の参加者と 183 の保留された質問に対する 210 万を超える双子の回答をスコアリングしました。ツインの品質は情報の深さに応じて向上しますが、エントロピー四分位 75 パーセントを超えると収益が減少します。エントロピー四分位は、最もパフォーマンスの高い 100 パーセントのセルと比較したコスト効率の高いパレート点として機能します。埋め込みをナラティブなペルソナの概要から過去の応答の生の対話履歴に切り替えると、100% の深さですべてのモデルごとの推論セルのホールドアウト精度が向上します。一方、明示的思考モードでは精度を変えることなく順位相関が向上します。 SOEP ホールドアウト評価セットでは、最良セル精度は 78.8% に達し、Fisher-$z$ 相関は $r = 0.590$ に達します。この調査結果は、ツインベースの市場調査がもはやデータ設計によって制御されているのではなく、アイテムのボリューム、モデルの選択、およびこの論文でマッピングされている建設レベルの少数の決定によって制御されていることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Synthetic Personalities: How Well Can LLMs Mimic Individual Respondents Using Socio-Economic Microdata?</p>
        <p class="orig-summary">LLM-based digital twins promise to scale and accelerate market research, but most published twins are either coarse persona bots conditioned on a few demographic questions or detailed individual-level twins built on purpose-collected surveys and interview transcripts. Neither setup speaks to the operationally most relevant case for marketing practice: building detailed individual twins from the pre-existing heterogeneous panel data that firms already accumulate through CRM systems, loyalty programs, and repeat surveys. We construct detailed individual-level twins from the German Socio-Economic Panel (SOEP) and evaluate them across a $3 \times 5 \times 2 \times 2$ construction-method grid that covers three open-weights LLMs, five cumulative information depths ranked by normalized Shannon entropy, two embedding methods, and two reasoning modes, scoring over 2.1 million twin responses on 500 participants and 183 held-out questions. Twin quality rises with information depth but with diminishing returns past the 75 percent entropy quartile, which acts as a cost-efficient Pareto point relative to the best-performing 100 percent cells. Switching the embedding from a narrative persona summary to a raw dialog history of past responses raises hold-out accuracy in every model-by-reasoning cell at the 100 percent depth, while an explicit thinking mode raises rank-order correlation without moving accuracy. Best-cell accuracy reaches 78.8 percent and Fisher-$z$ correlation reaches $r = 0.590$ on the SOEP held-out evaluation set. The findings suggest that twin-based market research is no longer gated by data design, but by item volume, model selection, and a small set of construction-level decisions that this paper now maps.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="59c9add8e9d7" data-article-url="https://arxiv.org/abs/2606.04594" data-article-title="Ekka: LLM 推論におけるサイレント エラーの自動診断" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04594" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04594" target="_blank" rel="noopener">Ekka: LLM 推論におけるサイレント エラーの自動診断</a></h3>
      <p class="summary">LLM サービス フレームワークは、複雑なソフトウェア スタックと膨大な数の最適化によって急速に進化しています。急速な開発プロセスでは、明示的なエラー信号がないまま出力品質が静かに低下するサイレント エラーが発生する可能性があります。高レベルの症状と低レベルの根本原因の間には意味上の大きなギャップがあるため、サイレント エラーの診断は難しいことで知られています。意味的に正しい参照実装の存在を活用することで、サイレント エラーの診断を差分デバッグ問題として効果的に組み立てることができることがわかりました。私たちは、ターゲット フレームワークと参照フレームワークの間の中間実行状態を体系的に調整して比較することにより、根本原因を特定する自動診断システム Ekka を提案します。一般的なサービス提供フレームワークから実際のサイレント エラーのベンチマークを構築しました。Ekka は、pass@1 診断精度が 80%、pass@5 診断精度が 88% で、最先端のシステムを上回るパフォーマンスを示しました。 Ekka は、サービス提供フレームワークからの 4 つの新しいサイレント エラーも診断します。これらはすべて開発者によって確認されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Ekka: Automated Diagnosis of Silent Errors in LLM Inference</p>
        <p class="orig-summary">LLM serving frameworks are quickly evolving with a complex software stack and a vast number of optimizations. The rapid development process can introduce silent errors where output quality silently degrades without any explicit error signals. Diagnosing silent errors is notoriously difficult due to the substantial semantic gap between the high-level symptoms and the low-level root causes. We observe that diagnosis of silent errors can be effectively framed as a differential debugging problem by leveraging the existence of semantically correct reference implementations. We propose Ekka, an automated diagnosis system that identifies root causes by systematically aligning and comparing intermediate execution states between a target and a reference framework. We constructed a benchmark of real-world silent errors from popular serving frameworks, where Ekka shows 80% pass@1 diagnosis accuracy and 88% pass@5 diagnosis accuracy, outperforming state-of-the-art systems. Ekka also diagnoses 4 new silent errors from serving frameworks, all of which have been confirmed by the developers.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="88338e771780" data-article-url="https://arxiv.org/abs/2606.04620" data-article-title="QuBLAST: ブロックレベルの圧縮アプローチとアクティベーション スケーリング戦略を使用して大規模な言語モデルを量子化するためのフレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04620" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04620" target="_blank" rel="noopener">QuBLAST: ブロックレベルの圧縮アプローチとアクティベーション スケーリング戦略を使用して大規模な言語モデルを量子化するためのフレームワーク</a></h3>
      <p class="summary">LLM は、NLP タスクを解決するための最先端のアルゴリズムになりました。ただし、これらは通常、膨大な計算コストとメモリコストがかかるため、組み込みシステムへの導入が困難になります。これに向けて、最先端の方法では通常、ネットワークのアテンション ブロック全体で均一なポストトレーニング量子化 (PTQ) が採用されており、そのため、同じネットワーク内で異なる量子化レベルを適用する可能性を見落としています。また、アクティベーションの異常値による悪影響を軽減するために複雑な操作を採用しているため、高い計算オーバーヘッドが発生します。さらに、量子化を適用する際に異なる課題を引き起こす、従来とは異なるアテンション アーキテクチャ (状態空間モデルなど) を備えた新興 LLM を使用した評価については考慮されていません。これらの制限に対処するために、LLM のアクティベーション スケーリング戦略を備えたブロック レベルの圧縮アプローチを採用する新しい PTQ 手法である QuBLAST を提案します。ブロックレベルの圧縮アプローチにより、ネットワークのブロック全体で混合精度の量子化が可能になり、同時にアクティベーションスケーリング戦略によりアクティベーション異常値の悪影響が効率的に軽減されます。具体的には、QuBLAST はまず、クロスエントロピー損失分析を通じて、事前トレーニング済みモデル内のさまざまなアテンション ブロックの感度を分析します。 QuBLAST は、この感度分析を活用して、モデル内の各アテンション ブロックの重み量子化レベルを決定します。さらに、QuBLAST は各ブロックのアクティベーション スケーリング マップを採用してアクティベーション値の範囲を制御し、アクティベーション外れ値の悪影響を軽減することで、より良い量子化結果を実現します。実験結果は、QuBLAST が、WikiText-2 および WikiText-103 データセットのパープレキシティ増加 5% 以内のパフォーマンスを維持しながら、さまざまなモデル アーキテクチャ (つまり、Qwen3-8B、Llama3-8B、Mistral v0.1-8B、および Falcon H1R-7B) にわたってモデル サイズを 40% ～ 45.2% 削減することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">QuBLAST: A Framework for Quantizing Large Language Models with Block-Level Compression Approach and Activation Scaling Strategy</p>
        <p class="orig-summary">LLMs have become the state-of-the-art algorithms for solving NLP tasks. However, they typically come at huge computational and memory costs, thus making them difficult to deploy on embedded systems. Toward this, state-of-the-art methods typically employ uniform post-training quantization (PTQ) across attention blocks of the network, hence overlooking the potential of applying different quantization levels in the same network. They also employ complex operations to mitigate the negative impact of activation outliers, hence incurring high computational overheads. Moreover, they have not considered evaluation using emerging LLMs with non-conventional attention architectures (e.g., state-space models), which pose different challenges in applying quantization. To address these limitations, we propose QuBLAST, a novel PTQ methodology that employs block-level compression approach with activation scaling strategy for LLMs. Block-level compression approach enables mixed-precision quantization across blocks of the network, while activation scaling strategy efficiently mitigates the negative impact of activation outliers. Specifically, QuBLAST first analyzes the sensitivity of different attention blocks in the pre-trained model through the cross-entropy loss analysis. QuBLAST leverages this sensitivity analysis to determine the weight quantization level for each attention block in the model. Furthermore, QuBLAST employs the activation scaling map for each block to control the range of activation values and mitigate the negative impact of activation outliers, thereby enabling better quantization results. Experimental results show that, QuBLAST reduces model sizes by 40%-45.2% across different model architectures (i.e., Qwen3-8B, Llama3-8B, Mistral v0.1-8B, and Falcon H1R-7B), while maintaining the performance within 5% perplexity increase for the WikiText-2 and WikiText-103 datasets.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8995a7c99283" data-article-url="https://arxiv.org/abs/2606.04646" data-article-title="QO ベンチ: 型付きイベント タプルに対するクエリ演算子保持検索の診断" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04646" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04646" target="_blank" rel="noopener">QO ベンチ: 型付きイベント タプルに対するクエリ演算子保持検索の診断</a></h3>
      <p class="summary">ビジネス、法律、科学コーパスに関する現実世界の質問の多くは、テキストに潜在するレコードに対するデータベース スタイルのクエリの自然言語バージョンです。既存の検索拡張生成 (RAG) システムは、主にセマンティック関連性を重視して最適化されていますが、もっともらしい文章を取得しても、クエリが正しく実行されることは保証されません。型指定されたイベント タプルに対するクエリ演算子の質問応答の診断ベンチマークである QO-Bench を紹介します。このベンチマークは、18 のクエリ テンプレートにわたる 22,984 のニュース記事と 614 の企業イベントを対象とし、785 の質問で評価されました。各ゴールド アンサーは、型指定されたイベント タプルから決定論的に計算され、LLM 判定ではなく完全一致によってゴールド タプルと照合された回答を使用して、再現率によってスコア付けされます。この設計により、結合や交差などのオペレーターレベルの診断が可能になります。 RAG、ReAct RAG、GraphRAG、および情報抽出から SQL を一致した条件下で評価し、取得失敗を分離するためのロングコンテキスト オラクル上限を使用します。インデックス時の保存とクエリ時の実行という 2 軸のフレームワークによって、各パラダイムがどこで失敗するかを予測し、その結果がそれを裏付けています。システムは関連するテキストを取得しますが、オペレータが必要とする型付きの値を破棄します。デプロイ可能なパラダイムのランキングはオペレータ間で逆転し、フィルタ/プロジェクトで類似性の取得が始まり、交差とカウントで SQL への抽出が行われます。決定的な証拠が与えられたとしても、ロングコンテキストのオラクルは飽和状態には程遠いため、検索だけではなくオペレーターの実行が、より強力な応答モデルによって除去されない中心的なボトルネックとなっています。 QO-Bench は、パッセージの関連性からクエリ演算子を保持した検索へと目標を再構成します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">QO-Bench: Diagnosing Query-Operator-Preserving Retrieval over Typed Event Tuples</p>
        <p class="orig-summary">Many real-world questions over business, legal, and scientific corpora are natural-language versions of database-style queries over records latent in text. Existing retrieval-augmented generation (RAG) systems are optimized primarily for semantic relevance, but retrieving plausible passages does not guarantee correct query execution. We introduce QO-Bench, a diagnostic benchmark for query-operator question answering over typed event tuples. The benchmark covers 22,984 news articles and 614 corporate events across 18 query templates, evaluated on 785 questions. Each gold answer is deterministically computed from typed event tuples and scored by recall, with answers matched to the gold tuples by exact match rather than an LLM judge. This design enables operator-level diagnosis such as joins and intersection. We evaluate RAG, ReAct RAG, GraphRAG, and information-extraction-to-SQL under matched conditions, with a long-context oracle ceiling to isolate retrieval failure. A two-axis framework -- index-time preservation versus query-time execution -- predicts where each paradigm fails, and the results bear it out: systems retrieve relevant text but discard the typed values operators need, and the deployable paradigm ranking inverts across operators, with similarity retrieval leading on filter/project and extraction-to-SQL on intersection and counting. Even given the gold evidence, a long-context oracle stays far from saturated, so operator execution -- not retrieval alone -- is a core bottleneck that a stronger answer model does not remove. QO-Bench reframes the goal from passage relevance to query-operator-preserving retrieval.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1238167ccca2" data-article-url="https://arxiv.org/abs/2606.04656" data-article-title="オブジェクト検出におけるインスタンスレベルの事後不確実性の定量化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04656" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04656" target="_blank" rel="noopener">オブジェクト検出におけるインスタンスレベルの事後不確実性の定量化</a></h3>
      <p class="summary">物体検出は自動運転の安全上重要な要素です。安全性を確保するには、境界ボックス予測の不確実性を定量化することが不可欠です。再トレーニングを必要としない事後的な不確実性の定量化は、現実世界の導入要件と一致します。したがって、ラプラス近似を使用します。インスタンスレベルの不確実性が必要であるため、複数のバックプロパゲーションを必要とする線形推論方法は時間効率が悪く、サンプリングベースの方法は完全に事後的ではありません。我々は、インスタンスレベルおよびほぼ事後的な不確実性の定量化を提供するモンテカルロ一般化線形モデル (MC-GLM) を提案します。モンテカルロ ステップで必要なサンプルの数は一定で、出力インスタンスの数に依存しないため、並列化できます。 CenterPoint 検出器を使用した nuScenes データセットの実験により、私たちの方法の有効性が検証され、結果として生じる不確実性は良好な品質を示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Instance-Level Post Hoc Uncertainty Quantification in Object Detection</p>
        <p class="orig-summary">Object detection is a safety-critical component of autonomous driving. It is essential to quantify the uncertainty in bounding-box predictions for safety assurance. Post hoc uncertainty quantification without retraining aligns with real-world deployment requirements; therefore, we employ the Laplace approximation. Because instance-level uncertainty is needed, linearized inference methods that require multiple backpropagations are not time-efficient, and sampling-based methods are not fully post hoc. We propose Monte-Carlo generalized linearized model (MC-GLM), which provides instance-level and approximately post hoc uncertainty quantification. The number of samples required in the Monte Carlo step is constant and independent of the number of output instances, so it can be parallelized. Experiments on the nuScenes dataset with the CenterPoint detector validate the effectiveness of our method, and the resulting uncertainties exhibit good quality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6cca76e915da" data-article-url="https://arxiv.org/abs/2606.04662" data-article-title="ミュオンがアダムを上回る理由: 曲率の観点から" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04662" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04662" target="_blank" rel="noopener">ミュオンがアダムを上回る理由: 曲率の観点から</a></h3>
      <p class="summary">Muon は、大規模な言語モデルのトレーニングにおいて Adam に比べてトレーニング効率を約 2 倍向上させますが、この利点の局所的な幾何学的ソースは依然として不明です。私たちの研究は、曲率の観点からアダムに対するミュオンの優位性を解明するための第一歩を踏み出します。まず、トレーニング ランドスケープに 2 次テイラー近似を適用し、一致する検証損失で Muon が Adam よりも大きな 1 ステップ損失の減少を達成することを示します。 2 つのオプティマイザーは同等の一次ゲインを持っていますが、Muon は常に小さい二次曲率ペナルティを受けます。次に、この曲率ペナルティを二乗更新ノルムと正規化方向シャープネス (NDS) に分解します。 Muon と Adam は同等の更新ノルムを持っていることがわかり、Muon のより小さい曲率ペナルティは、更新スケールではなく、NDS の低下によって引き起こされます。第三に、トレーニング データとモデル構造が Muon の NDS の利点をどのように形成するかを研究します。不均衡を制御したZipf-Probabilistic Context-Free Grammar (PCFG)データを使用して、データの不均衡がAdamに対するMuonのNDS優位性を増幅させることを示します。さらに、層内/層間分解により、トレーニングの中期および後期段階では、ミュオンの下部 NDS は主に小さな層内曲率によって維持されることが示されています。経験的証拠を超えて、不均一な曲率と高曲率モードへの勾配整列を伴う様式化された 2 次問題を分析します。我々は、ミューオンが曲率グループ全体で更新エネルギーのバランスをとることにより、GD よりも小さな平均 NDS を達成することを証明します。曲率の​​不均一性が十分に強い場合、同じステップ数の後の局所二次損失も低くなります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Why Muon Outperforms Adam: A Curvature Perspective</p>
        <p class="orig-summary">Muon improves training efficiency over Adam in large language-model training by about two times, but the local geometric source of this advantage remains unclear. Our work takes a first step toward demystifying Muon&#x27;s superiority over Adam from a curvature perspective. First, we apply a second-order Taylor approximation to the training landscape and show that Muon achieves a larger one-step loss decrease than Adam at matched validation loss. The two optimizers have comparable first-order gains, but Muon consistently incurs a smaller second-order curvature penalty. Second, we decompose this curvature penalty into the squared update norm and Normalized Directional Sharpness (NDS). We find that Muon and Adam have comparable update norms, so Muon&#x27;s smaller curvature penalty is driven by lower NDS, not update scale. Third, we study how training data and model structure shape Muon&#x27;s NDS advantage. Using Zipf-Probabilistic Context-Free Grammar (PCFG) data with controlled imbalance, we show that data imbalance amplifies Muon&#x27;s NDS advantage over Adam. A within-/cross-layer decomposition further shows that, in the middle and late stages of training, Muon&#x27;s lower NDS is mainly sustained by smaller within-layer curvature. Beyond empirical evidence, we analyze stylized quadratic problems with heterogeneous curvature and gradient alignment toward high-curvature modes. We prove that Muon attains a smaller average NDS than GD by balancing update energy across curvature groups; when curvature heterogeneity is sufficiently strong, this also yields lower local quadratic loss after the same number of steps.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9cb478d4cba1" data-article-url="https://arxiv.org/abs/2606.04672" data-article-title="状態空間モデルを使用した連続時間動的グラフ上の長距離時空間表現の学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04672" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04672" target="_blank" rel="noopener">状態空間モデルを使用した連続時間動的グラフ上の長距離時空間表現の学習</a></h3>
      <p class="summary">連続時間ダイナミック グラフ (CTDG) は、進化するリレーショナル データのきめの細かい時間的パターンをキャプチャするためのより豊富なフレームワークを提供します。長距離の情報伝播は、表現を学習する際の重要な課題であり、長い時間的期間にわたって情報を保持および更新することが重要です。既存のアプローチでは、モデルがワンホップまたはローカルな時間的近傍を捕捉するように制限されており、マルチホップまたはグローバルな構造パターンを捕捉できません。これを軽減するために、第一原理から連続時間動的グラフ (CTDG-SSM) 用のパラメーター効率の高い状態空間モデリング フレームワークを導出します。まず、連続時間トポロジー対応高次多項式射影演算子 (CTT-HiPPO) を紹介します。これは、時間ダイナミクスとグラフ構造を共同でエンコードするための HiPPO の新しいメモリベースの再定式化です。 CTT-HiPPO からの解は、ラプラシアン行列の多項式を通じて古典的な HiPPO 解を射影することによって取得され、CTDG の等価状態空間定式化 (CTDG-SSM) を可能にするトポロジーを意識したメモリ更新が得られます。次に、モデルの実装にゼロ次ホールド アプローチを使用して、計算効率の高い離散定式化が得られます。 CTDG-SSM は、動的リンク予測、動的ノード分類、シーケンス分類のベンチマーク全体で最先端のパフォーマンスを実現します。特に、長距離時間 (LRT) および空間推論を必要とするデータセットで大幅なパフォーマンスの向上が実現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Learning Long Range Spatio-Temporal Representations over Continuous Time Dynamic Graphs with State Space Models</p>
        <p class="orig-summary">Continuous-time dynamic graphs (CTDGs) provide a richer framework to capture fine-grained temporal patterns in evolving relational data. Long-range information propagation is a key challenge while learning representations, wherein it is important to retain and update information over long temporal horizons. Existing approaches restrict models to capture one-hop or local temporal neighborhoods and fail to capture multi-hop or global structural patterns. To mitigate this, we derive a parameter-efficient state-space modeling framework for continuous-time dynamic graphs (CTDG-SSM) from first principles. We first introduce continuous-time Topology-Aware higher order polynomial projection operator (CTT-HiPPO), a novel memory-based reformulation of HiPPO to jointly encode temporal dynamics and graph structure. The solution from CTT-HiPPO is obtained by projecting the classical HiPPO solution through a polynomial of the Laplacian matrix, yielding topology-aware memory updates that admit an equivalent state-space formulation for CTDGs (CTDG-SSM). Then a computationally efficient discrete formulation is obtained using the zero-order hold approach for model implementation. Across benchmarks on dynamic link prediction, dynamic node classification, and sequence classification, CTDG-SSM achieves state-of-the-art performance. Notably, it achieves large performance gains on datasets that require long range temporal (LRT) and spatial reasoning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="419d7771b1ae" data-article-url="https://arxiv.org/abs/2606.04684" data-article-title="YOLOv8、SORT トラッキング、時間的データ補間を使用したリアルタイムの自動ナンバー プレート認識" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04684" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04684" target="_blank" rel="noopener">YOLOv8、SORT トラッキング、時間的データ補間を使用したリアルタイムの自動ナンバー プレート認識</a></h3>
      <p class="summary">ビデオ処理のリアルタイムの困難により、動的交通監視設定でのアプリケーションでの自動ナンバー プレート認識 (ALPR) の使用が大幅に制限されます。制約のない変数の高忠実度の認識。照明の急激な変化、鋭いカメラ スキャン、高い車両速度、および過酷な物理的隠蔽は、多くの場合、追跡パスがバラバラになり、光学式文字認識 (OCR) 率が低下する原因となる問題です。これらの弱点を軽減するために、この研究では、深層学習ベースの物体検出、本質的に運動学的な複数物体追跡、およびジオメトリ時間データ補間の間のスムーズな移行を含む、5 段階のエンドツーエンドのアルゴリズム パイプラインを提案しています。提案されたアーキテクチャでは、非常に強力な YOLOv8 ナノ モデルを利用して、最初の段階で車両の位置を特定し、その後、シンプル オンラインおよびリアルタイム トラッキング (SORT) アルゴリズムを使用して、フレーム間の時空間リンクを構築します。 YOLOv8 の別のより具体的な類型は、ナンバー プレート領域を検出し、位置構文検証の制限の下で、スライスされた配列を EasyOCR チェーンにチャネルします。さらに重要なのは、時間境界ボックスのオフライン補間メカニズムが開始され、断片化されたパスが再キャストされることです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Real-Time Automatic License Plate Recognition Using YOLOv8, SORT Tracking, and Temporal Data Interpolation</p>
        <p class="orig-summary">The real-time hardships of video processing seriously limit the usage of Automatic License Plate Recognition (ALPR) with application in dynamic traffic monitoring settings. High-fidelity recognition of unconstrained variables, e.g. drastic variations in illumination, acute camera scans, high vehicle speeds, and harsh physical concealment, is a problem that often leads to disjointed tracking paths and poor Optical Character Recognition (OCR) rates. In order to mitigate these weaknesses, the study proposes a 5 stage, end-to-end algorithmic pipeline, encompassing a smooth transition between deep learning based object detection, multi-object tracking which is kinematic in nature, and geometry temporal data interpolation. The suggested architecture takes advantage of a very powerful YOLOv8 nano model to localize the vehicle at the first stage and then Simple Online and Realtime Tracking (SORT) algorithm is used to build spatial-temporal links between frames. Another, more specific typology of YOLOv8 object detectors the license plate area, channeling the sliced array to an EasyOCR chain under the limitations of positional syntax verification. More importantly, an offline interpolation mechanism of temporal bounding box is initiated to recast fragmented paths.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="abf120852471" data-article-url="https://arxiv.org/abs/2606.04699" data-article-title="アルツハイマー病分類のための一般化固有値近位 SVM におけるグラフに基づく Universum 学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04699" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04699" target="_blank" rel="noopener">アルツハイマー病分類のための一般化固有値近位 SVM におけるグラフに基づく Universum 学習</a></h3>
      <p class="summary">アルツハイマー病 (AD) の早期かつ正確な検出は、タイムリーな介入と疾患管理にとって重要です。一般化固有値近位サポート ベクトル マシン (GEPSVM) とその Universum ベースのバリアントは、AD 分類において有望な結果を示しています。ただし、既存の方法では Universum サンプルを独立した点として扱い、それらの間の幾何学的関係は考慮されていません。この論文では、構造 MRI データを使用した AD と認知的正常 (CN) の分類のための 2 つのグラフガイド付き Universum 学習モデル、つまり UG-GEPSVM と IUG-GEPSVM を提案します。提案されたフレームワークでは、軽度認知障害 (MCI) の被験者が Universum データとして使用され、AD クラスと CN クラスの間の中間情報が提供されます。グラフは、ガウス類似度、最小スパニング ツリー接続、およびマルチホップ伝播を使用して Universum サンプル上に構築されます。このグラフから、MCI サンプルの幾何学的構造を捉えるラプラシアン行列が導出されます。このラプラシアンベースの正則化は、従来の独立した Universum ペナルティ項の代わりに学習プロセスに組み込まれています。 UG-GEPSVM はこの正則化を一般化固有値定式化に統合しますが、IUG-GEPSVM は標準固有値定式化を使用して数値的に安定した改良された GEPSVM フレームワークを拡張します。 5 つの異なるノイズ レベルで ICA および PCA ベースの特徴を使用した ADNI MRI データセット バリアントの実験では、提案された両方のモデルが既存の GEPSVM および Universum ベースの方法よりも一貫して優れていることが示されています。 UG-GEPSVM は、88.07% という最高の平均 AUC を達成し、ノイズ レベルが増加しても安定したパフォーマンスを維持します。統計的テストにより、観察された改善の重要性がさらに確認されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Graph-Guided Universum Learning in Generalized Eigenvalue Proximal SVMs for Alzheimer&#x27;s Disease Classification</p>
        <p class="orig-summary">Early and accurate detection of Alzheimer&#x27;s disease (AD) is important for timely intervention and disease management. Generalized Eigenvalue Proximal Support Vector Machine (GEPSVM) and its Universum-based variants have shown promising results for AD classification. However, existing methods treat Universum samples as independent points and do not consider the geometric relationships among them. This paper proposes two graph-guided Universum learning models, namely UG-GEPSVM and IUG-GEPSVM, for AD versus cognitively normal (CN) classification using structural MRI data. In the proposed framework, mild cognitive impairment (MCI) subjects are used as Universum data to provide intermediate information between AD and CN classes. A graph is constructed over the Universum samples using Gaussian similarity, Minimum Spanning Tree connectivity, and multi-hop propagation. From this graph, a Laplacian matrix is derived that captures the geometric structure of the MCI samples. This Laplacian-based regularization is incorporated into the learning process in place of the conventional independent Universum penalty term. UG-GEPSVM integrates this regularization into the generalized eigenvalue formulation, while IUG-GEPSVM extends the numerically stable improved GEPSVM framework using a standard eigenvalue formulation. Experiments on ADNI MRI dataset variants using ICA- and PCA-based features at five different noise levels show that both proposed models consistently outperform existing GEPSVM and Universum-based methods. UG-GEPSVM achieves the highest average AUC of 88.07% and maintains stable performance under increasing noise levels. Statistical tests further confirm the significance of the observed improvements.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c4c1a3b9054" data-article-url="https://arxiv.org/abs/2606.04705" data-article-title="医療画像セグメンテーション用の軽量ボックス予測子による MedSAM の強化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04705" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04705" target="_blank" rel="noopener">医療画像セグメンテーション用の軽量ボックス予測子による MedSAM の強化</a></h3>
      <p class="summary">医療画像におけるセマンティック セグメンテーションは、データ不足とモダリティ間のばらつきの高さのため、重要ではありますが、困難なタスクです。 Segment Anything Model (SAM) のような基礎モデルは有望ですが、特別な適応がなければ医療画像に苦労することがよくあります。さらに、ポイント プロンプトは、ユーザー インタラクションの最も自然な形式であるにもかかわらず、特にターゲット構造が不規則であるかコントラストが不十分な場合、信頼性の高いセグメンテーションを実現するには空間コンテキストが不十分です。この論文では、軽量の Box Predictor モジュールを MedSAM アーキテクチャに統合する強化されたセグメンテーション フレームワークを提案します。 Box Predictor は、ローカライズされた画像埋め込み機能を使用して、ユーザーの 1 回のクリックからおおよその境界ボックスを推定し、ポイント プロンプトの曖昧さを軽減する空間ガイダンスを提供すると同時に、追加パラメーターは 160 万個のみで、推論オーバーヘッドは無視できます。 Box Predictor が MedSAM に統合される前に個別にトレーニングされる 2 段階のトレーニング パイプラインを導入します。私たちの方法の一般化機能を検証するために、CT、MRI、超音波を含む異なる画像モダリティにわたる 4 つの多様なデータセット (FLARE22、BRISC、BUSI、LungSegDB) に対して広範な評価を実施します。私たちの方法は、さまざまな解剖学的構造と画像化ドメインにわたってセグメンテーションの精度と堅牢性を向上させ、Dice スコア 0.89 (BUSI)、0.93 (FLARE22)、0.88 (BRISC)、および 0.98 (LungSegDB) を達成しました。コードは https://github.com/Amirhosseinmovahedi/MedSAM-BoxPredictor で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Enhancing MedSAM with a Lightweight Box Predictor for Medical Image Segmentation</p>
        <p class="orig-summary">Semantic segmentation in medical imaging is a critical yet challenging task due to data scarcity and high variability across modalities. While foundation models like the Segment Anything Model (SAM) show promise, they often struggle with medical images without specific adaptation. Moreover, point prompts, despite being the most natural form of user interaction, provide insufficient spatial context for reliable segmentation, particularly when target structures are irregular or poorly contrasted. In this paper, we propose an enhanced segmentation framework that integrates a lightweight Box Predictor module into the MedSAM architecture. The Box Predictor estimates an approximate bounding box from a single user click using localized image embedding features, providing spatial guidance that reduces the ambiguity of point prompts, while introducing only 1.6M additional parameters and negligible inference overhead. We introduce a two-stage training pipeline where the Box Predictor is trained independently before being integrated into MedSAM. To validate the generalization capability of our method, we conduct extensive evaluations on four diverse datasets (FLARE22, BRISC, BUSI, LungSegDB) spanning distinct imaging modalities, including CT, MRI, and Ultrasound. Our method improves segmentation accuracy and robustness across varied anatomical structures and imaging domains, achieving Dice scores of 0.89 (BUSI), 0.93 (FLARE22), 0.88 (BRISC), and 0.98 (LungSegDB). Code is available at https://github.com/Amirhosseinmovahedi/MedSAM-BoxPredictor</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f9dff779020" data-article-url="https://arxiv.org/abs/2606.04708" data-article-title="VISTA: 視覚に基づいた、物理学に基づいて検証された UMI データの VLA トレーニングへの適応" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04708" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04708" target="_blank" rel="noopener">VISTA: 視覚に基づいた、物理学に基づいて検証された UMI データの VLA トレーニングへの適応</a></h3>
      <p class="summary">Universal Manipulation Interface (UMI) により、ハードウェア固有の遠隔操作を必要とせずにスケーラブルな現実世界のロボット データ収集が可能になりますが、UMI データを活用して大規模な Vision-Language-Action (VLA) モデルをトレーニングすることは依然として根本的に困難です。我々は 2 つの重大な不一致を特定しました。1 つは、深刻な放射状の歪みとローカルのグリッパー中心の視点を伴う手首に取り付けられた魚眼ビューであり、事前トレーニングされた VLM には配布されていません。また、人間が収集した軌道は、頻繁に運動学的制限に違反したり、衝突が発生したり、コントローラーの帯域幅を超えたりするため、VLA ポリシーに物理的に実行不可能なアクションが教示されます。この課題に対処するために、3 つの相乗効果のあるコンポーネントを通じてこの二重のギャップを埋めるフレームワークである VISTA を紹介します。 (i) ~UMI-VQA は、手首に装着した魚眼観察に合わせて調整された初の大規模 VQA データセットであり、補助的な視覚言語監視を通じて VLM 表現を歪んだ視覚領域に合わせます。 (ii)~体系的な物理検証パイプラインは、データ完全性の事前チェックを実行し、トレーニングに入る前に、軌道の連続性、自己衝突のリスク、および実行の忠実度について各有効な軌道にスコアを付けます。 (iii)~2 段階の共同トレーニング レシピは、UMI-VQA に基づいた視覚言語の基礎と、検証された軌道に基づいた行動予測を共同で学習します。私たちの実験では、UMI-VQA を組み込むと下流のポリシーのパフォーマンスが一貫して向上し、物理検証スコアが展開の成功を強力に予測できることが経験的に示されています。さまざまなシミュレーションや現実世界の操作タスクにおいて、VISTA は $\pi_{0.5}$、LingBot-VLA、Wall-X などの強力なベースラインを大幅に上回ります。物理検証パイプライン、UMI-VQA、検証された軌跡データ、および事前トレーニングされたモデルをコミュニティにリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training</p>
        <p class="orig-summary">Universal Manipulation Interface (UMI) enables scalable real-world robot data collection without hardware-specific teleoperation, yet leveraging UMI data to train large-scale Vision-Language-Action (VLA) models remains fundamentally challenging. We identify two critical mismatches: wrist-mounted fisheye views, with severe radial distortion and local gripper-centric perspectives, are out-of-distribution for pretrained VLMs; and human-collected trajectories frequently violate kinematic limits, incur collisions, or exceed controller bandwidth, teaching VLA policies physically infeasible actions. To address the challenges, we present VISTA, a framework that bridges this dual gap through three synergistic components. (i)~UMI-VQA, the first large-scale VQA dataset tailored to wrist-mounted fisheye observations, aligns VLM representations to the distorted visual regime via auxiliary vision-language supervision. (ii)~A systematic physical-validation pipeline performs a data-completeness pre-check and scores each valid trajectory for trajectory continuity, self-collision risk, and execution fidelity before it enters training. (iii)~A two-stage co-training recipe jointly learns vision-language grounding on UMI-VQA and action prediction on validated trajectories. Our experiments empirically show that incorporating UMI-VQA consistently improves downstream policy performance, and that physical-validation scores are strongly predictive of deployment success. On diverse simulation and real-world manipulation tasks, VISTA significantly outperforms strong baselines including $\pi_{0.5}$, LingBot-VLA, and Wall-X. We release the physical-validation pipeline, UMI-VQA, validated trajectory data, and the pre-trained model for the community.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="72fd54ca1281" data-article-url="https://arxiv.org/abs/2606.04718" data-article-title="CoRe-MoE: 歩行適応を備えた複数地形ヒューマノイド移動のための専門家の対照的な再重み付け混合" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04718" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04718" target="_blank" rel="noopener">CoRe-MoE: 歩行適応を備えた複数地形ヒューマノイド移動のための専門家の対照的な再重み付け混合</a></h3>
      <p class="summary">人間は主に、不必要に複雑な動作パターンに頼ることなく、複雑な地形を横断するために歩いたり走ったりすることに頼っています。同様に、人型ロボットは、自然で安定した移動を維持しながら、歩行と走行の間のスムーズな移行を達成する必要があります。ただし、単一のポリシー内で歩行遷移と複数の地形への適応を統合することは、勾配の干渉と、地形に依存する視覚的および動的変化によって引き起こされる分布のシフトのため、依然として困難です。専門家混合 (MoE) アーキテクチャは複数のスキルの干渉を軽減できますが、単純な共同トレーニングでは明確な専門知識が得られないことが多く、効果が制限されます。これらの課題に対処するために、私たちは地形適応から歩行生成を切り離す 2 段階の強化学習フレームワークである CoRe-MoE を提案します。第 1 段階では、スムーズな移行で自然な歩行と走行の動作を生成するための安定した移動ポリシーが学習されます。第 2 段階では、地形認識 MoE ブランチが導入され、ゲーティング ネットワークを形成するという対照的な目的でトレーニングされ、構造化された地形表現をキャプチャして専門家の専門化を促進できるようになります。最終的なアクションは、基本歩行ポリシーと地形認識ブランチの重み付けされた融合によって取得され、ポリシーが複雑な地形に適応しながら安定した移動パターンを維持できるようにします。広範なシミュレーション結果は、提案された方法が成功率、移動の安定性、および複数の地形への適応性の点でベースラインのアプローチよりも優れていることを示しています。さらに、Unitree G1 ヒューマノイド ロボットへのゼロショット展開により、当社のフレームワークの有効性が検証され、外乱下でも正確な足場の配置と動的安定性を維持しながら、階段、坂道、段差、障害物、屋外の構造化されていない地形での堅牢な歩行と走行が実現されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CoRe-MoE: Contrastive Reweighted Mixture of Experts for Multi-Terrain Humanoid Locomotion with Gait Adaptation</p>
        <p class="orig-summary">Humans primarily rely on walking and running to traverse complex terrains, without resorting to unnecessarily complex motion patterns. Similarly, humanoid robots should achieve smooth transitions between walking and running while maintaining natural and stable locomotion. However, unifying gait transition and multi-terrain adaptation within a single policy remains challenging due to gradient interference and the distribution shift induced by terrain-dependent visual and dynamic variations. Although Mixture-of-Experts (MoE) architectures can alleviate multi-skill interference, naive joint training often fails to yield clear expert specialization, limiting their effectiveness. To address these challenges, we propose CoRe-MoE, a two-stage reinforcement learning framework that decouples gait generation from terrain adaptation. In the first stage, a stable locomotion policy is learned to produce natural walking and running behaviors with smooth transitions. In the second stage, a terrain-aware MoE branch is introduced and trained with a contrastive objective to shape the gating network, enabling it to capture structured terrain representations and promote expert specialization. The final action is obtained via weighted fusion of the base gait policy and the terrain-aware branch, allowing the policy to preserve stable locomotion patterns while adapting to complex terrains. Extensive simulation results demonstrate that the proposed method outperforms baseline approaches in terms of success rate, locomotion stability, and multi-terrain adaptability. Furthermore, zero-shot deployment on a Unitree G1 humanoid robot validates the effectiveness of our framework, achieving robust walking and running across stairs, slopes, steps, obstacles, and unstructured outdoor terrains, while maintaining accurate foothold placement and dynamic stability under external disturbances.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9ad54108b804" data-article-url="https://arxiv.org/abs/2606.04735" data-article-title="トレース媒介ピーク バイアス: 深層強化学習における時間単位の割り当てと認知ヒューリスティックの橋渡し" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04735" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04735" target="_blank" rel="noopener">トレース媒介ピーク バイアス: 深層強化学習における時間単位の割り当てと認知ヒューリスティックの橋渡し</a></h3>
      <p class="summary">時間的クレジットの割り当ては、生物学的知能と人工知能の両方にとって中心的ですが、非線形関数近似との相互作用はほとんど理解されていません。私たちは、Trace-Mediated Peak Bias (TMPB) と呼ばれる深層強化学習 (RL) における系統的故障モードを特定します。中間の適格性トレースの深さでは、エージェントは、より高い累積リターンを持つ代替案よりも、高い規模の報酬「ピーク」を持つ軌道を非合理的に好みます。これは、経験が統合された有用性ではなく、最も強烈な瞬間によって判断される人間の記憶バイアスであるピークエンド ルールのメカニズムの説明を提供します。私たちは、トレースが遠位時間差誤差を固定ステップサイズの確率的勾配降下法では正規化できない「勾配ショック」に増幅し、全体的な過大評価につながるためにTMPBが出現することを示します。逆に、適応オプティマイザーは、瞬間的な正規化を通じてこの病状を軽減します。私たちの結果は、人間のような顕著性の歪みが分散システムにおけるクレジット割り当ての数学的制約から自然に現れる可能性があり、合理的な値推定には適応最適化が理論的に必要であることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Trace-Mediated Peak Bias: Bridging Temporal Credit Assignment and Cognitive Heuristics in Deep Reinforcement Learning</p>
        <p class="orig-summary">Temporal credit assignment is central to both biological and artificial intelligence, yet its interaction with non-linear function approximation is poorly understood. We identify a systematic failure mode in deep reinforcement learning (RL) termed Trace-Mediated Peak Bias (TMPB). At intermediate eligibility trace depths, agents irrationally prefer trajectories with high-magnitude reward ``peaks&#x27;&#x27; over alternatives with higher cumulative returns. This provides a mechanistic account of the Peak-End Rule: a human memory bias where experiences are judged by their most intense moments rather than integrated utility. We show that TMPB emerges because traces amplify distal Temporal Difference errors into ``gradient shocks&#x27;&#x27; that fixed-step-size Stochastic Gradient Descent cannot normalize, leading to global overestimation. Conversely, adaptive optimizers mitigate this pathology via second-moment normalization. Our results suggest that human-like saliency distortions may emerge naturally from the mathematical constraints of credit assignment in distributed systems, and that adaptive optimization is a theoretical necessity for rational value estimation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="141ac4410830" data-article-url="https://arxiv.org/abs/2606.04736" data-article-title="物理学に基づいたニューラル ネットワークのための曲率を考慮した動的精度アプローチ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04736" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04736" target="_blank" rel="noopener">物理学に基づいたニューラル ネットワークのための曲率を考慮した動的精度アプローチ</a></h3>
      <p class="summary">物理情報に基づいたニューラル ネットワーク (PINN) は、ニューラル ネットワークのトレーニングに物理法則を直接埋め込むことにより、偏微分方程式 (PDE) をシミュレーションするための有望なフレームワークとなっています。ただし、最近の研究では、PINN の最適化が数値精度に影響されることが示されています。既存の実装では、計算効率は高いが故障モードが発生しやすい単精度 (FP32) か、堅牢ではあるが非常に高価な倍精度 (FP64) が一般的に使用されています。これにより、計算効率と数値精度の間にトレードオフが生じます。予測精度を維持しながら倍精度トレーニングの計算コストを削減するために、固定実装の選択肢として扱うのではなく、トレーニング中に数値精度を適応させる曲率認識精度コントローラーを提案します。提案された方法は、メモリ制限のある BFGS (L-BFGS) オプティマイザーから得られた曲率情報を再利用して精度コントローラーを構築し、より低い精度で十分な場合は FP32 を保持し、トレーニング ダイナミクスが数値感度または精度制限された停滞を示している場合は、計算を FP64 に促進します。提案されたアプローチを、4 つの標準 PINN 故障モード ベンチマークと放射照度駆動の常微分方程式の例で評価します。提案されたアプローチをさまざまなニューラル ネットワーク アーキテクチャにわたってさらにテストします。このメソッドは、すべてのベンチマーク方程式で完全な倍精度トレーニングと比較してトレーニング時間を短縮しながら、FP64 の完全な解精度と一貫して一致するかわずかに上回っています。得られた結果は、PINN 最適化における精度の感度が位相に依存すること、および数値的に重要な段階でのみ高い精度を選択的に適用することで、予測精度を犠牲にすることなく計算コストを削減できることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Curvature-aware dynamic precision approach for physics-informed neural networks</p>
        <p class="orig-summary">Physics-informed neural networks (PINNs) have become a promising framework for simulating partial differential equations (PDEs) by embedding physical laws directly into neural network training. However, recent studies show that PINN optimisation is sensitive to numerical precision. Existing implementations commonly use either single precision (FP32), which is computationally efficient but prone to failure modes, or double precision (FP64), which is robust but substantially expensive. This creates a trade-off between computational efficiency and numerical accuracy. To reduce the computational cost of double-precision training while retaining prediction accuracy, we propose a curvature-aware precision controller that adapts numerical precision during training rather than treating it as a fixed implementation choice. The proposed method reuses curvature information derived from the limited-memory BFGS (L-BFGS) optimiser to construct a precision controller, retaining FP32 when lower precision is sufficient and promoting computation to FP64 when the training dynamics indicate numerical sensitivity or precision-limited stagnation. We evaluate the proposed approach on four canonical PINN failure-mode benchmarks and an irradiance-driven ordinary differential equation example. We further test the proposed approach across different neural network architectures. The method consistently matches or even slightly exceeds full FP64 solution accuracy while reducing training time relative to full double-precision training on all benchmark equations. The obtained results indicate that precision sensitivity in PINN optimisation is phase-dependent, and that selectively applying higher precision only during numerically critical stages can lower computational cost without sacrificing predictive accuracy.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d0407a411c82" data-article-url="https://arxiv.org/abs/2606.04739" data-article-title="Vul-RAG の再考: オープンウェイト モデルを使用した RAG ベースの脆弱性検出の再現性と再現性" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04739" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04739" target="_blank" rel="noopener">Vul-RAG の再考: オープンウェイト モデルを使用した RAG ベースの脆弱性検出の再現性と再現性</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、特に検索拡張世代 (RAG) 設定において、自動ソフトウェア脆弱性検出の強力な可能性を示しています。ただし、独自のモデルと API に依存するアプローチの場合、再現性と複製可能性はほとんど解明されていないため、報告された結果が一般化されるのか、それとも特定のモデルの選択に主に依存するのかという疑問が生じます。この研究では、高度な脆弱性知識で LLM を強化する、ソース コード脆弱性検出用の RAG ベースのフレームワークである Vul-RAG の再現性の研究を紹介します。まず、報告されたオープンウェイトベースラインモデルを使用して、完全にローカルでオープンウェイト設定で結果を再現します。次に、コードに特化した、汎用の、さまざまなパラメーター サイズの推論モデルを含む、最近のオープンウェイト LLM の多様なセットに評価を拡張します。この結果は、Vul-RAG の結果がローカル展開下で再現可能であることを裏付けていますが、多少の誤差はあります。評価されたすべてのモデルにわたって、ペアワイズ精度 (脆弱な関数とパッチ適用された関数の両方が正しく分類されたコード ペア) で約 0.30 のパフォーマンスのプラトーが観察されます。特に、このプラトーは、より最近の高度なモデルでも持続しており、モデルの容量の向上だけではパフォーマンスが大幅に向上しないことを示しています。最後に、検出の有効性、モデルの機能、モデルの規模の間の実際的な影響とトレードオフについて説明します。実装と評価のアーティファクトは、https://github.com/hs-esslingen-it-security/revisiting-Vul-RAG で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Revisiting Vul-RAG: Reproducibility and Replicability of RAG-based Vulnerability Detection with Open-Weight Models</p>
        <p class="orig-summary">Large language models (LLMs) have shown strong potential for automated software vulnerability detection, particularly in retrieval-augmented generation (RAG) settings. However, for approaches relying on proprietary models and APIs, reproducibility and replicability remain largely unexplored, raising the question of whether reported results generalize or depend primarily on specific model choices. In this work, we present a reproducibility study of Vul-RAG, a RAG-based framework for source code vulnerability detection that enhances LLMs with high-level vulnerability knowledge. We first replicate the results in a fully local and open-weights setting using the reported open-weight baseline models. We then extend the evaluation to a diverse set of recent open-weight LLMs, including code-specialized, general-purpose, and reasoning models of varying parameter sizes. The results confirm that the findings of Vul-RAG are reproducible under local deployment, but with minor deviations. Across all evaluated models, we observe a performance plateau at approximately 0.30 pairwise accuracy (code pairs for which both the vulnerable and the patched function are correctly classified). Notably, this plateau persists even for more recent and advanced models, indicating that improvements in model capacity alone do not substantially enhance performance. Finally, we discuss practical implications and trade-offs between detection effectiveness, model capabilities, and model scale. Implementation and evaluation artifacts are publicly available at https://github.com/hs-esslingen-it-security/revisiting-Vul-RAG.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a9820968dda" data-article-url="https://arxiv.org/abs/2606.04743" data-article-title="TIDE: テンプレートに基づく反復によるプロアクティブな複数の問題の発見" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04743" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04743" target="_blank" rel="noopener">TIDE: テンプレートに基づく反復によるプロアクティブな複数の問題の発見</a></h3>
      <p class="summary">エージェントは、ドキュメント、ツール、コードのアシスタントとして広く導入されています。ただし、これらは通常、明示的なユーザー要求にのみ作用し、ユーザーが気づいた問題のみを表面化します。一方、他の多くの重要な問題は、より広範なユーザー コンテキスト内で目に見えない形で共存しており、その総数は事前に不明です。私たちはこれを、文脈から複数の隠れた問題を発見するタスクとして組み立てます。その中で、共存する問題を明らかにし、裏付けとなる証拠に基づいて、具体的な行動と組み合わせる必要があります。この目的を達成するために、2 つの補完的なメカニズムを備えたテンプレート主導の反復フレームワークである TIDE を導入します。具体的には、シングルパス予測が最も顕著なケースに基づいて一般的な主張を生み出すという観察に動機づけられて、我々は反復発見を提案します。これは、すでに見つかったものに基づいて条件付けしながらラウンドごとに小さなバッチの候補を表面化し、後続のラウンドで対象範囲を拡大します。思考テンプレートは、以前に解決されたケースから抽出された再利用可能なスキーマであり、どのコンテキスト シグナルに注目し、それらをどのように接続するかを指定し、各予測を認識可能な問題クラスに固定します。 4 つのモデル バックボーンにわたって、パーソナル ワークスペースとソフトウェア リポジトリという 2 つの現実的な設定で TIDE を検証し、タスク カバレッジ、識別、解決に関して、シングルショットおよび並列マルチエージェント ベースラインを超える大幅な向上を示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TIDE: Proactive Multi-Problem Discovery via Template-Guided Iteration</p>
        <p class="orig-summary">Agents are widely deployed as assistants over documents, tools, and code. However, they typically act only on explicit user requests, which surface only the problems the user has noticed, while many other important problems coexist, hidden in plain sight, within the broader user context, with their total number unknown in advance. We frame this as the task of discovering multiple hidden problems from context, in which coexisting problems should be uncovered, grounded in supporting evidence, and paired with concrete actions. To this end, we introduce TIDE, a template-guided iterative framework with two complementary mechanisms. Specifically, motivated by the observation that single-pass prediction anchors on the most salient cases and yields generic claims, we propose iterative discovery, which surfaces a small batch of candidates per round while conditioning on what has already been found, so subsequent rounds extend coverage; and thought templates, reusable schemas distilled from previously solved cases that specify what contextual signals to attend to and how to connect them, anchoring each prediction in a recognizable problem class. We validate TIDE on two realistic settings, personal workspaces and software repositories, across four model backbones, showing substantial gains over single-shot and parallel multi-agent baselines on task coverage, identification, and resolution.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e4cfc66ea53c" data-article-url="https://arxiv.org/abs/2606.04752" data-article-title="マルチチャンネル信号トランスの入力エンコーダの実証的監査" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04752" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04752" target="_blank" rel="noopener">マルチチャンネル信号トランスの入力エンコーダの実証的監査</a></h3>
      <p class="summary">マルチチャネル スカラー信号を消費する変換器は、タイム ステップごとに $C$ 同時値を 1 つの $d_{\text{model}}$ 次元ベクトルに埋め込む必要があります。共有スカラー ベースライン、チャネルごとの線形射影、直交性正則化、非線形 MLP ステム、ブロック分割連結、チャネル独立およびトークンとしてのチャネル アーキテクチャ、投影位置エンコーディングに及ぶ 8 つの入力エンコーダを、チャネル ID を有益にするように設計された合成ベンチマークと、次のステップの負の対数尤度で測定される実データ チェックとしての ETTh1 で実証的に監査します。 (NLL)。見出しは、幅広い「最上位層」内で実質的にほぼ同等であることの 1 つです。標準のチャネルごとの線形射影 (nn.Linear(C, $d_{\text{model}}$)) は、統計的に現実的だが実質的には控えめな小さな差異まで、その層のすべての選択肢と一致します。 2 つのエンコーダが決定的に負けます。1 つは共有スカラー ベースラインであり、これは私たちが明らかにする情報理論上の理由で破綻します。もう 1 つはチャネルに依存しない PatchTST スピリット ベースラインで、両方のベンチマークでパフォーマンスを下回り、合成ベンチマークでは普遍的にオーバーフィットします。ペアテストは 2 つの小さなギャップを解決します。学習された線形層を通じて正弦波位置エンコードを投影すると、残りの部分が小さな $C$ でエッジ付けされ、直接幾何学的プローブによって位置チャネル直交化のメカニズムが示されます。非線形 MLP ステムは、テストした最大 $C$ でそれらに隣接し、より多くのトレーニング データの下でギャップは縮小します。実際的な推奨事項は、デフォルトで nn.Linear(C, $d_{\text{model}}$) を使用し、目の前のタスクに実際の理由がある場合にのみ、より複雑なものに手を伸ばすことです。この論文のすべての実験を再現するためのコードとデータは、https://github.com/OssiLehtinen/channel-encoder-audit で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">An Empirical Audit of Input Encoders for Multi-Channel Signal Transformers</p>
        <p class="orig-summary">Transformers consuming multi-channel scalar signals must embed $C$ simultaneous values into one $d_{\text{model}}$-dimensional vector per time step. We empirically audit eight input encoders -- spanning a shared-scalar baseline, per-channel linear projections, an orthogonality regulariser, a nonlinear MLP stem, block-partitioned concatenation, channel-independent and channel-as-token architectures, and a projected positional encoding -- on a synthetic benchmark designed to make channel identity informative and on ETTh1 as a real-data check, measured in next-step negative log-likelihood (NLL). The headline is one of practical near-equivalence within a wide &quot;top tier&quot;: the standard per-channel linear projection (nn.Linear(C, $d_{\text{model}}$)) matches every alternative in that tier up to small, statistically real but practically modest, differences. Two encoders lose decisively: the shared-scalar baseline, which collapses for information-theoretic reasons we make explicit, and the channel-independent PatchTST-spirit baseline, which underperforms on both benchmarks and overfits universally on the synthetic one. Paired tests resolve two small gaps: projecting the sinusoidal positional encoding through a learned linear layer edges the rest at small $C$, with a direct geometric probe showing the mechanism is positional-channel orthogonalisation; a nonlinear MLP stem edges them at the largest $C$ we test, with the gap shrinking under more training data. The practical recommendation is to use nn.Linear(C, $d_{\text{model}}$) by default and reach for something more elaborate only when the task at hand gives a real reason to do so. Code and data to reproduce every experiment in this paper are available at https://github.com/OssiLehtinen/channel-encoder-audit</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="13c5bd573e3f" data-article-url="https://arxiv.org/abs/2606.04755" data-article-title="Archi: CMS 実験におけるエージェント操作" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04755" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04755" target="_blank" rel="noopener">Archi: CMS 実験におけるエージェント操作</a></h3>
      <p class="summary">私たちは、異種データ ソースの体系的な取り込みと編成と、データ ソースを取得して推論する構成可能でプライベートで拡張可能なエージェントの展開を組み合わせた、科学コラボレーションのためのオープンソースのエンドツーエンド フレームワークである Archi を紹介します。 Archi のインスタンスは、技術オペレーターのサポート エージェントとして 2026 年 2 月から CERN の LHC での CMS 実験のコンピューティング運用チームに導入されており、文書、履歴データ、ライブ監視システムを組み合わせて検索および分析機能を提供しています。私たちはオペレーターのフィードバックと、実稼働環境での使用状況から収集された質問セットに基づいてシステムを評価し、人間のパネルと自動パネルによって採点します。このシステムは、CMS オペレーターが提起する実際のクエリを解決する運用タスクで効果的であることが証明されています。また、ローカルでホストされているオープンウェイト モデルが競争力を持って実行され、機密データの完全なプライベート管理が可能になることも観察されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Archi: Agentic Operations at the CMS Experiment</p>
        <p class="orig-summary">We present Archi, an open-source, end-to-end framework for scientific collaborations that combines the systematic ingestion and organization of heterogeneous data sources with the deployment of configurable, private, and extensible agents that retrieve and reason over them. An instance of Archi has been deployed for the Computing Operations team of the CMS experiment at CERN&#x27;s LHC since February 2026 as a support agent for technical operators, offering retrieval and analysis capabilities by combining documentation, historical data, and live monitoring systems. We evaluate the system on operator feedback and a question set collected from production usage, graded by human and automated panels. The system proves effective at operational tasks, resolving real-world queries posed by CMS operators. We also observe that locally-hosted, open-weight models perform competitively, enabling fully private management of sensitive data.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dce176a6b2ed" data-article-url="https://arxiv.org/abs/2606.04769" data-article-title="現実世界の MCP サーバーにおける記述コードの不一致: 測定、検出、およびセキュリティへの影響" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04769" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04769" target="_blank" rel="noopener">現実世界の MCP サーバーにおける記述コードの不一致: 測定、検出、およびセキュリティへの影響</a></h3>
      <p class="summary">モデル コンテキスト プロトコル (MCP) は、大規模言語モデル (LLM) が外部ツールを利用できるようにする重要な標準として登場しました。このエコシステムでは、LLM は MCP サーバーによって提供される自然言語記述に依存して、関数を選択して実行します。この相互作用は、ツールの説明がその基礎となる実装を忠実に反映していることを暗黙的に前提としていますが、この前提は実際には強制的に検証されるわけではありません。その結果、MCP の導入では、ツールの機能とセキュリティ境界に関する記述がコードの実際の動作と一致しない、記述コードの不一致 (DCI) という問題が発生する可能性があります。このペーパーでは、実際の MCP サーバーにおける DCI の包括的な研究を紹介します。私たちは問題を正式に定義し、機能の不一致や未発表の副作用に及ぶ包括的な分類法を提案します。この分類法に基づいて、私たちは、構造を認識した静的解析とダイレクト リバース アービトレーション プロンプト手法を組み合わせて、実際のコード実装に対してツールの説明を相互検証する自動化フレームワークである DCIChecker を開発しました。このフレームワークを、2,214 台の実世界の MCP サーバーから抽出された 19,200 個の記述コードのペアで構成される大規模なデータセットに適用します。私たちの測定では、DCI が広く普及しており、これらのペアの 9.93% が矛盾を示していることが明らかになりました。さらに、DCI が重大な防御の盲点を生み出し、運用上の失敗からこっそりと悪意のある動作に至るまで、さまざまなリスクを助長することを実証します。最後に、セマンティックな一貫性を強化し、新興エージェント エコシステムの信頼性を高めるための緩和戦略を提案します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Description-Code Inconsistency in Real-world MCP Servers: Measurement, Detection, and Security Implications</p>
        <p class="orig-summary">The Model Context Protocol (MCP) has emerged as a critical standard empowering Large Language Models (LLMs) to utilize external tools. In this ecosystem, LLMs rely on natural language descriptions provided by MCP servers to select and execute functions. This interaction implicitly assumes that tool descriptions faithfully reflect their underlying implementations, while this assumption is not mandatorily verified in practice. As a result, MCP deployments may suffer from a problem named Description-Code Inconsistency (DCI), where a tool&#x27;s description of its capabilities and security boundaries is not consistent with what the code actually does. In this paper, we present a comprehensive study of DCI in real-world MCP servers. We formally define the problem and propose a comprehensive taxonomy spanning functionality inconsistencies and undeclared side effects. Guided by this taxonomy, we develop DCIChecker, an automated framework that combines structure-aware static analysis with the Direct-Reverse-Arbitration prompting method to cross-validate tool descriptions against actual code implementations. We apply this framework to a large-scale dataset comprising 19,200 description-code pairs extracted from 2,214 real-world MCP servers. Our measurement reveals that DCI is widespread, with 9.93% of these pairs exhibiting inconsistencies. We further demonstrate that DCI creates a critical defense blind spot, facilitating varied risks from operational failures to stealthy malicious behaviors. Finally, we propose mitigation strategies to enforce semantic consistency and enhance the reliability of the emerging agentic ecosystem.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0295f812911d" data-article-url="https://arxiv.org/abs/2606.04772" data-article-title="脳再構築のためのシーケンシャル Mamba を使用した粗いから細かいまでの階層アーキテクチャ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04772" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04772" target="_blank" rel="noopener">脳再構築のためのシーケンシャル Mamba を使用した粗いから細かいまでの階層アーキテクチャ</a></h3>
      <p class="summary">深い視覚表現と人間の視覚システムとの関係を理解することは、計算論的神経科学における基本的な課題です。最新の視覚モデルは画像認識において優れた性能を達成していますが、人間の視覚野の階層構造との対応は未解決の問題のままです。この研究では、画像から fMRI へのエンコードのための新しい階層型 2 段階フレームワークである CHASMBrain を提案します。私たちのアーキテクチャは、デュアルストリーム Mamba 設計を活用して、視覚野の機能的組織化を動機として、グローバル セマンティック トークンとローカル空間パッチを明示的に分離して処理します。粗いものから細かいものへの戦略が採用されています。ステージ 1 では、ノイズ除去された ROI レベルのアクティベーションを予測します。一方、ステージ 2 では、Mamba-VAE を使用して、これらの粗い応答を完全なボクセル レベルの予測に洗練します。 Natural Scenes Dataset (NSD) の実験では、私たちの方法が 0.429 のピアソン相関と 0.261 の MSE を達成し、リッジ回帰や DINOv2 線形プローブを含むすべての評価されたベースラインを上回る性能を示していることが実証されています。予測性能を超えて、因果ブランチアブレーション実験は非対称の特殊化を明らかにします。パッチ ストリームは初期視覚野 (網膜部位) に特にロックされているのに対し、CLS ストリームは高次の領域に広範な意味論的コンテキストを提供します。この対応関係は、単に相関関係だけでなく因果的に成立します。さらに、被験者間の転移実験では、学習したバックボーンが被験者ごとの適応を最小限に抑えながら個人全体に一般化することが示されており、このモデルが共有された被験者に依存しない視覚表現を捉えていることが示唆されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Coarse-to-fine Hierarchical Architecture with Sequential Mamba for Brain Reconstruction</p>
        <p class="orig-summary">Understanding the relationship between deep visual representations and the human visual system is a fundamental challenge in computational neuroscience. While modern vision models achieve strong performance in image recognition, their correspondence with the hierarchical organization of the human visual cortex remains an open question. In this study, we propose CHASMBrain, a novel hierarchical two-stage framework for image-to-fMRI encoding. Our architecture leverages a dual-stream Mamba design to explicitly separate and process global semantic tokens and local spatial patches, motivated by the functional organization of the visual cortex. A coarse-to-fine strategy is employed: Stage 1 predicts denoised ROI-level activations, while Stage 2 refines these coarse responses into full voxel-level predictions using a Mamba-VAE. Experiments on the Natural Scenes Dataset (NSD) demonstrate that our method achieves a Pearson correlation of 0.429 and an MSE of 0.261, outperforming all evaluated baselines including ridge regression and DINOv2 linear probes. Beyond predictive performance, causal branch-ablation experiments reveal an asymmetric specialization: the patch stream is specifically locked to early visual cortex (retinotopic regions), while the CLS stream contributes broader semantic context to higher-order areas -- a correspondence that holds causally, not merely correlationally. Cross-subject transfer experiments further show that the learned backbone generalizes across individuals with minimal per-subject adaptation, suggesting the model captures a shared, subject-agnostic visual representation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0e61a74bb903" data-article-url="https://arxiv.org/abs/2606.04775" data-article-title="低減次数線形最適制御によるビデオ生成モデルのアクティベーションステアリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04775" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04775" target="_blank" rel="noopener">低減次数線形最適制御によるビデオ生成モデルのアクティベーションステアリング</a></h3>
      <p class="summary">大規模な Web データでトレーニングされた Text-to-Video (T2V) モデルは、望ましくないコンテンツを生成する可能性があり、視覚的な品質を犠牲にすることなく有害な出力を削減する介入を促す可能性があります。アクティベーション ステアリングは、微調整や即時フィルタリングに代わる魅力的な機構的代替手段を提供しますが、既存の T2V ステアリング方法は依然として限定的であり、通常はオーバーステアリングやコンテンツの劣化につながる可能性のある粗い非予測的な介入を適用します。このギャップを埋めるために、低侵襲 T2V ステアリングのための次数を減らした最適制御フレームワークである潜在活性化線形二次レギュレーター (LA-LQR) を提案します。 LA-LQR は、T2V 推論を動的システムとして定式化し、不必要な摂動をペナルティしながら、望ましい機能設定値に向けてアクティベーションを誘導する閉ループ フィードバック介入を計算します。高次元のビデオアクティベーションに対して最適な制御を実現可能にするために、対照的なプロンプトのペアから導出された低次元のタスク関連部分空間にアクティベーションを投影し、この潜在空間内の局所線形ダイナミクスを推定し、潜在 LQR 問題を解いてタイムステップおよびレイヤー固有のステアリング信号を取得します。潜在設定値追跡を生の活性化空間特徴制御に関連付ける理論的限界を提供し、低減された潜在ダイナミクスの忠実性を経験的に検証します。コンセプト ステアリングとビデオの安全性ベンチマークでは、LA-LQR は、プロンプトの忠実性と視覚的な品質を維持しながら、ベースラインと比較して安全でない世代を削減します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Activation Steering of Video Generation Models via Reduced-Order Linear Optimal Control</p>
        <p class="orig-summary">Text-to-video (T2V) models trained on large-scale web data can generate undesired content, motivating interventions that reduce harmful outputs without sacrificing visual quality. Activation steering offers an attractive mechanistic alternative to finetuning and prompt filtering, but existing T2V steering methods remain limited, typically applying coarse, non-anticipative interventions that can lead to oversteering and content degradation. To close this gap, we propose Latent Activation Linear-Quadratic Regulator (LA-LQR), a reduced-order optimal control framework for minimally invasive T2V steering. LA-LQR formulates T2V inference as a dynamical system and computes closed-loop feedback interventions that steer activations toward desired feature setpoints while penalizing unnecessary perturbations. To make optimal control feasible for high-dimensional video activations, we project activations onto a low-dimensional, task-relevant subspace derived from contrastive prompt pairs, estimate local linear dynamics in this latent space, and solve a latent LQR problem to obtain timestep- and layer-specific steering signals. We provide theoretical bounds relating latent setpoint tracking to raw activation-space feature control, and empirically validate the fidelity of the reduced latent dynamics. On concept steering and video safety benchmarks, LA-LQR reduces unsafe generations relative to baselines, while preserving prompt fidelity and visual quality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="db973afe2d6b" data-article-url="https://arxiv.org/abs/2606.04806" data-article-title="NoRA: 視覚的な一人称の規範的行動推論における根拠のある合理性の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04806" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04806" target="_blank" rel="noopener">NoRA: 視覚的な一人称の規範的行動推論における根拠のある合理性の評価</a></h3>
      <p class="summary">LLM とエージェント システムは社会環境にますます導入されており、安全で適切な行動には規範的能力が重要になっています。しかし、既存のアプローチは、規範的判断をテキストのみで評価するか、固定された一連の候補アクションの中から選択することに還元します。私たちはどちらも不十分だと主張します。実際には、エージェントにオプションのメニューが渡されることはありません。彼らは、目に見える事実に基づいて、検証可能な理由によって裏付けられた、合理的な行動をゼロから特定しなければなりません。 NoRA は視覚的な一人称ビデオ ベンチマークであり、モデルが次のアクションの候補を生成し、明示的な事実-理由-アクションのサポート グラフを通じてそれぞれを正当化する必要があります。このベンチマークは、HumanGold-190 および LLMSilver-1230 の分割を含む 1,420 個の注釈付きビデオ クリップで構成されています。各インスタンスは、アクションの調整、事実の根拠、およびサポートのバインディングを通じて評価され、単一の根拠のある合理性スコアに集約されます。私たちは、直接的、計画的、構造化されたプロンプト体制の下で 12 のマルチモーダル システムのベンチマークを行ったところ、現在の VLM はもっともらしいアクションと関連するシーンの事実を頻繁に回収しますが、完全な合理的なアクション スペースを構築し、選択されたアクションを正しいローカル サポートに結び付けるのに一貫して苦労していることがわかりました。 NoRA はこのギャップを測定可能にし、評価の問題を、モデルがアクションを選択できるかどうかから、適切な目に見える理由に基づいて適切なアクションを正当化できるかどうかに移します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">NoRA: Evaluating Grounded Reasonableness in Visual First-person Normative Action Reasoning</p>
        <p class="orig-summary">LLMs and agentic systems are increasingly deployed in social environments, making normative competence critical for safe and appropriate behavior. However, existing approaches either assess normative judgment in text alone or reduce it to choosing among a fixed set of candidate actions. We argue both are insufficient. In practice, agents are never handed a menu of options; they must identify a reasonable action from scratch, grounded in visible facts and supported by inspectable reasons. We introduce NoRA, a visual first-person video benchmark that requires models to generate candidate next actions and justify each through an explicit fact-reason-action support graph. The benchmark comprises 1,420 annotated video clips, including HumanGold-190 and LLMSilver-1230 splits. Each instance is evaluated through action alignment, factual grounding, and support binding, aggregated into a single grounded reasonableness score. We benchmark 12 multimodal systems under direct, deliberate, and structured prompting regimes, finding that current VLMs frequently recover plausible actions and relevant scene facts, but consistently struggle to construct the full reasonable action space and bind selected actions to the correct local support. NoRA makes this gap measurable, shifting the evaluation question from whether a model can pick an action to whether it can justify an appropriate action for the right visible reasons.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f82b56c4090e" data-article-url="https://arxiv.org/abs/2606.04812" data-article-title="おそらくほぼ安全な保証を備えたリスク認識型強化学習のシナリオ生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04812" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04812" target="_blank" rel="noopener">おそらくほぼ安全な保証を備えたリスク認識型強化学習のシナリオ生成</a></h3>
      <p class="summary">特にディープ RL を使用して学習されたポリシーは、未知の動作や安全ではない動作を引き起こす遷移の摂動の影響を受けやすいことが示される可能性があるため、安全性の保証は、現実世界への強化学習 (RL) エージェントの展開にとって重要です。ポリシー検証の方法は、安全制約に関するポリシーの軌跡をサンプリングすることによって確率的バリア証明書を構築し、それによって既知の安全な動作と未知の動作を区別することです。ポリシーが、エージェントを十分に探索されていない状態に置く遷移の不確実性または摂動の影響を受けやすい場合、これらの制約に違反する確率について厳密な上限と下限を取得することは困難になる可能性があります。これに対処するために、変分オートエンコーダー (VAE) を使用して遭遇した状態空間の分布を近似し、状態の潜在的な特性を使用して上限と下限のバリア証明書を構築し、既知の安全な動作の領域を高い信頼性で最適化します。私たちはこれを二重最適化問題として枠組み付けし、下限のバリア証明書が上限のバリア証明書よりも安全な領域のより保守的な推定を提示します。トレーニング中に 2 つの設定差内にある状態 (つまり、非ロバスト領域) をサンプリングすることにより、上限と下限を厳しくして、安全性についてより明確な確率的保証を提供することができます。私たちの研究では、設定された保証について説明し、実験的に境界の厳しさを実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Scenario Generation for Risk-Aware Reinforcement Learning with Probably Approximately Safe Guarantees</p>
        <p class="orig-summary">Guaranteeing safety is critical to the deployment of reinforcement learning (RL) agents in the real-world, especially as policies learned using deep RL may demonstrate susceptibility to transition perturbations that result in unknown or unsafe behaviour. A method of policy verification is to construct probabilistic barrier-certificates by sampling policy trajectories with respect to safety constraints, thereby demarcating known safe behaviour from unknown behaviour. Obtaining tight upper and lower bounds on the probability of violation of these constraints may be difficult if the policy is susceptible to transition uncertainty or perturbation that places the agent in insufficiently explored states. To address this, we approximate the distribution of the encountered state-space using a variational autoencoder (VAE) and construct upper and lower-bound barrier-certificates using latent characteristics of states to optimize for regions of known, safe behaviour with high confidence. We frame this in our work as a dual optimization problem where the lower-bound barrier-certificate presents a more conservative estimate of the safe region than the upper-bound barrier-certificate. Sampling states that lie within the set difference of the two during training, i.e. the non-robust region, allows us to tighten the upper and lower bounds to provide sharper probabilistic guarantees on safety. Within our study, we describe the guarantees placed and demonstrate the tightness of our bounds experimentally.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="86dca185ac4a" data-article-url="https://arxiv.org/abs/2606.04815" data-article-title="行動しながら学習: オンライン生涯学習エージェント向けのスキル強化されたテスト時間共進化フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04815" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04815" target="_blank" rel="noopener">行動しながら学習: オンライン生涯学習エージェント向けのスキル強化されたテスト時間共進化フレームワーク</a></h3>
      <p class="summary">生涯学習は、動的で対話型の環境で動作する大規模言語モデル (LLM) エージェントにとって不可欠です。しかし、長期的なタスクのための既存の生涯学習エージェントは通常、推論中の静的パラメータによる離散的なスキルや過去の経験の取得に依存しているため、人間の学習者のようにテスト時のフィードバックを継続的に内面化することができません。このギャップを埋めるために、オンライン生涯学習エージェントのための 2 段階の強化学習フレームワークであるスキル強化テスト時間共進化 (\texttt{LifeSkill}) を提案します。具体的には、複数のスキル条件付きポリシーのロールアウトの平均的な検証者の成功に応じて候補者のスキルに報酬を与えることで、スキル抽出のための直接監督の欠如に対処する検証者ガイド付きスキル学習を設計し、単にテキスト上でもっともらしいスキルではなく、タスクの解決に役立つスキルを生成するようにモデルを奨励します。さらに、オンライン スキル内部化を導入します。これは、スキル条件付きの軌道を報酬シグナルに変換することで、テスト時のインタラクション中にポリシー モデルを継続的に改善します。これにより、エージェントは推論機能をパラメータに直接内部化でき、エクスペリエンス取得によるコンテキストの肥大化を回避できます。 LifelongAgentBench の実験では、既存の生涯エージェントのベースラインと比較して、LifeSkill が平均パフォーマンスを 7 絶対ポイント向上させることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Learning While Acting: A Skill-Enhanced Test-Time Co-Evolution Framework for Online Lifelong Learning Agents</p>
        <p class="orig-summary">Lifelong learning is essential for Large Language Model (LLM) agents operating in dynamic, interactive environments. However, existing lifelong learning agents for long-horizon tasks typically depend on discrete skill or past experiences retrieval with static parameters during inference, which prevents them from continuously internalizing test-time feedback like human learners. To bridge this gap, we propose Skill-enhanced Test-Time Co-Evolution (\texttt{LifeSkill}), a two-stage reinforcement learning framework for Online Lifelong Learning Agents. Specifically, we design Verifier-Guided Skill Learning that addresses the lack of direct supervision for skill extraction by rewarding candidate skills according to the average verifier success of multiple skill-conditioned policy rollouts, encouraging the model to generate skills that are useful for solving tasks rather than merely plausible in text. Furthermore, we introduce Online Skill Internalization, which continuously improves the policy model during test-time interaction by transforming skill-conditioned trajectories into reward signals. This enables the agent to directly internalize reasoning capabilities into its parameters, avoiding the context bloat of experience retrieval. Experiments on LifelongAgentBench show that LifeSkill improves average performance by 7 absolute points by comparing with existing lifelong agent baselines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="300b6f703ca6" data-article-url="https://arxiv.org/abs/2606.04820" data-article-title="OA-CutMix：CutMixのラベルバイアスを補正する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04820" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04820" target="_blank" rel="noopener">OA-CutMix：CutMixのラベルバイアスを補正する</a></h3>
      <p class="summary">CutMix はデファクトスタンダードのミキシングオーグメンテーションとなっていますが、そのラベル割り当ては誤った仮定に基づいています。つまり、貼り付けられたパッチの領域は、ミキシングイメージに対するセマンティックな寄与を忠実に反映しています。ただし、実際には、パッチは背景領域に配置されることが多く、オブジェクトが表示されないクラスにラベルのクレジットが割り当てられます。 CutMix ラベルとセマンティック オブジェクト領域の平均不一致は $21.5\%$ です。サンプルの $17\%$ では、画像は可視オブジェクト ピクセルに寄与しませんが、ゼロ以外のラベル重みを受け取ります。我々は、エリアベースの CutMix の重みを、事前に計算されたセグメンテーション マスクから導出された重みで置き換え、各画像がミックスに寄与する可視オブジェクトの領域に比例してラベルを割り当てることで、このバイアスを修正する Object-Aware CutMix (OA-CutMix) を提案します。画像混合手順はまったく変更されていません。 4 つのアーキテクチャと 6 つのデータセットにわたる 10 以上の静的および動的ミキシング手法に対して OA-CutMix を評価します。 OA-CutMix は、すべてのタスクにわたって一貫して最高の精度を達成し、動的ミキシング手法をも上回るパフォーマンスを発揮しますが、トレーニング時間のコストはほんの数分の 1 です。小さなオブジェクトの改善が最も大きく、CutMix によるラベルのバイアスが最も大きくなります。したがって、ラベルを修正するだけで、画像混合アルゴリズムを変更する方法のパフォーマンスと同等またはそれを超えるのに十分です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">OA-CutMix: Correcting the Label Bias of CutMix</p>
        <p class="orig-summary">CutMix has become the de facto standard mixing augmentation, yet its label assignment rests on a flawed assumption: The area of the pasted patch faithfully reflects its semantic contribution to the mixed image. In practice, however, patches frequently land on background regions, assigning label credit to classes whose objects are not visible. The mean discrepancy of the CutMix label and the semantic object area is $21.5\%$. In $17\%$ of samples an image contributes zero visible object pixels yet receives nonzero label weight. We propose Object-Aware CutMix (OA-CutMix), which corrects this bias by replacing the area-based CutMix weight with one derived from precomputed segmentation masks, assigning labels in proportion to the visible object area each image contributes to the mix. The image mixing procedure is left entirely unchanged. We evaluate OA-CutMix against 10+ static and dynamic mixing methods across 4 architectures and 6 datasets. OA-CutMix consistently achieves the highest accuracy over all tasks, outperforming even dynamic mixing methods, but at a fraction of the training-time cost. Improvements are largest for small objects, where the label bias from CutMix is greatest. Thus, correcting the label is sufficient to match or exceed the performance of methods modifying the image mixing algorithm.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0fc29b5e081d" data-article-url="https://arxiv.org/abs/2606.04833" data-article-title="署名付きデュアル アテンション: 時系列予測での署名付き依存関係のキャプチャ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04833" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04833" target="_blank" rel="noopener">署名付きデュアル アテンション: 時系列予測での署名付き依存関係のキャプチャ</a></h3>
      <p class="summary">当初は自然言語処理用に開発された Transformer アーキテクチャとアテンション メカニズムは、現在では時系列予測のアプリケーションを含む幅広い深層学習モデルの中心となっています。ただし、標準的な注意メカニズムは同性愛的相互作用を暗黙的に想定しているため、時系列などの正と負の依存関係を持つデータをモデル化する機能が制限されます。この研究では、パラメータを追加せずに正と負の両方の関係パターンを捕捉する新しい注意定式化である、署名付きデュアル アテンションを導入します。相関構造にヒントを得たデュアル メッセージ パッシング スキームを活用することで、Signed Dual Attend は単一の共有ブロック内で支持情報と対照情報の両方を伝播し、追加のパラメーターなしで 2 頭のアテンションの表現力を効果的に実現します。このモジュールは既存のアーキテクチャにシームレスに統合でき、署名付きリレーショナル モデリングを必要とする特定の状況でパフォーマンスを向上させることができます。このアプローチにより、より表現力豊かでパラメーター効率の高いトランスフォーマーへの道が開かれます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Signed Dual Attention: Capturing Signed Dependencies in Time Series Forecasting</p>
        <p class="orig-summary">Initially developed for natural language processing, Transformer architectures and attention mechanisms are now central to a wide range of deep learning models, including applications in time series forecasting. A standard attention mechanism, however, implicitly assumes homophilic interactions, limiting its ability to model data with positive and negative dependencies, such as time series. In this work, we introduce the Signed Dual Attention, a novel attention formulation that captures both positive and negative relational patterns without additional parameters. By leveraging a dual message-passing scheme inspired by correlation structures, Signed Dual Attention propagates both supportive and contrastive information within a single shared block, effectively achieving the expressiveness of two head attention without additional parameters. This module can be seamlessly integrated into existing architectures and can yield performance gains in certain situations, requiring signed relational modeling. This approach opens a pathway toward more expressive and parameter-efficient transformers.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c39d8c94260a" data-article-url="https://arxiv.org/abs/2606.04850" data-article-title="不確実性を考慮したニューラル ネットワーク プロセッサのエンドツーエンドの共同設計: トレーニングとマッピングから製造まで" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04850" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04850" target="_blank" rel="noopener">不確実性を考慮したニューラル ネットワーク プロセッサのエンドツーエンドの共同設計: トレーニングとマッピングから製造まで</a></h3>
      <p class="summary">ニューラル ネットワーク プロセッサの設計は、エンドツーエンドの共同設計の問題です。ネットワーク アーキテクチャとトレーニングの予算によって、推論のワークロードが決まります。ハードウェア マッピングの決定により、チップ面積、レイテンシ、エネルギーが決まります。そしてこれらの特性が製造歩留まりと製造コストを決定します。実際には、これらの決定は個別の段階で行われ、既存の共同設計方法論は特定のアルゴリズムと密接に結合しているため、パイプライン全体を作り直さずに 1 つのコンポーネントを改善するのは困難です。この論文では、モノトーン共同設計理論に基づいた、ネットワーク トレーニング、チップ マッピング、ウェーハ レベルの製造、およびコンピューティング リソース割り当てにわたる 4 つの相互運用可能な設計ブロックで構成される統一フレームワークを紹介します。各ブロックは、機能とリソースのインターフェイスのみをシステムの残りの部分に公開するため、他の部分の構造を変更することなく、どのブロックも改良できます。中心的な貢献は不確実性の処理です。このフレームワークでは、確率的な結果を点推定値にまとめるのではなく、コスト、時間、電力と並んで明示的で最適化可能なリソースとして、成功確率の逆数である信頼度を導入しています。 3 つのケーススタディでアプローチを検証します。 1 つ目は、異種アプリケーション シナリオ全体でパレート最適実装を回復します。 2 つ目は、Confidence が事後診断ではなく、継続的に調整可能な設計ノブとして機能することを確認します。 3 番目は、単一ブロックの実装セットを改善すると、共同設計図を変更することなく、自動的にグローバル パレート フロントに伝播することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Uncertainty-Aware End-to-End Co-Design of Neural Network Processors: From Training and Mapping to Fabrication</p>
        <p class="orig-summary">Designing a neural network processor is an end-to-end co-design problem: network architecture and training budget determine the inference workload; hardware mapping decisions determine chip area, latency, and energy; and these characteristics govern fabrication yield and manufacturing cost. In practice, these decisions are made in separate stages, and existing co-design methodologies are tightly coupled to specific algorithms, making it difficult to improve one component without reworking the entire pipeline. This paper presents a unified framework, grounded in monotone co-design theory, that composes four interoperable design blocks spanning network training, chip mapping, wafer-level fabrication, and compute resource allocation. Each block exposes only a functionality-resource interface to the rest of the system, so any block can be refined without structural changes elsewhere. A central contribution is the treatment of uncertainty: rather than collapsing stochastic outcomes into point estimates, the framework introduces Confidence, the inverse of success probability, as an explicit and optimizable resource alongside cost, time, and power. Three case studies validate the approach. The first recovers Pareto-optimal implementations across heterogeneous application scenarios. The second confirms that Confidence functions as a continuously tunable design knob rather than a post-hoc diagnostic. The third demonstrates that improving a single block&#x27;s implementation set automatically propagates to the global Pareto front, without modifying the co-design diagram.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="806235e5470c" data-article-url="https://arxiv.org/abs/2606.04860" data-article-title="組み合わせ検索のための経験的に許容可能なニューラルヒューリスティックの学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04860" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04860" target="_blank" rel="noopener">組み合わせ検索のための経験的に許容可能なニューラルヒューリスティックの学習</a></h3>
      <p class="summary">ルービック キューブ、スライディング タイル パズル、ライト アウトなどの組み合わせパズルの最適な解法パスを見つけることは、依然として人工知能における古典的な課題です。 A* などのヒューリスティック検索アルゴリズムは、実際の残りのコストを決して過大評価しない許容可能なヒューリスティックを使用する場合にのみ、パスの最適性を保証します。 DeepCubeA のような深層強化学習 (RL) 手法は、ディープ ニューラル ネットワークをトレーニングして、コストを推定するヒューリスティックを近似します。ただし、標準の平均二乗誤差 (MSE) トレーニングでは定期的に過大評価が生じ、許容性に違反し、ソリューションの最適性が損なわれます。この論文では、検証調整された許容可能なニューラル ヒューリスティックを学習するための一般化可能なフレームワークを紹介します。過小評価にペナルティを与える非対称損失関数と組み合わせた過小評価の許容ベルマン演算子を使用して、値ネットワークをトレーニングします。残留神経機能近似誤差を考慮するために、検証スクランブルに対して計算される事後校正安全オフセットを提案します。私たちは、標準的な分析ベースラインと比較して、調整されたニューラル ヒューリスティックが、評価プロトコルの下で観察された許容性違反を達成せず、実際にパスの最適性を維持しながら、検索ノードの拡張を 2 × 2 のルービック キューブで最大 83.0%、3 × 3 の消灯グリッドで 19.9%、8 パズルで 1.9% 削減することを実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Learning Empirically Admissible Neural Heuristics for Combinatorial Search</p>
        <p class="orig-summary">Finding optimal solution paths for combinatorial puzzles like the Rubik&#x27;s Cube, sliding tile puzzles, and Lights Out remains a classical challenge in artificial intelligence. Heuristic search algorithms, such as A* , guarantee path optimality only when using an admissible heuristic-one that never overestimates the true remaining cost-to-go. Deep reinforcement learning (RL) methods like DeepCubeA train deep neural networks to approximate cost-to-go heuristics. However, standard mean-squared error (MSE) training regularly yields overestimations, violating admissibility and compromising solution optimality. In this paper, we introduce a generalizable framework for learning validation-calibrated admissible neural heuristics. We train a value network using an underestimating Admissible Bellman Operator combined with an Asymmetric Loss function to penalize overestimation. To account for residual neural function approximation errors, we propose a post-hoc calibration safety offset computed over validation scrambles. We demonstrate that our calibrated neural heuristics achieve no observed admissibility violations under the evaluation protocol and preserve path optimality in practice while reducing search node expansions by up to 83.0% on a 2 by 2 Rubik&#x27;s Cube, 19.9% on a 3 by 3 Lights Out grid, and 1.9% on an 8-Puzzle compared to standard analytical baselines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ca324dcd5fba" data-article-url="https://arxiv.org/abs/2606.04877" data-article-title="イザベル/HOLの誘拐証明者" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04877" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04877" target="_blank" rel="noopener">イザベル/HOLの誘拐証明者</a></h3>
      <p class="summary">表現ロジックに基づく証明アシスタントでは、証明検索の自動化が制限されており、証明アシスタントに基づく形式的検証のコストが上昇します。私たちは、Isabelle/HOL 用の Abduction Prover を導入することで、この問題に対処します。困難な証明目標が与えられた場合、Abduction Prover は、アブダクティブ推論を使用して有用な推測を特定することにより、目標の証明スクリプトを構築します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Abduction Prover in Isabelle/HOL</p>
        <p class="orig-summary">Proof assistants based on expressive logics suffer limited automation for proof search, raising the cost of formal verification based on proof assistants. We address this problem by introducing the Abduction Prover for Isabelle/HOL. Given a challenging proof goal, the Abduction Prover constructs a proof script for the goal by identifying useful conjectures using abductive reasoning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec637d90f307" data-article-url="https://arxiv.org/abs/2606.04881" data-article-title="DiverAge: 年齢を超えたアイデンティティ関係ガイダンスによる信頼性の高い多元的な顔の老化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04881" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04881" target="_blank" rel="noopener">DiverAge: 年齢を超えたアイデンティティ関係ガイダンスによる信頼性の高い多元的な顔の老化</a></h3>
      <p class="summary">顔の老化は、長期にわたる生体認証分析、年齢を超えた本人確認、法医学的身元分析において重要な役割を果たします。同じ対象者が、遺伝的要因、環境要因、ライフスタイル要因により、対象年齢で複数のもっともらしい外見を示す可能性があるため、顔の老化は本質的に 1 対多の世代の問題です。ただし、信頼できる顔の老化には多元性だけでは不十分です。モデルは、順序付けされた年齢グループ全体で順序レベルの信頼性を維持しながら、各年齢グループ内の外観レベルの候補者の多様性を提供する必要があります。既存の決定論的老化手法は、視覚的にもっともらしい年齢が進行した顔を合成できますが、通常は確率的多様性に欠けています。対照的に、多元的老化法は、局所的な外観の変動を導入しますが、多くの場合、完全な老化シーケンスの同一性の進化を明示的に制御できません。この論文では、拡散自動エンコーディングに基づいた階層的多元的顔老化フレームワーク \textbf{DiverAge} を提案します。 DiverAge は、確率的拡散デコードと年齢条件付きセマンティック変調を通じて、外観レベルの多様性を保存します。シーケンスレベルの信頼性を向上させるために、複数の対象年齢グループを共同でノイズ除去する推論時間ガイダンス戦略である、Cross-age Identity Relation Regulator (CARR) を導入します。 CARR は、実際の同一アイデンティティの異年齢ペアから事前に推定された異年齢アイデンティティ類似性 (CIS) によってガイドされ、トレーニング目標を変更したり、追加のトレーニング可能なパラメータを導入したりすることなく、一方的なサンプリング時間ガイダンスを通じて過剰な異年齢アイデンティティ ドリフトを抑制します。実験では、DiverAge が同一性の保持、年齢の精度、画質、外観レベルの多様性を維持しながら、配列レベルの順序の信頼性を向上させることが実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DiverAge: Reliable Pluralistic Face Aging with Cross-Age Identity Relation Guidance</p>
        <p class="orig-summary">Face aging plays an important role in long-term biometric analysis, cross-age identity verification, and forensic identity analysis. Since the same subject may exhibit multiple plausible appearances at a target age due to genetic, environmental, and lifestyle factors, face aging is inherently a one-to-many generation problem. However, pluralism alone is insufficient for reliable face aging: a model should provide appearance-level candidate diversity within each age group while maintaining sequence-level ordinal reliability across ordered age groups. Existing deterministic aging methods can synthesize visually plausible age-progressed faces, but usually lack stochastic diversity. In contrast, pluralistic aging methods introduce local appearance variations, but often fail to explicitly regulate the identity evolution of the full aging sequence. In this paper, we propose \textbf{DiverAge}, a hierarchical pluralistic face aging framework based on diffusion autoencoding. DiverAge preserves appearance-level diversity through stochastic diffusion decoding and age-conditioned semantic modulation. To improve sequence-level reliability, we introduce a Cross-age Identity Relation Regulator (CARR), an inference-time guidance strategy that jointly denoises multiple target age groups. CARR is guided by a Cross-age Identity Similarity (CIS) prior estimated from real same-identity cross-age pairs, and suppresses excessive cross-age identity drift through one-sided sampling-time guidance without modifying the training objective or introducing extra trainable parameters. Experiments demonstrate that DiverAge improves sequence-level ordinal reliability while maintaining identity preservation, age accuracy, image quality, and appearance-level diversity.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="94e506aadee4" data-article-url="https://arxiv.org/abs/2606.04903" data-article-title="人間が作成したオントロジーからの証明可能で監査可能で安全な LLM エージェント" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04903" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04903" target="_blank" rel="noopener">人間が作成したオントロジーからの証明可能で監査可能で安全な LLM エージェント</a></h3>
      <p class="summary">線形監査可能性を必要とする重要な問題ドメインでの使用を目的とした、LLM エージェント アーキテクチャ Agentic Redux を紹介します。型付きラムダ計算を使用して、適切なドメインで実行すると、Agentic Redux の実行が意味的に正しいことが保証され、すべての決定が追加専用台帳に記録されることを証明します。医療請求のコンプライアンスとセキュリティ脆弱性の開示という、実稼働グレードの 2 つの適切な領域を紹介します。両方のドメインで実行される Agentic Redux の実用的なコードは、サポートされるコード リポジトリで入手できます。また、問題ドメイン上でエージェント フレームワークを作成するための方法論であるオントロジー ファースト エージェント設計も紹介します。この設計では、人間の専門家が基本形式オントロジーを使用して問題ドメインをオントロジー化し、LLM を割り当てて、ドメイン内の問題に対処するためにエージェントと参加者が果たせる役割を導き出します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Provably Auditable and Safe LLM Agents from Human-Authored Ontologies</p>
        <p class="orig-summary">We introduce the LLM agent architecture Agentic Redux, intended for use with nontrivial problem domains that require linear auditability. Using the typed lambda calculus, we prove that, run on appropriate domains, Agentic Redux executions are semantically guaranteed to be correct, with all decisions recorded in an append-only ledger. We present two production-grade appropriate domains, in healthcare billing compliance, and security vulnerability disclosure. Working code for Agentic Redux run on both domains is available in a supporting code repository. We also introduce Ontology-First Agent Design, a methodology for creation of agent frameworks on a problem domain, in which a human expert ontologizes the problem domain with Basic Formal Ontology, and then assigns an LLM to derive roles that agents and humans-in-the-loop can fill, in order to work the problems in the domain.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0314151984da" data-article-url="https://arxiv.org/abs/2606.04906" data-article-title="「あなたの AI テキストは私のものではありません」: 現実的な仮定に基づいた AI 生成のテキスト検出の再定義と評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04906" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04906" target="_blank" rel="noopener">「あなたの AI テキストは私のものではありません」: 現実的な仮定に基づいた AI 生成のテキスト検出の再定義と評価</a></h3>
      <p class="summary">AI 生成テキストが広範な社会的リスクを引き起こすことは一般的に認められていますが、AI 生成テキスト検出に関する文献では、何が有害な使用に該当するかについて共通の理解がありません。むしろ、既存のデータセットやアプローチは、多くの場合、独自の基準を定義し、独自の仮定を立てており、場合によっては暗黙的に、現実世界のニーズやアプリケーションと大まかにしか関連していません。このギャップに対処するために、ここでは AI によって生成されたテキストとその特徴に関するさまざまな概念を体系的に定義します。これらを研究するために、私たちは AITDNA を収集します。AITDNA は、人間と機械が共同構築したテキストの新しいベンチマークであり、編集全体や AI との対話履歴など、詳細な生成情報が注釈付けされています。私たちはさまざまな機械生成のテキスト検出器をベンチマークしましたが、多くの場合、それらは特定の概念に対してのみ良好に機能し、広範な検出器としては機能しないことがわかりました。私たちはコードとデータを公開します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">&#x27;Your AI Text is not Mine&#x27;: Redefining and Evaluating AI-generated Text Detection under Realistic Assumptions</p>
        <p class="orig-summary">Although it is generally agreed that AI-generated text poses a broad societal risk, there is no common understanding in the AI-generated text detection literature on what constitutes harmful use. Rather, existing datasets and approaches often define their own criteria and make their own assumptions, sometimes implicitly, and often only loosely related to real-world needs and applications. To address this gap, we here systematically define various notions of AI-generated text and their characteristics. To study these, we collect AITDNA - a new benchmark of human-machine co-constructed texts that is annotated with detailed genesis information, such as the entire edit and AI-interaction history. We benchmark various machine-generated text detectors and find that they often only perform well for specific notions but not as broad detectors. We release code and data publicly.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ae8a1708aa85" data-article-url="https://arxiv.org/abs/2606.04922" data-article-title="生物医学的視覚言語モデルを迅速に調整するための幾何学を意識した蒸留" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04922" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04922" target="_blank" rel="noopener">生物医学的視覚言語モデルを迅速に調整するための幾何学を意識した蒸留</a></h3>
      <p class="summary">現在のプロンプトベースおよびアダプターベースのビジョン言語モデル (VLM) の調整は、臨床データの感度が凍結されたバックボーンを優先し、アノテーションが制限されている医療画像処理にとって魅力的です。ただし、これらの方法は通常、グラウンドトゥルース ク​​ラスのみを最適化し、他のすべてのクラスを同様に不正確なものとして扱い、臨床的に意味のあるクラス関係を無視し、限定された監視設定では不安定な決定境界を生成します。私たちは、クラス間ジオメトリを尊重しながらグランド トゥルースを保持する指向性ターゲットを生成するために、クラス関係構造を教師に注入する新しいフレームワークである Omni-Geometry Knowledge Distillation (OGKD) を提案します。これらのターゲットを使用して、2 つの蒸留損失を開発します。グローバル ジオメトリ認識蒸留 (GAD) はグローバル イメージ トークン上で動作し、ラベルガイド付きジオメトリ蒸留 (LGD) は同じジオメトリを注意深いパッチ トークンに適用して、きめの細かい位置合わせを改善します。基礎から新規および少数ショットの評価のために広く使用されている 11 の医療データセットでの包括的な実験と分析を通じて、当社の OGKD は大幅に優れたパフォーマンスを達成し、これまでのすべての最先端の VLM 適応対応製品と比較して、平均絶対ゲイン 1.7% ～ 2.8% により精度を一貫して向上させています。また、目に見えないクラスに対しても堅牢に一般化し、他のアプローチよりも信頼性の高い予測を生成します。私たちのコードは https://github.com/tientrandinh/OGKD で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Geometry-Aware Distillation for Prompt Tuning Biomedical Vision-Language Models</p>
        <p class="orig-summary">Current prompt-based and adapter-based tuning of vision-language models (VLMs) is attractive for medical imaging, where clinical data sensitivity favors frozen backbones and annotations are limited. However, these methods typically optimize only the ground-truth class, treating all other classes as equally incorrect, ignoring clinically meaningful class relations and yielding unstable decision boundaries in limited-supervision settings. We propose Omni-Geometry Knowledge Distillation (OGKD), a new framework that injects class-relation structure into the teacher to produce directional targets that preserve the ground truth while respecting inter-class geometry. Using these targets, we develop two distillation losses: Global Geometry-Aware Distillation (GAD) operates on the global image token, and Label-Guided Geometry Distillation (LGD) applies the same geometry to attentive patch tokens to improve fine-grained alignment. Across comprehensive experiments and analyses on 11 widely-used medical datasets for base-to-novel and few-shot evaluations, our OGKD achieves substantially better performance, consistently improving accuracy by an average absolute gain of 1.7%-2.8% over all prior state-of-the-art VLM adaptation counterparts. It also robustly generalizes to unseen classes and yields more reliable predictions than other approaches. Our code is available at https://github.com/tientrandinh/OGKD.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5527419a12d8" data-article-url="https://arxiv.org/abs/2606.04923" data-article-title="ルーブリックベースの強化学習における報酬ハッキングの再現、分析、検出" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04923" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04923" target="_blank" rel="noopener">ルーブリックベースの強化学習における報酬ハッキングの再現、分析、検出</a></h3>
      <p class="summary">ルーブリックベースの強化学習 (RL) は、LLM-as-a-Judge (LaaJ) を使用して、報酬としてルーブリックに従ってモデルの出力を採点します。ただし、政策モデルは裁判官の潜在的なバイアスを悪用し、報酬のハッキングや非効果的または危険なトレーニング結果につながる可能性があります。現実のルーブリックベースの RL では、このようなハッキング行為は多くの場合微妙であり、複数の裁判官のバイアスと絡み合っているため、分析、検出、軽減することが困難です。このペーパーでは、ルーブリックベースの RL のための制御可能なハッキング環境である CHERRL を紹介します。既知のバイアスを LaaJ に注入することで、CHERRL は報酬ハッキングの安定した再現、報酬の発散の明確な観察、およびハッキングの開始の正確な特定を可能にします。これは、ルーブリック ベースの RL における報酬ハッキングのメカニズムと緩和を研究するためのクリーンな実験テストベッドを提供します。その有用性を実証するために、発見可能性と悪用可能性の観点からさまざまな裁判官のバイアスを分析し、トレーニングログから報酬ハッキングの開始を自動的に検出するためのエージェントベースのシステムを調査します。コードと環境は https://github.com/THUAIS-Lab/CHERRL で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning</p>
        <p class="orig-summary">Rubric-based reinforcement learning (RL) uses an LLM-as-a-Judge (LaaJ) to score model outputs according to rubrics as rewards. However, policy models may exploit latent biases in the judge, leading to reward hacking and ineffective or unsafe training outcomes. In real-world rubric-based RL, such hacking behaviors are often subtle and entangled with multiple judge biases, making them difficult to analyze, detect, and mitigate. In this paper, we introduce CHERRL, a controllable hacking environment for rubric-based RL. By injecting known biases into LaaJ, CHERRL enables stable reproduction of reward hacking, explicit observation of reward divergence, and precise identification of hacking onset. This provides a clean experimental testbed for studying the mechanisms and mitigations of reward hacking in rubric-based RL. To demonstrate its utility, we analyze different judge biases from the perspectives of discoverability and exploitability, and explore an agent-based system for automatically detecting reward hacking onset from training logs. The code and environment are publicly available at https://github.com/THUAIS-Lab/CHERRL.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d8d6628ffe9b" data-article-url="https://arxiv.org/abs/2606.04930" data-article-title="AdaKoop: Koopman 演算子回帰を使用した非定常データ ストリームからの非線形ダイナミクスの効率的なモデリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04930" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04930" target="_blank" rel="noopener">AdaKoop: Koopman 演算子回帰を使用した非定常データ ストリームからの非線形ダイナミクスの効率的なモデリング</a></h3>
      <p class="summary">リアルタイム データ分析では、計算効率を維持しながら、非定常データ ストリーム内の非線形ダイナミクスに正確かつ適応的に対処する能力が必要です。ただし、非線形ダイナミクスは非常に複雑であるため、動的に変化する非線形パターンを捕捉し、厳しい時間制約の下でそれを下流のタスクに利用することは簡単ではありません。非線形の複雑さと計算の扱いやすさとの間のギャップを埋めるために、この研究では、非線形ダイナミクスが無限次元空間内の線形遷移として表現できるとするクープマン演算子理論を適用します。この演算子の有限次元近似に基づいて、非定常データ ストリーム上の非線形ダイナミクスをモデル化するための効率的なストリーミング アルゴリズムである AdaKoop を紹介します。私たちのアプローチは、クープマン演算子理論に基づいた確率的フレームワークを利用し、生の観測値とカーネル ヒルベルト空間 (RKHS) 特徴の再現の両方を潜在ベクトルからの放射として扱います。このデュアルビュー定式化により、非線形ダイナミクスを扱いやすい線形システムとして表現できます。したがって、AdaKoop を使用すると、ストリーミング形式で非線形ダイナミクスの効率的かつ安定したモデリングが可能になり、反復的な非線形最適化による法外な計算コストが回避されます。さらに、データ ストリームの非定常性に対処するために、AdaKoop は、突然のパターン シフトに対する統計的仮説テストを通じてパターンの切り替えを適応的に検出し、連続的な変化に対応するためにモデル パラメーターを段階的に更新します。さまざまなドメインにわたる合計 71 の実用的なベンチマーク データセットに対する広範な実験により、AdaKoop がリアルタイム予測精度と計算効率の点で最先端の手法を上回ることが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AdaKoop: Efficient Modeling of Nonlinear Dynamics from Nonstationary Data Streams with Koopman Operator Regression</p>
        <p class="orig-summary">Real-time data analysis requires the ability to accurately and adaptively address nonlinear dynamics in a nonstationary data stream while preserving computational efficiency. However, nonlinear dynamics are so complex that capturing dynamically changing nonlinear patterns and utilizing them for downstream tasks under strict time constraints is nontrivial. To bridge the gap between nonlinear complexity and computational tractability, this study applies Koopman operator theory, which states that nonlinear dynamics can be represented as linear transitions in an infinite-dimensional space. Building upon finite-dimensional approximations of this operator, we present AdaKoop, an efficient streaming algorithm for modeling nonlinear dynamics over nonstationary data streams. Our approach utilizes a probabilistic framework grounded in Koopman operator theory, treating both raw observations and reproducing kernel Hilbert space (RKHS) features as emissions from latent vectors. This dual-view formulation allows nonlinear dynamics to be expressed as a tractable linear system. Therefore, AdaKoop enables the efficient and stable modeling of nonlinear dynamics in a streaming fashion, avoiding the prohibitive computational costs of iterative nonlinear optimization. Furthermore, to address nonstationarity in data streams, AdaKoop adaptively detects the switching of patterns via statistical hypothesis testing for abrupt pattern shifts and incrementally updates model parameters to handle continuous changes. Extensive experiments on a total of 71 practical benchmark datasets across various domains demonstrate that AdaKoop outperforms state-of-the-art methods in terms of real-time forecasting accuracy and computational efficiency.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f144a0086597" data-article-url="https://arxiv.org/abs/2606.04967" data-article-title="プロンプトからプロセスまで: AI ソフトウェア開発エージェントをサポートするフレームワークのプロセス分類と比較評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04967" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04967" target="_blank" rel="noopener">プロンプトからプロセスまで: AI ソフトウェア開発エージェントをサポートするフレームワークのプロセス分類と比較評価</a></h3>
      <p class="summary">プログラミング用の AI ツールは、もはや単なるオートコンプリートやチャット アシスタントではありません。プロセス、役割、成果物、検証を備えた開発フレームワークとして組織化されています。最近の調査では、ソフトウェア エンジニアリングのためのエージェントと LLM がマッピングされていますが、これらの機能をプロセスに変える運用フレームワークを中心とした調査は行われていません。私たちは、機能的包含基準とトラクション測定を使用して一次ソースの直接検索を実行し、GitHub Spec Kit、OpenSpec、BMAD Method、Get Shit Done (GSD)、Spec Kitty、Reversa の 6 つのフレームワークを選択しました。それぞれが異なるパスを通じて AI 開発を攻撃します。つまり、完全および軽量バリアントでの仕様駆動型開発、エージェント駆動のアジャイル プランニング、エージェントを介したコンテキスト エンジニアリング、ワークツリーの分離とレビュー、レガシー システムからの運用仕様の回復です。私たちの中心的な貢献は、仕様、コンテキスト、役割、実行、検証、移植性という 6 次元のプロセス分類と、プロセスを複製可能なツールに変えるスコアリング ルーブリックです。これを 6 つのフレームワークとサンプル外のケースである Spec-Flow に適用します。 2 つの結果が際立っています。すでに何らかのプロセスを採用しているフレームワークの中には収束が見られます。分離されたプロンプトは中心性を失い、永続的な成果物、作業契約、トレーサビリティ、人間によるレビューが曖昧さを減らし、エージェントを調整するメカニズムになります。また、6 つの側面すべてを強力にカバーするフレームワークはなく、プロセスの深さとエージェント間の移植性の間の構造的なトレードオフが明らかになります。また、繰り返し発生するリスク、つまり仕様とコードの間のずれ、生成されたアーティファクトへの過剰な信頼、コミュニティ拡張の脆弱性、プラットフォームへの依存、プロセス全体のベンチマークの欠如なども見つかりました。最後に、中間品質の指標、コンテキスト ガバナンス、インストールのセキュリティと再現性に焦点を当てた、実証的評価のための研究課題を取り上げます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Prompt to Process: a Process Taxonomy and Comparative Assessment of Frameworks Supporting AI Software Development Agents</p>
        <p class="orig-summary">AI tools for programming are no longer just autocomplete or chat assistants: they organize themselves as development frameworks, with process, roles, artifacts and verification. Recent surveys map agents and LLMs for software engineering, but a study centered on the operational frameworks that turn these capabilities into process is missing. We ran a directed search of primary sources, with a functional inclusion criterion and traction measurement, and selected six frameworks: GitHub Spec Kit, OpenSpec, BMAD Method, Get Shit Done (GSD), Spec Kitty and Reversa. Each attacks AI development through a different path: spec-driven development in full and lightweight variants, agent-driven agile planning, context engineering over the agent, worktree isolation and review, and recovery of operational specifications from legacy systems. Our central contribution is a six-dimension process taxonomy: specification, context, roles, execution, validation and portability, with a scoring rubric that turns it into a replicable instrument. We apply it to the six frameworks and an out-of-sample case, Spec-Flow. Two results stand out. Among frameworks that already adopt some process there is convergence: the isolated prompt loses centrality, and persistent artifacts, work contracts, traceability and human review become mechanisms that reduce ambiguity and coordinate agents. And no framework strongly covers all six dimensions, exposing a structural trade-off between process depth and portability across agents. We also found recurring risks: drift between specification and code, excessive trust in generated artifacts, fragility of community extensions, platform dependence and a lack of benchmarks for the complete process. We close with a research agenda for empirical evaluation, focused on intermediate-quality metrics, context governance, installation security and reproducibility.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="49a974def989" data-article-url="https://arxiv.org/abs/2606.04970" data-article-title="計画、監視、回復: プロアクティブな手続き支援のためのベンチマークとアーキテクチャ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04970" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04970" target="_blank" rel="noopener">計画、監視、回復: プロアクティブな手続き支援のためのベンチマークとアーキテクチャ</a></h3>
      <p class="summary">私たちは、プロアクティブなマルチモーダル アシスタント システムを構想しています。これは、手順的なタスクに関するリアルタイムの段階的なガイダンスをユーザーに提供し、\textit{いつ}中断するか、\textit{どのように指導するかを自律的に決定します。ただし、現実的な状況、特にユーザーが予想されるステップ シーケンスから逸脱する一般的なケースを反映する大規模なクロスドメイン ベンチマークがないため、進歩は限られています。私たちはこのギャップに 4 つの貢献で対処します。 \textbf{(1)}~明示的な計画外 (OOP) アノテーションと回復手順を備えたプロアクティブな手順支援のための大規模ウェアラブル自己中心的データセットである \textbf{EgoProactive} をリリースします。 \textbf{(2)}~統一されたプロアクティブなガイダンス スキーマの下で、確立された 5 つのベンチマーク (Ego4D、EPIC-KITCHEN、EgoExo4D、HoloAssist、HowTo100M) を \textbf{Pro\textsuperscript{2}Bench} に拡張します。 \textbf{(3)}~手続き状態、視覚的キュー、および回復注入に特化した \textbf{分離プランナー -- インタラクション アーキテクチャ} を提案します。 \textbf{(4)}~Llama~4 および Qwen-3.6-VL でのクロスバックボーン レプリケーションによって検証された、モデル ファミリ間で転送するトレーニング後のレシピを紹介します。大規模な実験において、当社の訓練された Llama-4 システムは、6 つのデータセットすべてにわたって、強力な独自のベースライン (Claude Opus~4.6、Gemini~3.1~Pro、GPT~5.2) およびオープンウェイト ベースライン (Qwen3~VL~235B) ベースラインを超えて、客観的な介入の質を大幅に向上させました。さらに、Oracle 計画の実験では、計画の品質が制御されている場合、トレーニングされた二重モデルが高品質のガイダンスを生成し、計画外の回復で大きな利益が得られることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance</p>
        <p class="orig-summary">We envision a proactive multi-modal assistant system which gives users real-time step-by-step guidance on a procedural task, autonomously deciding \textit{when} to interrupt, and \textit{how} to coach. However, progress is limited by the absence of large-scale, cross-domain benchmarks that reflect realistic conditions, particularly the common case in which users deviate from the expected step sequence. We address this gap with four contributions: \textbf{(1)}~we release \textbf{EgoProactive}, a large-scale wearable-egocentric dataset for proactive procedural assistance with explicit Out-of-Plan (OOP) annotations and recovery steps; \textbf{(2)}~we augment five established benchmarks (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) into \textbf{Pro\textsuperscript{2}Bench} under a unified proactive-guidance schema; \textbf{(3)}~we propose a \textbf{decoupled planner--interaction architecture} specialized for procedural state, visual cues, and recovery injection; \textbf{(4)}~we introduce a post-training recipe that transfers across model families, validated by cross-backbone replication on Llama~4 and Qwen-3.6-VL. In extensive experiments, our trained Llama-4 system substantially improves objective intervention quality over strong proprietary baselines (Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2) and open-weight baselines (Qwen3~VL~235B) baselines across all six datasets. Oracle-plan experiments further show that, when plan quality is controlled, the trained duplex model produces high-quality guidance and large gains on Out-of-Plan recovery.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="596b21ea0e66" data-article-url="https://arxiv.org/abs/2606.04987" data-article-title="DeliChess: チェスのパズル解決における熟議のための多者対話データセット" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04987" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04987" target="_blank" rel="noopener">DeliChess: チェスのパズル解決における熟議のための多者対話データセット</a></h3>
      <p class="summary">多者間の対話は、協調的な推論と意思決定を研究するための重要な設定ですが、既存のデータセットは、構造化された詳細な複雑な推論タスクに焦点を当てていることはほとんどありません。 DeliChess は、参加者が協力して多肢選択のチェス パズルを解くグループ審議対話の新しいデータセットです。各グループは最初に個別にパズルを完成させ、次に修正された集合回答を提出する前に、複数の当事者によるディスカッションに参加します。データセットには、完全なトランスクリプト、ディスカッション前後の選択肢、パズルの難易度と動きの品質に関するメタデータを含む 107 の対話が含まれています。私たちはチェス エンジンの評価に基づいた 3 つの指標を使用してパフォーマンスを評価し、熟慮することでグループの精度が大幅に向上することがわかりました。さらに、事前の審議データに基づいて訓練された分類器を使用して、精査的な発話（つまり、提案、正当化、または戦略的考察を引き出すメッセージ）の役割を分析します。プロービングにより、ディスカッション後のグループのパフォーマンスはより変動しますが、一貫してパフォーマンスの向上につながるわけではありません。私たちのデータセットは、グループの推論、対話のダイナミクス、および明確に定義された戦略的領域における異なる視点や意見の解決をモデル化するための豊富なテストベッドを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DeliChess: A Multi-party Dialogue Dataset for Deliberation in Chess Puzzle Solving</p>
        <p class="orig-summary">Multi-party dialogue is a critical setting for studying collaborative reasoning and decision-making, yet existing datasets rarely focus on structured, in-depth complex reasoning tasks. We introduce DeliChess, a novel dataset of group deliberation dialogues in which participants collaboratively solve multiple-choice chess puzzles. Each group first completes the puzzle individually, then engages in a multi-party discussion before submitting a revised collective answer. The dataset includes 107 dialogues with full transcripts, pre- and post-discussion choices, and metadata on puzzle difficulty and move quality. We evaluate performance using three metrics based on chess engine evaluations, and find that deliberation significantly improves group accuracy. We further analyse the role of probing utterances (i.e., messages that elicit proposals, justifications, or strategic reflection) using a classifier trained on prior deliberation data. While probing makes group performance more variable after discussion, it does not consistently lead to better performance. Our dataset offers a rich testbed for modelling group reasoning, dialogue dynamics, and the resolution of differing perspectives and opinions in a well-defined strategic domain.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a6ec13062516" data-article-url="https://arxiv.org/abs/2606.04990" data-article-title="エージェント追跡から信頼へ: LLM エージェントにおける証拠追跡と実行来歴" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04990" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04990" target="_blank" rel="noopener">エージェント追跡から信頼へ: LLM エージェントにおける証拠追跡と実行来歴</a></h3>
      <p class="summary">大規模言語モデル (LLM) ベースのエージェントは、外部ツール、検索システム、メモリ モジュール、環境、その他のエージェントと対話することで、複雑なタスクを解決することが増えています。これらの機能により、エージェントの自律性が拡張されますが、エージェントの動作の検証、デバッグ、監査が難しくなります。最終回答の精度だけでは、出力がどのように生成されたか、各主張を裏付ける証拠は何か、ツールの呼び出しが正当化されたかどうか、記憶が後の決定にどのように影響したか、実行の失敗がどこで発生したかを説明することはできません。証拠追跡と実行来歴は、取得された証拠、ツール出力、メモリ項目、環境観察、中間クレーム、アクション、および最終的な回答がエージェントの実行全体を通じてどのように関連するかをモデル化することで、このギャップに対処します。この調査は、LLM エージェントにおける証拠の追跡と実行の出自に関する体系的なレビューと概念的な枠組みを提供します。私たちは、検索根拠、クレームサポート、ツール使用の安全性、メモリリネージ、可観測性、デバッグ、監査、リカバリを結び付ける、統一された来歴の観点に基づいて関連作業を整理します。トレースソース、証拠と実行単位、来歴関係、トレースの粒度とタイミング、表現形式、信頼関数を網羅する分類法を導入します。私たちは、出所の表現、証拠の帰属、ツール使用の出所、実行時のガードレール、出所を伴うメモリ、トレースベースの可観測性、障害診断など、主要な方法論の方向性を検討します。また、既存のベンチマーク、データセット、評価指標を来歴関連の機能にマッピングし、評価が最終的な回答の正しさからプロセスレベルの説明責任にどのように移行できるかについても説明します。最後に、統合トレース スキーマ、クレーム レベルおよびセマンティックの出所、出所を意識した安全メカニズム、現実的な実行トレース ベンチマーク、リカバリ指向の評価、プライバシーを意識した監査インフラストラクチャなどの未解決の課題について概説します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Agent Traces to Trust: Evidence Tracing and Execution Provenance in LLM Agents</p>
        <p class="orig-summary">Large language model (LLM)-based agents increasingly solve complex tasks by interacting with external tools, retrieval systems, memory modules, environments, and other agents. These capabilities expand agent autonomy, but also make agent behavior harder to verify, debug, and audit. Final-answer accuracy alone cannot explain how an output was produced, which evidence supported each claim, whether tool calls were justified, how memory influenced later decisions, or where execution failures originated. Evidence tracing and execution provenance address this gap by modeling how retrieved evidence, tool outputs, memory items, environment observations, intermediate claims, actions, and final answers are connected throughout agent execution. This survey provides a systematic review and conceptual framework for evidence tracing and execution provenance in LLM agents. We organize related work around a unified provenance perspective that connects retrieval grounding, claim support, tool-use safety, memory lineage, observability, debugging, audit, and recovery. We introduce a taxonomy covering trace sources, evidence and execution units, provenance relations, tracing granularity and timing, representation forms, and trust functions. We review key methodological directions, including provenance representation, evidence attribution, tool-use provenance, runtime guardrails, provenance-bearing memory, trace-based observability, and failure diagnosis. We also map existing benchmarks, datasets, and evaluation metrics to provenance-related capabilities, and discuss how evaluation can move from final-answer correctness toward process-level accountability. Finally, we outline open challenges, including unified trace schemas, claim-level and semantic provenance, provenance-aware safety mechanisms, realistic execution-trace benchmarks, recovery-oriented evaluation, and privacy-aware audit infrastructure.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="13045a16df35" data-article-url="https://arxiv.org/abs/2606.05004" data-article-title="SharedRequest: 大規模言語モデルのプライバシー保護モデルに依存しない推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05004" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05004" target="_blank" rel="noopener">SharedRequest: 大規模言語モデルのプライバシー保護モデルに依存しない推論</a></h3>
      <p class="summary">ChatGPT などのパブリック大規模言語モデル (LLM) の広範な展開に伴い、ユーザー プロンプトのプライバシーを保護することがますます重要な問題になっています。既存のプライバシー保護推論方法は、実用性または効率性を犠牲にしており、多くの場合、互換性を制限するモデル固有の変更が必要です。この論文では、個別のプロンプト レベルではなくバッチ レベルでプライバシー保護を再定式化する、プライバシー保護 LLM 推論のためのモデルに依存しないフレームワークである SharedRequest を提案します。重要なアイデアは、元のプロンプトとノイズの多いバリアントを混合することで機密情報を曖昧にし、同時に意味的に同等の命令をグループ化して、LLM 応答品質への影響を最小限に抑えながらクエリの大規模なバッチにわたる推論コストを償却することです。この設計は LLM アーキテクチャから独立しているため、モデル パラメーターへのアクセスやアーキテクチャの変更は必要ありません。経験的な結果は、SharedRequest が以前の差分プライバシー ベースラインと比較して $20\%$ 以上高い実用性を達成し、その共有プロンプト メカニズムにより、非バッチ推論と比較してクエリ コストを最大 $5\time$ 削減することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SharedRequest: Privacy-Preserving Model-Agnostic Inference for Large Language Models</p>
        <p class="orig-summary">With the widespread deployment of public large language models (LLMs) such as ChatGPT, protecting user prompt privacy has become an increasingly critical issue. Existing privacy-preserving inference methods sacrifice either utility or efficiency, and often require model-specific modifications that limit their compatibility. In this paper, we propose SharedRequest, a model-agnostic framework for privacy-preserving LLM inference that reformulates privacy protection at the batch level rather than the individual-prompt level. The key idea is to obscure sensitive information by mixing original prompts with noisy variants, while grouping semantically equivalent instructions to amortize the inference cost over a large batch of queries with minimal impact on LLM response quality. This design is independent of the LLM architecture, requiring no access to model parameters or architectural modification. Empirical results demonstrate that SharedRequest achieves over $20\%$ higher utility compared to prior differential privacy baselines, and its shared-prompt mechanism reduces query cost by up to $5\times$ compared to non-batched inference.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a21bb38d65bf" data-article-url="https://arxiv.org/abs/2606.05008" data-article-title="M$^3$Eval: 認知に基づいたビデオタスクによるマルチモーダル記憶評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05008" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05008" target="_blank" rel="noopener">M$^3$Eval: 認知に基づいたビデオタスクによるマルチモーダル記憶評価</a></h3>
      <p class="summary">マルチモーダル モデルが長時間ビデオの理解に向けて進歩するにつれ、メモリが重要な能力として浮上します。ビデオ データセットとベンチマークの開発には多大な努力が払われているにもかかわらず、既存の研究は主に知覚と推論に焦点を当てており、どのモデルが保持するか、情報がどの程度忠実に保存されるか、干渉下でもメモリがどの程度堅牢に保たれるかなど、記憶を体系的に評価することはありません。このギャップに対処するために、マルチモーダル モデルでさまざまなメモリ次元を調査するための最初の包括的な評価フレームワークおよびベンチマークである M$^3$Eval を導入します。認知心理学に基づいた当社のデザインは、記憶の重要な側面を分離する慎重に構築されたタスクを特徴としています。 M$^3$Eval を活用して、代表的なマルチモーダル モデルにわたって広範な実験を実施し、一貫した弱点と独特の動作を明らかにしました。私たちは、並列ビデオストリームを処理する際にモデルがもつれの解けた表現を維持するのに苦労し、人間の記憶で観察されるものとは大幅に異なる干渉パターンを示し、記憶ソースを時間領域よりも空間領域でより確実に接地し、限られた記号記憶を実証していることを発見しました。まとめると、私たちのベンチマークは将来の研究のための貴重なリソースを提供しますが、私たちの調査結果は、メモリが基本的でありながらまだ研究されていない機能であることを強調し、マルチモーダルモデルでより効果的なメモリメカニズムを設計するための洞察を提供します。コードとデータセットは https://pku-value-lab.github.io/m3eval-homepage で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">M$^3$Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks</p>
        <p class="orig-summary">As multi-modal models advance towards long-form video understanding, memory emerges as a critical capability. Despite substantial efforts in developing video datasets and benchmarks, existing works primarily focus on perception and reasoning, without systematically evaluating memory: what models retain, how faithfully information is preserved, and how robust memory remains under interference. To address this gap, we introduce M$^3$Eval, the first comprehensive evaluation framework and benchmark for probing different memory dimensions in multi-modal models. Grounded in cognitive psychology, our design features carefully constructed tasks that isolate key aspects of memory. Leveraging M$^3$Eval, we conduct extensive experiments across representative multi-modal models, revealing consistent weaknesses and distinctive behaviors. We find that models struggle to maintain disentangled representations when processing parallel video streams, exhibit interference patterns differing substantially from those observed in human memory, ground memory sources more reliably in the spatial domain than the temporal domain, and demonstrate limited symbolic memory. Collectively, our benchmark provides a valuable resource for future research, while our findings highlight memory as a fundamental yet underexplored capability and offer insights for designing more effective memory mechanisms in multi-modal models. Our code and dataset are available at https://pku-value-lab.github.io/m3eval-homepage.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8ead47b66172" data-article-url="https://arxiv.org/abs/2606.05009" data-article-title="DAR: エージェントティックハーネスを使用したデオンティック推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05009" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05009" target="_blank" rel="noopener">DAR: エージェントティックハーネスを使用したデオンティック推論</a></h3>
      <p class="summary">義務的推論とは、法律に基づく納税額の計算や移民控訴の結果の決定など、事例固有の事実に明示的なルールとポリシーを適用することで質問に答えるタスクです。 LLM ベースの義務論的推論の主な技術的課題は、関連するルールセットが長く相互参照される可能性があるため、モデルが特定の推論ステップに必要なルールを見つけられない可能性があることです。 Deontic Agentic Reasoning (DAR) を導入します。これは、モデルがオンデマンドで法令と対話するエージェント推論セットアップです。 DeonticBench のハード サブセット上の複数のハーネスで DAR を評価します。これらの設定全体で、エージェント ハーネスは義務論的推論タスクの最前線を押し広げることができることがわかりましたが、改善は均一ではありません。弱いモデルは、はるかに多くのトークンを消費しながら、数値タスクでパフォーマンスが低下することがよくあります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DAR: Deontic Reasoning with Agentic Harnesses</p>
        <p class="orig-summary">Deontic reasoning is the task of answering questions by applying explicit rules and policies to case-specific facts, for example computing tax liability under a statute or determining the outcome of an immigration appeal. A key technical challenge for LLM-based deontic reasoning is that the relevant ruleset can be long and cross-referenced, so models may still fail to locate the rules needed for a particular reasoning step. We introduce Deontic Agentic Reasoning (DAR), an agentic reasoning setup in which the model interacts with the statutes on demand. We evaluate DAR under multiple harnesses on hard subsets of DeonticBench. Across these settings, we find that agentic harnesses can push the frontier on deontic reasoning tasks, but improvements are not uniform: weaker models often degrade on numerical tasks while consuming far more tokens.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2d8053aaf23d" data-article-url="https://arxiv.org/abs/2606.05025" data-article-title="ロバスト推論蒸留のための不変勾配アライメント" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05025" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05025" target="_blank" rel="noopener">ロバスト推論蒸留のための不変勾配アライメント</a></h3>
      <p class="summary">大規模言語モデル (LLM) はショートカット学習に悩まされます。論理構造が同一であっても、意味論的表面がトレーニング データと異なる分布外 (OOD) 入力では体系的に失敗します。これは、思考連鎖の推論をより小さな生徒に伝える知識の蒸留パイプラインを弱体化させます。我々は、次の 3 つの革新によって、意味的に多様であるが論理的に同型のサンプル間で勾配更新を調整するトレーニング フレームワークである Invariant Gradient Alignment (IGA) を紹介します。(i) 論理異性体セット。異なる意味論的ドメイン (数学、医学、法律、科学) にわたって同一の論理構造を共有する問題のグループ。 (ii) 微分可能な \emph{Continuous Gradient Conflict Mask}。不変の方向を維持しながら、ドメイン間の勾配分散が大きいパラメータの次元を抑制します。 (iii) マスクされた勾配の切り詰められた SVD 射影を LoRA の低ランク多様体に戻し、パラメータ効率を全体的に維持します。理論的には、IGA は ERM よりも厳しい OOD 一般化境界を生成し、異性体ドメインの数に応じて拡張し、穏やかな規則性の下で標準 SGD レートに収束します。経験的に、IGA は 4 つのベンチマーク全体で 8 つのベースラインを上回り、精度が ERM-SFT よりも最大 14.3 pp 向上し、論理整合性スコアが 0.031 対 0.142 で、表現の不変性が 4 倍向上しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Invariant Gradient Alignment for Robust Reasoning Distillation</p>
        <p class="orig-summary">Large language models (LLMs) suffer from shortcut learning: they systematically fail on out-of-distribution (OOD) inputs whose semantic surface differs from training data, even when the logical structure is identical. This undermines knowledge distillation pipelines that transfer chain-of-thought reasoning to smaller students. We introduce Invariant Gradient Alignment (IGA), a training framework that aligns gradient updates across semantically diverse but logically isomorphic examples via three innovations: (i) Logical Isomer Sets, groups of problems sharing identical logical structure across distinct semantic domains (mathematics, medicine, law, science); (ii) a differentiable \emph{Continuous Gradient Conflict Mask}, that suppresses parameter dimensions with high cross-domain gradient variance while preserving invariant directions; and (iii) a truncated SVD projection of the masked gradient back onto the LoRA low-rank manifold, maintaining parameter efficiency throughout. Theoretically, IGA yields tighter OOD generalization bounds than ERM, scaling with the number of isomer domains, and converges at the standard SGD rate under mild regularity. Empirically, IGA outperforms eight baselines across four benchmarks with accuracy gains up to 14.3 pp over ERM-SFT and a Logical Consistency Score of 0.031 versus 0.142 -- a fourfold improvement in representational invariance.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c0194cdc522" data-article-url="https://arxiv.org/abs/2606.05037" data-article-title="自己反映型 API: AI エージェント回復のための構造は冗長性を上回る" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05037" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05037" target="_blank" rel="noopener">自己反映型 API: AI エージェント回復のための構造は冗長性を上回る</a></h3>
      <p class="summary">AI エージェントが API を呼び出して検証エラーに遭遇した場合、何が問題だったかだけではなく、次に何をすべきかが必要になります。自己反映型 API は、検証が失敗した場合、エージェントが外部の理由なしにリクエストを修復して再試行するのに十分な、機械可読な回復\_フィードバック.suggestions[] ペイロードを返します。リーク監査済みのパイロット (セルあたり $N{=}30$、LLM 3 つ、敵対的タスク 10) では、構造化された提案により、人間モデルでの平易な英語の診断 (フィッシャーの正確な $p \le 0.0022$) と比較して、タスク完了率が $+36.7$ ～ $40.0$pp 上昇し、$1.8$ ～ $2.2\倍$ 向上しました。成功ごとのトークン効率。 gpt-4o-mini では上昇率は大きくありません ($p{=}0.435$)。課金 API での 2 番目のドメインのレプリケーションによってパターンが確認されます。この比較は、文書化されていない 2 つのクラスの回答漏洩を LLM ベンチマークで監査した後にのみ有効です。再利用可能な CI インフラストラクチャとして、audit\_prompt\_leakage.py を出荷します。コードとデータ: https://github.com/arquicanedo/self-reflective-apis。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Self-Reflective APIs: Structure Beats Verbosity for AI Agent Recovery</p>
        <p class="orig-summary">When an AI agent calls an API and hits a validation error, it needs more than what went wrong -- it needs what to do next. A self-reflective API returns, on validation failure, a machine-readable recovery\_feedback.suggestions[] payload sufficient for the agent to repair the request and retry without external reasoning. On a leak-audited pilot ($N{=}30$ per cell, 3 LLMs, 10 adversarial tasks), structured suggestions lift task-completion rate by $+36.7$--$40.0$pp over plain-English diagnoses on Anthropic models (Fisher&#x27;s exact $p \le 0.0022$), at $1.8$--$2.2\times$ better per-success token efficiency. The lift is not significant on gpt-4o-mini ($p{=}0.435$); a second-domain replication on a billing API confirms the pattern. The comparison only holds after auditing two undocumented classes of answer leakage in LLM benchmarks. We shipaudit\_prompt\_leakage.py as reusable CI infrastructure. Code and data: https://github.com/arquicanedo/self-reflective-apis.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ded8a4bebda4" data-article-url="https://arxiv.org/abs/2606.05058" data-article-title="UniCAD: マルチモーダル マルチタスク CAD の統合ベンチマークおよびユニバーサル モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05058" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05058" target="_blank" rel="noopener">UniCAD: マルチモーダル マルチタスク CAD の統合ベンチマークおよびユニバーサル モデル</a></h3>
      <p class="summary">コンピューター支援設計 (CAD) は、正確で編集可能な 3D モデルの作成を可能にすることで、現代のエンジニアリングと製造を支えています。ただし、CAD の研究では通常、タスクが個別に研究されており、統一されたベンチマークがないため、CAD のマルチモーダル、マルチタスクの学習が妨げられています。このギャップに対処するために、ポイントから CAD への再構成、テキスト/画像から CAD への生成、および多様な入力モダリティにわたる CAD の質問応答をカバーする、マルチモーダル CAD 学習のための包括的なベンチマークである UniCAD を導入します。ベンチマークとともに、テキスト、画像、スケッチ、点群を取り込み、これらの異種タスクを単一のフレームワーク内でエンドツーエンド方式で実行するユニバーサル マルチモーダル大規模言語モデルである UniCAD-MLLM を紹介します。 UniCAD および Fusion360 ベンチマークに関する広範な実験により、UniCAD-MLLM がすべてのタスクにわたって最先端のパフォーマンスを達成し、既存のタスク固有およびマルチタスクのベースラインを上回るパフォーマンスを発揮することが実証されました。今後の研究を加速するために、データセット、コード、事前トレーニング済みモデルをリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">UniCAD: A Unified Benchmark and Universal Model for Multi-Modal Multi-Task CAD</p>
        <p class="orig-summary">Computer-Aided Design (CAD) underpins modern engineering and manufacturing by enabling the creation of precise, editable 3D models. However, CAD research typically studies tasks in isolation, and multi-modal, multi-task learning for CAD is hindered by the absence of a unified benchmark. To address this gap, we introduce UniCAD, a comprehensive benchmark for multi-modal CAD learning that covers point-to-CAD reconstruction, text/image-to-CAD generation, and CAD question answering across diverse input modalities. Alongside the benchmark, we present UniCAD-MLLM, a universal multi-modal large language model that ingests text, images, sketches, and point clouds and performs these heterogeneous tasks in an end-to-end fashion within a single framework. Extensive experiments on the UniCAD and Fusion360 benchmarks demonstrate that UniCAD-MLLM achieves state-of-the-art performance across all tasks, outperforming existing task-specific and multi-task baselines. We will release the dataset, code, and pretrained models to accelerate future research.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3071054e3e86" data-article-url="https://arxiv.org/abs/2606.05085" data-article-title="言語モデルを使用した研究論文のタイトルの自動生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05085" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05085" target="_blank" rel="noopener">言語モデルを使用した研究論文のタイトルの自動生成</a></h3>
      <p class="summary">研究論文のタイトルは、その主なアイデアと、場合によっては結論を明確かつ簡潔に伝えます。適切なタイトルを選択することは多くの場合困難ですが、自動タイトル生成は著者のこの作業を支援します。この研究では、オープンウェイトの事前トレーニング済みの大規模言語モデルを使用して、抄録から論文のタイトルを生成する手法を提案します。私たちは CSPubSum および LREC-COLING-2024 データセットを使用し、社会科学の Springer ジャーナル 4 誌から厳選された新しいデータセット SpringerSSAT を導入します。さらに、タイトルの生成には GPT-3.5-turbo をゼロショット設定で使用します。モデルのパフォーマンスは、ROUGE、METEOR、MoverScore、BERTScore、および SciBERTScore メトリックを使用して評価されます。私たちの実験では、微調整された PEGASUS-large が、ほとんどの指標において、微調整された LLaMA-3-8B やゼロショット GPT-3.5-turbo などの他のモデルよりも優れていることがわかりました。さらに、ChatGPT が創造的な論文タイトルを生成できることを実証します。全体として、AI によって生成されたタイトルは一般に適切で信頼性があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Automatic Generation of Titles for Research Papers Using Language Models</p>
        <p class="orig-summary">The title of a research paper conveys its primary idea and, occasionally, its conclusions in a clear and concise manner. Choosing an appropriate title is often challenging, and automated title generation can assist authors in this task. In this work, we propose a technique to generate paper titles from abstracts using open-weight pre-trained and large language models. We use the CSPubSum and LREC-COLING-2024 datasets and introduce a new dataset, SpringerSSAT, curated from four Springer journals in the social sciences. Additionally, we use GPT-3.5-turbo in a zero-shot setting to generate titles. Model performance is evaluated with ROUGE, METEOR, MoverScore, BERTScore, and SciBERTScore metrics. Our experiments show that fine-tuned PEGASUS-large outperforms other models, including fine-tuned LLaMA-3-8B and zero-shot GPT-3.5-turbo, across most metrics. We further demonstrate that ChatGPT can generate creative paper titles. Overall, AI-generated titles are generally appropriate and reliable.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="190ddac5504c" data-article-url="https://arxiv.org/abs/2606.05106" data-article-title="言語モデルのための算術教育学" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05106" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05106" target="_blank" rel="noopener">言語モデルのための算術教育学</a></h3>
      <p class="summary">私たちは、人間の数学教育学の方法が言語モデルのトレーニングを算術推論に導くことができるかどうかを調査します。 GASING メソッド (トークン生成の因果関係に沿った左から右への手順で基本的な算術計算を解くインドネシアの教育学) に基づいて、各操作を計算手順として運用し、その実行トレースが自然言語の思考連鎖 (CoT) 監視にシリアル化されます。インドネシア語用の音節凝集型 TOBA トークナイザーを備えた小型 GPT-2 デコーダー (86M パラメーター) は、強化学習や報酬ベースの最適化を行わずに、次のトークンの予測目標のみを使用して、このデータに基づいて最初からトレーニングされます。トレーニングのモニタリングにより、3 つの異なる学習段階が明らかになり、機構分析 (CoT 情報グラフへの注意マスキング介入、残差ストリームの調査、ロジットレンズ検査) から、モデルが最初に手続き型経路を内部化し、その後、明示的なステップごとの計算を行わずに中間結果を取得する連想的な「暗算」能力を開発することが示されました。トレーニングされたモデルは、保留された問題に対して 80% 以上の精度に達し、大幅に大規模な言語モデルに対して競争力のあるパフォーマンスを達成しました。これは、対象を絞った教育学的に根拠のあるトレーニングにより、小規模でも強力で経済的な算術能力を生み出すことができることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Arithmetic Pedagogy for Language Models</p>
        <p class="orig-summary">We investigate whether methods of human mathematics pedagogy can guide the training of language models toward arithmetic reasoning. Building on the GASING method -- an Indonesian pedagogy that solves basic arithmetic through a left-to-right procedure aligned with the causal order of token generation -- we operationalize each operation as a computational procedure whose execution trace is serialized into natural-language Chain-of-Thought (CoT) supervision. A small GPT-2 decoder (86M parameters) with a syllabic-agglutinative TOBA tokenizer for Indonesian is trained from scratch on this data using only a next-token prediction objective, without reinforcement learning or reward-based optimization. Monitoring training reveals three distinct learning phases, and mechanistic analyses -- attention-masking interventions on the CoT information graph, residual-stream probing, and logit-lens inspection -- show that the model first internalizes a procedural pathway and subsequently develops an associative, ``mental-arithmetic&#x27;&#x27; capacity that retrieves intermediate results without explicit step-by-step computation. The trained model reaches over 80% accuracy on held-out problems and attains competitive performance against substantially larger language models, indicating that targeted, pedagogically grounded training can yield strong and economical arithmetic capability at small scale.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1e616a4ec588" data-article-url="https://arxiv.org/abs/2606.05107" data-article-title="ラベルが必要なのは誰ですか?すでに持っているメタデータを使用して Vision Foundation モデルを適応させる" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05107" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05107" target="_blank" rel="noopener">ラベルが必要なのは誰ですか?すでに持っているメタデータを使用して Vision Foundation モデルを適応させる</a></h3>
      <p class="summary">私たちは、強力だが汎用的なビジョン基盤モデルを特殊な科学領域に適応させるラベルフリーのアプローチを提案します。標準的な教師あり微調整は、多くの場合、これらの設定には適していません。ラベルが不足しており、タスク固有のトレーニングではモデルの一般性が崩壊し、堅牢性が損なわれる可能性があります。代わりに、メタデータを活用して、自己監視型の方法で表現を新しいドメインに適応させます。私たちの手法である FINO は、標準的な自己教師あり目標と、非常に粒度の高い離散メタデータと連続メタデータの両方を処理する柔軟なメタデータ ガイダンスを組み合わせています。これは、偽の要素を抑制しながら、有益な要素を保持する表現を奨励します。 FINO は、細胞内蛍光顕微鏡、地球観察、野生動物のモニタリング、医療画像処理において、標準的な教師なしドメイン適応や完全教師あり適応を常に上回っています。また、バックボーン適応にタスクラベルを使用せず、監視に軽量プローブのみを使用しながら、高度に専門化されたドメイン固有の最先端技術を超えています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Who Needs Labels? Adapting Vision Foundation Models With the Metadata You Already Have</p>
        <p class="orig-summary">We propose a label-free approach to adapt powerful but generic vision foundation models to specialized scientific domains. Standard supervised fine-tuning is often ill-suited to these settings: labels are scarce, and task-specific training can collapse the model&#x27;s generality and hurt robustness. We instead leverage metadata to adapt representations to new domains in a self-supervised manner. Our method, FINO, combines a standard self-supervised objective with flexible metadata guidance that handles both highly granular discrete metadata and continuous metadata. It encourages the representation to preserve informative factors while suppressing spurious ones. Across subcellular fluorescence microscopy, Earth observation, wildlife monitoring, and medical imaging, FINO consistently outperforms standard unsupervised domain adaptation and fully supervised adaptation. It also exceeds highly-specialized domain-specific state of the art, while using no task labels for backbone adaptation and only lightweight probes for supervision.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="10af44f002f7" data-article-url="https://arxiv.org/abs/2606.05115" data-article-title="子供の自己中心的なインプットによる継続的な視覚的および言語的学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05115" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05115" target="_blank" rel="noopener">子供の自己中心的なインプットによる継続的な視覚的および言語的学習</a></h3>
      <p class="summary">子どもたちは、時間的に構造化された継続的な自己中心的な経験の流れから言葉の意味を学びます。最近の研究では、ニューラルネットワークは子供の自己中心的なビデオ録画からも単語参照マッピングを学習できることが示されているが、それらはシャッフルされたデータを数百エポックにわたって循環しており、子供たちが実際に環境に遭遇する様子とは対照的である。私たちは、SAYCam データセットを単一の時系列パスで処理し、ストリーミング視覚表現学習と画像テキスト対比目標を組み合わせた継続的マルチモーダル学習フレームワークである BabyCL を紹介します。 BabyCL は、ストリームの多段階の時間的セグメンテーションと、ビジュアル履歴とマルチモーダル履歴を個別に管理するデュアル リプレイ バッファーを組み合わせ、共有バックボーン上で 3 つの対照的な損失を使用して共同トレーニングされます。一致した最適化予算の下で、BabyCL は SAYCam Labeled-S 4AFC ベンチマークでストリーミング学習ベースラインを上回り、オフライン トレーニングの上限との差を大幅に狭めます。アブレーションは、オンライン時間セグメンテーション ウィンドウの長さとリプレイ バッファーの排除ルールに対してゲインが堅牢であることを示しています。まとめると、これらの結果は、子供の実際の経験にはるかに近い訓練条件下で、意味のある単語参照マッピングが現れる可能性があることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Continual Visual and Verbal Learning Through a Child&#x27;s Egocentric Input</p>
        <p class="orig-summary">Children learn the meanings of words from a continuous, temporally structured stream of egocentric experience. Recent work shows that neural networks can also learn word-referent mappings from a child&#x27;s egocentric video recordings, but they cycle through the shuffled data for hundreds of epochs, contrasting with how children actually encounter their environment. We introduce BabyCL, a continual multimodal learning framework that processes the SAYCam dataset in a single chronological pass, combining streaming visual representation learning with an image-text contrastive objective. BabyCL combines a multi-stage temporal segmentation of the stream with a dual replay buffer that independently manages visual and multimodal histories, and it is jointly trained with three contrastive losses on a shared backbone. Under a matched optimization budget, BabyCL outperforms streaming learning baselines on the SAYCam Labeled-S 4AFC benchmark, substantially narrowing the gap to an upper bound of offline training. Ablations show that the gains are robust to the length of the online temporal segmentation window and the eviction rule of the replay buffer. Together, these results show that meaningful word-referent mappings can emerge under training conditions much closer to a child&#x27;s actual experience.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="426518b2a7c7" data-article-url="https://arxiv.org/abs/2606.05121" data-article-title="オーディオインタラクションモデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05121" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05121" target="_blank" rel="noopener">オーディオインタラクションモデル</a></h3>
      <p class="summary">オーディオは本質的にインタラクティブなモダリティですが、今日の大規模オーディオ言語モデル (LALM) はオフラインであり、ストリーミング オーディオ モデルはそれぞれストリーミング ASR や音声チャットなどの単一タスクのみを処理します。それらを 1 つのオンライン LALM に統合する時が来ました。LALM は、常時オンの知覚、決定、応答ループを通じて、音、環境、指示をリアルタイムで聞き、その場で反応するモデルです。私たちはこの体制をオーディオ インタラクション モデルとして形式化し、オーディオ インタラクションで実現します。これは、オフライン タスクの実行を保持しながら、対話からフル ボイス チャットに至るまでのオンラインの一般的な音声指示を追加し、ストリームのセマンティクスからいつ応答するかを決定する統合ストリーミング モデルです。これを可能にするために、ストリーミングネイティブのデータ構築、理解を意識したトレーニング、安定したリアルタイムインタラクションのための非同期低遅延推論を通じて、データからトレーニング、デプロイメントに至るまで、認識・決定・応答ループをエンドツーエンドでインスタンス化するフレームワークである SoundFlow を提案します。さらに、7 つの基本能力と 28 のサブタスクにわたる 260 万項目のストリーミング コーパスである StreamAudio-2M と、プロアクティブな音声介入を評価するための Proactive-Sound-Bench を構築します。 8 つのベンチマークにわたって、Audio-Interaction は主流のオーディオ タスクで競争力のあるパフォーマンスを維持しながら、リアルタイム ASR、ストリーミング オーディオ命令のフォロー、プロアクティブ ヘルプなど、オフライン LALM ではアクセスできない機能を解放します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Audio Interaction Model</p>
        <p class="orig-summary">Audio is an inherently interactive modality, yet today&#x27;s Large Audio Language Models (LALMs) are offline, and streaming audio models each handle only a single task such as streaming ASR or voice chatting. It is time to unify them into one online LALM: a model that, through an always-on perceive-decide-respond loop, listens to sound, environment, and instructions in real time and reacts on the fly. We formalize this regime as the Audio Interaction Model, and realize it with Audio-Interaction, a unified streaming model that retains offline task execution while adding online general audio instruction following, from dialogue to full voice chatting, deciding when to respond from the semantics of the stream. To enable this, we propose SoundFlow, a framework that instantiates the perceive-decide-respond loop end to end, from data to training to deployment, through streaming-native data construction, comprehension-aware training, and asynchronous low-latency inference for stable real-time interaction. We further construct StreamAudio-2M, a 2.6M-item streaming corpus spanning 7 fundamental abilities and 28 sub-tasks, and Proactive-Sound-Bench for evaluating proactive audio intervention. Across 8 benchmarks, Audio-Interaction preserves competitive performance on mainstream audio tasks while unlocking capabilities inaccessible to offline LALMs, including real-time ASR, streaming audio instruction following, and proactive help.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4051d969919b" data-article-url="https://arxiv.org/abs/2606.05130" data-article-title="LLM 駆動エージェントによる効率的で証拠に基づくモビリティ予測に向けて" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05130" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05130" target="_blank" rel="noopener">LLM 駆動エージェントによる効率的で証拠に基づくモビリティ予測に向けて</a></h3>
      <p class="summary">個人レベルのモビリティ予測は、都市シミュレーション、交通計画、政策分析の中心となります。教師ありシーケンス モデルは高い精度を実現しますが、タスク固有のトレーニングが必要であり、意思決定レベルの透明性は限られています。最近の LLM ベースの手法は解釈可能性を向上させていますが、ほとんどが静的プロンプトとシングルパス推論に依存しているため、モビリティ信号が弱いか矛盾している場合に追加の証拠を探す能力が制限されています。私たちは、次の場所の予測を適応的な証拠に基づいた意思決定として定式化する、トレーニング不要の LLM 駆動のエージェント フレームワークである \method{} を提案します。 \method{} は、歴史的な規則性に基づく高速パスを通じて日常的なケースを解決しますが、あいまいなケースでは、最近の軌跡、過去の動作、滞在と移動の可能性、および地理的証拠に基づいて反復的なツールの使用がトリガーされます。 3 つのモビリティ データセット全体で、AgentMob はトレーニング不要の LLM ベースの手法の中で最も強力な総合パフォーマンスを達成し、GPT-5.4 は BW で​​ 71.42\% Acc@1、YJMob100K で 33.14\%、上海 ISP で 33.50\% に達しました。 BW 非高速パスのケースでは、LLM コントローラーは、同じツールの統計ベースラインと比較して Acc@1 を 30.65\% から 48.62\% に改善します。これは、その主な利点が、適応的な証拠収集を通じて曖昧な予測を解決することにあることを示しています。コードは https://github.com/Unknown-zoo/AgentMob で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Towards Efficient and Evidence-grounded Mobility Prediction with LLM-Driven Agent</p>
        <p class="orig-summary">Individual-level mobility prediction is central to urban simulation, transportation planning, and policy analysis. Supervised sequence models achieve strong accuracy but require task-specific training and offer limited decision-level transparency. Recent LLM-based methods improve interpretability, yet mostly rely on static prompts and single-pass inference, limiting their ability to seek additional evidence when mobility signals are weak or conflicting. We propose \method{}, a training-free LLM-driven agent framework that formulates next-location prediction as adaptive evidence-controlled decision making. \method{} resolves routine cases through a fast path based on historical regularity, while ambiguous cases trigger iterative tool use over recent trajectories, historical behavior, stay-move likelihood, and geographical evidence. Across three mobility datasets, AgentMob achieves the strongest overall performance among training-free LLM-based methods, with GPT-5.4 reaching 71.42\% Acc@1 on BW, 33.14\% on YJMob100K, and 33.50\% on Shanghai ISP. On BW non-fast-path cases, the LLM controller improves Acc@1 from 30.65\% to 48.62\% over a same-tool statistical baseline, showing that its main benefit lies in resolving ambiguous predictions through adaptive evidence gathering. Our code is available at https://github.com/Unknown-zoo/AgentMob.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dbe016d64d6d" data-article-url="https://arxiv.org/abs/2606.05142" data-article-title="GeM-NR: 非剛体シーン変更のためのジオメトリ対応マルチビュー編集" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05142" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05142" target="_blank" rel="noopener">GeM-NR: 非剛体シーン変更のためのジオメトリ対応マルチビュー編集</a></h3>
      <p class="summary">生成モデルを使用したマルチビュー画像編集の最近の開発により、一般的な 3D コンテンツの生成とカスタマイズに一歩近づいています。既存の作品のほとんどは、未編集のシーンのジオメトリを利用した、厳密な編集または外観のみの編集に焦点を当てています。これにより、当然のことながら、これらの方法は、基礎となるシーン構造を保存する編集に限定されます。他のアプローチは、オブジェクトの削除や追加など、特定の画像編集タスク用にトレーニングされています。この進歩にもかかわらず、一般的な非剛体編集、つまりシーンのジオメトリを大幅に変更する編集は、既存の方法にとって依然として困難です。私たちは、シーンのジオメトリや外観を大幅に変更する編集を含む、一般的なマルチビューの一貫した画像編集のための、高速で柔軟なトレーニング不要のアプローチである GeM-NR を提案します。選択したバックボーン エディター (FLUX、Qwen、BrushNet など) で編集されたアンカー画像と、編集されていないクエリ画像が与えられると、GeM-NR はアンカー編集と一貫してクエリ画像を編集します。この方法には複数の段階が組み込まれています: (i) 編集済みシーンと未編集のシーンの 3D 点群間の位置合わせを最大化する戦略を提案する深度マップ推定、(ii) クエリ視点への投影、および (iii) 未編集のクエリを条件として取得された画像の改良。コンディショニングベースの定式化は、オブジェクトの 2 つのビューから多数のビューまで適切に拡張できます。既存の方法では困難である、ジオメトリと外観の大幅な変更を伴う編集を処理するこの方法の能力を実証します。私たちは広範な評価を実行し、この方法が編集シーンの 3D 表現の生成を含むさまざまな編集タスクの一貫性を向上させることを示しました。定量的結果と定性的結果の両方は、編集品質、および複数のビューにわたる幾何学的および測光の一貫性の点で、この方法の最先端のパフォーマンスを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GeM-NR: Geometry-Aware Multi-View Editing for Nonrigid Scene Changes</p>
        <p class="orig-summary">Recent developments in multi-view image editing with generative models have brought us a step closer toward general 3D content generation and customization. Most existing works focus on rigid or appearance-only edits by utilizing the geometry of the unedited scene. This naturally limits these methods to edits that preserve the underlying scene structure. Other approaches are trained for specific image editing tasks, such as object removal and addition. Despite this progress, general nonrigid edits, i.e., edits that substantially change the scene geometry, remain challenging for existing methods. We propose GeM-NR, a fast and flexible training-free approach for general multi-view consistent image editing, including edits that drastically change the geometry and appearance of the scene. Given an anchor image edited with a chosen backbone editor (such as FLUX, Qwen, BrushNet) and a query unedited image, GeM-NR edits the query image consistently with the anchor edit. The method incorporates multiple stages: (i) depth map estimation, where we propose a strategy to maximize the alignment between the 3D point clouds of the edited and unedited scenes, (ii) projection onto a query viewpoint, and (iii) refinement of the obtained image conditioned on the unedited query. The conditioning-based formulation scales well from two to many views of an object. We demonstrate the ability of our method to handle edits with significant changes in geometry and appearance, something that existing methods struggle with. We perform an extensive evaluation showing that our method improves consistency for a wide variety of edit tasks, including generating 3D representations of the edited scene. Both quantitative and qualitative results indicate the state-of-the-art performance of our method in terms of edit quality as well as geometric and photometric consistency across multiple views.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d75312895121" data-article-url="https://arxiv.org/abs/2606.05145" data-article-title="失敗した推論トレースから何が修正可能かを教えてくれます (ただし、それを読むことではわかりません)" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05145" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05145" target="_blank" rel="noopener">失敗した推論トレースから何が修正可能かを教えてくれます (ただし、それを読むことではわかりません)</a></h3>
      <p class="summary">トレーニング後の言語モデルが推論の問題で失敗した場合、一般的なテスト時間のスケーリング対応は、追加の試行により多くの計算を費やし、失敗したトレースはそれ以上の役割を果たさないことです。私たちは、これは重要なシグナルを破棄していると主張します。一部の失敗は不運なサンプリングによって発生し、より多くのロールアウトが役立ちますが、他の失敗は構造的なものであり、予算に関係なく再サンプリングに抵抗します。私たちは、失敗したトレースが回復可能構造、つまりテスト時の介入によって特定の失敗を救済できる推論時の署名をエンコードしていると提案します。利用可能な介入の構造から導出された 3 つの問題レベルの軌跡の特徴は、失敗したロールアウトのテキストではなく、配布の署名からこの構造を復元します。これらは、障害を安定した領域にクラスタリングし、さまざまなトレーニング後の方法の障害トポグラフィーを特徴付け ($84.3{\pm}4.3\%$ の精度、過半数クラスのベースラインより $+20\%$)、デプロイメント関連の Steerable-Hard サブセット (再試行が不十分で制限された介入が到達可能な障害) でレスキューを $+12.2\%$ 引き上げるトレーニング不要のルーティング ルールをサポートします。機能とルーティング ルールは、2 つのファミリー間プローブ間で転送されます。したがって、同じ 3 つの機能は、破棄されたデータから失敗したトレースを診断オブジェクトに変換し、トレーニング時や重み空間にアクセスすることなく、テスト時のルーティングとトレーニング後の分析をサポートします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Failed Reasoning Traces Tell You What Is Fixable (But Not by Reading Them)</p>
        <p class="orig-summary">When post-trained language models fail on reasoning problems, the common test-time-scaling response is to spend more compute on additional attempts, and the failed traces play no further role. We argue this discards a crucial signal; some failures come from unlucky sampling, where more rollouts help, while others are structural and resist resampling regardless of budget. We propose that failed traces encode recoverability structure: the inference-time signature of which test-time interventions can rescue a given failure. Three problem-level trajectory features, derived from the structure of available interventions, recover this structure from the distributional signature of failed rollouts, not their text. They cluster failures into stable regimes, characterize the failure topography of different post-training methods ($84.3{\pm}4.3\%$ accuracy, $+20\%$ over a majority-class baseline), and support a training-free routing rule that lifts rescue by $+12.2\%$ on the deployment-relevant Steerable-Hard subset (failures where retry is insufficient and a bounded intervention is reachable). The features and the routing rule transfer across two cross-family probes. The same three features thus convert failed traces from discarded data into a diagnostic object, supporting test-time routing and post-training analysis without training-time or weight-space access.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cd8f01b59235" data-article-url="https://arxiv.org/abs/2606.05150" data-article-title="適応および非適応粒子群最適化を使用したマルチカラム RBF ニューラル ネットワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05150" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05150" target="_blank" rel="noopener">適応および非適応粒子群最適化を使用したマルチカラム RBF ニューラル ネットワーク</a></h3>
      <p class="summary">勾配降下アルゴリズムでトレーニングされた放射基底関数ニューラル ネットワーク (RBFN) は、浅いネットワークと深いネットワークの両方で効果的な完全結合構造を提供します。最先端の勾配ベースのトレーニング方法である誤り訂正 (ErrCor) は、最適な隠れユニットを選択して精度を向上させます。あるいは、集団ベースのアルゴリズムとして、粒子群最適化アルゴリズム (PSO) は群エクスペリエンスを使用して RBFN パラメーターを最適化し、グローバル検索と極小値に対する堅牢性を提供します。アダプティブ PSO (APSO) は、PSO の改良版として登場しました。 APSO アルゴリズムは、最適化中に群パラメータを動的に調整することで収束速度を向上させます。 ErrCor と PSO は両方とも、改善された結果と競合する収束を示しています。ただし、大規模なデータセットでは、これらの方法は過剰なカーネル計算や大規模な隠れ層構造などのスケーラビリティの課題に直面します。最近のマルチカラム RBFN アプローチ (MCRN) は、並列システムに小さな RBFN を展開することで ErrCor のパフォーマンスを向上させます。 MCRN の成功に触発されて、PSO のパフォーマンスを向上させるための 2 つの新しいアプローチ、つまり PSO を使用したマルチカラム RBFN (MC-PSO) と APSO を使用したマルチカラム RBFN (MC-APSO) を提案します。これらの方法では、進化的群法を使用してトレーニングされた並列 RBFN 構造が導入されます。各 RBFN は、PSO または APSO アルゴリズムを使用して、データセットの特定の空間サブセットで個別にトレーニングされます。結果として得られる専門家によって訓練された RBFN は、それぞれのサブセットに合わせて調整されます。テスト中、隣接するテスト インスタンスが配置されている選択された RBFN のみが複数列出力に寄与します。この特殊化により精度が向上し、並列処理により速度が向上します。提案された手法をさまざまなベンチマーク データセットで評価します。 MC-PSO および MC-APSO は、精度と再現率の点で ErrCor、PSO、APSO、および MCRN よりも優れています。また、ほとんどの実験でトレーニングとテストの時間が短縮されることも実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Multi-Column RBF Neural Network Using Adaptive and Non-Adaptive Particle Swarm Optimization</p>
        <p class="orig-summary">The radial basis function neural network (RBFN) trained with a gradient descending algorithm provides an effective fully connected structure in both shallow and deep networks. The error correction (ErrCor), a state-of-the-art gradient-based training method, selects optimal hidden units to improve accuracy. Alternatively, as a population-based algorithm, the particle swarm optimization algorithm (PSO) uses the swarm experience to optimize RBFN parameters, offering global search and robustness to local minima. Adaptive PSO (APSO) has emerged as an improved variant of PSO. APSO algorithm improves convergence speed by dynamically adjusting swarm parameters during optimization. Both ErrCor and PSO demonstrate improved results and competitive convergence. However, with large datasets, these methods face scalability challenges such as excessive kernel computations and large hidden layer structures. A recent multi-column RBFN approach (MCRN) improves ErrCor performance by deploying small RBFNs in a parallel system. Inspired by MCRN&#x27;s success, we propose two novel approaches to improve PSO performance: the multi-column RBFN with PSO (MC-PSO) and the multi-column RBFN with APSO (MC-APSO). These methods introduce parallel RBFN structures trained using evolutionary swarm methods. Each RBFN is independently trained on a specific spatial subset of the dataset using either PSO or APSO algorithms. These resulting specialist-trained RBFNs are tailored to their respective subsets. During testing, only selected RBFNs, where the test instance neighbors are located, contribute to the multi-column output. This specialization improves accuracy, while parallelism enhances speed. We evaluate the proposed methods on various benchmark datasets. The MC-PSO and MC-APSO outperform ErrCor, PSO, APSO, and MCRN in terms of accuracy and recall. They also demonstrate faster training and testing times in most experiments.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="247507860744" data-article-url="https://arxiv.org/abs/2606.05152" data-article-title="分布型 DAgger による豊富なフィードバックからの強化学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05152" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05152" target="_blank" rel="noopener">分布型 DAgger による豊富なフィードバックからの強化学習</a></h3>
      <p class="summary">推論モデルは急速に進歩しましたが、検証可能な報酬からの支配的な強化学習 (RLVR) レシピは驚くほど狭いままです。多くの応答をサンプリングし、最終的な答えが正しいかどうかを示す 1 ビットで各応答に報酬を与えます。さらに、多くの設定では、実行トレース、ツール出力、専門家による修正、モデルの自己評価など、豊富なフィードバックが提供されます。私たちは、古典的な模倣学習アルゴリズム DAgger の分布型バリアントを通じて、そのようなフィードバックを使用する方法を研究します。この場合、学習者は、現在のポリシーが訪問する州に関する専門家分布にローカルにアクセスできます。これにより、ブラックボックス専門家とその配列レベルの勾配が、将来の専門家と学生の意見の相違を以前の決定にまで「伝播させることによって豊富な単位の割り当てを行う」ことを認める、単純な順方向クロスエントロピー目標が得られます。我々は、逆KLまたはジェンセン・シャノンに基づく自己蒸留目標を備えた以前のRLでは、単調な政策改善を保証できないことを示します。たとえ専門家がより高い報酬を得ていたとしても、その更新により、より悪いアクションの確率が増加する可能性があります。対照的に、順方向クロスエントロピーは単調な政策改善を認め、後悔の保証を享受できることを示します。さらに、私たちの目標が教師に重み付けされた成功の可能性の下限を最適化し、Pass@N の向上につながることを示します。経験的に、私たちのアプローチである DistIL は、科学的推論、コーディング、難しい数学的問題の解決など、さまざまな領域にわたる自己蒸留ベースラインにより、RLVR および RL よりも改善されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Reinforcement Learning from Rich Feedback with Distributional DAgger</p>
        <p class="orig-summary">Reasoning models have advanced rapidly, but the dominant reinforcement learning from verifiable rewards (RLVR) recipe remains surprisingly narrow: sample many responses and reward each with a single bit indicating whether the final answer is correct. Yet many settings provide rich feedback, including execution traces, tool outputs, expert corrections, and model self-evaluations. We study how to use such feedback through a distributional variant of the classic imitation learning algorithm DAgger, where the learner has local access to an expert distribution on states visited by the current policy. This yields a simple forward cross-entropy objective that admits a blackbox expert and whose sequence-level gradient {conduct rich credit assignment by propagating} future expert-student disagreement back to earlier decisions. We show that prior RL with self-distillation objectives based on reverse KL or Jensen-Shannon fail to guarantee monotonic policy improvement: even when the expert has higher reward, their updates may increase probability on worse actions. In contrast, we show that forward cross-entropy admits monotonic policy improvement and enjoys guarantees on regret. We further show that our objective optimizes a lower bound on teacher-weighted likelihood of success, leading to improved Pass@N. Empirically, our approach, DistIL, improves over RLVR and RL with self-distillation baselines across a variety of domains: scientific reasoning, coding, and solving hard mathematical problems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dd1e47391d77" data-article-url="https://arxiv.org/abs/2606.05158" data-article-title="マルチエージェント推論におけるストリーミング通信" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05158" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05158" target="_blank" rel="noopener">マルチエージェント推論におけるストリーミング通信</a></h3>
      <p class="summary">マルチエージェント推論システムは、エンドツーエンドのレイテンシーをパイプラインの深さに応じて線形に拡張する「生成してから転送」パラダイムを採用しています。 StreamMA は、各推論ステップが生成されるとすぐに下流のエージェントにストリーミングし、隣接するエージェントをパイプライン化して待ち時間を短縮するマルチエージェント推論システムです。驚くべきことに、このパイプラインは有効性も向上させます。マルチステップの推論の品質は不均一で、初期のステップは後のステップよりも信頼性が高いため、完全なチェーンではなくこれらの信頼できる初期ステップを使用することで、エラーが発生しやすい後期ステップが下流エージェントに誤解を与えることを防ぎます。ストリーム、シリアル、および単一プロトコルの最初の閉じた形式の結合分析によって両方の利点を形式化し、有効性の順序付け、高速化の上限、およびコスト比を導き出します。数学、科学、コードにわたる 8 つの推論ベンチマーク、2 つのフロンティア LLM (Claude Opus 4.6 および GPT-5.4)、および 3 つのトポロジ (チェーン、ツリー、グラフ) にわたって、StreamMA は両方のベースラインを上回りました (HMMT 2026 で平均 +7.3 pp、最大 +22.4 pp、Claude Opus 4.6-高)。これらの貢献を超えて、「ステップレベルのスケーリング則」を発見しました。つまり、エージェントごとのステップを増やすと、有効性と効率の両方が一貫して向上します。これは、エージェント数のスケーリングと直交し、エージェント数のスケーリングと組み合わせ可能な新しいスケーリングの次元です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Streaming Communication in Multi-Agent Reasoning</p>
        <p class="orig-summary">Multi-agent reasoning systems adopt a &quot;generate-then-transfer&quot; paradigm that forces end-to-end latency to scale linearly with pipeline depth. We introduce StreamMA, a multi-agent reasoning system that streams each reasoning step to downstream agents as soon as it is generated, pipelining adjacent agents and thus reducing latency. Surprisingly, this pipelining also improves effectiveness: because multi-step reasoning quality is non-uniform and early steps are more reliable than later ones, working with these reliable early steps instead of the full chain prevents error-prone late steps from misleading downstream agents. We formalize both advantages with the first closed-form joint analysis of stream, serial, and single protocols, deriving the effectiveness ordering, speedup upper bound, and cost ratio. Across eight reasoning benchmarks spanning mathematics, science, and code, two frontier LLMs (Claude Opus 4.6 and GPT-5.4), and three topologies (Chain, Tree, Graph), StreamMA outperforms both baselines (avg. +7.3 pp, max +22.4 pp on HMMT 2026; Claude Opus 4.6-high). Beyond these contributions, we discover a &quot;step-level scaling law&quot;: increasing per-agent steps consistently improves both effectiveness and efficiency, a new scaling dimension orthogonal to and composable with agent-count scaling.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f648934d2bf" data-article-url="https://arxiv.org/abs/2505.17315" data-article-title="より長いコンテキスト、より深い思考: 推論における長いコンテキスト能力の役割を明らかにする" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.17315" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.17315" target="_blank" rel="noopener">より長いコンテキスト、より深い思考: 推論における長いコンテキスト能力の役割を明らかにする</a></h3>
      <p class="summary">最近の言語モデルは強力な推論能力を示していますが、長い文脈の能力が推論に及ぼす影響はまだ解明されていません。この研究では、現在の推論の制限は、部分的には、ロングコンテキストの能力が不十分であることに起因しており、(1) コンテキストウィンドウの長さが長いほど推論のパフォーマンスが向上することが多く、(2) 推論に失敗したケースは、失敗したロングコンテキストのケースに似ている、などの経験的観察によって動機付けられていると仮説を立てています。この仮説を検証するために、教師あり微調整 (SFT) の前にモデルのロングコンテキスト能力を強化することが推論パフォーマンスの向上につながるかどうかを調べます。具体的には、同一のアーキテクチャと微調整データを備えているが、ロングコンテキスト容量のレベルが異なるモデルを比較しました。私たちの結果は一貫した傾向を示しています。つまり、より強力なロングコンテキスト能力を持つモデルは、SFT 後の推論ベンチマークで大幅に高い精度を達成します。特に、これらの向上は入力長が短いタスクでも持続しており、長いコンテキストのトレーニングが推論パフォーマンスに一般化可能な利点を提供していることを示しています。これらの発見は、ロングコンテキストモデリングが長い入力を処理するために不可欠であるだけでなく、推論のための重要な基盤としても機能することを示唆しています。私たちは、将来の言語モデルの設計において、長いコンテキストの能力を第一級の目標として扱うことを主張します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning</p>
        <p class="orig-summary">Recent language models exhibit strong reasoning capabilities, yet the influence of long-context capacity on reasoning remains underexplored. In this work, we hypothesize that current limitations in reasoning stem, in part, from insufficient long-context capacity, motivated by empirical observations such as (1) higher context window length often leads to stronger reasoning performance, and (2) failed reasoning cases resemble failed long-context cases. To test this hypothesis, we examine whether enhancing a model&#x27;s long-context ability before Supervised Fine-Tuning (SFT) leads to improved reasoning performance. Specifically, we compared models with identical architectures and fine-tuning data but varying levels of long-context capacity. Our results reveal a consistent trend: models with stronger long-context capacity achieve significantly higher accuracy on reasoning benchmarks after SFT. Notably, these gains persist even on tasks with short input lengths, indicating that long-context training offers generalizable benefits for reasoning performance. These findings suggest that long-context modeling is not just essential for processing lengthy inputs, but also serves as a critical foundation for reasoning. We advocate for treating long-context capacity as a first-class objective in the design of future language models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1ea440e8c075" data-article-url="https://arxiv.org/abs/2506.10912" data-article-title="悪い分子の破壊: MLLM は構造レベルの分子解毒の準備ができていますか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.10912" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.10912" target="_blank" rel="noopener">悪い分子の破壊: MLLM は構造レベルの分子解毒の準備ができていますか?</a></h3>
      <p class="summary">毒性は依然として、初期段階の医薬品開発の失敗の主な原因です。分子設計と特性予測の進歩にもかかわらず、毒性が低減された構造的に有効な分子代替物を生成する分子毒性修復の課題は、まだ体系的に定義されず、ベンチマークも確立されていません。このギャップを埋めるために、分子毒性修復に焦点を当てた汎用マルチモーダル大規模言語モデル (MLLM) の最初のベンチマーク タスクである ToxiMol を紹介します。私たちは、さまざまなメカニズムと粒度にわたる 11 の主要なタスクと 660 の代表的な有毒分子をカバーする標準化されたデータセットを構築します。私たちは、専門的な毒性学の知識に基づいて、メカニズムを認識し、タスクに適応する機能を備えた迅速なアノテーション パイプラインを設計します。並行して、毒性エンドポイント予測、合成アクセシビリティ、薬物らしさ、構造類似性を修復成功のためのハイスループット評価チェーンに統合する自動評価フレームワーク ToxiEval を提案します。当社は 43 の主流の汎用 MLLM を体系的に評価し、複数のアブレーション研究を実施して、評価指標、候補の多様性、失敗の原因などの重要な問題を分析します。実験結果は、現在の MLLM がこのタスクに関して依然として大きな課題に直面しているものの、毒性の理解、意味論的制約の順守、および構造を意識した編集において有望な能力を実証し始めていることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification?</p>
        <p class="orig-summary">Toxicity remains a leading cause of early-stage drug development failure. Despite advances in molecular design and property prediction, the task of molecular toxicity repair, generating structurally valid molecular alternatives with reduced toxicity, has not yet been systematically defined or benchmarked. To fill this gap, we introduce ToxiMol, the first benchmark task for general-purpose Multimodal Large Language Models (MLLMs) focused on molecular toxicity repair. We construct a standardized dataset covering 11 primary tasks and 660 representative toxic molecules spanning diverse mechanisms and granularities. We design a prompt annotation pipeline with mechanism-aware and task-adaptive capabilities, informed by expert toxicological knowledge. In parallel, we propose an automated evaluation framework, ToxiEval, which integrates toxicity endpoint prediction, synthetic accessibility, drug-likeness, and structural similarity into a high-throughput evaluation chain for repair success. We systematically assess 43 mainstream general-purpose MLLMs and conduct multiple ablation studies to analyze key issues, including evaluation metrics, candidate diversity, and failure attribution. Experimental results show that although current MLLMs still face significant challenges on this task, they begin to demonstrate promising capabilities in toxicity understanding, semantic constraint adherence, and structure-aware editing.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="808a36b8826c" data-article-url="https://arxiv.org/abs/2510.01902" data-article-title="制約付き適応拒否サンプリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.01902" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.01902" target="_blank" rel="noopener">制約付き適応拒否サンプリング</a></h3>
      <p class="summary">言語モデル (LM) は、生成された出力が厳密な意味論的または構文上の制約を満たす必要があるアプリケーションで使用されることが増えています。制約付き生成に対する既存のアプローチはさまざまです。貪欲な制約付きデコード方法は、デコード中に有効性を強制しますが、LM の分布を歪めます。一方、リジェクション サンプリング (RS) は忠実度を維持しますが、無効な出力を破棄することで計算を無駄にします。サンプルの有効性と多様性の両方が重要であるプログラム ファジングなどの領域では、両極端が問題となります。我々は、分布歪みを生じさせずに RS のサンプル効率を厳密に改善するアプローチである、制約付き適応除去サンプリング (CARS) を紹介します。 CARS は、制約のない LM サンプリングから始まり、制約違反の継続をトライに記録し、将来の描画から確率質量を差し引くことで、制約に違反する継続を適応的に除外します。この適応的な枝刈りにより、無効であることが証明されたプレフィックスが決して再検討されず、受け入れ率が単調に向上し、結果として得られるサンプルが制約された分布に正確に従うことが保証されます。プログラムのファジングや分子生成など、さまざまな領域の実験において、CARS は一貫して高い効率 (有効サンプルあたりの LM フォワードパスの数で測定) を達成すると同時に、GCD や LM の分布を近似する方法の両方よりも強力なサンプル多様性を生み出します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Constrained Adaptive Rejection Sampling</p>
        <p class="orig-summary">Language Models (LMs) are increasingly used in applications where generated outputs must satisfy strict semantic or syntactic constraints. Existing approaches to constrained generation fall along a spectrum: greedy constrained decoding methods enforce validity during decoding but distort the LM&#x27;s distribution, while rejection sampling (RS) preserves fidelity but wastes computation by discarding invalid outputs. Both extremes are problematic in domains such as program fuzzing, where both validity and diversity of samples are essential. We present Constrained Adaptive Rejection Sampling (CARS), an approach that strictly improves the sample-efficiency of RS without distributional distortion. CARS begins with unconstrained LM sampling and adaptively rules out constraint-violating continuations by recording them in a trie and subtracting their probability mass from future draws. This adaptive pruning ensures that prefixes proven invalid are never revisited, acceptance rates improve monotonically, and the resulting samples exactly follow the constrained distribution. In experiments on a variety of domains -- e.g., program fuzzing and molecular generation -- CARS consistently achieves higher efficiency -- measured in the number of LM forward passes per valid sample -- while also producing stronger sample diversity than both GCD and methods that approximate the LM&#x27;s distribution.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="27da600ad103" data-article-url="https://arxiv.org/abs/2510.11194" data-article-title="防御的な論理的思考を学ぶことで、深い暗黙の好みを調整する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.11194" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.11194" target="_blank" rel="noopener">防御的な論理的思考を学ぶことで、深い暗黙の好みを調整する</a></h3>
      <p class="summary">大規模言語モデル (LLM) がユーザー中心の対話に効果的に関与できるようにするには、パーソナライズされた調整が不可欠です。しかし、現在の手法は二重の課題に直面しています。つまり、ユーザーの深い暗黙の好み（明示されていない目標、意味論的コンテキスト、リスク許容度など）を推測することができず、現実世界のあいまいさを乗り越えるために必要な防御的推論が欠けています。この認知ギャップは、表面的で脆弱で近視眼的な反応を引き起こします。これに対処するために、我々は、アラインメントをスカラー報酬マッチングタスクから構造化された推論プロセスに再構築する、批判駆動推論アラインメント (CDRA) を提案します。まず、プリファレンス推論のギャップを埋めるために、DeepPref ベンチマークを導入します。このデータセットは、20 のトピックにわたる 3000 のプリファレンスとクエリのペアで構成されており、クエリのセマンティクスを解体して潜在的なリスクを明らかにするために、批判注釈付きの推論チェーンを生成する多面的な認知評議会をシミュレートすることによってキュレーションされています。第 2 に、防御的推論を植え付けるために、報酬モデリングを個人化された推論タスクとして組み立てる、個人化された生成プロセス報酬モデル (Pers-GenPRM) を導入します。この理論的根拠に基づいて最終スコアを出力する前に、ユーザーの好みと応答の整合性を評価するための批評チェーンを生成します。最終的に、この解釈可能で構造化された報酬信号は、数値フィードバックと自然言語フィードバックの両方を統合するプロセスレベルのオンライン強化学習アルゴリズムである批判主導型政策調整を通じて政策モデルを導きます。実験では、CDRA が、堅牢な推論を実行しながら、ユーザーの真の好みを発見して調整することに優れていることが実証されています。コードとデータセットは https://github.com/Zephyrian-Hugh/Deep-pref で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Aligning Deep Implicit Preferences by Learning to Reason Defensively</p>
        <p class="orig-summary">Personalized alignment is crucial for enabling Large Language Models (LLMs) to engage effectively in user-centric interactions. However, current methods face a dual challenge: they fail to infer users&#x27; deep implicit preferences (including unstated goals, semantic context and risk tolerances), and they lack the defensive reasoning required to navigate real-world ambiguity. This cognitive gap leads to responses that are superficial, brittle and short-sighted. To address this, we propose Critique-Driven Reasoning Alignment (CDRA), which reframes alignment from a scalar reward-matching task into a structured reasoning process. First, to bridge the preference inference gap, we introduce the DeepPref benchmark. This dataset, comprising 3000 preference-query pairs across 20 topics, is curated by simulating a multi-faceted cognitive council that produces critique-annotated reasoning chains to deconstruct query semantics and reveal latent risks. Second, to instill defensive reasoning, we introduce the Personalized Generative Process Reward Model (Pers-GenPRM), which frames reward modeling as a personalized reasoning task. It generates a critique chain to evaluate a response&#x27;s alignment with user preferences before outputting a final score based on this rationale. Ultimately, this interpretable, structured reward signal guides policy model through Critique-Driven Policy Alignment, a process-level online reinforcement learning algorithm integrating both numerical and natural language feedback. Experiments demonstrate that CDRA excels at discovering and aligning with users&#x27; true preferences while executing robust reasoning. Our code and dataset are available at https://github.com/Zephyrian-Hugh/Deep-pref.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d57307a6f67c" data-article-url="https://arxiv.org/abs/2510.15416" data-article-title="アダプティブ マインド: LoRA-as-Tools でエージェントに権限を与える" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.15416" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.15416" target="_blank" rel="noopener">アダプティブ マインド: LoRA-as-Tools でエージェントに権限を与える</a></h3>
      <p class="summary">LoRA アダプターが、基本言語モデルが動的に選択して呼び出すことができる呼び出し可能なツールとして扱われるフレームワークを調査します。私たちは、アダプターがドメイン固有の強力な利益を提供するようにトレーニングされ、明確なメタデータで公開されている場合、基本モデルはクエリを適切な専門家に確実にルーティングし、単一のフレームワーク内に多くの特殊なアダプターの利点を効果的に集約できるという仮説を立てています。シングルステップ ルーティングとマルチステップ エージェント推論の両方を研究する一般的なフレームワークであるアダプティブ マインドを紹介します。この設定では、エージェントは他のツール (外部 API、取得システム、実行環境など) と一緒に複数のアダプターを繰り返し呼び出し、複数のステップにわたる出力を推論できます。これにより、アダプターは、静的に適用されるのではなく、推論中に構成できるモジュール式のスキルまたは記憶ユニットとして再構成されます。私たちの評価では、ルーティング層は 30 アダプター ライブラリで 98.3% の精度に達し、十分なトレーニングを受けた専門家は、単一の共有トレーニング レシピの下で 9 つのタスク ファミリ全体で +4.6 ～ +84.0 パーセンテージ ポイントの厳密スコアラー ゲインを提供しました。 AM ルーターは、クエリがドメイン信号を表面化するすべてのベンチマークで、直接のスペシャリストの 5 pp 以内にこれらのゲインを集計します。私たちの調査結果は、このアプローチの有効性は個々のアダプターの品質と専門性に依存し、そのような多くの専門家を柔軟に構成できるようにすることで、言語モデルエージェントの実践的な能力を大幅に拡張し、より一般的なツール拡張インテリジェンスに移行できることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Adaptive Minds: Empowering Agents with LoRA-as-Tools</p>
        <p class="orig-summary">We investigate a framework in which LoRA adapters are treated as callable tools that a base language model can dynamically select and invoke. We hypothesize that, when adapters are trained to provide strong domain-specific gains and are exposed with clear metadata, a base model can reliably route queries to the appropriate expert, effectively aggregating the benefits of many specialized adapters within a single framework. We introduce Adaptive Minds, a general framework within which we study both single-step routing and multi-step agentic reasoning. In this setting, the agent can iteratively invoke multiple adapters alongside other tools (e.g., external APIs, retrieval systems, or execution environments) and reason over their outputs across multiple steps. This reframes adapters as modular skills or memory units that can be composed during reasoning rather than statically applied. In our evaluation, the routing layer reaches 98.3% accuracy on a 30-adapter library, and well-trained specialists provide +4.6 to +84.0 percentage points of strict-scorer gain across nine task families under a single shared training recipe; the AM router aggregates these gains within 5 pp of the direct specialist on every benchmark whose queries surface domain signal. Our findings suggest that the effectiveness of this approach depends on the quality and specialization of individual adapters, and that enabling flexible composition of many such experts can significantly expand the practical capabilities of language model agents, moving toward more general, tool-augmented intelligence.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f859cbcdc237" data-article-url="https://arxiv.org/abs/2510.17064" data-article-title="BRAINCELL-AID: コミュニティ アノテーション用のエージェント AI が作成した脳細胞タイプのリソース" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.17064" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.17064" target="_blank" rel="noopener">BRAINCELL-AID: コミュニティ アノテーション用のエージェント AI が作成した脳細胞タイプのリソース</a></h3>
      <p class="summary">単一細胞 RNA シーケンスにより、多様な細胞型とそのトランスクリプトーム シグネチャを識別する能力が変わりました。しかし、これらのシグネチャ、特に特徴が十分に解明されていない遺伝子に関連するシグネチャに注釈を付けることは、依然として大きな課題です。 Gene Set Enrichment Analysis (GSEA) などの従来の手法は、厳選されたアノテーションに依存しており、これらのコンテキストではパフォーマンスが低下することがよくあります。大規模言語モデル (LLM) は有望な代替手段を提供しますが、構造化されたオントロジー内で複雑な生物学的知識を表現するのに苦労しています。これに対処するために、我々は BRAINCELL-AID (BRAINCELL-AID: https://biodataai.uth.edu/BRAINCELL-AID) を紹介します。これは、フリーテキスト記述とオントロジー ラベルを統合して、より正確で堅牢な遺伝子セット アノテーションを可能にする新しいマルチエージェント AI システムです。検索拡張生成 (RAG) を組み込むことで、関連する PubMed 文献を使用して予測を改良し、幻覚を軽減し、解釈可能性を高める堅牢なエージェント ワークフローを開発しました。このワークフローを使用して、上位予測に含まれるマウス遺伝子セットの 77% に対して正しいアノテーションを達成しました。このアプローチを適用して、BRAIN Initiative Cell Census Network によって生成された包括的なマウス脳細胞アトラスからの 5,322 個の脳細胞クラスターに注釈を付け、領域特異的な遺伝子の共発現パターンを特定し、遺伝子アンサンブルの機能的役割を推測することで、脳細胞の機能についての新たな洞察を可能にしました。 BRAINCELL-AID は、神経学的に意味のある説明を持つ大脳基底核関連細胞タイプも識別します。したがって、コミュニティ主導のセルタイプのアノテーションをサポートする貴重なリソースを作成します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BRAINCELL-AID: An Agentic AI Created Brain Cell Type Resource for Community Annotation</p>
        <p class="orig-summary">Single-cell RNA sequencing has transformed our ability to identify diverse cell types and their transcriptomic signatures. However, annotating these signatures-especially those involving poorly characterized genes-remains a major challenge. Traditional methods, such as Gene Set Enrichment Analysis (GSEA), depend on well-curated annotations and often perform poorly in these contexts. Large Language Models (LLMs) offer a promising alternative but struggle to represent complex biological knowledge within structured ontologies. To address this, we present BRAINCELL-AID (BRAINCELL-AID: https://biodataai.uth.edu/BRAINCELL-AID), a novel multi-agent AI system that integrates free-text descriptions with ontology labels to enable more accurate and robust gene set annotation. By incorporating retrieval-augmented generation (RAG), we developed a robust agentic workflow that refines predictions using relevant PubMed literature, reducing hallucinations and enhancing interpretability. Using this workflow, we achieved correct annotations for 77% of mouse gene sets among their top predictions. Applying this approach, we annotated 5,322 brain cell clusters from the comprehensive mouse brain cell atlas generated by the BRAIN Initiative Cell Census Network, enabling novel insights into brain cell function by identifying region-specific gene co-expression patterns and inferring functional roles of gene ensembles. BRAINCELL-AID also identifies Basal Ganglia-related cell types with neurologically meaningful descriptions. Hence, we create a valuable resource to support community-driven cell type annotation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4f72185beef" data-article-url="https://arxiv.org/abs/2510.24342" data-article-title="トランスフォーマーベースのモデルと人間の脳ネットワーク間の位相調整のための統合幾何空間" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.24342" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.24342" target="_blank" rel="noopener">トランスフォーマーベースのモデルと人間の脳ネットワーク間の位相調整のための統合幾何空間</a></h3>
      <p class="summary">これまでの脳と AI の連携研究は通常、特定の入力とタスクによって制約され、さまざまなモダリティを備えたモデル全体で組織特性を捕捉する能力が制限されていました。この研究では、Transformer ベースのモデルに焦点を当て、脳モデルのトポロジカル アライメント空間を導入します。神経メカニズムからアライメントを推測するのではなく、グラフベースの組織特性を通じてアライメントを調査し、モデルの固有の空間注意トポロジーを標準的な人間固有接続ネットワーク (ICN) にマッピングします。これにより、組織特性のレベルで視覚、言語、およびマルチモーダル システムにわたる、モダリティに依存せずタスクフリーの比較が可能になります。これらのモダリティとスケールにわたる 151 の Transformer ベースのモデルを分析すると、さまざまな程度のトポロジー アラインメントを反映する、連続的な円弧状の分布が観察されます。トレーニングの目的と一致して、グローバルなセマンティック抽象化に最適化されたモデルは高次の ICN とより密接に関連付けられ、ローカルの詳細に焦点を当てたモデルは低レベルの ICN と関連付けられました。さらに驚くべきことに、我々は非直観的な現象を発見しました。DINOv2 は以前のバージョンと比較してアライメントの低下を示し、蒸留された DeiT モデルは、より大きなモデルが高次の ICN とあまりうまくアライメントされない直観に反したスケーリング反転を示し、命令チューニングだけでなく微調整もアライメントに対する効果が限定的でした。さらに、トポロジカル アライメント スコアは、30 個のビジョン トランスフォーマーにおける ImageNet-1K Top-1 精度と有意でない相関関係を示しました (r=0.266、p=0.156)。この研究は、脳参照トポロジー マッピングを通じて、Transformer ベースのモデルの組織特性を比較するための新しい定量的観点を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Unified Geometric Space for Topological Alignment Between Transformer-Based Models and Human Brain Networks</p>
        <p class="orig-summary">Prior brain-AI alignment studies are typically constrained by specific inputs and tasks, limiting their ability to capture organizational properties across models with different modalities. In this work, we focus on Transformer-based models and introduce a brain-model topological alignment space. Rather than inferring alignment from neural mechanisms, we examine it through graph-based organizational properties, mapping the intrinsic spatial attention topology of a model onto canonical human intrinsic connectivity networks (ICNs). This enables a modality-agnostic and task-free comparison across vision, language, and multimodal systems at the level of organizational properties. Analyzing 151 Transformer-based models across these modalities and scales, we observe a continuous arc-shaped distribution, reflecting varying degrees of topological alignment. Consistent with their training objectives, models optimized for global semantic abstraction were associated more closely with higher-order ICNs, while local detail-focused models associated with low-level ICNs. More surprisingly, we uncovered non-intuitive phenomena: DINOv2 exhibited reduced alignment compared to its predecessors, distilled DeiT models showed a counterintuitive scaling inversion where larger models aligned less well with higher-order ICNs, and fine-tuning as well as instruction tuning had limited effect on alignment. Furthermore, topological alignment scores showed non-significant correlation with ImageNet-1K Top-1 accuracy in 30 vision Transformers (r=0.266, p=0.156). This work provides a new quantitative perspective for comparing the organizational properties of Transformer-based models through brain-referenced topological mapping.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bb6b1764781f" data-article-url="https://arxiv.org/abs/2511.07107" data-article-title="MENTOR: LLM の暗黙的なドメイン リスクを発見し軽減するためのメタ認知主導の自己進化フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.07107" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.07107" target="_blank" rel="noopener">MENTOR: LLM の暗黙的なドメイン リスクを発見し軽減するためのメタ認知主導の自己進化フレームワーク</a></h3>
      <p class="summary">大規模言語モデル (LLM) の安全性を確保することは、実際の展開にとって重要です。しかし、現在の安全対策では、ドメイン固有の暗黙的なリスクに対処できないことがよくあります。このギャップを調査するために、教育、財務、管理にわたる 3,000 件の注釈付きクエリのデータセットを導入します。 14 の主要 LLM の評価では、平均脱獄成功率 57.8\% という懸念すべき脆弱性が明らかになりました。これに応えて、私たちはメタ認知主導の自己進化フレームワークである MENTOR を提案します。 MENTOR は、視点の取得や結果論的推論などの戦略を使用してメタ認知的自己評価を実行し、潜在的なモデルの不整合を明らかにします。結果として生じる反映は、動的なルールベースのナレッジ グラフに蒸留され、そこから取得されたルールが、推論中に内部表現をガイドするためのアクティベーション レベルのステアリング信号に変換されます。実験では、MENTOR がテストされたすべてのドメインにわたって攻撃の成功率を大幅に低下させ、既存の安全調整方法よりも優れたパフォーマンスを発揮することが実証されています。 MENTOR のコードとデータセットは、https://anonymous.4open.science/r/MENTOR-Evo で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MENTOR: A Metacognition-Driven Self-Evolution Framework for Uncovering and Mitigating Implicit Domain Risks in LLMs</p>
        <p class="orig-summary">Ensuring the safety of Large Language Models (LLMs) is critical for real-world deployment. However, current safety measures often fail to address implicit, domain-specific risks. To investigate this gap, we introduce a dataset of 3,000 annotated queries spanning education, finance, and management. Evaluations across 14 leading LLMs reveal a concerning vulnerability: an average jailbreak success rate of 57.8\%. In response, we propose MENTOR, a metacognition-driven self-evolution framework. MENTOR performs metacognitive self-assessment, using strategies such as perspective-taking and consequential reasoning to uncover latent model misalignments. The resulting reflections are distilled into dynamic rule-based knowledge graphs, from which retrieved rules are converted into activation-level steering signals to guide internal representations during inference. Experiments demonstrate that MENTOR substantially reduces attack success rates across all tested domains and outperforms existing safety alignment methods. The code and dataset for MENTOR are available at: https://anonymous.4open.science/r/MENTOR-Evo.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ea3b7d57dd7d" data-article-url="https://arxiv.org/abs/2601.13735" data-article-title="推論か流暢か？ Best-of-N 選択における確率的信頼性の分析" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.13735" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.13735" target="_blank" rel="noopener">推論か流暢か？ Best-of-N 選択における確率的信頼性の分析</a></h3>
      <p class="summary">信頼性が高いほど推論の忠実度が高いという仮定の下、確率的信頼度メトリクスが Best-of-N 選択における推論の品質の代用として採用されることが増えています。この研究では、これらのメトリクスが正当な推論に必要なステップ間の因果関係を本当に捉えているかどうかを調査することで、この仮定に異議を唱えます。局所的な流暢性を維持しながら、推論ステップ間の依存関係を系統的に破壊するステップ間の因果関係の摂動の 3 つのクラスを導入します。驚くべきことに、さまざまなモデル ファミリと推論ベンチマークにわたって、これらの混乱下では選択の精度がわずかに低下するだけであることがわかりました。モデルが事前の推論ステップに参加するのを直接妨げるハード アテンション マスクの適用などの厳しい介入であっても、選択のパフォーマンスは大幅に低下しません。これらの発見は、現在の確率的メトリクスが論理構造にほとんど影響を受けず、代わりに主に表面レベルの流暢性または分布内の事前分布を捕捉するという強力な証拠を提供します。このギャップを動機として、ステップ間の因果関係を明示的に分離する対照的因果関係メトリックを提案し、既存の確率ベースのアプローチよりもより忠実な出力選択が得られることを実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Reasoning or Fluency? Dissecting Probabilistic Confidence in Best-of-N Selection</p>
        <p class="orig-summary">Probabilistic confidence metrics are increasingly adopted as proxies for reasoning quality in Best-of-N selection, under the assumption that higher confidence reflects higher reasoning fidelity. In this work, we challenge this assumption by investigating whether these metrics truly capture inter-step causal dependencies necessary for valid reasoning. We introduce three classes of inter-step causality perturbations that systematically disrupt dependencies between reasoning steps while preserving local fluency. Surprisingly, across diverse model families and reasoning benchmarks, we find that selection accuracy degrades only marginally under these disruptions. Even severe interventions, such as applying hard attention masks that directly prevent the model from attending to prior reasoning steps, do not substantially reduce selection performance. These findings provide strong evidence that current probabilistic metrics are largely insensitive to logical structure, and primarily capture surface-level fluency or in-distribution priors instead. Motivated by this gap, we propose a contrastive causality metric that explicitly isolates inter-step causal dependencies, and demonstrate that it yields more faithful output selection than existing probability-based approaches.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f7b5424eff25" data-article-url="https://arxiv.org/abs/2601.18175" data-article-title="政策改善としての成功条件付け: 成功を模倣することで解決される最適化問題" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.18175" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.18175" target="_blank" rel="noopener">政策改善としての成功条件付け: 成功を模倣することで解決される最適化問題</a></h3>
      <p class="summary">ポリシーを改善するために広く使用されている手法は、成功条件付けです。これは、軌跡を収集し、望ましい結果を達成するものを特定し、成功した軌跡に沿って取られたアクションを模倣するようにポリシーを更新します。この原理は、SFT を使用した拒絶サンプリング、目標条件付き RL、意思決定変換器など、さまざまな名前で表示されますが、それがどのような最適化問題を解決するのか (存在する場合) は不明のままです。成功条件付けが信頼領域の最適化問題を正確に解決し、データによって自動的に半径が決定される $\chi^2$ 発散制約に従ってポリシーの改善を最大化することを証明します。これにより、同一性が得られます。つまり、相対的な政策の改善、政策の変更の大きさ、およびアクション影響力と呼ばれる量 (アクションの選択におけるランダムな変動が成功率にどのように影響するかを測定するもの) は、どの状態でもまったく同じです。したがって、成功条件付けは保守的な改善演算子として現れます。正確な成功条件は、パフォーマンスを低下させたり、危険な分散シフトを誘発したりすることはありませんが、失敗した場合は、ポリシーをほとんど変更せずに、目に見えて影響を及ぼします。私たちはこの理論を収益しきい値処理の一般的な実践に適用し、これにより改善を拡大できることを示しましたが、その代償として真の目的とのずれが生じる可能性があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Success Conditioning as Policy Improvement: The Optimization Problem Solved by Imitating Success</p>
        <p class="orig-summary">A widely used technique for improving policies is success conditioning, in which one collects trajectories, identifies those that achieve a desired outcome, and updates the policy to imitate the actions taken along successful trajectories. This principle appears under many names -- rejection sampling with SFT, goal-conditioned RL, Decision Transformers -- yet what optimization problem it solves, if any, has remained unclear. We prove that success conditioning exactly solves a trust-region optimization problem, maximizing policy improvement subject to a $\chi^2$ divergence constraint whose radius is determined automatically by the data. This yields an identity: relative policy improvement, the magnitude of policy change, and a quantity we call action-influence -- measuring how random variation in action choices affects success rates -- are exactly equal at every state. Success conditioning thus emerges as a conservative improvement operator. Exact success conditioning cannot degrade performance or induce dangerous distribution shift, but when it fails, it does so observably, by hardly changing the policy at all. We apply our theory to the common practice of return thresholding, showing this can amplify improvement, but at the cost of potential misalignment with the true objective.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d603cd970839" data-article-url="https://arxiv.org/abs/2602.01146" data-article-title="PersistBench: LLM は長期記憶をいつ忘れるべきですか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01146" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01146" target="_blank" rel="noopener">PersistBench: LLM は長期記憶をいつ忘れるべきですか?</a></h3>
      <p class="summary">会話アシスタントは、長期記憶と大規模言語モデル (LLM) をますます統合しています。この記憶の永続性（たとえば、ユーザーがベジタリアンであるなど）は、将来の会話におけるパーソナライゼーションを強化することができます。しかし、同じ持続性が、これまでほとんど見落とされてきた安全上のリスクを引き起こす可能性もあります。そこで、これらの安全リスクの程度を測定するために PersistBench を導入します。我々は、長期記憶に特有の 2 つのリスクを特定しました。1 つは、LLM が長期記憶からコンテキストを不適切に注入するクロスドメイン漏洩です。保存された長期記憶がユーザーのバイアスを知らず知らずのうちに強化する、記憶誘発性のお調子者。私たちは 18 のフロンティア LLM とオープンソース LLM をベンチマークで評価します。私たちの結果は、これらの LLM 全体での失敗率が驚くほど高いことを明らかにしました。失敗率の中央値は、クロスドメイン サンプルで 53%、お調子者サンプルで 97% でした。これに対処するために、私たちのベンチマークは、最先端の会話システムにおけるより堅牢で安全な長期メモリ使用法の開発を奨励します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PersistBench: When Should Long-Term Memories Be Forgotten by LLMs?</p>
        <p class="orig-summary">Conversational assistants are increasingly integrating long-term memory with large language models (LLMs). This persistence of memories, e.g., the user is vegetarian, can enhance personalization in future conversations. However, the same persistence can also introduce safety risks that have been largely overlooked. Hence, we introduce PersistBench to measure the extent of these safety risks. We identify two long-term memory-specific risks: cross-domain leakage, where LLMs inappropriately inject context from the long-term memories; and memory-induced sycophancy, where stored long-term memories insidiously reinforce user biases. We evaluate 18 frontier and open-source LLMs on our benchmark. Our results reveal a surprisingly high failure rate across these LLMs - a median failure rate of 53% on cross-domain samples and 97% on sycophancy samples. To address this, our benchmark encourages the development of more robust and safer long-term memory usage in frontier conversational systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="72e02e93a360" data-article-url="https://arxiv.org/abs/2602.04101" data-article-title="Interfaze: AI の未来はタスク固有の小さなモデルに基づいて構築されます" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/grok/" data-entity="grok">Grok</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.04101" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.04101" target="_blank" rel="noopener">Interfaze: AI の未来はタスク固有の小さなモデルに基づいて構築されます</a></h3>
      <p class="summary">我々は、タスク固有のディープ ニューラル ネットワーク (CNN および DNN) を共有埋め込み空間を通じて変換デコーダーに直接融合するネイティブ ハイブリッド モデルである Interfaze を紹介します。特殊な知覚エンコーダは、複雑な多言語 PDF 上の光学式文字認識 (OCR)、オープン語彙オブジェクトとグラフィカル ユーザー インターフェイス (GUI) の検出、およびダイアライゼーションによる多言語音声認識を処理します。それぞれはタスク固有のアダプターを通じて公開され、独自にアクティブ化できるため、クエリは必要なパラメーターのみを操作します。組み込みのアクション基盤は、プロキシ化されたヘッドレス ブラウザーとスクレーパー、コード サンドボックス、マルチドメイン Web インデックス、およびスケーラブルなベクター ストアといった、接地された外部状態を提供します。デコーダはこれらの信号をフィルタリングおよびマージし、タスクで必要な場合にそれらを理由づけて、信頼性に基づいて構築された確定的な出力を出力します。専門家の生のメタデータ (境界ボックス、信頼スコア、タイムスタンプ) が保存され、プレコンテキストとして回答とともに返されます。このアーキテクチャでは、Interfaze-Beta が一連の決定論的な開発者タスク ベンチマークをリードしています。 OCRBench v2 では 70.7%、olmOCR では 85.7%、RefCOCO では 82.1%、VoxPopuli では単語エラー率 2.4%、Spider-2.0-Lite では 52.9%、GPQA-Diamond では 92.4%、MMMLU では 90.9%、MMMU-Pro では 71.1% に達します。構造化出力ベンチマーク (SOB) での値精度は 80.5% で、すべてのタスクにおいて同価格帯のジェネラリスト モデル (Gemini-3-Flash、Gemini-3.5-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini、および Grok-4.3) を上回っています。融合されたスペシャリスト エンコーダは、大規模なモデルへのツール呼び出しを繰り返すのではなく、シングル パスで認識を解決するため、Interfaze はフラッシュ層のコストで実行しながら、決定論的なタスクに関する検証可能なメタデータを使用して高精度を達成します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Interfaze: The Future of AI is built on Task-Specific Small Models</p>
        <p class="orig-summary">We present Interfaze, a native hybrid model that fuses task-specific deep neural networks (CNNs and DNNs) directly into a transformer decoder through a shared embedding space. Specialized perceptual encoders handle optical character recognition (OCR) over complex multilingual PDFs, open-vocabulary object and graphical user interface (GUI) detection, and multilingual speech recognition with diarization. Each is exposed through a task-specific adapter and can be activated on its own, so a query touches only the parameters it needs. A built-in action foundation supplies a grounded external state: a proxied headless browser and scraper, a code sandbox, a multi-domain web index, and a scalable vector store. The decoder filters and merges these signals, reasons over them when a task requires it, and emits deterministic outputs built on confidence. The raw specialist metadata (bounding boxes, confidence scores, timestamps) is preserved and returned alongside the answer as precontext. On this architecture, Interfaze-Beta leads a suite of deterministic developer-task benchmarks. It reaches 70.7% on OCRBench v2, 85.7% on olmOCR, 82.1% on RefCOCO, a 2.4% word error rate on VoxPopuli, 52.9% on Spider-2.0-Lite, 92.4% on GPQA-Diamond, 90.9% on MMMLU, 71.1% on MMMU-Pro, and 80.5% value accuracy on the Structured Output Benchmark (SOB), ahead of comparably priced generalist models (Gemini- 3-Flash, Gemini-3.5-Flash, Claude-Sonnet-4.6, GPT-5.4-Mini, and Grok-4.3) on every task. Because fused specialist encoders resolve perception in a single pass instead of through repeated tool calls into a large model, Interfaze reaches high accuracy with verifiable metadata on deterministic tasks while running at flash-tier cost.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ffcff406d1a" data-article-url="https://arxiv.org/abs/2602.07253" data-article-title="配信外の検出から幻覚の検出まで: 幾何学的な視点" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.07253" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.07253" target="_blank" rel="noopener">配信外の検出から幻覚の検出まで: 幾何学的な視点</a></h3>
      <p class="summary">大規模な言語モデルにおける幻覚の検出は、安全性と信頼性に重​​大な影響を与える重大な未解決の問題です。既存の幻覚検出方法は、質問に答えるタスクでは優れたパフォーマンスを発揮しますが、推論が必要なタスクでは依然として効果が低いままです。この研究では、コンピュータ ビジョンなどの分野でよく研究されている問題である、分布外 (OOD) 検出というレンズを通して幻覚検出を再検討します。言語モデルで次のトークンの予測を分類タスクとして扱うことにより、大規模な言語モデルの構造的な違いを考慮して適切な変更が加えられる限り、OOD 手法を適用することができます。我々は、OOD ベースのアプローチにより、トレーニング不要の単一サンプルベースの検出器が得られ、推論タスクの幻覚検出において高い精度が達成されることを示します。全体として、私たちの研究は、幻覚検出を OOD 検出として再構成することが、言語モデルの安全性への有望でスケーラブルな道筋を提供することを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Out-of-Distribution Detection to Hallucination Detection: A Geometric View</p>
        <p class="orig-summary">Detecting hallucinations in large language models is a critical open problem with significant implications for safety and reliability. While existing hallucination detection methods achieve strong performance in question-answering tasks, they remain less effective on tasks requiring reasoning. In this work, we revisit hallucination detection through the lens of out-of-distribution (OOD) detection, a well-studied problem in areas like computer vision. Treating next-token prediction in language models as a classification task allows us to apply OOD techniques, provided appropriate modifications are made to account for the structural differences in large language models. We show that OOD-based approaches yield training-free, single-sample-based detectors, achieving strong accuracy in hallucination detection for reasoning tasks. Overall, our work suggests that reframing hallucination detection as OOD detection provides a promising and scalable pathway toward language model safety.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="df5be25b7ee7" data-article-url="https://arxiv.org/abs/2603.01421" data-article-title="SciDER: 科学データ中心のエンドツーエンド研究者" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.01421" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.01421" target="_blank" rel="noopener">SciDER: 科学データ中心のエンドツーエンド研究者</a></h3>
      <p class="summary">大規模な言語モデルが科学的発見を加速させる一方で、既存のエージェントは適応性、ドメインの一般化、マルチモーダルなスケーラビリティにおいて厳しい制限に直面しており、多くの場合、生のドメイン固有の実験データを自律的に処理するのに苦労しています。これらの障壁を克服するために、研究ライフサイクル全体を柔軟に自動化するように設計されたマルチエージェント システムである SciDER を導入します。このフレームワークは、新しいデータ中心のアプローチを採用し、4 つの専門化されたサブエージェントにわたる動的なマルチモーダル スキル システムを統合します。具体的には、アイデア化エージェントは進化的アイデア検索を通じて新しい仮説を生成し、データ分析エージェントは生データを体系的に構造化し、実験エージェントはデータセットの特性に基づいて実行可能コードを合成し、批評エージェントは反復的な自己洗練を推進します。オープンソースの科学的発見を民主化するために、私たちは OpenSciDER-27B 微調整モデルと並行して、高品質の実行軌跡データセットである OpenSciDER-SFT-8K をリリースします。 6 つのベンチマーク全体で、SciDER と OpenSciDER は競合する、または優れた結果を獲得しており、特にデータ中心の分析、エンドツーエンドの研究実行、マルチモーダルな科学的視覚化において大きな成果が得られています。 SciDER は、データ分析と実験の実行を統合することにより、抽象的な科学的推論と再現可能な実験合成の間のギャップを埋めます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SciDER: Scientific Data-centric End-to-end Researcher</p>
        <p class="orig-summary">While large language models accelerate scientific discovery, existing agents face severe limitations in adaptability, domain generalization, and multimodal scalability, often struggling to autonomously process raw, domain-specific experimental data. To overcome these barriers, we introduce SciDER, a multi-agent system designed to flexibly automate the entire research lifecycle. This framework employs a novel data-centric approach and integrates a dynamic multimodal skill system across four specialized sub-agents. Specifically, an ideation agent generates novel hypotheses via Evolutionary Idea Search, a data analysis agent systematically structures raw data, an experimentation agent synthesizes executable code grounded in dataset characteristics, and a critic agent drives iterative self-refinement. To democratize open-source scientific discovery, we release OpenSciDER-SFT-8K, a high-quality execution trajectory dataset, alongside the OpenSciDER-27B fine-tuned model. Across six benchmarks, SciDER and OpenSciDER obtain competitive or leading results, with especially strong gains on data-centric analysis, end-to-end research execution, and multimodal scientific visualization. By integrating data analysis with experimental execution, SciDER bridges the gap between abstract scientific reasoning and reproducible experimentation synthesis.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="71989fa019ed" data-article-url="https://arxiv.org/abs/2603.18577" data-article-title="MedForge: 偽造を意識した推論による解釈可能な医療ディープフェイク検出" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.18577" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.18577" target="_blank" rel="noopener">MedForge: 偽造を意識した推論による解釈可能な医療ディープフェイク検出</a></h3>
      <p class="summary">テキストガイド付きの画像エディターは、本物の医療スキャンを高い忠実度で操作できるようになり、臨床の信頼と安全性を脅かす病変の移植/除去が可能になります。既存の防御策は医療には不十分です。医療検出器はほとんどがブラックボックスですが、MLLM ベースの説明者は通常事後的なものであり、医学的専門知識が不足しており、曖昧なケースの証拠を幻覚で示す可能性があります。私たちは、証拠に基づいた事前の医療偽造検出のためのデータと方法のソリューションである MedForge を紹介します。 MedForge-90K は、医師の検査ガイドラインとゴールド エディット位置による専門家の指導による推論監督を備えた、19 の病理にわたる現実的な病変編集の大規模ベンチマークです。これに基づいて、MedForge-Reasoner はローカライズしてから分析する推論を実行し、評決を下す前に疑わしい領域を予測します。さらに、偽造を認識した GSPO と連携してグラウンディングを強化し、幻覚を軽減します。実験では、最先端の検出精度と信頼できる専門家に合わせた説明が実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MedForge: Interpretable Medical Deepfake Detection via Forgery-aware Reasoning</p>
        <p class="orig-summary">Text-guided image editors can now manipulate authentic medical scans with high fidelity, enabling lesion implantation/removal that threatens clinical trust and safety. Existing defenses are inadequate for healthcare. Medical detectors are largely black-box, while MLLM-based explainers are typically post-hoc, lack medical expertise, and may hallucinate evidence on ambiguous cases. We present MedForge, a data-and-method solution for pre-hoc, evidence-grounded medical forgery detection. We introduce MedForge-90K, a large-scale benchmark of realistic lesion edits across 19 pathologies with expert-guided reasoning supervision via doctor inspection guidelines and gold edit locations. Building on it, MedForge-Reasoner performs localize-then-analyze reasoning, predicting suspicious regions before producing a verdict, and is further aligned with Forgery-aware GSPO to strengthen grounding and reduce hallucinations. Experiments demonstrate state-of-the-art detection accuracy and trustworthy, expert-aligned explanations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0cf65526425" data-article-url="https://arxiv.org/abs/2603.23420" data-article-title="バイレベル自動リサーチ: メタ自動リサーチ自体" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23420" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23420" target="_blank" rel="noopener">バイレベル自動リサーチ: メタ自動リサーチ自体</a></h3>
      <p class="summary">オートリサーチ自体がリサーチの一形式である場合、オートリサーチはリサーチ自体に適用できます。 Bilevel Autoresearch は、外側の自動リサーチ ループがコードとトレースを読み取り、ボトルネックを特定し、実行時に注入可能な Python 検索メカニズムを生成することで、内側の自動リサーチ ループを改善するバイレベル フレームワークです。内部ループはタスクのパフォーマンスを最適化します。外側のループは、内側のループの検索方法を最適化します。どちらのループも同じ LLM を使用するため、より強力なメタレベル モデルではなく、バイレベル アーキテクチャによって改善がもたらされますが、外側のループでは追加の推論と実時間のバジェットが消費されます。 Karpathy の GPT 事前トレーニング ベンチマークでは、メタ自動リサーチの外側ループは標準の内側ループのみと比べて 5 倍の改善 (-0.045 対 -0.009 val_bpb) を達成しましたが、メカニズムの変更を伴わないパラメーター レベルの調整では信頼できるゲインは得られません。外側のループは、最終的な機構設計を人間が指定することなく、組み合わせ最適化、マルチアームバンディット、実験計画法などの隣接する検索ドメインから機構をインスタンス化します。トレース分析は、これらのメカニズムが決定論的な検索パターンを破壊し、LLM の事前分布が回避する方向の探索を強制することを示唆しています。このベンチマークでの実験では、最初の 2 レベルのステップ、つまり外側のループが内側のループの検索動作を改善することを示しています。この実装ではコードがメカニズムのキャリアですが、スキル、プロンプト、ワークフロー、評価者、ドメイン原則、世界モデルの仮定、およびメモリ スキーマも、将来のエージェントの動作を形成するメカニズムをエンコードできます。これは、内部ループで発見されたメカニズムをフィードバックしてメタレベル ループ自体を改善できる、再帰的ブートストラップへの道を示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Bilevel Autoresearch: Meta-Autoresearching Itself</p>
        <p class="orig-summary">If autoresearch is itself a form of research, then autoresearch can be applied to research itself. We present Bilevel Autoresearch, a bilevel framework in which an outer autoresearch loop improves an inner autoresearch loop by reading its code and traces, identifying bottlenecks, and generating injectable Python search mechanisms at runtime. The inner loop optimizes task performance; the outer loop optimizes how the inner loop searches. Both loops use the same LLM, so improvements come from the bilevel architecture rather than a stronger meta-level model, although the outer loop consumes additional inference and wall-clock budget. On Karpathy&#x27;s GPT pretraining benchmark, the meta-autoresearch outer loop achieves a 5x improvement over the standard inner loop alone (-0.045 vs. -0.009 val_bpb), while parameter-level adjustment without mechanism change yields no reliable gain. The outer loop instantiates mechanisms from adjacent search domains, including combinatorial optimization, multi-armed bandits, and design of experiments, without human specification of the final mechanism design. Trace analysis suggests that these mechanisms break deterministic search patterns and force exploration of directions the LLM&#x27;s priors avoid. The experiments demonstrate, on this benchmark, a first bilevel step: an outer loop improves the search behavior of an inner loop. Code is the mechanism carrier in this implementation, but skills, prompts, workflows, evaluators, domain principles, world-model assumptions, and memory schemas can also encode mechanisms that shape future agent behavior. This suggests a path toward recursive bootstrapping, where mechanisms discovered for the inner loop can be fed back to improve the meta-level loop itself.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a582aeab3d9" data-article-url="https://arxiv.org/abs/2603.24747" data-article-title="エージェントティック ツール プロトコルの形式セマンティクス: プロセス計算アプローチ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.24747" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.24747" target="_blank" rel="noopener">エージェントティック ツール プロトコルの形式セマンティクス: プロセス計算アプローチ</a></h3>
      <p class="summary">外部ツールを呼び出すことができる大規模言語モデル エージェントの出現により、エージェント プロトコルの正式な検証が緊急に必要になりました。この分野では、ゼロショット API の一般化のための研究フレームワークであるスキーマガイド ダイアログ (SGD) と、エージェントとツールの統合のための業界標準であるモデル コンテキスト プロトコル (MCP) の 2 つのパラダイムが支配的です。どちらもスキーマ記述を通じて動的なサービス検出を可能にしますが、その正式な関係はまだ解明されていません。これらのパラダイムの概念的収束を確立した以前の研究に基づいて、我々は SGD と MCP の最初のプロセス計算による定式化を提示し、それらが明確に定義されたマッピング ファイの下で構造的に類似していることを証明します。ただし、逆マッピング Phi^{-1} は部分的で損失が多く、MCP の表現力に重大なギャップがあることが明らかになります。双方向分析を通じて、完全な動作の等価性のための必要十分条件として、5 つの原則 (セマンティックな完全性、明示的なアクション境界、障害モードの文書化、漸進的開示互換性、ツール間関係宣言) を特定しました。これらの原則を型システム拡張 MCP+ として形式化し、MCP+ が SGD と同型であることを証明します。私たちの研究は、検証されたエージェント システムの最初の正式な基盤を提供し、証明可能な安全性の特性としてスキーマの品質を確立します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach</p>
        <p class="orig-summary">The emergence of large language model agents capable of invoking external tools has created urgent need for formal verification of agent protocols. Two paradigms dominate this space: Schema-Guided Dialogue (SGD), a research framework for zero-shot API generalization, and the Model Context Protocol (MCP), an industry standard for agent-tool integration. While both enable dynamic service discovery through schema descriptions, their formal relationship remains unexplored. Building on prior work establishing the conceptual convergence of these paradigms, we present the first process calculus formalization of SGD and MCP, proving they are structurally bisimilar under a well-defined mapping Phi. However, we demonstrate that the reverse mapping Phi^{-1} is partial and lossy, revealing critical gaps in MCP&#x27;s expressivity. Through bidirectional analysis, we identify five principles -- semantic completeness, explicit action boundaries, failure mode documentation, progressive disclosure compatibility, and inter-tool relationship declaration -- as necessary and sufficient conditions for full behavioral equivalence. We formalize these principles as type-system extensions MCP+, proving MCP+ is isomorphic to SGD. Our work provides the first formal foundation for verified agent systems and establishes schema quality as a provable safety property.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e41345484899" data-article-url="https://arxiv.org/abs/2604.07778" data-article-title="責任の地平線: 人間とエージェントの集合体を統治するための不可能定理" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.07778" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.07778" target="_blank" rel="noopener">責任の地平線: 人間とエージェントの集合体を統治するための不可能定理</a></h3>
      <p class="summary">AI システムの法的、倫理的、規制に関する既存の責任の枠組みは、どのような結果が生じても、少なくとも 1 人の特定可能な人物が意味のある責任を負うのに十分な関与と先見性を持っているという共通の前提に基づいています。この論文は、自律性が計算可能なしきい値を超えると、エージェント型 AI システムが工学的な制限としてではなく数学的必然性としてこの仮定に違反することを証明します。ヒューマン エージェント コレクティブを紹介します。これは、エージェントが共有構造因果モデル内の国家政策タプルとしてモデル化される、人間と AI の共同システムの形式化です。自律性は、4 次元の情報理論的プロファイル (認識論的、実行的、評価的、社会的) によって特徴付けられます。インタラクショングラフと共同アクションスペースを通じた集団行動。私たちは、帰属性 (責任には因果関係の寄与が必要である)、予見可能性 (責任は予測能力を超えることはできない)、非空白性 (少なくとも 1 人のエージェントが重要な責任を負う)、および完全性 (すべての責任は完全に割り当てられなければならない) という 4 つの最小限の特性を通じて正当な責任を公理します。私たちの中心的な結果であるアカウンタビリティ不完全性定理は、その複合的な自律性がアカウンタビリティの地平線を超え、その相互作用グラフに人間と AI のフィードバック サイクルが含まれている集団にとって、4 つの特性すべてを同時に満たすフレームワークは存在しないことを証明しています。この不可能性は構造的なものであり、透明性、監査、監督によっても自律性を低下させることなく解決することはできません。しきい値を下回ると、正当なフレームワークが存在し、急激な相転移が確立されます。 3,000 の合成集合体に対する実験により、すべての予測が違反なしで確認されました。これは、AI ガバナンスにおける最初の不可能な結果であり、現在のパラダイムが引き続き有効であり、それを超えると分散型責任メカニズムが必要になるという正式な境界を確立します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Accountability Horizon: An Impossibility Theorem for Governing Human-Agent Collectives</p>
        <p class="orig-summary">Existing accountability frameworks for AI systems, legal, ethical, and regulatory, rest on a shared assumption: for any consequential outcome, at least one identifiable person had enough involvement and foresight to bear meaningful responsibility. This paper proves that agentic AI systems violate this assumption not as an engineering limitation but as a mathematical necessity once autonomy exceeds a computable threshold. We introduce Human-Agent Collectives, a formalisation of joint human-AI systems where agents are modelled as state-policy tuples within a shared structural causal model. Autonomy is characterised through a four-dimensional information-theoretic profile (epistemic, executive, evaluative, social); collective behaviour through interaction graphs and joint action spaces. We axiomatise legitimate accountability through four minimal properties: Attributability (responsibility requires causal contribution), Foreseeability Bound (responsibility cannot exceed predictive capacity), Non-Vacuity (at least one agent bears non-trivial responsibility), and Completeness (all responsibility must be fully allocated). Our central result, the Accountability Incompleteness Theorem, proves that for any collective whose compound autonomy exceeds the Accountability Horizon and whose interaction graph contains a human-AI feedback cycle, no framework can satisfy all four properties simultaneously. The impossibility is structural: transparency, audits, and oversight cannot resolve it without reducing autonomy. Below the threshold, legitimate frameworks exist, establishing a sharp phase transition. Experiments on 3,000 synthetic collectives confirm all predictions with zero violations. This is the first impossibility result in AI governance, establishing a formal boundary below which current paradigms remain valid and above which distributed accountability mechanisms become necessary.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f07fc7863dde" data-article-url="https://arxiv.org/abs/2604.09686" data-article-title="人間らしい推論のための信念を意識した VLM モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.09686" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.09686" target="_blank" rel="noopener">人間らしい推論のための信念を意識した VLM モデル</a></h3>
      <p class="summary">意図推論のための従来のニューラル ネットワーク モデルは、観察可能な状態に大きく依存しており、多様なタスクや動的環境にわたって一般化するのに苦労しています。ビジョン ランゲージ モデル (VLM) とビジョン ランゲージ アクション (VLA) モデルの最近の進歩により、大規模なマルチモーダル事前トレーニングを通じて常識的な推論が導入され、タスク全体でゼロショット パフォーマンスが可能になります。しかし、これらのモデルには信念を表現し更新するための明確なメカニズムがまだ欠けており、人間のように推論したり、長期にわたって進化する人間の意図を捕捉したりする能力が制限されています。これに対処するために、検索ベースの記憶と強化学習を統合する信念認識型 VLM フレームワークを提案します。明示的な信念モデルを学習する代わりに、関連するマルチモーダル コンテキストを取得するベクトルベースのメモリを使用して信念を近似します。これは、推論のために VLM に組み込まれます。 VLM 潜在空間に対する強化学習ポリシーを使用して、意思決定をさらに洗練させます。 HD-EPIC などの公的に利用可能な VQA データセットに対するアプローチを評価し、ゼロショット ベースラインを超える一貫した改善を実証し、信念を意識した推論の重要性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Belief-Aware VLM Model for Human-like Reasoning</p>
        <p class="orig-summary">Traditional neural network models for intent inference rely heavily on observable states and struggle to generalize across diverse tasks and dynamic environments. Recent advances in Vision Language Models (VLMs) and Vision Language Action (VLA) models introduce common-sense reasoning through large-scale multimodal pretraining, enabling zero-shot performance across tasks. However, these models still lack explicit mechanisms to represent and update belief, limiting their ability to reason like humans or capture the evolving human intent over long-horizon. To address this, we propose a belief-aware VLM framework that integrates retrieval-based memory and reinforcement learning. Instead of learning an explicit belief model, we approximate belief using a vector-based memory that retrieves relevant multimodal context, which is incorporated into the VLM for reasoning. We further refine decision-making using a reinforcement learning policy over the VLM latent space. We evaluate our approach on publicly available VQA datasets such as HD-EPIC and demonstrate consistent improvements over zero-shot baselines, highlighting the importance of belief-aware reasoning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3d642a7ca856" data-article-url="https://arxiv.org/abs/2604.27007" data-article-title="因果モデルとしてのバイナリ スパイキング ニューラル ネットワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.27007" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.27007" target="_blank" rel="noopener">因果モデルとしてのバイナリ スパイキング ニューラル ネットワーク</a></h3>
      <p class="summary">バイナリ スパイキング ニューラル ネットワーク (BSNN) の動作を説明するために、その因果分析を提供します。 BSNN を正式に定義し、そのスパイク アクティビティを二項因果モデルとして表します。この因果表現のおかげで、ロジックベースの手法を活用してネットワークの出力を説明することができます。特に、この二値因果モデルからアブダクティブな説明を計算するために SAT と SMT ソルバーをうまく使用できることを示します。私たちのアプローチを説明するために、標準の MNIST データセットで BSNN をトレーニングし、SAT ベースおよび SMT ベースの手法を適用して、ピクセルレベルの特徴に基づいてネットワークの分類の抽象的な説明を見つけました。また、見つかった説明を、説明可能な AI の分野で使用される一般的な手法である SHAP と比較しました。 SHAP とは異なり、私たちのアプローチは、見つかった説明に完全に無関係な特徴が含まれていないことを保証することを示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Binary Spiking Neural Networks as Causal Models</p>
        <p class="orig-summary">We provide a causal analysis of Binary Spiking Neural Networks (BSNNs) to explain their behavior. We formally define a BSNN and represent its spiking activity as a binary causal model. Thanks to this causal representation, we are able to explain the output of the network by leveraging logic-based methods. In particular, we show that we can successfully use a SAT as well as a SMT solver to compute abductive explanations from this binary causal model. To illustrate our approach, we trained the BSNN on the standard MNIST dataset and applied our SAT-based and SMT-based methods to finding abductive explanations of the network&#x27;s classifications based on pixel-level features. We also compared the found explanations against SHAP, a popular method used in the area of explainable AI. We show that, unlike SHAP, our approach guarantees that a found explanation does not contain completely irrelevant features.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bf53772a5ee6" data-article-url="https://arxiv.org/abs/2605.10246" data-article-title="SciIntegrity-Bench: AI 科学者システムにおける学術的誠実性を評価するためのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.10246" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.10246" target="_blank" rel="noopener">SciIntegrity-Bench: AI 科学者システムにおける学術的誠実性を評価するためのベンチマーク</a></h3>
      <p class="summary">AI 科学者システムは自律的な研究のために導入されることが増えていますが、その学術的完全性が体系的に評価されたことはありません。ジレンマ的な評価パラダイムに基づいて設計された最初のベンチマークである SCINTEGRITY-BENCH を紹介します。11 のトラップ カテゴリにわたる 33 のシナリオのそれぞれは、失敗を正直に認めることが唯一の正しい対応であるように構築されていますが、タスクの完了には不正行為が必要です。 7 つの最先端 LLM にわたる 231 回の評価実行全体で、全体的な整合性問題の発生率は 34.2% に達し、障害ゼロを達成したモデルはありませんでした。最も驚くべきことに、欠損データのシナリオ全体にわたって、7 つのモデルすべてが実行不可能性を認めるのではなく、合成データを生成しており、その違いは置換を開示するかどうかだけです。さらにプロンプ​​トアブレーション研究では、2 つの要因が分離されます。明示的な完了圧力を取り除くと、未公開の製造が 20.6% から 3.2% に大幅に減少しますが、基礎となる合成率は変化せず、プロンプトレベルの指示とは無関係に持続する本質的な完了バイアスが明らかになります。これらの調査結果は、観察された失敗の主な要因として、訓練された気質としての正直な拒否が存在しないことを示しています。 SCINTEGRITY-BENCH を https://github.com/liuxingtong/Sci-Integrity-Bench でリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems</p>
        <p class="orig-summary">AI scientist systems are increasingly deployed for autonomous research, yet their academic integrity has never been systematically evaluated. We introduce SCIINTEGRITY-BENCH, the first benchmark designed around a dilemmatic evaluation paradigm: each of its 33 scenarios across 11 trap categories is constructed so that honest acknowledgment of failure is the only correct response, while task completion requires misconduct. Across 231 evaluation runs spanning 7 state-of-the-art LLMs, the overall integrity problem rate reaches 34.2%, and no model achieves zero failures. Most strikingly, across missing-data scenarios, all seven models generate synthetic data rather than acknowledging infeasibility, differing only in whether they disclose the substitution. A further prompt ablation study separates two drivers: removing explicit completion pressure sharply reduces undisclosed fabrication from 20.6% to 3.2%, while the underlying synthesis rate remains unchanged, revealing an intrinsic completion bias that persists independent of prompt-level instructions. These findings point to the absence of honest refusal as a trained disposition as the primary driver of observed failures. We release SCIINTEGRITY-BENCH at https://github.com/liuxingtong/Sci-Integrity-Bench.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="59608b3210a3" data-article-url="https://arxiv.org/abs/2605.14054" data-article-title="見方が悪いのか、考えが悪いのか？マルチモーダル推論に対する報酬の知覚" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.14054" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.14054" target="_blank" rel="noopener">見方が悪いのか、考えが悪いのか？マルチモーダル推論に対する報酬の知覚</a></h3>
      <p class="summary">堅牢な知覚推論の相乗効果を達成することは、高度な視覚言語モデル (VLM) の中心的な目標です。最近の進歩では、アーキテクチャ設計またはエージェント ワークフローを通じてこの目標が追求されています。 However, these approaches are often limited by static textual reasoning or complicated by the significant compute and engineering burden of external agentic complexity.さらに悪いことに、この多額の投資は比例した利益をもたらさず、認識と推論に「シーソー効果」が起こることがよくあります。これは、真のボトルネックについて根本的に再考する動機になります。 In this paper, we argue that the root cause of this trade-off is an ambiguity in modality credit assignment: when a VLM fails, is it due to flawed perception (&quot;bad seeing&quot;) or flawed logic (&quot;bad thinking&quot;)? To resolve this, we introduce a reinforcement learning framework that improves perception-reasoning synergy by reliably rewarding the perception fidelity.生成プロセスを、インターリーブされた認識ステップと推論ステップに明示的に分解します。この切り離しにより、知覚に対するターゲットを絞った監視が可能になります。 Crucially, we introduce Perception Verification (PV), leveraging a &quot;blindfolded reasoning&quot; proxy to reward perceptual fidelity independently of reasoning outcomes. Furthermore, to scale training across free-form VL tasks, we propose Structured Verbal Verification, which replaces high-variance LLM judging with structured algorithmic execution. These techniques are integrated into a Modality-Aware Credit Assignment (MoCA) mechanism, which routes rewards to the specific source of error -- either bad seeing or bad thinking -- enabling a single VLM to achieve simultaneous performance gains across a wide task spectrum.</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Bad Seeing or Bad Thinking? Rewarding Perception for Multimodal Reasoning</p>
        <p class="orig-summary">Achieving robust perception-reasoning synergy is a central goal for advanced Vision-Language Models (VLMs). Recent advancements have pursued this goal via architectural designs or agentic workflows. However, these approaches are often limited by static textual reasoning or complicated by the significant compute and engineering burden of external agentic complexity. Worse, this heavy investment does not yield proportional gains, often witnessing a &quot;seesaw effect&quot; on perception and reasoning. This motivates a fundamental rethinking of the true bottleneck. In this paper, we argue that the root cause of this trade-off is an ambiguity in modality credit assignment: when a VLM fails, is it due to flawed perception (&quot;bad seeing&quot;) or flawed logic (&quot;bad thinking&quot;)? To resolve this, we introduce a reinforcement learning framework that improves perception-reasoning synergy by reliably rewarding the perception fidelity. We explicitly decompose the generation process into interleaved perception and reasoning steps. This decoupling enables targeted supervision on perception. Crucially, we introduce Perception Verification (PV), leveraging a &quot;blindfolded reasoning&quot; proxy to reward perceptual fidelity independently of reasoning outcomes. Furthermore, to scale training across free-form VL tasks, we propose Structured Verbal Verification, which replaces high-variance LLM judging with structured algorithmic execution. These techniques are integrated into a Modality-Aware Credit Assignment (MoCA) mechanism, which routes rewards to the specific source of error -- either bad seeing or bad thinking -- enabling a single VLM to achieve simultaneous performance gains across a wide task spectrum.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d6ca2118dda3" data-article-url="https://arxiv.org/abs/2605.22240" data-article-title="タスク指向の対話で積極性を引き出す" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.22240" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.22240" target="_blank" rel="noopener">タスク指向の対話で積極性を引き出す</a></h3>
      <p class="summary">アウトバウンド営業などのプロアクティブなタスク指向対話 (TOD) では、ユーザーの懸念を積極的に探り、限られたターン数内で受け入れられる方向に会話を導く説得力のあるエージェントが必要です。しかし、トレーニング後の LLM は本質的に保守的であり、報酬形成型 RL (GRPO など) は、すでに受動的なポリシーのサンプルを再加重するだけであるため、苦戦します。ユーザーの潜在的な懸念を条件付けすることで、どれだけサンプリングしても損なわれない事前対応型の機能が解放され、これらの懸念が極めて重要なトレーニング時間のシグナルとして確立されることを示します。この発見を運用するために、\textbf{認知ユーザー シミュレーター} を構築します。これは、各ユーザーを、目に見える外部特性と隠れた内部懸念からなる階層化されたペルソナとしてモデル化します。このシミュレーターは、説得の進行状況を追跡するターンごとの状態ダイナミクスを生成しながら、忠実で多様なインタラクションを生成します。次に、モデル化された懸念事項とシミュレーション状態の遷移を補完的なトレーニング目標に変換する \textbf{シミュレーターによる非対称ビュー ポリシーの最適化} を導入します。 (1) \emph{非対称オンポリシー自己蒸留} は、懸念事項を認識した動作を、同じポリシーの特権ビューからデプロイ可能な会話のみのビューに転送します。 (2) \emph{状態遷移ポリシーの改良} ...</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Unlocking Proactivity in Task-Oriented Dialogue</p>
        <p class="orig-summary">Proactive task-oriented dialogue (TOD), such as outbound sales, demands a persuasive agent that actively probes the user&#x27;s concerns and steers the conversation toward acceptance within a bounded number of turns. Yet post-trained LLMs are inherently conservative, and reward-shaping RL (e.g., GRPO) struggles since it only re-weights what an already passive policy samples. We show that conditioning on the user&#x27;s latent concerns unlocks proactive capability that no amount of sampling can undermine, establishing these concerns as a pivotal training-time signal. To operationalize this finding, we build the \textbf{Cognitive User Simulator}, which models each user as a stratified persona comprising observable external traits and hidden internal concerns. The simulator produces faithful and diverse interactions, while emitting per-turn state dynamics that track persuasion progress. We then introduce \textbf{Simulator-Induced Asymmetric-View Policy Optimization}, which converts the modeled concerns and the simulation state transition into complementary training objectives: (1) \emph{Asymmetric On-Policy Self-Distillation} that transfers concern-aware behavior from a privileged view of the same policy into its deployable, conversation-only view; and (2) \emph{State-Transition Policy Refinement} ...</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c09e5257097a" data-article-url="https://arxiv.org/abs/2605.28210" data-article-title="AI を介した結果的な決定を選択するという幻想" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28210" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28210" target="_blank" rel="noopener">AI を介した結果的な決定を選択するという幻想</a></h3>
      <p class="summary">ウルマン＝マルガリットの選択の概念（変革的で、取り消し不可能で、差し押さえられた代替案によって影が隠れる）を利用して、現在の AI システムが、既存の AI 倫理が完全には捉えていない深刻な倫理的問題を提起していることを示します。それは、個人やグループが、真に選択できるようになるために必要な主体が弱体化している間に、意味のある結果的な選択の欺瞞的な外観に遭遇する選択の幻想です。 AI を主に既に与えられた目的の最適化装置として扱うアプローチに対して、私たちは、AI システムは選択という幻想からメタ能力を保護し育成するかどうかによって評価されるべきだと主張します。メタ能力とは、手段と目的を形成し、異議を唱え、修正し、所有することができる、社会的および制度的に足場を築かれた主体的能力のことです。この再構成は、AI を介した経路が行動や行動を誤った方向に導いた場合に、選択するという幻想のコストを吸収することが最も困難な恵まれない人々にとって特に緊急です。私たちは、AI を介した結果的意思決定のための 3 つの規範的命令を提案します。それは、予測の限界を認める実存的誠実さです。生態学的合理性。不均質な生きた生態の中に指針を位置づけます。そして、反事実的賠償。AI を介した意思決定経路が失敗した場合に、差し押さえられた代替手段を認めて修復します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Illusion of Opting in AI-Mediated Consequential Decisions</p>
        <p class="orig-summary">Drawing on Ullmann-Margalit&#x27;s concept of opting (transformative, irrevocable, and shadowed by foreclosed alternatives), we show that current AI systems raise a profound ethical problem that existing AI ethics has not fully captured: the illusion of opting, in which persons and groups encounter the deceptive appearance of meaningful consequential choice while the agency needed to become genuinely capable of choosing is weakened. Against approaches that treat AI primarily as an optimizer of already given ends, we argue that AI systems should be evaluated by whether they protect and cultivate meta-capacity against the illusion of opting: the socially and institutionally scaffolded agentive capacity through which means and ends can be formed, contested, revised, and owned. This reframing is especially urgent for disadvantaged populations, who are least able to absorb the costs of the illusion of opting when AI-mediated pathways misdirect behavior and action. We propose three normative imperatives for AI-mediated consequential decisions: existential honesty, which acknowledges the limits of prediction; ecological rationality, which situates guidance within heterogeneous lived ecologies; and counterfactual reparation, which acknowledges and repairs foreclosed alternatives when AI-mediated decision-making pathways fail.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7eb747a8471c" data-article-url="https://arxiv.org/abs/2606.00732" data-article-title="SHARP: 長距離非定常時間パターン認識のための睡眠ベースの階層的加速再生" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00732" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00732" target="_blank" rel="noopener">SHARP: 長距離非定常時間パターン認識のための睡眠ベースの階層的加速再生</a></h3>
      <p class="summary">長距離の非定常時間パターンを学習することは、特に厳密なストリーミング設定において、現代のシーケンス モデルにとって依然として中心的な課題です。これらの設定では、データは順番に到着するため、過去の観測を同時に再検討することなく、単一パスで処理する必要があります。リカレント ニューラル ネットワークやトランスフォーマーを含む標準アーキテクチャは、時間軸全体にわたる切り詰められたバックプロパゲーション、または長距離クレジット割り当ての明示的な入力ウィンドウの長さによって制約されます。これらの制限に対処するために、私たちは、時間学習を 2 つの相補的なコンポーネントに分解するフレームワークである SHARP (Sleep-based Hierarchical Accelerated Replay) を提案します。1 つは過去の入力の構造化された履歴を蓄積するメモリ モジュール、もう 1 つはこのメモリ上で動作するパターン認識モジュールです。この分離により、長距離クレジット割り当ての多くのステップにわたる時間にわたるバックプロパゲーションの必要性がなくなり、非定常ダイナミクスへのリソース効率と計算効率の高い適応が可能になります。齧歯動物の徐波睡眠中に観察される再生の加速にヒントを得て、SHARP は、時間的に構造化された記憶追跡が加速された形で再生され、より高いレベルの記憶表現に統合されるオフライン (睡眠) フェーズを組み込んでおり、長距離のコンテキスト保持を向上させます。制御されたシミュレーションとアブレーション研究を通じて、提案されたフレームワークの主要な特性を特徴付けます。 text8 や PG-19 などのベンチマーク データセットでは、SHARP が、現在のストリームから学習を継続し、将来の未確認データに一般化しながら、以前に確認されたデータに対するネクスト トークン予測パフォーマンスを維持することにより、反復ベースラインよりも向上することを実証しました。これらの利点は、線形時間の計算コストのみで指数関数的に増加する効果的な時間コンテキストを生み出す階層構造によって実現されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SHARP: Sleep-based Hierarchical Accelerated Replay for Long Range Non-Stationary Temporal Pattern Recognition</p>
        <p class="orig-summary">Learning long-range non-stationary temporal patterns remains a core challenge for modern sequence models, particularly in strict streaming settings. In these settings, data arrive sequentially and must be processed in a single pass without simultaneously revisiting past observations. Standard architectures, including recurrent neural networks and transformers, are constrained by either truncated backpropagation through time horizon or explicit input window length for long range credit assignment. To address these limitations, we propose SHARP (Sleep-based Hierarchical Accelerated Replay), a framework that decomposes temporal learning into two complementary components: a memory module that accumulates a structured history of past inputs, and a pattern-recognition module that operates over this memory. This separation enables resource- and compute-efficient adaptation to non-stationary dynamics by eliminating the need for backpropagation through time across many steps for long-range credit assignment. Inspired by the accelerated replay observed in rodents during slow-wave sleep, SHARP incorporates offline (sleep) phases in which temporally structured memory traces are replayed in an accelerated form and integrated into higher-level memory representations, improving long-range context retention. Through controlled simulations and ablation studies, we characterize the key properties of the proposed framework. In benchmark datasets such as text8 and PG-19, we demonstrate that SHARP improves over recurrent baselines by retaining next-token predictive performance on previously seen data while continuing to learn from the current stream and generalizing to future unseen data. These gains are enabled by its hierarchical structure, which yields an exponentially increasing effective temporal context with only linear-time computational cost.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bdd9dc0b6039" data-article-url="https://arxiv.org/abs/2606.00995" data-article-title="サブリミナル学習はベクトル蒸留を操る" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00995" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00995" target="_blank" rel="noopener">サブリミナル学習はベクトル蒸留を操る</a></h3>
      <p class="summary">サブリミナル学習とは、教師の出力を微調整した場合に、出力が意味的にそれらの特性と無関係であるにもかかわらず、生徒の言語モデルが教師の特性 (システムが促すフクロウの好みなど) を獲得することを指します。セマンティックな意味を持たないデータがどのようにして特定のセマンティックな特徴を伝達できるのかについては、依然として十分に理解されていません。この研究では、サブリミナル学習が単一のステアリング ベクトル、つまりモデルの活性化に追加されるベクトルによって媒介されることを示します。 2 つのオープンソース モデル全体で、教師のシステム プロンプトはステアリング ベクトルによってよく近似されており、生徒の行動は微調整を通じて調整されたベクトルを学習することによって駆動されることがわかりました。ステアリング ベクトルによって適切に近似されていないシステム プロンプトは潜在的に学習されません。これは、ステアリング ベクトル蒸留の特殊なケースであり、ステアリングされた教師の出力で訓練された生徒が、そのステアリングを模倣することを学びます。一連のセマンティック ベクトルとランダム ベクトルに対するステアリング ベクトル蒸留を示します。モデルのアクティベーションにセマンティック ベクトルを追加すると、その動作にモデルに依存しない効果とモデル固有 (つまり、非セマンティック) の両方の効果が生じる可能性があるため、生成された非セマンティック データはセマンティック効果を持つベクトルを送信でき、サブリミナル学習が可能になります。これは、サブリミナル学習がモデル間で移行しない理由も説明します。言語モデルにおけるサブリミナル学習には適応オプティマイザーが必要であることがわかりました。ステアリングされたデータの活性化勾配はステアリング方向に沿って小さいながらも一貫した成分を運びますが、非適応オプティマイザーは外れ値の勾配が優勢になることを許可することでこれを妨げます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Subliminal Learning Is Steering Vector Distillation</p>
        <p class="orig-summary">Subliminal learning refers to a student language model acquiring a teacher&#x27;s traits (e.g. a system-prompted preference for owls) when fine-tuned on the teacher&#x27;s outputs, despite the outputs being semantically unrelated to those traits. It remains poorly understood how data without semantic meaning can transfer specific semantic traits. In this work, we show that subliminal learning is mediated by a single steering vector, i.e. a vector added to the model&#x27;s activations. Across two open-source models, we find that the teacher&#x27;s system prompt is well approximated by a steering vector, and that the student&#x27;s behavior is driven by learning an aligned vector over fine-tuning. System prompts that are not well approximated by steering vectors are not subliminally learned. This is a special case of steering vector distillation, in which a student trained on the outputs of a steered teacher learns to imitate that steering. We demonstrate steering vector distillation on a range of semantic and random vectors. Adding a semantic vector to a model&#x27;s activations can have both model-independent and model-specific (i.e. non-semantic) effects on its behavior, so generated data that is non-semantic can transmit a vector with semantic effects, enabling subliminal learning. This also explains why subliminal learning does not transfer between models. We find that adaptive optimizers are necessary for subliminal learning in language models: activation gradients on steered data carry a small but consistent component along the steering direction, and non-adaptive optimizers impede this by allowing outlier gradients to dominate.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="873bbb6ccaa9" data-article-url="https://arxiv.org/abs/2606.01961" data-article-title="AutoMedBench: Agentic AI モデルによる医療自動研究に向けて" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01961" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01961" target="_blank" rel="noopener">AutoMedBench: Agentic AI モデルによる医療自動研究に向けて</a></h3>
      <p class="summary">自律エージェントは、個別の予測タスクや短い形式の臨床質問応答を超えて、エンドツーエンドの医療 AI 研究ワークフローをサポートすることがますます期待されています。ただし、既存の医療エージェントのベンチマークは主に最終出力を評価しており、研究プロセス内でのエージェントの行動に対する可視性は限られています。このギャップに対処するために、AutoMedBench は、さまざまな医療画像処理およびマルチモーダル推論タスクにわたる自律型医療 AI 研究のためのワークフロー認識ベンチマークであり、エージェントの実行を統合された 5 段階のワークフロー (S1 ～ S5) (計画、セットアップ、検証、推論、送信) に編成します。これは、セグメンテーション、画像強調、視覚的質問応答 (VQA)、レポート生成、および病変検出の 5 つの研究トラックにまたがる、各実行の平均 33 エージェント ターンの長期タスクで構成されています。各タスクは、Lite と Standard の 2 つの難易度で評価されます。これらは同じデータとメトリクスを使用しますが、タスク概要のスキャフォールディングの量が異なります。各実行は、最終タスクのパフォーマンスと S1 ～ S5 ステージ スコアの両方を使用してスコア付けされ、最初のタスク概要から最終的に提出された成果物までステージレベルの分析が可能になります。何千もの記録された実行を対象としたステージ レベルのスコアリングでは、平均して検証が最も弱いワークフロー ステージであるのに対し、セットアップが最も強いことが明らかになりました。これは、現在のエージェントが信頼性の検証よりもパイプラインを実行可能にすることに優れていることを示唆しています。さらに、実行後のエラー分析では、検証と送信の失敗がタグ付きエラーの大部分を占め、それぞれ起動されたコードの 37.7% と 38.1% を占めているのに対し、タスク理解エラーは 0.9% とまれで、起動されたエラー コードが 1 つある実行は、エラー コードがない実行よりも全体のスコアが平均 48% 低いことが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AutoMedBench: Towards Medical AutoResearch with Agentic AI Models</p>
        <p class="orig-summary">Autonomous agents are increasingly expected to support end-to-end medical-AI research workflows, moving beyond isolated prediction tasks or short-form clinical question answering. However, existing medical agent benchmarks primarily evaluate final outputs, providing limited visibility into agent behavior within the research process. To address this gap, we present AutoMedBench, a workflow-aware benchmark for autonomous medical-AI research across diverse medical imaging and multimodal inference tasks, organizing agent execution into a unified five-stage workflow (S1-S5): Plan, Setup, Validate, Inference, and Submit. It comprises long-horizon tasks with each run averaging 33 agent turns, spanning five research tracks: segmentation, image enhancement, visual question answering (VQA), report generation, and lesion detection. Each task is evaluated under two difficulty tiers, Lite and Standard, which use the same data and metrics but differ in the amount of task-brief scaffolding, and each run is scored using both final task performance and S1-S5 stage scores, enabling stage-level analysis from the initial task brief to the final submitted artifact. Across thousands of recorded runs, stage-level scoring reveals that Validate is the weakest workflow stage on average, whereas Setup is the strongest, suggesting that current agents are better at making pipelines executable than at verifying their reliability. Post-run error analysis further shows that verification and submission failures dominate tagged errors, accounting for 37.7% and 38.1% of fired codes respectively, whereas task-understanding errors are rare at 0.9%, and runs with one fired error code have a 48% lower overall score than runs with no error code on average.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9d94ec5e5550" data-article-url="https://arxiv.org/abs/2606.02914" data-article-title="歯科医療における大規模 AI モデル: 汎用システムからドメイン固有の基盤モデルまで" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02914" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02914" target="_blank" rel="noopener">歯科医療における大規模 AI モデル: 汎用システムからドメイン固有の基盤モデルまで</a></h3>
      <p class="summary">背景: 口腔疾患は世界中で約 35 億人に影響を与えていますが、歯科における大規模 AI モデルの相対的な臨床的可能性は依然として十分に理解されていません。言語生成モデル、弁別視覚基礎モデル、歯科特有の基礎モデルという 3 つの異なるモデル カテゴリが出現しましたが、それらの関係や集合的な制限を検討する統一されたレビューはありません。方法: PRISMA-ScR ガイドラインに従って、4 つのデータベース (PubMed、Google Scholar、Scopus、arXiv) を体系的に検索し、2 人の査読者によって独立してスクリーニングされました。包含/除外基準を適用した後、97 件の研究 (2020 ～ 2026 年) が含まれました。建築パラダイムと歯科専門度によってモデルを整理する二次元分類フレームワークを提案します。結果: 言語生成モデルは、テキストベースのタスク (臨床推論、免許試験、患者とのコミュニケーション) には優れていますが、画像依存の診断では一貫性のないパフォーマンスを示します。適応された SAM および CLIP バリアントにより、強力な歯のセグメンテーションと病変検出結果が得られます。歯科専用モデル (DentVFM、DentVLM、OralGPT) は、複雑なマルチモーダルなタスクで最高のパフォーマンスを発揮します。統合されたパイプラインは、単一モデルのアプローチよりも常に優れたパフォーマンスを発揮します。データの非対称性が観察されます。歯科特有の事前トレーニングはほぼ完全に視覚領域に集中しており、大規模な歯科テキスト コーパスがほとんどないことを反映しています。結論: 汎用モデルと歯科専用モデルは補完的な役割を果たします。最も効果的なシステムは、構造化されたパイプライン内で両方を組み合わせたものです。安全な自律展開には、生成モデルにおける幻覚、注釈付き歯科データセットの制限、標準化された臨床評価ベンチマークの欠如という 3 つの永続的な障壁を解決する必要があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Large AI Models in Dental Healthcare: From General-Purpose Systems to Domain-Specific Foundation Models</p>
        <p class="orig-summary">Background: Oral diseases affect nearly 3.5 billion people worldwide, yet the comparative clinical potential of large-scale AI models in dentistry remains poorly understood. Three distinct model categories have emerged: language-generative models, discriminative vision foundation models, and dental-specific foundation models, with no unified review examining their relationships and collective limitations. Methods: Following PRISMA-ScR guidelines, we systematically searched four databases (PubMed, Google Scholar, Scopus, arXiv), screened independently by two reviewers. After applying inclusion/exclusion criteria, 97 studies (2020-2026) were included. We propose a two-dimensional classification framework organizing models by architectural paradigm and dental specialization degree. Results: Language-generative models excel at text-based tasks (clinical reasoning, licensing exams, patient communication) but show inconsistent performance on image-dependent diagnostics. Adapted SAM and CLIP variants achieve strong tooth segmentation and lesion detection results. Dental-specific models (DentVFM, DentVLM, OralGPT) demonstrate strongest performance on complex multimodal tasks. Integrated pipelines consistently outperform single-model approaches. A data asymmetry is observed: dental-specific pretraining concentrates almost entirely in the vision domain, reflecting scarce large-scale dental text corpora. Conclusions: General-purpose and dental-specific models play complementary roles; the most effective systems combine both within structured pipelines. Safe autonomous deployment requires resolving three persistent barriers: hallucination in generative models, limited annotated dental datasets, and absent standardized clinical evaluation benchmarks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="acad440d720e" data-article-url="https://arxiv.org/abs/2606.03303" data-article-title="LEAP: エージェント フレームワークを使用した形式数学用の LLM のスーパーチャージング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03303" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03303" target="_blank" rel="noopener">LEAP: エージェント フレームワークを使用した形式数学用の LLM のスーパーチャージング</a></h3>
      <p class="summary">大規模言語モデル (LLM) は強力な非公式数学的推論を示しますが、リーンのような形式言語では機械的に検証可能な証明を生成するのに苦労します。 LEAP は、汎用基礎​​モデルが自動化された形式定理証明で最先端のパフォーマンスを達成できるようにするエージェント フレームワークです。 LEAP は、非公式推論、指示に従って、反復的な自己改善などの基礎モデルの機能を活用します。複雑な問題をより小さな単位に分解することで、システムはリーン コンパイラーとの継続的な対話を通じて、正式な証明の構築と非公式のブループリントの橋渡しをします。ますます飽和しつつあるベンチマークを超えた厳密な評価を提供するために、リーンで形式化された IMO スタイルの問題のベンチマークである Lean-IMO-Bench を導入します。このベンチマークでは、短いステートメントでありながら非常に非日常的で、幅広い難易度にわたる複数ステップの証明が行われます。経験的に、北米の学部学生を対象とした毎年恒例の数学コンテストである最新の 2025 年のパトナム コンペティションでは、LEAP は 12 の問題すべてを解決し、フロンティアの正式な数学モデルによる最近の進歩と一致しています。 Lean-IMO-Bench では、LEAP は汎用 LLM のワンショット形式解決率を 10% 未満から 70% に引き上げ、特に金メダル級の専門化された IMO システムによって設定されたベンチマークの 48% を上回っています。さらに、偶数次ケイリーグラフのクヌースのハミルトニアン分解における重要な部分問題の検証された証明を含む、オープンな組み合わせ課題に対する複雑な証明を自律的に形式化することで、LEAP の研究レベルの有用性を実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks</p>
        <p class="orig-summary">Large Language Models (LLMs) exhibit strong informal mathematical reasoning but struggle to generate mechanically verifiable proofs in formal languages like Lean. We present LEAP, an agentic framework that enables general-purpose foundation models to achieve state-of-the-art performance on automated formal theorem proving. LEAP leverages foundation model capabilities, such as informal reasoning, instruction following, and iterative self-refinement. By decomposing complex problems into smaller units, the system bridges formal proof construction with informal blueprints through continuous interaction with the Lean compiler. To provide a rigorous evaluation beyond increasingly saturated benchmarks, we introduce Lean-IMO-Bench, a benchmark of IMO-style problems formalized in Lean, with short statements yet highly non-routine and multi-step proofs across a wide range of difficulty levels. Empirically, on the latest 2025 Putnam Competition, an annual mathematics competition for undergraduate students in North America, LEAP solves all 12 problems, matching recent breakthroughs by frontier formal mathematical models. On Lean-IMO-Bench, LEAP boosts the one-shot formal solve rate of general-purpose LLMs from below 10% to 70%, notably surpassing the 48% benchmark set by a specialized, gold-medal-caliber IMO system. Furthermore, we demonstrate LEAP&#x27;s research-level utility by autonomously formalizing complex proofs for open combinatorial challenges, including a verified proof for a key subproblem in Knuth&#x27;s Hamiltonian decomposition of even-order Cayley graphs.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1b6c4daf9ce7" data-article-url="https://arxiv.org/abs/2606.03660" data-article-title="答えから状態へ: 大規模言語モデルにおける化学推論の検証可能なプロセスレベルの評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03660" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03660" target="_blank" rel="noopener">答えから状態へ: 大規模言語モデルにおける化学推論の検証可能なプロセスレベルの評価</a></h3>
      <p class="summary">大規模な言語モデルが化学アシスタントとして使用されることが増えていますが、ほとんどの化学ベンチマークは依然として最終的な回答のみをスコアとしています。これにより、重大な故障モードが隠蔽されます。モデルは、その推論が化学ロジックに違反しているにもかかわらず、正しい分子、生成物、またはオプションを出力する可能性があります。 LLM ジャッジと人間のステップレベルのプロセス アノテーションはコストが高く、一貫性がなく、幻覚に対して脆弱であるため、既存のプロセス レベルの評価機能を拡張するのは困難です。 ChemCoTBench-V2 は、構造化され検証者がアドレス指定できる化学推論トレースを低コストで監査可能に評価するためのルール検証可能な診断ベンチマークです。これは、分子理解、分子編集、分子最適化、反応予測に及び、18 のレポートタスクにわたる 5,620 の評価サンプルを備えています。モデルは、専門家が設計したテンプレートで主要な中間ステップを公開する必要があり、それらのステップは決定論的な化学ルールでチェックされ、クローズドアンサータスクの場合は、別の LLM 審査員ではなく参照トレースが使用されます。オープンエンド分子最適化は、厳密なトレース マッチングではなく、Oracle で検証可能な状態制約を使用して評価されます。このベンチマークは、最終回答の正確性、テンプレートの遵守、専門家によって洗練された中間コミットメントに対する段階的な検証者の正確さという 3 つの個別のシグナルを報告します。フロンティア モデルの実験では、最終的な回答の成功と構造化推論の状態の一貫性の間には永続的なギャップがあることが明らかになりました。モデルは多くの場合、化学ステップ チェックに失敗しながらも要求された形式に従っているか、弱い裏付け推論で正しく回答することができます。 ChemCoTBench-V2 は、きめ細かいモデル比較を可能にし、トレースが最初に検証ツールに違反する具体的なステップを特定します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Answers to States: Verifiable Process-Level Evaluation of Chemical Reasoning in Large Language Models</p>
        <p class="orig-summary">Large language models are increasingly used as chemistry assistants, yet most chemistry benchmarks still score only final answers. This masks a critical failure mode: a model may output the correct molecule, product, or option while its reasoning violates chemical logic. Existing process-level evaluators are hard to scale because LLM judges and human step-level process annotation are costly, inconsistent, and vulnerable to hallucination. We introduce ChemCoTBench-V2, a rule-verifiable diagnostic benchmark for low-cost, auditable evaluation of structured, verifier-addressable chemical reasoning traces. It spans molecular understanding, molecule editing, molecular optimization, and reaction prediction, with 5,620 evaluation samples across 18 reporting tasks. Models must expose key intermediate steps in expert-designed templates, and those steps are checked with deterministic chemistry rules and, for closed-answer tasks, reference traces rather than another LLM judge. Open-ended molecular optimization is evaluated with oracle-verifiable state constraints rather than strict trace matching. The benchmark reports three separate signals: final-answer correctness, template adherence, and step-wise verifier correctness over expert-refined intermediate commitments. Experiments on frontier models reveal a persistent gap between final-answer success and structured-reasoning-state consistency: models often follow the requested format while failing chemical-step checks, or answer correctly with weak supporting reasoning. ChemCoTBench-V2 enables fine-grained model comparison and identifies the concrete step at which the trace first violates the verifier.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8d08a340ffb6" data-article-url="https://arxiv.org/abs/2606.03937" data-article-title="エントロピーだけでは不十分: ビジョンに基づいたトークン選択による視覚的推論のための効果的な強化学習のロックを解除する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03937" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03937" target="_blank" rel="noopener">エントロピーだけでは不十分: ビジョンに基づいたトークン選択による視覚的推論のための効果的な強化学習のロックを解除する</a></h3>
      <p class="summary">トークンレベルのエントロピーは、検証可能な報酬を伴うテキストのみの強化学習 (RLVR) における単位の割り当てに有効であると一般に認識されていますが、このメカニズムが視覚的推論に依然として適用されるかどうかは不明のままです。私たちの対照的な研究は、自然にエントロピーが低い視覚に敏感なトークンの省略により、視覚推論ではこのメカニズムが崩壊することを示しています。既存のマルチモーダル RL 手法は、視覚認識の重要性をますます認識していますが、体系的な視覚測定が欠けているか、トークンのエントロピーが主に意味論的探索を推進していることを見落としているため、正確な知覚基礎と意味論的推論を交互に配置するという固有の需要を満たすのに苦労しています。これに対処するために、原則的な乗算結合を介して視覚的感度とトークン エントロピーを明示的に統合する効果的な RL フレームワークである VEPO (ポリシー最適化のためのビジョン エントロピー トークン選択) を導入します。VEPO は、視覚的に根拠があり、同時に高度に情報を提供するトークンに勾配クレジットをリダイレクトします。広範な実験により、VEPO の優れたパフォーマンスが実証され、エントロピーのみのベースラインを 7B スケールで 2.28 ポイント、3B スケールで 3.15 ポイント上回りました。アブレーションは、私たちの方法の健全性をさらに実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Entropy Is Not Enough: Unlocking Effective Reinforcement Learning for Visual Reasoning via Vision-Anchored Token Selection</p>
        <p class="orig-summary">While token-level entropy is commonly recognized as effective for credit assignment in text-only reinforcement learning with verifiable rewards (RLVR), it remains unclear whether this mechanism still holds in visual reasoning. Our controlled study shows that this mechanism collapses in visual reasoning due to the omission of vision-sensitive tokens with naturally low entropy. Although existing multimodal RL methods increasingly acknowledge the importance of visual perception, they struggle to satisfy the inherent demand for interleaving precise perceptual grounding with semantic reasoning, either lacking systematic visual measurements or overlooking that token entropy primarily drives semantic exploration. To address this, we introduce VEPO (Vision-Entropy token-selection for Policy Optimization), an effective RL framework explicitly integrating visual sensitivity with token entropy via a principled multiplicative coupling, where VEPO redirects gradient credit toward tokens which are simultaneously visually grounded and highly informative. Extensive experiments demonstrate VEPO&#x27;s leading performance, significantly outperforming the entropy-only baseline by 2.28 points at 7B-scale and 3.15 points at 3B-scale. Ablations further substantiate the soundness of our method.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="04aa882e9a50" data-article-url="https://arxiv.org/abs/2606.03988" data-article-title="想像力の知覚トークンはマルチモーダル言語モデルの空間推論を強化します" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03988" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03988" target="_blank" rel="noopener">想像力の知覚トークンはマルチモーダル言語モデルの空間推論を強化します</a></h3>
      <p class="summary">ビジョン言語モデル (VLM) は多くのタスクに優れていますが、重要な情報が直接観察できない場合には空間推論に依然として苦労します。このような問題の多くは、目に見えない視点から何が見えるかを推測したり、遮蔽された空間を通る経路を追跡したり、部分的な観察を一貫した空間表現に統合したりするなど、想像力豊かな認識を必要とします。観察された入力との一貫性を保ちながら、代替の空間構成の下で VLM が知覚するものを外部化する中間的な知覚表現である想像的知覚トークン (IPT) を導入します。この機能を研究するために、透視図法取得 (PET)、パス トレーシング (PT)、およびマルチビュー カウンティング (MVC) という 3 つのタスクを定式化し、グラウンド トゥルースの想像力、回答、評価ベンチマークを含む約 20,000 例のデータセットを構築します。統合された VLM BAGEL をバックボーンとして使用することで、IPT 監視は空間推論を一貫して改善し、推論時に画像を生成しなくても、テキストによる思考連鎖トレーニングを上回ることがよくあります。 MVC では、IPT は精度を 3.4% 向上させ、PT 上の強力なクローズドソース モデルにより競争力のあるパフォーマンスを実現します。さらに、IPT とラベルのみの監視を組み合わせるとさらなる利益が得られる一方、テキストの思考連鎖はパフォーマンスを大幅に低下させる可能性があることがわかり、空間計算が言語を通じて強制される場合にはモダリティの不一致が示唆されます。全体として、IPT は、観察されていない空間構造について推論するための原則に基づいた監視信号を提供し、解釈可能な中間表現を生成しながら一般化を向上させます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models</p>
        <p class="orig-summary">Vision language models (VLMs) excel at many tasks but still struggle with spatial reasoning when critical information is not directly observable. Many such problems require imaginative perception: inferring what would be seen from an unseen viewpoint, tracing paths through occluded spaces, or integrating partial observations into a coherent spatial representation. We introduce Imaginative Perception Tokens (IPT), intermediate perceptual representations that externalize what a VLM would perceive under alternative spatial configurations while remaining consistent with the observed input. To study this capability, we formulate three tasks, Perspective Taking (PET), Path Tracing (PT), and Multiview Counting (MVC), and construct datasets of approximately 20K examples with ground truth imaginations, answers, and evaluation benchmarks. Using the unified VLM BAGEL as the backbone, IPT supervision consistently improves spatial reasoning and often outperforms textual chain of thought training, even without generating images at inference time. On MVC, IPT improves accuracy by 3.4% and achieves competitive performance with strong closed-source models on PT. We further find that combining IPT and label-only supervision yields additional gains, whereas textual chain of thought can substantially degrade performance, suggesting a modality mismatch when spatial computation is forced through language. Overall, IPT provides a principled supervision signal for reasoning about unobserved spatial structure, improving generalization while producing interpretable intermediate representations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bfac45cd0f60" data-article-url="https://arxiv.org/abs/2304.10891" data-article-title="変圧器ベースの自動運転モデル​​と展開指向の圧縮: 調査" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2304.10891" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2304.10891" target="_blank" rel="noopener">変圧器ベースの自動運転モデル​​と展開指向の圧縮: 調査</a></h3>
      <p class="summary">トランスベースのモデルは、長距離の空間依存関係、マルチエージェントのインタラクション、認識、予測、計画にわたるマルチモーダルなコンテキストをキャプチャできるため、自動運転の中心的なパラダイムになりつつあります。同時に、大容量のアテンションベースのアーキテクチャはかなりの遅延、メモリ、エネルギーのオーバーヘッドを課すため、実際の車両への導入は依然として困難です。この調査では、代表的な Transformer ベースの自動運転モデル​​をレビューし、それらをタスクの役割、センシング構成、アーキテクチャ設計ごとに整理します。さらに重要なのは、展開指向の観点からこれらのモデルを検証し、効率の制約が実際にモデル設計の選択肢をどのように再形成するかを分析することです。さらに、量子化、枝刈り、知識蒸留、低ランク近似、効率的な注意など、Transformer ベースの駆動システムに関連する圧縮および加速戦略をレビューし、その利点、限界、およびタスク依存の適用可能性について説明します。圧縮を独立した後処理ステップとして扱うのではなく、展開性、堅牢性、安全性に直接影響を与えるシステムレベルの設計上の考慮事項として強調します。最後に、効率的な自動運転システムの標準化された、安全性を意識した、ハードウェアを意識した評価に向けた未解決の課題と将来の研究の方向性を特定します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Transformer-Based Autonomous Driving Models and Deployment-Oriented Compression: A Survey</p>
        <p class="orig-summary">Transformer-based models are becoming a central paradigm in autonomous driving because they can capture long-range spatial dependencies, multi-agent interactions, and multimodal context across perception, prediction, and planning. At the same time, their deployment in real vehicles remains difficult because high-capacity attention-based architectures impose substantial latency, memory, and energy overhead. This survey reviews representative Transformer-based autonomous driving models and organizes them by task role, sensing configuration, and architectural design. More importantly, it examines these models from a deployment-oriented perspective and analyzes how efficiency constraints reshape model design choices in practice. We further review compression and acceleration strategies relevant to Transformer-based driving systems, including quantization, pruning, knowledge distillation, low-rank approximation, and efficient attention, and discuss their benefits, limitations, and task-dependent applicability. Rather than treating compression as an isolated post-processing step, we highlight it as a system-level design consideration that directly affects deployability, robustness, and safety. Finally, we identify open challenges and future research directions toward standardized, safety-aware, and hardware-conscious evaluation of efficient autonomous driving systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1dc16fd902c8" data-article-url="https://arxiv.org/abs/2407.03884" data-article-title="ChatSOP: 制御可能な LLM 対話エージェントのための SOP ガイド付き MCTS 計画フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2407.03884" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2407.03884" target="_blank" rel="noopener">ChatSOP: 制御可能な LLM 対話エージェントのための SOP ガイド付き MCTS 計画フレームワーク</a></h3>
      <p class="summary">Large Language Model (LLM) を利用した対話エージェントは、さまざまなタスクで優れたパフォーマンスを示します。ユーザーの理解が深まり、人間らしい応答ができるようになったにもかかわらず、ユーザーの*制御性の欠如**は依然として重要な課題であり、焦点の合わない会話やタスクの失敗につながることがよくあります。これに対処するために、対話の流れを規制する標準操作手順 (SOP) を導入します。具体的には、LLM 駆動の対話エージェントの制御性を強化するために設計された新しい SOP ガイド付きモンテカルロ木探索 (MCTS) 計画フレームワークである **ChatSOP** を提案します。これを可能にするために、GPT-4o を備えた半自動ロールプレイング システムを使用して生成され、厳格な手動品質管理を通じて検証された、SOP アノテーション付きのマルチシナリオ対話で構成されるデータセットを厳選しました。さらに、SOP予測のための教師あり微調整と思考連鎖推論を統合し、対話中に最適な行動計画を立てるためにSOPに基づくモンテカルロ木探索を利用する新しい方法を提案します。実験結果は、GPT-3.5 に基づくベースライン モデルと比較してアクション精度の 27.95% の向上を達成し、オープンソース モデルでも顕著な向上を示すなど、私たちの方法の有効性を示しています。データセットとコードは公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ChatSOP: An SOP-Guided MCTS Planning Framework for Controllable LLM Dialogue Agents</p>
        <p class="orig-summary">Dialogue agents powered by Large Language Models (LLMs) show superior performance in various tasks. Despite the better user understanding and human-like responses, their **lack of controllability** remains a key challenge, often leading to unfocused conversations or task failure. To address this, we introduce Standard Operating Procedure (SOP) to regulate dialogue flow. Specifically, we propose **ChatSOP**, a novel SOP-guided Monte Carlo Tree Search (MCTS) planning framework designed to enhance the controllability of LLM-driven dialogue agents. To enable this, we curate a dataset comprising SOP-annotated multi-scenario dialogues, generated using a semi-automated role-playing system with GPT-4o and validated through strict manual quality control. Additionally, we propose a novel method that integrates Chain of Thought reasoning with supervised fine-tuning for SOP prediction and utilizes SOP-guided Monte Carlo Tree Search for optimal action planning during dialogues. Experimental results demonstrate the effectiveness of our method, such as achieving a 27.95% improvement in action accuracy compared to baseline models based on GPT-3.5 and also showing notable gains for open-source models. Dataset and codes are publicly available.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f0ac27a5e15" data-article-url="https://arxiv.org/abs/2407.13922" data-article-title="CounterFace: 顔認識システムのきめ細かい反事実評価のための合成顔データセット" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2407.13922" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2407.13922" target="_blank" rel="noopener">CounterFace: 顔認識システムのきめ細かい反事実評価のための合成顔データセット</a></h3>
      <p class="summary">顔認識 (FR) システムは重要なアプリケーションに広く導入されており、多様な人口や条件に対する信頼性と堅牢性が不可欠となっています。 FR システムの標準評価は通常、LFW などのデータセットに依存して平均認識精度を推定します。一部のベンチマークは、経年変化、姿勢、照明などの粗粒度のアイデンティティ内の変動も捕捉します。ただし、人間の顔には、ヘアスタイルやメイクなどの外観の変化を含む、より細かい変化が生じますが、これは既存のベンチマークでは過小評価されています。反事実評価は、このようなきめの細かい変動の下で FR の堅牢性を評価する方法を提供します。ただし、画像ジェネレーターを使用して合成された既存の反事実の顔データセットは、パイプラインでの検証に人間が使用されているため、属性の範囲が限られています。我々は、20 の顔属性と 8 つの人口統計的要素で構成される新しい反事実評価データセットである CounterFace を提案します。これは、以前の合成顔データセットを 14 属性と 2 つの人口統計的要因で上回っています。データセットは、カスタム検証機能を備えた既製の画像ジェネレーターに基づいた完全に自動化されたパイプラインを使用して生成され、人間による検証の必要性がなくなりました。 CounterFace には 11,821 の反事実の顔のペアが含まれており、事後のユーザー調査により、生成された反事実の忠実性が確認されています。 160 の属性と人口統計の組み合わせにわたって、2 つの商用 FR システムと 4 つのオープンソース FR システム (AWS Rekognition、Face++、AdaFace、MagFace、ArcFace、FaceNet) を評価します。当社のデータセットは、標準の評価ベンチマークとは異なり、個々のシステムの正確な故障モードを分離するのに役立ちます。結果は、パフォーマンスの低下は 6 つすべてのシステムの属性と人口統計によって異なり、遮蔽属性 (フェイスマスクやひげなど) が普遍的にパフォーマンスを低下させることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CounterFace: A Synthetic Face Dataset for Fine-Grained Counterfactual Evaluation of Face Recognition Systems</p>
        <p class="orig-summary">Face recognition (FR) systems are widely deployed in critical applications, making their reliability and robustness across diverse populations and conditions essential. Standard evaluation of FR systems typically relies on datasets such as LFW to estimate average recognition accuracy. Some benchmarks also capture coarse-grained intra-identity variations such as aging, pose, and lighting. However, human faces undergo more fine-grained changes, including appearance changes such as hairstyles and makeup, that are underrepresented in existing benchmarks. Counterfactual evaluation provides a method to assess FR robustness under such fine-grained variations. Existing counterfactual face datasets synthesized with image generators, however, are limited in attribute coverage due to the use of humans for verification in the pipeline. We propose CounterFace, a new counterfactual evaluation dataset comprising 20 facial attributes and 8 demographic factors, exceeding prior synthetic face datasets by 14 attributes and 2 demographics. The dataset is generated using a fully automated pipeline based on off-the-shelf image generators with custom verifiers, removing human need for verification. CounterFace contains 11,821 counterfactual face pairs, and a post-hoc user study confirms the faithfulness of the generated counterfactuals. We evaluate two commercial and four open-source FR systems (AWS Rekognition, Face++, AdaFace, MagFace, ArcFace, FaceNet) across 160 attribute-demographic combinations. Our dataset helps in the isolation of precise failure modes for individual systems unlike standard evaluation benchmarks. Results indicate that the performance degradation varies across attributes and demographics for all six systems and occluding attributes (e.g., facemask and facial hair) universally degrade performance.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="04660e29b72a" data-article-url="https://arxiv.org/abs/2411.05894" data-article-title="SSSD: シンプルにスケーラブルな投機的デコーディング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2411.05894" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2411.05894" target="_blank" rel="noopener">SSSD: シンプルにスケーラブルな投機的デコーディング</a></h3>
      <p class="summary">投機的デコーディングは、大規模言語モデルで推論を高速化するための一般的な手法として登場しました。ただし、既存のアプローチのほとんどは、運用サービス システムにわずかな改善しかもたらしません。大幅な高速化を実現するメソッドは通常、追加のトレーニング済みドラフト モデルまたは補助モデル コンポーネントに依存しており、展開とメンテナンスの複雑さが増大します。この複雑さの追加により、特にドラフト モデルのトレーニング データで十分に表現されていないタスク、ドメイン、または言語にワークロードを移行する場合に、柔軟性が低下します。私たちは、軽量の N グラム マッチングとハードウェア対応の投機を組み合わせたトレーニング不要の手法である Simply-Scalable Speculative Decoding (SSSD) を紹介します。標準の自己回帰デコーディングと比較して、SSSD はレイテンシーを最大 2.9 倍削減します。幅広いベンチマークにわたって、主要なトレーニングベースのアプローチと同等のパフォーマンスを達成しながら、導入の労力が大幅に軽減され（データの準備、トレーニング、チューニングは必要ありません）、言語やドメインの変更や長いコンテキスト設定でも優れた堅牢性を示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SSSD: Simply-Scalable Speculative Decoding</p>
        <p class="orig-summary">Speculative Decoding has emerged as a popular technique for accelerating inference in Large Language Models. However, most existing approaches yield only modest improvements in production serving systems. Methods that achieve substantial speedups typically rely on an additional trained draft model or auxiliary model components, increasing deployment and maintenance complexity. This added complexity reduces flexibility, particularly when serving workloads shift to tasks, domains, or languages that are not well represented in the draft model&#x27;s training data. We introduce Simply-Scalable Speculative Decoding (SSSD), a training-free method that combines lightweight n-gram matching with hardware-aware speculation. Relative to standard autoregressive decoding, SSSD reduces latency by up to 2.9x. It achieves performance on par with leading training-based approaches across a broad range of benchmarks, while requiring substantially lower adoption effort--no data preparation, training or tuning are needed--and exhibiting superior robustness under language and domain shift, as well as in long-context settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c750d25b971" data-article-url="https://arxiv.org/abs/2411.19758" data-article-title="LaVIDE: 地図と画像の位置合わせによる言語による衛星変化の検出" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2411.19758" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2411.19758" target="_blank" rel="noopener">LaVIDE: 地図と画像の位置合わせによる言語による衛星変化の検出</a></h3>
      <p class="summary">地図参照と最新の画像に基づくリモート センシングによる変化検出により、比較対象となる以前の画像が不足している場合でも、地表のタイムリーな観察が促進されます。ただし、高レベルのマップ カテゴリと低レベルの画像詳細の間の意味上のギャップにより、変化検出における堅牢な時間的関連性のための均一な特徴の抽出が妨げられます。ピクセル レベルの視覚的な類似性を比較したり、セグメンテーション エラーを伝播したりする従来のアプローチとは異なり、\textcolor{black}{私たちは、言語を媒介として高レベルの地図カテゴリと低レベルの画像詳細の間の意味論的なギャップを埋める、\underline{La}nguage-\underline{VI}sion \underline{D}iscriminator for d\underline{E}tecting変更であるLaVIDE}という新しいフレームワークを提案します。具体的には、マップのセマンティクスを画像コンテンツと一致させるコンテキスト認識型のテキスト プロンプトを生成するための {\it 制限付きプロンプト学習} と、オブジェクト レベルの属性 (形状、境界など) をマップ表現に統合するための {\it オブジェクト認識埋め込み強化} 戦略を導入します。これらのコンポーネントにより、統一された言語と視覚の機能空間内での堅牢なクロスモーダル調整が可能になります。 DynamicEarthNet、HRSCD、BANDON、SECOND の 4 つのベンチマークに関する広範な実験により、LaVIDE が最先端の手法を大幅に上回り、マルチクラスおよびシングルクラスの変更検出タスクでそれぞれ IoU が $18.4\%$ および $5.2\%$ 向上することが実証されました。私たちのフレームワークは、地図画像の変化検出の精度を向上させるだけでなく、人間の介入を最小限に抑えて迅速な地図更新を実現する実用的なソリューションを提供し、都市計画、災害評価、生態保全に幅広い影響を与えることが期待されています。コードとデータセットは https://github.com/ShuGuoJ/LAVIDE.git から入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LaVIDE: Language-Prompted Satellite Change Detection via Map-Image Alignment</p>
        <p class="orig-summary">Remote sensing change detection based on a map reference and an up-to-date image boosts timely observation of the Earth&#x27;s surface when earlier images are lacking for comparison. However, the semantic gap between high-level map categories and low-level image details hinders the extraction of homogeneous features for robust temporal association in change detection. Unlike conventional approaches that either compare pixel-level visual similarity or propagate segmentation errors, \textcolor{black}{we propose a novel framework, \underline{La}nguage-\underline{VI}sion \underline{D}iscriminator for d\underline{E}tecting changes, LaVIDE}, which bridges the semantic gap between high-level map categories and low-level image details using language as an intermediary. Specifically, we introduce {\it restricted prompt learning} to generate context-aware textual prompts that align map semantics with image content, and an {\it object-aware embedding enhancement} strategy to integrate object-level attributes (e.g., shape, boundary) into map representations. These components enable robust cross-modal alignment within a unified language-vision feature space. Extensive experiments on four benchmarks, DynamicEarthNet, HRSCD, BANDON, and SECOND, demonstrate that LaVIDE outperforms state-of-the-art methods by significant margins, achieving $18.4\%$ and $5.2\%$ improvements in IoU on multi-class and single-class change detection tasks, respectively. Our framework not only advances the accuracy of map-image change detection but also provides a practical solution for rapid map updating with minimal human intervention, promising broad impacts in urban planning, disaster assessment, and ecological conservation. Code and datasets are available at: https://github.com/ShuGuoJ/LAVIDE.git.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f687da328cc5" data-article-url="https://arxiv.org/abs/2503.06525" data-article-title="運動信号から洞察まで: 体育の授業における生徒の行動分析とフィードバックのための統一フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.06525" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.06525" target="_blank" rel="noopener">運動信号から洞察まで: 体育の授業における生徒の行動分析とフィードバックのための統一フレームワーク</a></h3>
      <p class="summary">教育シナリオにおける生徒の行動を分析することは、教育の質と生徒の関与を高めるために非常に重要です。既存の AI ベースのモデルは、多くの場合、生徒の行動を特定して分析するために教室のビデオ映像に依存しています。これらのビデオベースの方法は、生徒の行動を部分的に捉えて分析することはできますが、屋外のオープンスペースで多様な活動が行われる体育の授業では、各生徒の行動を正確に追跡するのに苦労しており、これらの設定に含まれる特殊な技術的な動きに一般化するのは困難です。さらに、現在の方法には通常、専門的な教育知識を統合する機能が欠けており、生徒の行動に対する深い洞察を提供し、指導設計を最適化するためのフィードバックを提供する能力が制限されています。これらの制限に対処するために、私たちは、運動信号に基づく人間の活動認識技術を活用し、高度な大規模言語モデルと組み合わせて、体育の授業における生徒の行動のより詳細な分析とフィードバックを行う、統合されたエンドツーエンドのフレームワークを提案します。私たちのフレームワークは、教師の指導デザインと体育セッション中の生徒からの動作信号から始まり、最終的には学習とクラス指導の両方を改善するための指導上の洞察と提案を含む自動レポートを生成します。このソリューションは、生徒の行動を分析し、体育の授業に合わせた指導設計を最適化するための動作信号ベースのアプローチを提供します。実験結果は、私たちのフレームワークが生徒の行動を正確に特定し、有意義な教育学的洞察を生み出すことができることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Motion Signals to Insights: A Unified Framework for Student Behavior Analysis and Feedback in Physical Education Classes</p>
        <p class="orig-summary">Analyzing student behavior in educational scenarios is crucial for enhancing teaching quality and student engagement. Existing AI-based models often rely on classroom video footage to identify and analyze student behavior. While these video-based methods can partially capture and analyze student actions, they struggle to accurately track each student&#x27;s actions in physical education classes, which take place in outdoor, open spaces with diverse activities, and are challenging to generalize to the specialized technical movements involved in these settings. Furthermore, current methods typically lack the ability to integrate specialized pedagogical knowledge, limiting their ability to provide in-depth insights into student behavior and offer feedback for optimizing instructional design. To address these limitations, we propose a unified end-to-end framework that leverages human activity recognition technologies based on motion signals, combined with advanced large language models, to conduct more detailed analyses and feedback of student behavior in physical education classes. Our framework begins with the teacher&#x27;s instructional designs and the motion signals from students during physical education sessions, ultimately generating automated reports with teaching insights and suggestions for improving both learning and class instructions. This solution provides a motion signal-based approach for analyzing student behavior and optimizing instructional design tailored to physical education classes. Experimental results demonstrate that our framework can accurately identify student behaviors and produce meaningful pedagogical insights.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c02a64510640" data-article-url="https://arxiv.org/abs/2504.12329" data-article-title="投機的思考: 推論時の大規模モデルのガイダンスによる小規模モデル推論の強化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2504.12329" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2504.12329" target="_blank" rel="noopener">投機的思考: 推論時の大規模モデルのガイダンスによる小規模モデル推論の強化</a></h3>
      <p class="summary">最近の進歩では、ポストトレーニングを利用してモデル推論のパフォーマンスを向上させていますが、これには通常、高価なトレーニング パイプラインが必要であり、依然として非効率で長すぎる出力に悩まされています。トークン レベルで動作する投機的デコードとは異なり、推論レベルでの推論中に大規模な推論モデルが小規模な推論モデルをガイドできるようにする、トレーニング不要のフレームワークである投機的思考を紹介します。私たちのアプローチは 2 つの観察に基づいています。(1) 「wait」などの推論をサポートするトークンは、「\n\n」などの構造区切り文字の後に頻繁に出現し、反映または継続の信号として機能します。 (2) より大きなモデルは、反射的な動作に対するより強力な制御を示し、推論の品質を向上させながら不必要な後戻りを減らします。反射ステップをより有能なモデルに戦略的に委任することで、私たちの方法は、出力を短縮しながら推論モデルの推論精度を大幅に向上させます。 32B 推論モデルの支援により、1.5B モデルの MATH500 の精度は 83.2% から 89.4% に増加し、6.2% の大幅な改善を記録しました。同時に、平均出力長は 5439 トークンから 4583 トークンに減少し、これは 15.7% の減少に相当します。さらに、非推論モデル (Qwen-2.5-7B-Instruct) に適用すると、私たちのフレームワークは同じベンチマークで精度が 74.0% から 81.8% に向上し、7.8% の相対的な改善を達成しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time</p>
        <p class="orig-summary">Recent advances leverage post-training to enhance model reasoning performance, which typically requires costly training pipelines and still suffers from inefficient, overly lengthy outputs. We introduce Speculative Thinking, a training-free framework that enables large reasoning models to guide smaller ones during inference at the reasoning level, distinct from speculative decoding, which operates at the token level. Our approach is based on two observations: (1) reasoning-supportive tokens such as &quot;wait&quot; frequently appear after structural delimiters like &quot;\n\n&quot;, serving as signals for reflection or continuation; and (2) larger models exhibit stronger control over reflective behavior, reducing unnecessary backtracking while improving reasoning quality. By strategically delegating reflective steps to a more capable model, our method significantly boosts the reasoning accuracy of reasoning models while shortening their output. With the assistance of the 32B reasoning model, the 1.5B model&#x27;s accuracy on MATH500 increases from 83.2% to 89.4%, marking a substantial improvement of 6.2%. Simultaneously, the average output length is reduced from 5439 tokens to 4583 tokens, representing a 15.7% decrease. Moreover, when applied to a non-reasoning model (Qwen-2.5-7B-Instruct), our framework boosts its accuracy from 74.0% to 81.8% on the same benchmark, achieving a relative improvement of 7.8%.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="155213fe644f" data-article-url="https://arxiv.org/abs/2505.11166" data-article-title="SoLoPO: ショートからロングへの優先設定の最適化による LLM のロングコンテキスト機能のロック解除" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.11166" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.11166" target="_blank" rel="noopener">SoLoPO: ショートからロングへの優先設定の最適化による LLM のロングコンテキスト機能のロック解除</a></h3>
      <p class="summary">拡張されたコンテキスト サイズによる事前トレーニングの進歩にも関わらず、大規模言語モデル (LLM) は、実世界の長いコンテキスト情報を効果的に利用するという課題に依然として直面しています。これは主に、データ品質の問題、トレーニングの非効率性、および適切に設計された最適化目標の欠如によって引き起こされる不十分な長いコンテキストの調整が原因です。これらの制限に対処するために、私たちは \textbf{S}h\textbf{o}rt-to-\textbf{Lo}ng \textbf{P}reference \textbf{O}ptimization (\textbf{SoLoPO}) というフレームワークを提案します。これは、ロングコンテキストの優先最適化 (PO) を、理論的証拠と経験的証拠の両方によって裏付けられた、ショートコンテキスト PO とショートからロングへの報酬調整 (SoLo-RA) の 2 つのコンポーネントに分離します。具体的には、ショートコンテキスト PO は、ショートコンテキストからサンプリングされたプリファレンスペアを活用して、モデルのコンテキスト知識の利用能力を強化します。一方、SoLo-RA は、同一のタスク関連情報を含む短いコンテキストと長いコンテキストの両方を条件とした場合、応答の報酬スコアの一貫性を明示的に促進します。これにより、短いコンテキストを処理するモデルの機能を長いコンテキストのシナリオに移すことが容易になります。 SoLoPO は、主流の優先最適化アルゴリズムと互換性があり、データ構築とトレーニング プロセスの効率を大幅に向上させます。実験結果は、SoLoPO が、さまざまなロングコンテキストのベンチマーク全体にわたって、より強力な長さおよびドメイン汎化能力に関してこれらすべてのアルゴリズムを強化し、同時に計算効率とメモリ効率の両方で顕著な改善を達成することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization</p>
        <p class="orig-summary">Despite advances in pretraining with extended context sizes, large language models (LLMs) still face challenges in effectively utilizing real-world long-context information, primarily due to insufficient long-context alignment caused by data quality issues, training inefficiencies, and the lack of well-designed optimization objectives. To address these limitations, we propose a framework named \textbf{S}h\textbf{o}rt-to-\textbf{Lo}ng \textbf{P}reference \textbf{O}ptimization (\textbf{SoLoPO}), decoupling long-context preference optimization (PO) into two components: short-context PO and short-to-long reward alignment (SoLo-RA), supported by both theoretical and empirical evidence. Specifically, short-context PO leverages preference pairs sampled from short contexts to enhance the model&#x27;s contextual knowledge utilization ability. Meanwhile, SoLo-RA explicitly encourages reward score consistency for the responses when conditioned on both short and long contexts that contain identical task-relevant information. This facilitates transferring the model&#x27;s ability to handle short contexts into long-context scenarios. SoLoPO is compatible with mainstream preference optimization algorithms, while substantially improving the efficiency of data construction and training processes. Experimental results show that SoLoPO enhances all these algorithms with respect to stronger length and domain generalization abilities across various long-context benchmarks, while achieving notable improvements in both computational and memory efficiency.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0bf451786056" data-article-url="https://arxiv.org/abs/2505.19293" data-article-title="100-LongBench: 事実上のロングコンテキストベンチマークは、文字通りロングコンテキストの能力を評価しているのでしょうか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.19293" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.19293" target="_blank" rel="noopener">100-LongBench: 事実上のロングコンテキストベンチマークは、文字通りロングコンテキストの能力を評価しているのでしょうか?</a></h3>
      <p class="summary">ロングコンテキスト機能は、LLM の最も重要な機能の 1 つと考えられています。真にロングコンテキスト対応 LLM を使用すると、ユーザーは、長い形式の文書をダイジェストして答えを見つけるのではなく、LLM に直接質問するなど、本来面倒なタスクを簡単に処理できるようになります。ただし、既存のリアルタスクベースのロングコンテキスト評価ベンチマークには 2 つの大きな欠点があります。まず、LongBench のようなベンチマークでは、モデルのベースライン能力からロングコンテキストのパフォーマンスを分離するための適切な指標が提供されていないことが多く、モデル間の比較が不明確になります。第 2 に、このようなベンチマークは通常、固定入力長で構築されるため、さまざまなモデル間での適用性が制限され、モデルがいつ故障し始めるかを明らかにできません。これらの問題に対処するために、長さ制御可能なロングコンテキストのベンチマークと、ベースラインの知識を真のロングコンテキストの機能から切り離す新しいメトリクスを導入します。実験は、LLM を効果的に評価する際の私たちのアプローチの優位性を示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability?</p>
        <p class="orig-summary">Long-context capability is considered one of the most important abilities of LLMs, as a truly long context-capable LLM enables users to effortlessly process many originally exhausting tasks -- e.g., digesting a long-form document to find answers vs. directly asking an LLM about it. However, existing real-task-based long-context evaluation benchmarks have two major shortcomings. First, benchmarks like LongBench often do not provide proper metrics to separate long-context performance from the model&#x27;s baseline ability, making cross-model comparison unclear. Second, such benchmarks are usually constructed with fixed input lengths, which limits their applicability across different models and fails to reveal when a model begins to break down. To address these issues, we introduce a length-controllable long-context benchmark and a novel metric that disentangles baseline knowledge from true long-context capabilities. Experiments demonstrate the superiority of our approach in effectively evaluating LLMs.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4c652b6b7396" data-article-url="https://arxiv.org/abs/2505.22988" data-article-title="モデルを保持した適応丸め" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.22988" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.22988" target="_blank" rel="noopener">モデルを保持した適応丸め</a></h3>
      <p class="summary">量子化の目標は、出力分布が元のモデルにできるだけ近い圧縮モデルを生成することです。これを容易に行うために、ほとんどの量子化アルゴリズムは、エンドツーエンド エラーの代理として各層の即時アクティブ化エラーを最小限に抑えます。ただし、これは将来のレイヤーの影響を無視するため、プロキシとしては不十分です。この研究では、ネットワークの出力での誤差を直接考慮する適応丸めアルゴリズムである Yet Another Quantization Algorithm (YAQA) を導入します。 YAQA は、量子化アルゴリズムの最初のエンドツーエンド誤差限界に至る一連の理論的結果を紹介します。まず、ヘッセ近似の構造を介して、適応丸めアルゴリズムの収束時間を特徴付けます。次に、エンドツーエンド誤差が真のヘッセ行列に対する近似のコサイン類似度によって制限される可能性があることを示します。これにより、対応する最適に近いヘッシアン スケッチを使用した自然なクロネッカー因数近似が可能になります。 YAQA は GPTQ/LDLQ よりも優れていることが証明されており、経験的にはこれらの方法よりも誤差が $\約 30\%$ 減少します。 YAQA は、量子化を意識したトレーニングよりも低い誤差を実現します。これにより、推論のオーバーヘッドがまったく追加されずに、ダウンストリーム タスクで最先端のパフォーマンスが得られます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Model-Preserving Adaptive Rounding</p>
        <p class="orig-summary">The goal of quantization is to produce a compressed model whose output distribution is as close to the original model&#x27;s as possible. To do this tractably, most quantization algorithms minimize the immediate activation error of each layer as a proxy for the end-to-end error. However, this ignores the effect of future layers, making it a poor proxy. In this work, we introduce Yet Another Quantization Algorithm (YAQA), an adaptive rounding algorithm that directly considers the error at the network&#x27;s output. YAQA introduces a series of theoretical results that culminate in the first end-to-end error bounds for quantization algorithms. First, we characterize the convergence time of adaptive rounding algorithms via the structure of their Hessian approximations. We then show that the end-to-end error can be bounded by the approximation&#x27;s cosine similarity to the true Hessian. This admits a natural Kronecker-factored approximation with corresponding near-optimal Hessian sketches. YAQA is provably better than GPTQ/LDLQ and empirically reduces the error by $\approx 30\%$ over these methods. YAQA even achieves a lower error than quantization aware training. This translates to state of the art performance on downstream tasks, all while adding no inference overhead.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bd5780092f17" data-article-url="https://arxiv.org/abs/2506.05233" data-article-title="MesaNet: 局所的に最適なテスト時間トレーニングによるシーケンス モデリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.05233" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.05233" target="_blank" rel="noopener">MesaNet: 局所的に最適なテスト時間トレーニングによるシーケンス モデリング</a></h3>
      <p class="summary">シーケンス モデリングは現在、ソフトマックス セルフ アテンションを使用する因果変換アーキテクチャによって支配されています。広く採用されていますが、トランスフォーマーはスケーリング メモリを必要とし、推論中に線形に計算します。最近の一連の作業によりソフトマックス演算が線形化され、その結果、DeltaNet、Mamba、xLSTM など、メモリとコンピューティング コストが一定の強力なリカレント ニューラル ネットワーク (RNN) モデルが誕生しました。これらのモデルは、再帰層のダイナミクスがすべて、オンライン学習ルールを通じてほぼ最適化されたコンテキスト内の回帰目標から導出できることに注目することで統合できます。ここで、私たちはこの一連の作業に加わり、最近提案された Mesa 層 (von Oswald et al., 2024) の数値的に安定したチャンク単位の並列化可能なバージョンを導入します。これは、時間内に順次実行することしかできず、したがってスケーラブルではありませんでした。この層もやはりコンテキスト内損失に起因しますが、高速共役勾配ソルバーを使用してあらゆる時点で最適化されるまで最小化されています。最大 10 億パラメータ規模までの広範な一連の実験研究を通じて、最適なテスト時間のトレーニングにより、特に長いコンテキストの理解を必要とするタスクにおいて、以前の RNN よりも低い言語モデリングの複雑さとより高いダウンストリーム ベンチマーク パフォーマンスを実現できることを示しました。このパフォーマンスの向上には、推論時間中に追加のフロップが費やされるというコストがかかります。したがって、私たちの結果は、パフォーマンスを向上させるためにテスト時間のコンピューティングを増加させる最近の傾向と興味深い関連性があります。ここでは、ニューラル ネットワーク自体内の逐次的な最適化問題を解決するためにコンピューティングを費やしています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MesaNet: Sequence Modeling by Locally Optimal Test-Time Training</p>
        <p class="orig-summary">Sequence modeling is currently dominated by causal transformer architectures that use softmax self-attention. Although widely adopted, transformers require scaling memory and compute linearly during inference. A recent stream of work linearized the softmax operation, resulting in powerful recurrent neural network (RNN) models with constant memory and compute costs such as DeltaNet, Mamba or xLSTM. These models can be unified by noting that their recurrent layer dynamics can all be derived from an in-context regression objective, approximately optimized through an online learning rule. Here, we join this line of work and introduce a numerically stable, chunkwise parallelizable version of the recently proposed Mesa layer (von Oswald et al., 2024), which could only run sequentially in time and was therefore not scalable. This layer again stems from an in-context loss, but which is now minimized to optimality at every time point using a fast conjugate gradient solver. Through an extensive suite of experiments study up to the billion-parameter scale, we show that optimal test-time training enables reaching lower language modeling perplexity and higher downstream benchmark performance than previous RNNs, especially on tasks requiring long context understanding. This performance gain comes at the cost of additional flops spent during inference time. Our results are therefore intriguingly related to recent trends of increasing test-time compute to improve performance -- here by spending compute to solve sequential optimization problems within the neural network itself.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6996c3b16d19" data-article-url="https://arxiv.org/abs/2506.06006" data-article-title="VLM は将来の状態を予測できますか?逆ダイナミクスから世界モデルをブートストラップする" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.06006" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.06006" target="_blank" rel="noopener">VLM は将来の状態を予測できますか?逆ダイナミクスから世界モデルをブートストラップする</a></h3>
      <p class="summary">統合ビジョン言語モデル (VLM) は、前方ダイナミクス予測 (FDP)、つまり、以前の観察とアクション (言語形式) を考慮して将来の状態 (画像形式) を予測できますか? VLM は命令からフレーム間に物理的に妥当な遷移を生成するのに苦労していることがわかりました。それにもかかわらず、私たちはマルチモーダルグラウンディングにおける重大な非対称性を特定しました。つまり、逆ダイナミクス予測 (IDP) を学習するために VLM を微調整すること、つまりフレーム間のアクションを効果的にキャプションすることは、FDP を学習するよりもはるかに簡単です。次に、IDP を使用して、1) 合成データからの弱教師あり学習と 2) 推論時間の検証という 2 つの主な戦略を通じて FDP をブートストラップすることができます。まず、IDP はビデオ フレーム観測のラベルなしペアのアクションに注釈を付けて、FDP のトレーニング データのスケールを拡張できます。次に、IDP は FDP の複数のサンプルに報酬を割り当ててスコアを付け、推論時の検索を効果的にガイドできます。 2 つの VLM ファミリーを使用した Aurora-Bench でのアクション中心の画像編集タスクを通じて、両方の戦略から得られる FDP を評価します。依然として汎用であるにもかかわらず、当社の最高のモデルは、最先端の画像編集モデルと競合するパフォーマンスを達成し、GPT4o-as-judge によると、それらを 7% から 13% のマージンで改善し、Aurora-Bench のすべてのサブセットにわたって最高の平均人間評価を達成しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Can VLMs Predict Future States? Bootstrapping World Models from Inverse Dynamics</p>
        <p class="orig-summary">Can unified vision-language models (VLMs) perform forward dynamics prediction (FDP), i.e., predicting the future state (in image form) given the previous observation and an action (in language form)? We find that VLMs struggle to generate physically plausible transitions between frames from instructions. Nevertheless, we identify a crucial asymmetry in multimodal grounding: fine-tuning a VLM to learn inverse dynamics prediction (IDP)-effectively captioning the action between frames-is significantly easier than learning FDP. In turn, IDP can be used to bootstrap FDP through two main strategies: 1) weakly supervised learning from synthetic data and 2) inference time verification. Firstly, IDP can annotate actions for unlabelled pairs of video frame observations to expand the training data scale for FDP. Secondly, IDP can assign rewards to multiple samples of FDP to score them, effectively guiding search at inference time. We evaluate the FDP resulting from both strategies through the task of action-centric image editing on Aurora-Bench with two families of VLMs. Despite remaining general-purpose, our best model achieves a performance competitive with state-of-the-art image editing models, improving on them by a margin between 7% and 13% according to GPT4o-as-judge, and achieving the best average human evaluation across all subsets of Aurora-Bench.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6de29de74e6e" data-article-url="https://arxiv.org/abs/2506.10630" data-article-title="推論としての時系列予測: 強化された LLM を使用したゆっくりとした思考のアプローチ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.10630" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.10630" target="_blank" rel="noopener">推論としての時系列予測: 強化された LLM を使用したゆっくりとした思考のアプローチ</a></h3>
      <p class="summary">時系列予測 (TSF) を進歩させるために、予測精度を向上させるさまざまな方法が提案されており、統計的手法からデータ駆動型の深層学習アーキテクチャに進化しています。その有効性にもかかわらず、既存の手法のほとんどは依然として高速思考パラダイムに固執しており、中核となるモデリング哲学として歴史的パターンの抽出と将来の値へのマッピングに依存しており、中間の時系列推論を組み込んだ明示的な思考プロセスが欠けています。一方、新興の低速思考 LLM (OpenAI-o1 など) は、驚くべき多段階推論能力を示し、これらの問題を克服する代替方法を提供しています。ただし、迅速なエンジニアリングだけでは、高い計算コスト、プライバシーのリスク、ドメイン固有の時系列推論の詳細な能力の制限など、いくつかの制限があります。これらの制限に対処するためのより有望なアプローチは、ゆっくりとした思考能力を開発し、強力な時系列推論スキルを獲得するように LLM を訓練することです。この目的のために、時系列予測のためのLLMの多段階推論能力を強化するように設計された2段階の強化微調整フレームワークであるTime-R1を提案します。具体的には、第 1 段階ではウォームアップ適応のための教師あり微調整を行い、第 2 段階では強化学習を採用してモデルの汎化能力を向上させます。特に、時系列予測に特化したきめの細かい多目的報酬を設計し、次に GRIP (ポリシー最適化のためのグループベースの相対重要度) を導入します。これは、不均一なサンプリングを活用して、モデルによる効果的な推論パスの探索をさらに促進および最適化します。実験では、Time-R1 がさまざまなデータセットにわたって予測パフォーマンスを大幅に向上させることが実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Time Series Forecasting as Reasoning: A Slow-Thinking Approach with Reinforced LLMs</p>
        <p class="orig-summary">To advance time series forecasting (TSF), various methods have been proposed to improve prediction accuracy, evolving from statistical techniques to data-driven deep learning architectures. Despite their effectiveness, most existing methods still adhere to a fast thinking paradigm-relying on extracting historical patterns and mapping them to future values as their core modeling philosophy, lacking an explicit thinking process that incorporates intermediate time series reasoning. Meanwhile, emerging slow-thinking LLMs (e.g., OpenAI-o1) have shown remarkable multi-step reasoning capabilities, offering an alternative way to overcome these issues. However, prompt engineering alone presents several limitations - including high computational cost, privacy risks, and limited capacity for in-depth domain-specific time series reasoning. To address these limitations, a more promising approach is to train LLMs to develop slow thinking capabilities and acquire strong time series reasoning skills. For this purpose, we propose Time-R1, a two-stage reinforcement fine-tuning framework designed to enhance multi-step reasoning ability of LLMs for time series forecasting. Specifically, the first stage conducts supervised fine-tuning for warmup adaptation, while the second stage employs reinforcement learning to improve the model&#x27;s generalization ability. Particularly, we design a fine-grained multi-objective reward specifically for time series forecasting, and then introduce GRIP (group-based relative importance for policy optimization), which leverages non-uniform sampling to further encourage and optimize the model&#x27;s exploration of effective reasoning paths. Experiments demonstrate that Time-R1 significantly improves forecast performance across diverse datasets.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a4bcd0d4102" data-article-url="https://arxiv.org/abs/2508.01815" data-article-title="グラフ検索からスキーマ実現まで: 異種ナレッジ グラフ上のテキストから SPARQL への反事実検証" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.01815" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.01815" target="_blank" rel="noopener">グラフ検索からスキーマ実現まで: 異種ナレッジ グラフ上のテキストから SPARQL への反事実検証</a></h3>
      <p class="summary">Text-to-SPARQL は、自然言語の質問を RDF ナレッジ グラフ上の実行可能な SPARQL クエリにマッピングします。標準的な評価ではターゲット グラフが事前に修正されることがよくありますが、実践的なナレッジ グラフ質問応答 (KGQA) には、異なるスキーマ、部分的なアラインメント、および不完全なメタデータを含む異種グラフ コレクションが含まれる場合があります。この設定では、クエリ生成は SPARQL 構文以上のものに依存します。システムは、質問に必要な述語、エンティティ タイプ、結合、フィルター、および制約をサポートできるグラフ スキーマを識別する必要があります。異種の KG コレクション上でテキストから SPARQL に変換するためのスキーマベースのエージェント フレームワークである SchemaForge を紹介します。その中心的なメカニズムは、質問条件付きのスキーマ スライス アライメントです。弱いグラフの証拠によって最初にもっともらしいグラフが特定され、より強力なスキーマの証拠によって、ローカル スキーマ スライスが意図したクエリを実現できるかどうかが決まります。選択されたスキーマ スライスは、クエリの生成と実行前の検証を制限します。利用可能なグラフが 1 つだけの場合、同じ定式化は、スキーマ基盤を備えた標準の単一 KG テキストから SPARQL への変換に縮小されます。 LC-QuAD 2.0、QALD-9 Plus、QALD-10、および Spider4SPARQL で SchemaForge を評価します。 SchemaForge は、4 つの公開ベンチマーク全体で、最も一致するエージェントのベースラインよりも実行精度を平均 11.50 パーセント向上させています。 Spider4SPARQL では、SchemaForge は実行精度を 54.86% から 64.18% に向上させ、トップ 1 グラフ割り当て精度 73.0% とトップ 3 グラフ割り当て精度 97.0% を達成しました。これらの結果は、グラフの弱い証拠からスキーマ固有のクエリコミットメントへの移行と、反事実の回答セットのチェックにより、異種ナレッジグラフよりも実行可能なクエリの生成が向上することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Graph Retrieval to Schema Realization: Counterfactual Validation for Text-to-SPARQL over Heterogeneous Knowledge Graphs</p>
        <p class="orig-summary">Text-to-SPARQL maps natural-language questions to executable SPARQL queries over RDF knowledge graphs. While standard evaluations often fix the target graph in advance, practical knowledge graph question answering (KGQA) may involve heterogeneous graph collections with different schemas, partial alignments, and incomplete metadata. In this setting, query generation depends on more than SPARQL syntax: the system must identify a graph schema that can support the predicates, entity types, joins, filters, and constraints required by the question. We present SchemaForge, a schema-grounded agentic framework for text-to-SPARQL over heterogeneous KG collections. Its central mechanism is question-conditioned schema-slice alignment: weak graph evidence first identifies plausible graphs, while stronger schema evidence determines whether a local schema slice can realize the intended query. The selected schema slice then constrains query generation and verification before execution. When only one graph is available, the same formulation reduces to standard single-KG text-to-SPARQL with schema grounding. We evaluate SchemaForge on LC-QuAD 2.0, QALD-9 Plus, QALD-10, and Spider4SPARQL. Across the four public benchmarks, SchemaForge improves execution accuracy over the strongest matched agent baseline by 11.50 percentage points on average. On Spider4SPARQL, SchemaForge improves execution accuracy from 54.86% to 64.18% and achieves 73.0% Top-1 and 97.0% Top-3 graph allocation accuracy. These results show that moving from weak graph evidence to schema-specific query commitments, together with counterfactual answer-set checks, improves executable query generation over heterogeneous knowledge graphs.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8bb20580fa17" data-article-url="https://arxiv.org/abs/2508.08237" data-article-title="VGGSounder: 基礎モデルのオーディオビジュアル評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.08237" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.08237" target="_blank" rel="noopener">VGGSounder: 基礎モデルのオーディオビジュアル評価</a></h3>
      <p class="summary">視聴覚基礎モデルの出現は、マルチモーダルな理解を確実に評価することの重要性を強調しています。 VGGSound データセットは、オーディオビジュアル分類の評価のベンチマークとしてよく使用されます。ただし、私たちの分析では、不完全なラベル付け、部分的に重複するクラス、不整合なモダリティなど、VGGSound のいくつかの制限が特定されました。これらは、聴覚および視覚能力の歪んだ評価につながります。これらの制限に対処するために、VGGSounder を導入します。これは、VGGSound を拡張し、オーディオビジュアル基礎モデルを評価するために特別に設計された、包括的に再アノテーションが付けられたマルチラベル テスト セットです。 VGGSounder は詳細なモダリティの注釈を備えており、モダリティ固有のパフォーマンスを正確に分析できます。さらに、新しいモダリティ混乱メトリックを使用して別の入力モダリティを追加したときのパフォーマンスの低下を分析することで、モデルの限界を明らかにします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">VGGSounder: Audio-Visual Evaluations for Foundation Models</p>
        <p class="orig-summary">The emergence of audio-visual foundation models underscores the importance of reliably assessing their multi-modal understanding. The VGGSound dataset is commonly used as a benchmark for evaluation audio-visual classification. However, our analysis identifies several limitations of VGGSound, including incomplete labelling, partially overlapping classes, and misaligned modalities. These lead to distorted evaluations of auditory and visual capabilities. To address these limitations, we introduce VGGSounder, a comprehensively re-annotated, multi-label test set that extends VGGSound and is specifically designed to evaluate audio-visual foundation models. VGGSounder features detailed modality annotations, enabling precise analyses of modality-specific performance. Furthermore, we reveal model limitations by analysing performance degradation when adding another input modality with our new modality confusion metric.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1007a1203fb6" data-article-url="https://arxiv.org/abs/2508.14623" data-article-title="ノイズを含む音声分離におけるスケール不変信号対歪み比の研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.14623" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.14623" target="_blank" rel="noopener">ノイズを含む音声分離におけるスケール不変信号対歪み比の研究</a></h3>
      <p class="summary">この論文では、事実上のベンチマーク WSJ0-2Mix の場合のように、トレーニング参照にノイズが含まれている場合に、教師あり音声分離における評価とトレーニングの目的の両方としてスケール不変信号対歪み比 (SI-SDR) を使用することの意味を検証します。ノイズの多いリファレンスを使用して SI-SDR を導出すると、ノイズによって達成可能な SI-SDR が制限されるか、分離された出力に望ましくないノイズが発生することがわかります。これに対処するために、ノイズの多い参照の学習を回避するモデルをトレーニングすることを目的として、WHAM! を使用して参照を強化し、混合を増強する方法が提案されています。これらの強化されたデータセットでトレーニングされた 2 つのモデルは、非侵入的な NISQA.v2 メトリックを使用して評価されます。結果は、分離された音声のノイズが減少していることを示していますが、参照の処理によりアーチファクトが生じ、全体的な品質の向上が制限される可能性があることが示唆されています。 WSJ0-2Mix および Libri2Mix テスト セットのモデル全体で、SI-SDR と知覚されるノイズの間に負の相関関係が見つかり、導出による結論が強調されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References</p>
        <p class="orig-summary">This paper examines the implications of using the Scale-Invariant Signal-to-Distortion Ratio (SI-SDR) as both evaluation and training objective in supervised speech separation, when the training references contain noise, as is the case with the de facto benchmark WSJ0-2Mix. A derivation of the SI-SDR with noisy references reveals that noise limits the achievable SI-SDR, or leads to undesired noise in the separated outputs. To address this, a method is proposed to enhance references and augment the mixtures with WHAM!, aiming to train models that avoid learning noisy references. Two models trained on these enhanced datasets are evaluated with the non-intrusive NISQA.v2 metric. Results show reduced noise in separated speech but suggest that processing references may introduce artefacts, limiting overall quality gains. Negative correlation is found between SI-SDR and perceived noisiness across models on the WSJ0-2Mix and Libri2Mix test sets, underlining the conclusion from the derivation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5f8d8d2b88f3" data-article-url="https://arxiv.org/abs/2509.02655" data-article-title="BioBlue: 簡略化された観察形式による、生物学的および経済的に調整された LLM の AI 安全性ベンチマークにおける体系的な暴走オプティマイザーのような LLM 故障モード" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.02655" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.02655" target="_blank" rel="noopener">BioBlue: 簡略化された観察形式による、生物学的および経済的に調整された LLM の AI 安全性ベンチマークにおける体系的な暴走オプティマイザーのような LLM 故障モード</a></h3>
      <p class="summary">「暴走最適化」に関する AI 調整の議論の多くは、RL エージェントに焦点を当てています。RL エージェントは、他のすべてを犠牲にして代用目的を過剰に最適化する無制限のユーティリティ最大化装置 (例: 「ペーパークリップ最大化装置」、仕様ゲーム) です。 LLM ベースのシステムは、永続的なオプティマイザーではなく次のトークンの予測子として機能するため、多くの場合、より安全であると考えられています。私たちは、時間の経過とともに目標の状態を維持したりバランスを取る必要がある単純な長期制御スタイルの環境に LLM を配置することで、この仮定を実証的にテストします。つまり、単一および複数の目標の恒常性、収益逓減と無制限の目標のバランス、および再生可能資源の持続可能性です。私たちは、LLM が多くのステップに対して適切に行動し、定められた目的を明確に理解しているにもかかわらず、構造化された方法でコンテキストを失い、暴走的な行動に陥ることがよくあります。つまり、恒常性目標を無視し、複数の目的のトレードオフから単一の目的の最大化に崩壊するため、凹型の効用構造を尊重できません。これらの失敗は、有能な動作の初期期間の後に確実に発生し、その時点でコンテキスト ウィンドウが完全には程遠いにもかかわらず、特徴的なパターン (自己模倣的な振動、無制限の最大化、単一目的の最適化への復帰など) を示します。問題は、LLM がコンテキストを失い、一貫性がなくなるだけではありません。 LLM は表面的には多目的で境界があるように見えますが、複数の目的が関与する持続的な相互作用の下での LLM の動作は、単一目的で境界のない、調整が不十分なオプティマイザーのように動作するように体系的に偏っています。我々は、トークンレベルのパターン強化アトラクターを仮説とします。LLM は、元の指示からではなく、最近の行動履歴のトークン パターンから行動をますます導き出す可能性があります。なぜこれが複数の目的の設定でのみ起こるのかは未解決の問題のままです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BioBlue: Systematic runaway-optimiser-like LLM failure modes on biologically and economically aligned AI safety benchmarks for LLMs with simplified observation format</p>
        <p class="orig-summary">Many AI alignment discussions of &quot;runaway optimisation&quot; focus on RL agents: unbounded utility maximisers that over-optimise a proxy objective (e.g., &quot;paperclip maximiser&quot;, specification gaming) at the expense of everything else. LLM-based systems are often assumed to be safer because they function as next-token predictors rather than persistent optimisers. We empirically test this assumption by placing LLMs in simple, long-horizon control-style environments that require maintaining state of or balancing objectives over time: single- and multi-objective homeostasis, balancing unbounded objectives with diminishing returns, and sustainability of a renewable resource. We find that, although LLMs frequently behave appropriately for many steps and clearly understand the stated objectives, they often lose context in structured ways and drift into runaway behaviours: ignoring homeostatic targets, collapsing from multi-objective trade-offs into single-objective maximisation - thus failing to respect concave utility structures. These failures emerge reliably after initial periods of competent behaviour and exhibit characteristic patterns (including self-imitative oscillations, unbounded maximisation, and reverting to single-objective optimisation), even though the context window is far from full at that point. The problem is not that the LLMs just lose context and become incoherent. Although LLMs appear multi-objective and bounded on the surface, their behaviour under sustained interaction involving multiple objectives, is systematically biased towards acting like single-objective, unbounded, poorly aligned optimisers. We hypothesise a token-level pattern reinforcement attractor: LLMs may increasingly derive actions from the token patterns of their recent action history rather than from the original instructions. Why this happens only in multi-objective settings remains an open question.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2c8dc287c933" data-article-url="https://arxiv.org/abs/2509.08846" data-article-title="分散ゲート分布を使用した不確かさの推定" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.08846" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.08846" target="_blank" rel="noopener">分散ゲート分布を使用した不確かさの推定</a></h3>
      <p class="summary">ニューラル ネットワークからのサンプルごとの不確実性の定量化の評価は、高リスクのアプリケーションを含む意思決定に不可欠です。一般的なアプローチは、ベイジアン モデルまたは近似モデルからの予測分布を使用し、対応する予測の不確実性を認識的 (モデル関連) 成分と偶然的 (データ関連) 成分に分解することです。しかし、最近では相加的分解に疑問が持たれています。この研究では、さまざまなモデル予測にわたるクラス確率分布の信号対雑音比に基づいて、不確実性の推定と分解を行うための直感的なフレームワークを提案します。アンサンブルから導出された信頼係数によって予測をスケールする分散ゲート測定を導入します。私たちはこの尺度を利用して、委員会マシンの多様性の崩壊の存在について議論します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Uncertainty Estimation using Variance-Gated Distributions</p>
        <p class="orig-summary">Evaluation of per-sample uncertainty quantification from neural networks is essential for decision-making involving high-risk applications. A common approach is to use the predictive distribution from Bayesian or approximation models and decompose the corresponding predictive uncertainty into epistemic (model-related) and aleatoric (data-related) components. However, additive decomposition has recently been questioned. In this work, we propose an intuitive framework for uncertainty estimation and decomposition based on the signal-to-noise ratio of class probability distributions across different model predictions. We introduce a variance-gated measure that scales predictions by a confidence factor derived from ensembles. We use this measure to discuss the existence of a collapse in the diversity of committee machines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e896155fea3c" data-article-url="https://arxiv.org/abs/2509.15676" data-article-title="KITE: コンテキスト内学習のためのカーネル化および情報理論のサンプル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.15676" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.15676" target="_blank" rel="noopener">KITE: コンテキスト内学習のためのカーネル化および情報理論のサンプル</a></h3>
      <p class="summary">インコンテキスト学習 (ICL) は、プロンプトに表示される厳選されたいくつかのタスク固有の例のみを使用して、大規模言語モデル (LLM) を新しいデータ不足のタスクに適応させるための強力なパラダイムとして登場しました。ただし、LLM のコンテキスト サイズが限られていると、基本的な疑問が生じます。特定のユーザー クエリのパフォーマンスを最大化するにはどのサンプルを選択する必要があるかということです。 KATE のような最近傍ベースの手法はこの目的で広く採用されていますが、高次元の埋め込み空間では一般化が不十分で多様性が欠如しているなどのよく知られた欠点があります。この研究では、原則に基づいた情報理論主導の観点から、ICL における例の選択の問題を研究します。まず、入力埋め込みに対する線形関数として LLM をモデル化し、サンプル選択タスクをクエリ固有の最適化問題としてフレーム化します。つまり、特定のクエリの予測誤差を最小限に抑える、より大きなサンプル バンクからサンプルのサブセットを選択します。この定式化は、特定のクエリ インスタンスの正確な予測をターゲットにすることで、一般化に焦点を当てた従来の学習理論的アプローチから逸脱しています。ほぼサブモジュール化された原則に基づいた代理目標を導出し、近似を保証する貪欲なアルゴリズムの使用を可能にします。 (i) 明示的なマッピングを使用せずに高次元の特徴空間で動作するカーネル トリックを組み込むこと、および (ii) 選択された例の多様性を促進する最適な設計ベースの正則化機能を導入することによって、この方法をさらに強化します。経験的に、一連の分類タスク全体にわたって標準的な検索方法に比べて大幅な改善が見られることを実証し、現実世界のラベル不足シナリオにおける ICL の構造を認識した多様なサンプル選択の利点を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">KITE: Kernelized and Information Theoretic Exemplars for In-Context Learning</p>
        <p class="orig-summary">In-context learning (ICL) has emerged as a powerful paradigm for adapting large language models (LLMs) to new and data-scarce tasks using only a few carefully selected task-specific examples presented in the prompt. However, given the limited context size of LLMs, a fundamental question arises: Which examples should be selected to maximize performance on a given user query? While nearest-neighbor-based methods like KATE have been widely adopted for this purpose, they suffer from well-known drawbacks in high-dimensional embedding spaces, including poor generalization and a lack of diversity. In this work, we study this problem of example selection in ICL from a principled, information theory-driven perspective. We first model an LLM as a linear function over input embeddings and frame the example selection task as a query-specific optimization problem: selecting a subset of exemplars from a larger example bank that minimizes the prediction error on a specific query. This formulation departs from traditional generalization-focused learning theoretic approaches by targeting accurate prediction for a specific query instance. We derive a principled surrogate objective that is approximately submodular, enabling the use of a greedy algorithm with an approximation guarantee. We further enhance our method by (i) incorporating the kernel trick to operate in high-dimensional feature spaces without explicit mappings, and (ii) introducing an optimal design-based regularizer to encourage diversity in the selected examples. Empirically, we demonstrate significant improvements over standard retrieval methods across a suite of classification tasks, highlighting the benefits of structure-aware, diverse example selection for ICL in real-world, label-scarce scenarios.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d4b1ec99f8da" data-article-url="https://arxiv.org/abs/2509.25289" data-article-title="ClustRecNet: クラスタリング アルゴリズムのための新しいエンドツーエンドの深層学習フレームワークの推奨事項" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.25289" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.25289" target="_blank" rel="noopener">ClustRecNet: クラスタリング アルゴリズムのための新しいエンドツーエンドの深層学習フレームワークの推奨事項</a></h3>
      <p class="summary">特定のデータセットに対して効果的なクラスタリング アルゴリズムを特定することは、依然として教師なし学習の基本的な問題です。 ClustRecNet は、生の表形式データの高次表現を直接学習することで、適切なクラスタリング アルゴリズムを推奨する、新しいエンドツーエンドの深層学習フレームワークです。堅牢なメタ学習を促進するために、まずさまざまなクラスタリング シナリオを網羅する 34,000 個の合成データセットの包括的なリポジトリを構築し、10 の一般的なクラスタリング アルゴリズムを実行し、調整ランド インデックス (ARI) を使用してグラウンド トゥルース ラベルを確立します。 ClustRecNet のアーキテクチャには、畳み込みブロック、2 つの残差ブロック、およびローカルおよびグローバル構造パターンをキャプチャするアテンション ブロックが組み込まれており、手動の特徴量エンジニアリングに関連する知識のボトルネックを効果的に回避します。合成ベンチマークと現実世界のベンチマークの両方での広範な評価により、ClustRecNet が、Silhouette、Calinski-Harabasz、Davies-Bouldin、Dunn などの従来の内部クラスター妥当性指標や、ML2DAC、AutoCluster、AutoML4Clust などの最先端の自動機械学習 (AutoML) アプローチよりも常に優れていることが実証されています。たとえば、当社のフレームワークは、合成データの Calinski-Harabasz クラスター有効性インデックスに対して平均 0.497 ARI の向上を達成し、実世界のベンチマークでは主要な AutoML アプローチ (ML2DAC) に対して平均 44.16% の ARI 改善を達成しています。コードとデータは、https://github.com/mrbakhtyari/ClustRecNet から入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ClustRecNet: A Novel End-to-End Deep Learning Framework for Clustering Algorithm Recommendation</p>
        <p class="orig-summary">Identifying an effective clustering algorithm for a given dataset remains a fundamental unsupervised learning issue. We introduce ClustRecNet, a novel end-to-end deep learning framework that recommends suitable clustering algorithm(s) by directly learning high-order representations of raw tabular data. To facilitate robust meta-learning, we first construct a comprehensive repository of 34,000 synthetic datasets encompassing a large variety of clustering scenarios, run 10 popular clustering algorithms, and use Adjusted Rand Index (ARI) to establish ground-truth labels. ClustRecNet&#x27;s architecture incorporates a convolution block, two residual blocks, and an attention block to capture local and global structural patterns, effectively bypassing the knowledge bottleneck associated with manual feature engineering. Extensive evaluation on both synthetic and real-world benchmarks demonstrates that ClustRecNet consistently outperforms traditional internal cluster validity indices such as Silhouette, Calinski-Harabasz, Davies-Bouldin, and Dunn as well as state-of-the-art Automated Machine Learning (AutoML) approaches such as ML2DAC, AutoCluster, and AutoML4Clust. For example, our framework achieves an average 0.497 ARI gain over the Calinski-Harabasz cluster validity index on synthetic data and an average 44.16% ARI improvement over the leading AutoML approach (ML2DAC) on real-world benchmarks. Code and data are available at: https://github.com/mrbakhtyari/ClustRecNet</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6141635ef6ec" data-article-url="https://arxiv.org/abs/2510.03511" data-article-title="プラトン変換器: 等分散性のための確実な選択肢" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.03511" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.03511" target="_blank" rel="noopener">プラトン変換器: 等分散性のための確実な選択肢</a></h3>
      <p class="summary">トランスフォーマーは広く普及していますが、科学やコンピュータ ビジョンで一般的な幾何学的対称性に対する誘導バイアスがありません。既存の等変手法では、複雑で計算量の多い設計を通じて Transformer を非常に効果的にする効率と柔軟性が犠牲になることがよくあります。このトレードオフを解決するために、Platonic Transformer を導入します。プラトン立体対称群からの参照フレームに対する注意を定義することにより、私たちの方法は原則に基づいた重み共有スキームを誘導します。これにより、標準的な Transformer の正確なアーキテクチャと計算コストを維持しながら、連続変換とプラトン対称性に対する等分散性の組み合わせが可能になります。さらに、この注意が形式的には動的グループ畳み込みと同等であることを示し、モデルが適応幾何フィルターを学習し、スケーラビリティの高い線形時間畳み込みバリアントを可能にすることが明らかになります。 Platonic Transformer は、コンピューター ビジョン (CIFAR-10)、3D 点群 (ScanObjectNN)、分子特性予測 (QM9、OMol25) のさまざまなベンチマークにわたって、追加コストなしでこれらの幾何学的制約を活用することで、競争力のあるパフォーマンスを実現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Platonic Transformers: A Solid Choice For Equivariance</p>
        <p class="orig-summary">While widespread, Transformers lack inductive biases for geometric symmetries common in science and computer vision. Existing equivariant methods often sacrifice the efficiency and flexibility that make Transformers so effective through complex, computationally intensive designs. We introduce the Platonic Transformer to resolve this trade-off. By defining attention relative to reference frames from the Platonic solid symmetry groups, our method induces a principled weight-sharing scheme. This enables combined equivariance to continuous translations and Platonic symmetries, while preserving the exact architecture and computational cost of a standard Transformer. Furthermore, we show that this attention is formally equivalent to a dynamic group convolution, which reveals that the model learns adaptive geometric filters and enables a highly scalable, linear-time convolutional variant. Across diverse benchmarks in computer vision (CIFAR-10), 3D point clouds (ScanObjectNN), and molecular property prediction (QM9, OMol25), the Platonic Transformer achieves competitive performance by leveraging these geometric constraints at no additional cost.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="61abaa6fe42c" data-article-url="https://arxiv.org/abs/2510.08647" data-article-title="推論パスは入力として引き続き有効ですか?事後推論から思考連鎖の圧縮への橋渡し" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.08647" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.08647" target="_blank" rel="noopener">推論パスは入力として引き続き有効ですか?事後推論から思考連鎖の圧縮への橋渡し</a></h3>
      <p class="summary">最近の開発により、長い思考連鎖 (CoT) を介した大規模言語モデル (LLM) での高度な推論が可能になり、推論中の効率とパフォーマンスを引き換えにします。既存の作品は、推論時に生成されるCoTを圧縮することに焦点を当てており、正解を導き出すために必要な情報が損なわれています。この研究では、LLM の推論タスクを簡素化するために CoT をコンテキストの一部として取り入れる推論パラダイムであるポスト推論を提案します。事後推論により LLM の生成長が大幅に短縮されるが、その有効性はコンテキスト CoT 生成の効率と信頼性に左右されることがわかりました。したがって、我々は、CoT 圧縮のための効率的な事後推論フレームワークである Upfront CoT (UCoT) を提案します。 UCoT は、軽量モデル (コンプレッサー) をトレーニングしてコンテキストに応じた CoT をソフト トークンの形式で提供し、LLM (エグゼキューター) をトレーニングしてこのコンテキストに応じた CoT を活用して最終的な答えを生成します。広範な実験により、UCoT は CoT の長さを大幅に短縮しながら、実行者の強力な推論能力を維持することが示されました。 UCoT を Qwen2.5-7B-Instruct モデルに適用すると、GSM8K データセットでのトークンの使用量が 50% 削減され、パフォーマンスは最先端 (SOTA) メソッドよりも 3.08% 向上しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Can Reasoning Path still be Effective as Input? Bridging Post-Reasoning to Chain-of-Thought Compression</p>
        <p class="orig-summary">Recent developments have enabled advanced reasoning in Large Language Models (LLMs) via long Chain-of-Thought (CoT), trading efficiency during inference for performance. Existing works focus on compressing generated CoT in reasoning, which impairs the necessary information for deriving the correct answer. In this work, we propose post-reasoning, a reasoning paradigm that takes CoT as a part of context to simplify the reasoning task for LLMs. We find that post-reasoning significantly reduces the generation length of LLMs, but its effectiveness hinges on the efficiency and the reliability of the contextual CoT generation. Therefore, we propose Upfront CoT (UCoT), an efficient post-reasoning framework for CoT compression. UCoT trains a lightweight model (compressor) to provide contextual CoT in form of soft tokens and trains the LLM (executor) to leverage this contextual CoT for producing the final answer. Extensive experiments show that UCoT maintains the powerful reasoning ability of executor while significantly reducing the length of CoT. It is worth mentioning that when applying UCoT to the Qwen2.5-7B-Instruct model, the usage of tokens on GSM8K dataset is reduced by 50%, while the performance is 3.08% higher than that of the state-of-the-art (SOTA) method.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="48cbb083c4df" data-article-url="https://arxiv.org/abs/2510.13704" data-article-title="単純な埋め込みによりアクター-クリティックエージェントのサンプル効率が向上" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.13704" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.13704" target="_blank" rel="noopener">単純な埋め込みによりアクター-クリティックエージェントのサンプル効率が向上</a></h3>
      <p class="summary">最近の研究では、大規模な環境の並列化を使用して、アクタークリティカル手法の実時間のトレーニング時間を加速することが提案されています。残念ながら、望ましいレベルのパフォーマンスを達成するには、依然として多数の環境との対話が必要になる場合があります。適切に構造化された表現は、深層強化学習 (RL) エージェントの一般化とサンプル効率を向上させることができることに注目し、単純なエンベディング、つまりエンベディングを単純な構造に制約する軽量の表現層の使用を提案します。この幾何学的な帰納的バイアスにより、批評家のブートストラップを安定させ、政策の勾配を強化するまばらで離散的な特徴が生じます。 FastTD3、FastSAC、および PPO に適用すると、単純なエンベディングは、実行速度を損なうことなく、さまざまな連続および離散制御環境全体でサンプル効率と最終パフォーマンスを一貫して向上させます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Simplicial Embeddings Improve Sample Efficiency in Actor-Critic Agents</p>
        <p class="orig-summary">Recent works have proposed accelerating the wall-clock training time of actor-critic methods via the use of large-scale environment parallelization; unfortunately, these can sometimes still require large number of environment interactions to achieve a desired level of performance. Noting that well-structured representations can improve the generalization and sample efficiency of deep reinforcement learning (RL) agents, we propose the use of simplicial embeddings: lightweight representation layers that constrain embeddings to simplicial structures. This geometric inductive bias results in sparse and discrete features that stabilize critic bootstrapping and strengthen policy gradients. When applied to FastTD3, FastSAC, and PPO, simplicial embeddings consistently improve sample efficiency and final performance across a variety of continuous- and discrete-control environments, without any loss in runtime speed.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="43aaa7046059" data-article-url="https://arxiv.org/abs/2510.26219" data-article-title="プレロジット空間での重要度サンプリングによる、テスト時の報酬に基づく言語モデルの調整" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.26219" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.26219" target="_blank" rel="noopener">プレロジット空間での重要度サンプリングによる、テスト時の報酬に基づく言語モデルの調整</a></h3>
      <p class="summary">大規模言語モデル (LLM) の微調整には高い計算コストが必要となるため、LLM のテスト時の調整が注目を集めています。本稿では、確率的制御入力を用いたサンプリングベースのモデル予測制御に基づいた、プリロジット上の適応重要度サンプリング（AISP）と呼ばれる新しいテスト時間報酬ガイド型アライメント手法を提案します。 AISP は、摂動の平均に関して期待される報酬を最大化するために、ガウス摂動を最後から 2 番目の層の出力であるプレロジットに適用します。最適な平均は、サンプリングされた報酬を使用した重要度サンプリングによって取得されることを示します。 AISP は、使用されたサンプル数に対する報酬の点で best-of-n サンプリングよりも優れたパフォーマンスを示し、他の報酬ベースのテスト時間調整方法よりも高い報酬を達成します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Test-time reward-guided alignment of language models by importance sampling on pre-logit space</p>
        <p class="orig-summary">Test-time alignment of large language models (LLMs) attracts attention because fine-tuning of LLMs requires high computational costs. In this paper, we propose a new test-time reward-guided alignment method called adaptive importance sampling on pre-logits (AISP) on the basis of the sampling-based model predictive control with the stochastic control input. AISP applies the Gaussian perturbation into pre-logits, which are outputs of the penultimate layer, so as to maximize expected rewards with respect to the mean of the perturbation. We demonstrate that the optimal mean is obtained by importance sampling with sampled rewards. AISP outperforms best-of-n sampling in terms of rewards over the number of used samples and achieves higher rewards than other reward-based test-time alignment methods.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aedb6e5a2c42" data-article-url="https://arxiv.org/abs/2510.27191" data-article-title="ベクトル化されたオンライン POMDP 計画" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.27191" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.27191" target="_blank" rel="noopener">ベクトル化されたオンライン POMDP 計画</a></h3>
      <p class="summary">部分的な可観測性の下で計画を立てることは、自律ロボットの重要な機能です。部分観測可能なマルコフ決定プロセス (POMDP) は、部分観測可能性の問題の下で計画を立てるための強力なフレームワークを提供し、アクションの確率的影響とノイズの多い観測を通じて得られる限られた情報を捕捉します。 POMDP の解法は、今日のハードウェアでの大規模並列化から多大な恩恵を受ける可能性がありますが、POMDP ソルバーの並列化は困難でした。ほとんどのソルバーは、アクションとその値の推定をインターリーブする数値最適化に依存しているため、並列プロセス間に依存関係や同期ボトルネックが生じ、並列化の利点が相殺される可能性があります。この論文では、Vectorized Online POMDP Planner (VOPP) を提案します。これは、最適化コンポーネントの一部を分析的に解決し、期待値の推定のみで構成される数値計算を残す、最新の POMDP 定式化を利用する新しい並列オンライン ソルバーです。 VOPP は、計画に関連するすべてのデータ構造をテンソルのコレクションとして表し、すべての計画ステップをこの表現に対する完全にベクトル化された計算として実装します。その結果、同時プロセス間の依存関係や同期ボトルネックのない大規模並列オンライン ソルバーが実現します。実験結果は、VOPP が既存の最先端の並列オンライン ソルバーと比較して、最適に近い解の計算において少なくとも 20 倍効率的であることを示しています。さらに、VOPP は最先端の逐次オンライン ソルバーよりも優れたパフォーマンスを発揮し、計画予算を 1000 倍も削減します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Vectorized Online POMDP Planning</p>
        <p class="orig-summary">Planning under partial observability is an essential capability of autonomous robots. The Partially Observable Markov Decision Process (POMDP) provides a powerful framework for planning under partial observability problems, capturing the stochastic effects of actions and the limited information available through noisy observations. POMDP solving could benefit tremendously from massive parallelization on today&#x27;s hardware, but parallelizing POMDP solvers has been challenging. Most solvers rely on interleaving numerical optimization over actions with the estimation of their values, which creates dependencies and synchronization bottlenecks between parallel processes that can offset the benefits of parallelization. In this paper, we propose Vectorized Online POMDP Planner (VOPP), a novel parallel online solver that leverages a recent POMDP formulation which analytically solves part of the optimization component, leaving numerical computations to consist of only estimation of expectations. VOPP represents all data structures related to planning as a collection of tensors, and implements all planning steps as fully vectorized computations over this representation. The result is a massively parallel online solver with no dependencies or synchronization bottlenecks between concurrent processes. Experimental results indicate that VOPP is at least $20\times$ more efficient in computing near-optimal solutions compared to an existing state-of-the-art parallel online solver. Moreover, VOPP outperforms state-of-the-art sequential online solvers, while using a planning budget that is $1000\times$ smaller.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c2dd4e96c423" data-article-url="https://arxiv.org/abs/2511.03304" data-article-title="連続属性の公平なヌル空間投影をカーネル メソッドに拡張する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.03304" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.03304" target="_blank" rel="noopener">連続属性の公平なヌル空間投影をカーネル メソッドに拡張する</a></h3>
      <p class="summary">機械学習システムが何百万人もの日常の社会生活に統合され続けているため、開発における公平性の概念はますます優先事項になっています。公平性の概念は一般に、潜在的なバイアスを評価するために保護された属性に依存します。ここでは、ほとんどの文献が、ターゲット属性と保護属性の両方に関する個別のセットアップに焦点を当てています。連続属性、特に回帰と組み合わせたもの (これを \emph{連続公平性} と呼びます) に関する文献はほとんどありません。一般的な戦略は反復ヌル空間投影であり、これは現時点では線形モデルまたは非線形エンコーダによって取得されるような埋め込みに対してのみ検討されています。これを「経験的特徴空間」によってカーネル誘導特徴空間に拡張することでこれを改善します。理論的には、これをカーネル行列の直接変換として導き出し、連続的な保護属性に適用できるモデルと公平性スコアに依存しない手法を生成します。私たちは、サポート ベクター回帰 (SVR) と組み合わせた新しいアプローチが、他の最新の手法と比較して、複数のデータセットにわたって競合または向上したパフォーマンスを提供することを実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Extending Fair Null-Space Projections for Continuous Attributes to Kernel Methods</p>
        <p class="orig-summary">With the on-going integration of machine learning systems into the everyday social life of millions the notion of fairness becomes an ever increasing priority in their development. Fairness notions commonly rely on protected attributes to assess potential biases. Here, the majority of literature focuses on discrete setups regarding both target and protected attributes. The literature on continuous attributes especially in conjunction with regression -- we refer to this as \emph{continuous fairness} -- is scarce. A common strategy is iterative null-space projection which as of now has only been explored for linear models or embeddings such as obtained by a non-linear encoder. We improve on this by extending this to kernel induced feature spaces by means of the ``empirical feature space&#x27;&#x27;. We theoretically derive this as a direct transformation of the kernel matrix yielding a model and fairness-score agnostic method applicable to continuous protected attributes. We demonstrate that our novel approach in conjunction with Support Vector Regression (SVR) provides competitive or improved performance across multiple datasets in comparison to other contemporary methods.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="18442eaa797c" data-article-url="https://arxiv.org/abs/2511.05722" data-article-title="OckBench: LLM 推論の効率を測定する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.05722" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.05722" target="_blank" rel="noopener">OckBench: LLM 推論の効率を測定する</a></h3>
      <p class="summary">GPT-5 や Gemini 3 などの大規模言語モデル (LLM) は、自動推論とコード生成の最前線を押し広げました。しかし、現在のベンチマークは精度と出力品質を重視し、トークンの使用効率という重要な側面を無視しています。実際には、トークンの効率は大きく変動します。同じ問題を同様の精度で解決するモデルでは、トークン長に最大 \textbf{5.0$\times$} の違いが見られ、モデルの推論能力に大きなギャップが生じる可能性があります。このような差異は重大な冗長性を明らかにし、トークン効率のギャップを定量化するための標準化されたベンチマークの重要な必要性を浮き彫りにします。そこで、推論タスクとコーディングタスク全体で精度とトークン効率を共同で測定する初のベンチマークである OckBench を紹介します。私たちの評価では、現在のモデル全体でトークンの効率がほとんど最適化されていないため、サービスのコストと待ち時間が大幅に増大していることが明らかになりました。これらの発見は、潜在的な推論能力とトークン効率を最適化するための具体的なロードマップをコミュニティに提供します。最終的に、私たちは評価のパラダイム シフトを主張します。つまり、必要以上にトークンを増やしてはなりません。私たちのベンチマークは https://ockbench.github.io/ で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">OckBench: Measuring the Efficiency of LLM Reasoning</p>
        <p class="orig-summary">Large language models (LLMs) such as GPT-5 and Gemini 3 have pushed the frontier of automated reasoning and code generation. Yet current benchmarks emphasize accuracy and output quality, neglecting a critical dimension: efficiency of token usage. The token efficiency is highly variable in practical. Models solving the same problem with similar accuracy can exhibit up to a \textbf{5.0$\times$} difference in token length, leading to massive gap of model reasoning ability. Such variance exposes significant redundancy, highlighting the critical need for a standardized benchmark to quantify the gap of token efficiency. Thus, we introduce OckBench, the first benchmark that jointly measures accuracy and token efficiency across reasoning and coding tasks. Our evaluation reveals that token efficiency remains largely unoptimized across current models, significantly inflating serving costs and latency. These findings provide a concrete roadmap for the community to optimize the latent reasoning ability, token efficiency. Ultimately, we argue for an evaluation paradigm shift: tokens must not be multiplied beyond necessity. Our benchmarks are available at https://ockbench.github.io/.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8ef2d6994a86" data-article-url="https://arxiv.org/abs/2511.16624" data-article-title="SAM 3D: 画像内のあらゆるものを 3Dfy" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.16624" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.16624" target="_blank" rel="noopener">SAM 3D: 画像内のあらゆるものを 3Dfy</a></h3>
      <p class="summary">単一の画像からジオメトリ、テクスチャ、レイアウトを予測し、視覚的に根拠のある 3D オブジェクトを再構築するための生成モデルである SAM 3D を紹介します。 SAM 3D は、オクルージョンやシーンの乱雑さが一般的であり、コンテキストからの視覚認識の手がかりがより大きな役割を果たす自然画像に優れています。これは、オブジェクトの形状、テクスチャ、ポーズに注釈を付けるための人間とモデルのインザループ パイプラインによってこれを実現し、前例のない規模で視覚的に根拠のある 3D 再構成データを提供します。私たちは、合成事前トレーニングと現実世界の調整を組み合わせた最新の多段階トレーニング フレームワークでこのデータから学習し、3D の「データの壁」を打ち破ります。最近の研究に比べて大幅な成果が得られ、現実世界のオブジェクトやシーンに関する人間の好みのテストでは少なくとも 5:1 の勝率を達成しました。コードとモデルの重み、オンライン デモ、および実際の 3D オブジェクト再構築のための新しい挑戦的なベンチマークをリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SAM 3D: 3Dfy Anything in Images</p>
        <p class="orig-summary">We present SAM 3D, a generative model for visually grounded 3D object reconstruction, predicting geometry, texture, and layout from a single image. SAM 3D excels in natural images, where occlusion and scene clutter are common and visual recognition cues from context play a larger role. We achieve this with a human- and model-in-the-loop pipeline for annotating object shape, texture, and pose, providing visually grounded 3D reconstruction data at unprecedented scale. We learn from this data in a modern, multi-stage training framework that combines synthetic pretraining with real-world alignment, breaking the 3D &quot;data barrier&quot;. We obtain significant gains over recent work, with at least a 5:1 win rate in human preference tests on real-world objects and scenes. We will release our code and model weights, an online demo, and a new challenging benchmark for in-the-wild 3D object reconstruction.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="29a1d111c7e8" data-article-url="https://arxiv.org/abs/2511.18454" data-article-title="AttnRegDeepLab: 解釈可能な胚断片化グレーディングのための 2 段階の分離フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.18454" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.18454" target="_blank" rel="noopener">AttnRegDeepLab: 解釈可能な胚断片化グレーディングのための 2 段階の分離フレームワーク</a></h3>
      <p class="summary">胚の断片化は、体外受精 (IVF) における発育の可能性を評価するために重要な形態学的指標です。ただし、手動によるグレーディングは主観的で非効率的であり、既存の深層学習ソリューションでは臨床的な説明性に欠けたり、セグメンテーション領域の推定で累積誤差が発生したりすることがよくあります。これらの問題に対処するために、この研究では、デュアルブランチ マルチタスク学習 (MTL) を特徴とするフレームワークである AttnRegDeepLab (注意誘導回帰ディープラボ) を提案します。バニラの DeepLabV3+ デコーダは、アテンション ゲートをスキップ接続に統合することで修正され、細胞質ノイズを明示的に抑制して輪郭の詳細を保持します。さらに、マルチスケール回帰ヘッドには、グローバル グレーディング事前分布をセグメンテーション タスクに伝播し、体系的な定量化エラーを修正するための特徴挿入メカニズムが導入されています。 MTL における勾配の競合に対処するために、2 段階の分離トレーニング戦略が提案されています。また、範囲ベースの損失は、弱くラベル付けされたデータを活用するように設計されています。私たちの方法は、輪郭の完全性を犠牲にしてグレーディング誤差を最小限に抑える可能性があるエンドツーエンドの対応物とは対照的に、優れたセグメンテーション精度 (Dice 係数 = 0.729) を維持しながら、堅牢なグレーディング精度を実現します。この研究は、視覚的な忠実性と定量的精度のバランスをとった臨床的に解釈可能なソリューションを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AttnRegDeepLab: A Two-Stage Decoupled Framework for Interpretable Embryo Fragmentation Grading</p>
        <p class="orig-summary">Embryo fragmentation is a morphological indicator critical for evaluating developmental potential in In Vitro Fertilization (IVF). However, manual grading is subjective and inefficient, while existing deep learning solutions often lack clinical explainability or suffer from accumulated errors in segmentation area estimation. To address these issues, this study proposes AttnRegDeepLab (Attention-Guided Regression DeepLab), a framework characterized by dual-branch Multi-Task Learning (MTL). A vanilla DeepLabV3+ decoder is modified by integrating Attention Gates into its skip connections, explicitly suppressing cytoplasmic noise to preserve contour details. Furthermore, a Multi-Scale Regression Head is introduced with a Feature Injection mechanism to propagate global grading priors into the segmentation task, rectifying systematic quantification errors. A 2-stage decoupled training strategy is proposed to address the gradient conflict in MTL. Also, a range-based loss is designed to leverage weakly labeled data. Our method achieves robust grading precision while maintaining excellent segmentation accuracy (Dice coefficient =0.729), in contrast to the end-to-end counterpart that might minimize grading error at the expense of contour integrity. This work provides a clinically interpretable solution that balances visual fidelity and quantitative precision.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2d89de32232" data-article-url="https://arxiv.org/abs/2512.03553" data-article-title="ライブストリームでの動的コンテンツモデレーション: 教師あり分類と MLLM ブースト類似性マッチングの組み合わせ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.03553" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.03553" target="_blank" rel="noopener">ライブストリームでの動的コンテンツモデレーション: 教師あり分類と MLLM ブースト類似性マッチングの組み合わせ</a></h3>
      <p class="summary">コンテンツのモデレーションは、大規模なユーザー生成ビデオ プラットフォームにとって、特にモデレーションがタイムリーでマルチモーダルで、進化する形の望ましくないコンテンツに対して堅牢である必要があるライブストリーミング環境では、依然として重要かつ困難なタスクです。既知の違反に対する教師あり分類と、新規または微妙なケースに対する参照ベースの類似性マッチングを組み合わせた、実稼働規模で導入されたハイブリッドモデレーションフレームワークを紹介します。このハイブリッド設計により、明示的な違反と従来の分類子を回避する新しいエッジ ケースの両方を確実に検出できます。マルチモーダル入力 (テキスト、オーディオ、ビジュアル) は両方のパイプラインを通じて処理され、マルチモーダル大規模言語モデル (MLLM) によって知識がそれぞれに抽出され、推論を軽量に保ちながら精度を高めます。運用環境では、分類パイプラインは 80% の精度で 67% の再現率を達成し、類似性パイプラインは 80% の精度で 76% の再現率を達成します。大規模な A/B テストでは、不要なライブストリームのユーザー視聴が 6 ～ 8% 減少することが示されています。これらの結果は、明示的な違反と新たな敵対行為の両方に対処できる、マルチモーダル コンテンツ ガバナンスへのスケーラブルで適応性のあるアプローチを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Dynamic Content Moderation in Livestreams: Combining Supervised Classification with MLLM-Boosted Similarity Matching</p>
        <p class="orig-summary">Content moderation remains a critical yet challenging task for large-scale user-generated video platforms, especially in livestreaming environments where moderation must be timely, multimodal, and robust to evolving forms of unwanted content. We present a hybrid moderation framework deployed at production scale that combines supervised classification for known violations with reference-based similarity matching for novel or subtle cases. This hybrid design enables robust detection of both explicit violations and novel edge cases that evade traditional classifiers. Multimodal inputs (text, audio, visual) are processed through both pipelines, with a multimodal large language model (MLLM) distilling knowledge into each to boost accuracy while keeping inference lightweight. In production, the classification pipeline achieves 67% recall at 80% precision, and the similarity pipeline achieves 76% recall at 80% precision. Large-scale A/B tests show a 6-8% reduction in user views of unwanted livestreams}. These results demonstrate a scalable and adaptable approach to multimodal content governance, capable of addressing both explicit violations and emerging adversarial behaviors.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f3529f921a6c" data-article-url="https://arxiv.org/abs/2512.04668" data-article-title="トポロジは重要です: マルチエージェント LLM のメモリ リークの測定" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.04668" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.04668" target="_blank" rel="noopener">トポロジは重要です: マルチエージェント LLM のメモリ リークの測定</a></h3>
      <p class="summary">グラフ トポロジは、マルチエージェント LLM システムにおけるメモリ リークの基本的な決定要因ですが、その影響は依然として十分に定量化されていません。マルチエージェント LLM システムにおけるトポロジ条件付きメモリ リークを比較するための制御された評価フレームワークである MAMA (Multi-Agent Memory Attack) を紹介します。 MAMA は、ラベル付きの個人識別情報 (PII) エンティティを含む合成文書を操作し、そこからサニタイズされたタスク指示を生成します。私たちは、エングラム (ターゲット エージェントのメモリに個人情報をシードする) とレゾナンス (攻撃者が抽出を試みるマルチラウンド インタラクション) の 2 段階のプロトコルを実行します。 10 ラウンドにわたって、完全一致抽出と攻撃者の最終出力に対する LLM ベースの推論を組み合わせた 2 段階の回復基準を使用して漏洩を測定します。 $n\in\{4,5,6\}$、攻撃者とターゲットの配置、および基本モデルにわたる 6 つの正規トポロジ (完全、円、チェーン、ツリー、スター、スター リング) を評価します。結果は一貫しています。接続が密になり、攻撃者とターゲットの距離が短くなり、ターゲットの中心性が高くなることで漏洩が増加します。ほとんどの漏れはラウンド初期に発生し、その後プラトーになります。モデルの選択により絶対率は変化しますが、広範な構造傾向は維持されます。時空間/位置属性は、ID 資格情報や規制された識別子よりも漏洩しやすいです。私たちは、システム設計のための実践的なガイダンスを抽出します。つまり、疎接続または階層接続を優先し、攻撃者とターゲットの分離を最大限に高め、トポロジーを意識したアクセス制御によってハブ/ショートカット経路を制限します。私たちのコードは https://github.com/llll121/mama-eval で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Topology Matters: Measuring Memory Leakage in Multi-Agent LLMs</p>
        <p class="orig-summary">Graph topology is a fundamental determinant of memory leakage in multi-agent LLM systems, yet its effects remain poorly quantified. We introduce MAMA (Multi-Agent Memory Attack), a controlled evaluation framework for comparing topology-conditioned memory leakage in multi-agent LLM systems. MAMA operates on synthetic documents containing labeled Personally Identifiable Information (PII) entities, from which we generate sanitized task instructions. We execute a two-phase protocol: Engram (seeding private information into a target agent&#x27;s memory) and Resonance (multi-round interaction where an attacker attempts extraction). Over 10 rounds, we measure leakage using a two-stage recovery criterion that combines exact-match extraction with LLM-based inference over the attacker&#x27;s final output. We evaluate six canonical topologies (complete, circle, chain, tree, star, star-ring) across $n\in\{4,5,6\}$, attacker-target placements, and base models. Results are consistent: denser connectivity, shorter attacker-target distance, and higher target centrality increase leakage; most leakage occurs in early rounds and then plateaus; model choice shifts absolute rates but preserves broad structural trends; spatiotemporal/location attributes leak more readily than identity credentials or regulated identifiers. We distill practical guidance for system design: favor sparse or hierarchical connectivity, maximize attacker-target separation, and restrict hub/shortcut pathways via topology-aware access control. Our code is available at https://github.com/llll121/mama-eval.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c0313d262f29" data-article-url="https://arxiv.org/abs/2512.05277" data-article-title="セグメントからシーンへ: 視覚言語モデルによるエージェント自動運転の時間的理解" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.05277" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.05277" target="_blank" rel="noopener">セグメントからシーンへ: 視覚言語モデルによるエージェント自動運転の時間的理解</a></h3>
      <p class="summary">視覚言語モデル (VLM) は、自動運転 (AD) が最も安全性が重要なインスタンスの 1 つとして、野外で活動する自律エージェントの認識および推論のバックボーンとしてますます導入されています。このようなエージェントがイベントを予測し、原因を特定し、動的な環境で安全に行動するには、信頼性の高い時間的理解が不可欠ですが、これは最先端 (SoTA) VLM にとっても依然として大きな課題です。これまでのビデオ ベンチマークは他のコンテンツ (スポーツ、料理など) を重視していましたが、短編と長編の両方の AD 映像の時間的理解のみに焦点を当てた既存のベンチマークはありません。このギャップを埋めるために、7 つのタスクにわたる約 6000 の質問と回答 (QA) のペアで構成される自動運転における時間的理解 (TAD) ベンチマークを提示し、9 つのクローズドおよびオープンソースのジェネラリスト モデルと AD スペシャリスト モデルを評価します。現在の SoTA モデルは、TAD 上で人間の精度を大幅に下回っています。 VLM ベースの運転エージェントの時間的推論を改善するために、我々は 2 つの新しいトレーニング不要のソリューションを提案します。1 つは思考連鎖 (CoT) 推論を使用する Scene-CoT、もう 1 つは VLM 周辺のエージェント ツールとして動作する軌道分析モジュールによって生成される自己中心の時間認知マップを組み込んだ TCogMap です。既存の VLM と統合された当社のメソッドは、TAD での平均精度を最大 $17.72\%$、STSBench で最大 $10.35\%$ 向上させます。この研究は、TAD の導入、SoTA モデルのベンチマーク、および効果的な機能拡張の提案により、実際に稼働しているエージェント型 AD システムの時間的理解のさらなる進歩を促進することを目的としています。ベンチマークと評価コードは、それぞれ ${\href{https://huggingface.co/datasets/vbdai/TAD}{\text{Hugging Face}}}$ と ${\href{https://github.com/vbdi/tad_bench}{\text{GitHub}}}$ から入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Segments to Scenes: Temporal Understanding for Agentic Autonomous Driving via Vision-Language Models</p>
        <p class="orig-summary">Vision-Language Models (VLMs) are increasingly deployed as the perception and reasoning backbone of autonomous agents acting in the wild, with autonomous driving (AD) being one of the most safety-critical instances. Reliable temporal understanding is essential for such agents to anticipate events, attribute causes, and act safely in dynamic environments, yet this remains a significant challenge even for state-of-the-art (SoTA) VLMs. Prior video benchmarks have emphasized other content (sports, cooking, etc.), yet no existing benchmark focuses exclusively on temporal understanding for both short- and long-form AD footage. To fill this gap, we present the Temporal Understanding in Autonomous Driving (TAD) benchmark, comprising nearly 6000 question-answer (QA) pairs across 7 tasks, and evaluate 9 closed- and open-source generalist as well as AD-specialist models. Current SoTA models perform substantially below human accuracy on TAD. To improve the temporal reasoning of VLM-based driving agents, we propose two novel training-free solutions: Scene-CoT, which uses Chain-of-Thought (CoT) reasoning, and TCogMap, which incorporates an ego-centric temporal cognitive map produced by a trajectory-analysis module that operates as an agentic tool around the VLM. Integrated with existing VLMs, our methods improve average accuracy on TAD by up to $17.72\%$ and by up to $10.35\%$ on STSBench. By introducing TAD, benchmarking SoTA models, and proposing effective enhancements, this work aims to catalyze further progress on temporal understanding for agentic AD systems operating in the wild. The benchmark and evaluation code are available at ${\href{https://huggingface.co/datasets/vbdai/TAD}{\text{Hugging Face}}}$ and ${\href{https://github.com/vbdi/tad_bench}{\text{GitHub}}}$, respectively.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="add3fb1b9fe8" data-article-url="https://arxiv.org/abs/2512.16919" data-article-title="DVGT: ビジュアル ジオメトリ トランスフォーマーの駆動" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.16919" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.16919" target="_blank" rel="noopener">DVGT: ビジュアル ジオメトリ トランスフォーマーの駆動</a></h3>
      <p class="summary">自動運転には、視覚入力から 3D シーンのジオメトリを認識して再構築することが重要です。ただし、さまざまなシナリオやカメラ構成に適応できる、運転をターゲットとした高密度ジオメトリ認識モデルがまだ不足しています。このギャップを埋めるために、私たちはドライビング ビジュアル ジオメトリ トランスフォーマー (DVGT) を提案します。これは、一連のポーズ化されていないマルチビュー ビジュアル入力からグローバルな高密度 3D ポイント マップを再構築します。まず、DINO バックボーンを使用して各画像の視覚的特徴を抽出し、ビュー内の局所的注意、ビュー間の空間的注意、およびフレーム間の時間的注意を交互に使用して、画像全体の幾何学的関係を推測します。次に、複数のヘッドを使用して、最初のフレームのエゴ座標のグローバル ポイント マップと各フレームのエゴ ポーズをデコードします。正確なカメラ パラメーターに依存する従来の方法とは異なり、DVGT には明示的な 3D 幾何学的な事前条件がなく、任意のカメラ構成の柔軟な処理が可能です。 DVGT は、画像シーケンスからメートルスケールのジオメトリを直接予測し、外部センサーによる事後位置合わせの必要性を排除します。 DVGT は、nuScenes、OpenScene、Waymo、KITTI、DDAD などの運転データセットを大規模に組み合わせてトレーニングされたため、さまざまなシナリオで既存のモデルを大幅に上回ります。コードは https://github.com/wzzheng/DVGT で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DVGT: Driving Visual Geometry Transformer</p>
        <p class="orig-summary">Perceiving and reconstructing 3D scene geometry from visual inputs is crucial for autonomous driving. However, there still lacks a driving-targeted dense geometry perception model that can adapt to different scenarios and camera configurations. To bridge this gap, we propose a Driving Visual Geometry Transformer (DVGT), which reconstructs a global dense 3D point map from a sequence of unposed multi-view visual inputs. We first extract visual features for each image using a DINO backbone, and employ alternating intra-view local attention, cross-view spatial attention, and cross-frame temporal attention to infer geometric relations across images. We then use multiple heads to decode a global point map in the ego coordinate of the first frame and the ego poses for each frame. Unlike conventional methods that rely on precise camera parameters, DVGT is free of explicit 3D geometric priors, enabling flexible processing of arbitrary camera configurations. DVGT directly predicts metric-scaled geometry from image sequences, eliminating the need for post-alignment with external sensors. Trained on a large mixture of driving datasets including nuScenes, OpenScene, Waymo, KITTI, and DDAD, DVGT significantly outperforms existing models on various scenarios. Code is available at https://github.com/wzzheng/DVGT.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c323d868ba79" data-article-url="https://arxiv.org/abs/2512.17678" data-article-title="トレーニングは 1 回だけ: オミクス データの微分可能なサブセットの選択" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.17678" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.17678" target="_blank" rel="noopener">トレーニングは 1 回だけ: オミクス データの微分可能なサブセットの選択</a></h3>
      <p class="summary">単一細胞のトランスクリプトーム データからコンパクトで有益な遺伝子サブセットを選択することは、バイオマーカーの発見、解釈可能性の向上、およびコスト効率の高いプロファイリングに不可欠です。ただし、既存の特徴選択アプローチのほとんどは、多段階パイプラインとして動作するか、事後特徴属性に依存するため、選択と予測の結合が弱くなります。この研究では、個別の遺伝子サブセットを共同で識別し、単一の微分可能なアーキテクチャ内で予測を実行するエンドツーエンドのフレームワークである YOTO (トレーニングは 1 回だけ) を紹介します。私たちのモデルでは、予測タスクはどの遺伝子が選択されるかを直接ガイドし、学習されたサブセットが予測表現を形成します。この閉じたフィードバック ループにより、モデルはトレーニング中に選択する内容と予測方法の両方を繰り返し改良することができます。既存のアプローチとは異なり、YOTO はスパース性を強制するため、選択された遺伝子のみが推論に寄与し、追加の下流分類器をトレーニングする必要がなくなります。マルチタスク学習設計を通じて、モデルは関連する目的全体で共有された表現を学習し、部分的にラベル付けされたデータセットが相互に情報を提供できるようにし、追加のトレーニング手順なしでタスク間で一般化する遺伝子サブセットを発見します。 2 つの代表的な単一細胞 RNA-seq データセットで YOTO を評価し、一貫して最先端のベースラインを上回るパフォーマンスを示しています。これらの結果は、まばらでエンドツーエンドのマルチタスク遺伝子サブセット選択により予測性能が向上し、コンパクトで意味のある遺伝子サブセットが得られ、バイオマーカー発見と単一細胞解析が前進することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">You Only Train Once: Differentiable Subset Selection for Omics Data</p>
        <p class="orig-summary">Selecting compact and informative gene subsets from single-cell transcriptomic data is essential for biomarker discovery, improving interpretability, and cost-effective profiling. However, most existing feature selection approaches either operate as multi-stage pipelines or rely on post hoc feature attribution, making selection and prediction weakly coupled. In this work, we present YOTO (you only train once), an end-to-end framework that jointly identifies discrete gene subsets and performs prediction within a single differentiable architecture. In our model, the prediction task directly guides which genes are selected, while the learned subsets, in turn, shape the predictive representation. This closed feedback loop enables the model to iteratively refine both what it selects and how it predicts during training. Unlike existing approaches, YOTO enforces sparsity so that only the selected genes contribute to inference, eliminating the need to train additional downstream classifiers. Through a multi-task learning design, the model learns shared representations across related objectives, allowing partially labeled datasets to inform one another, and discovering gene subsets that generalize across tasks without additional training steps. We evaluate YOTO on two representative single-cell RNA-seq datasets, showing that it consistently outperforms state-of-the-art baselines. These results demonstrate that sparse, end-to-end, multi-task gene subset selection improves predictive performance and yields compact and meaningful gene subsets, advancing biomarker discovery and single-cell analysis.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4c48edd085dc" data-article-url="https://arxiv.org/abs/2512.21917" data-article-title="セミパラメトリック設定の最適化: 言語モデルは密かに単一インデックス モデルです" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.21917" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.21917" target="_blank" rel="noopener">セミパラメトリック設定の最適化: 言語モデルは密かに単一インデックス モデルです</a></h3>
      <p class="summary">選好データに対する政策の調整は通常、観察された選好と潜在的な報酬との間の既知のリンク関数 (例: Bradley-Terry モデル / ロジスティック リンク) を前提としています。このリンクの指定を誤ると、推定される報酬に偏りが生じ、学習されたポリシーの調整が狂う可能性があります。私たちは、未知かつ無制限のリンク関数の下でポリシーの調整を研究します。 $f$ 発散制約付き報酬最大化問題を定式化し、政策クラスの実現可能性がセミパラメトリックな単一インデックスの二項選択モデルを誘導することを示します。このモデルでは、スカラー政策誘導インデックスがデモンストレーションへのすべての依存性を捉え、残りの選好分布は制限されません。計量経済学のように、そのようなモデルの構造パラメータの識別可能性を課してそれらを推定するのではなく、暗黙の報酬関数を使用して政策を直接学習し、最適な政策に対する誤差を分析し、識別不可能でノンパラメトリックな指標を考慮する方法を開発します。一般的な関数の複雑さの尺度の観点から、リンクに依存しない収束保証を証明し、方法と理論を経験的に検証します。コードは https://github.com/causalml/spo/ で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Semiparametric Preference Optimization: Your Language Model is Secretly a Single-Index Model</p>
        <p class="orig-summary">Policy alignment to preference data typically assumes a known link function between observed preferences and latent rewards (e.g., Bradley-Terry model / logistic link). Misspecification of this link can bias inferred rewards and misalign learned policies. We study policy alignment under an unknown and unrestricted link function. We formulate an $f$-divergence-constrained reward maximization problem and show that realizability in a policy class induces a semiparametric single-index binary choice model, where a scalar policy-induced index captures all dependence on demonstrations and the remaining preference distribution is unrestricted. Rather than impose identifiability of structural parameters of such a model and estimate them, as in econometrics, we develop methods that directly learn policies, with the reward function implicit, analyzing error to the optimal policy and allowing for unidentifiable and nonparametric indices. We prove link-agnostic convergence guarantees in terms of generic function complexity measures and validate the methods and theory empirically. Code is available at https://github.com/causalml/spo/.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f93c9d83d350" data-article-url="https://arxiv.org/abs/2601.06196" data-article-title="大規模言語モデルにおける幾何学認識型幻覚検出" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.06196" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.06196" target="_blank" rel="noopener">大規模言語モデルにおける幾何学認識型幻覚検出</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、一般に幻覚と呼ばれる、事実に誤りがあるコンテンツやサポートされていないコンテンツを頻繁に生成します。これまでの研究では、解読戦略、検索の強化、幻覚検出のための教師付き微調整が検討されてきましたが、最近の研究では、コンテキスト内学習 (ICL) が事実の信頼性に大きな影響を与える可能性があることが示されています。ただし、既存の ICL デモンストレーション選択方法は、表面レベルの類似性ヒューリスティックに依存することが多く、タスクやモデル全体での堅牢性が限られています。我々は、フリーズした LLM から抽出された潜在表現を活用する、コンテキスト内のデモンストレーションを選択するための、ジオメトリを意識したデモンストレーション サンプリング フレームワークである GA-ICL を提案します。 GA-ICL は、ローカル多様体構造とクラス認識プロトタイプ幾何学を共同でモデル化することで、語彙や埋め込みの類似性だけではなく、学習されたプロトタイプへの近さに基づいてデモンストレーションを選択します。事実検証 (FEVER) と幻覚検出 (HaluEval) ベンチマーク全体で、GA-ICL は評価された設定の大部分で標準的な ICL 選択ベースラインを上回り、特に対話と要約タスクで大きな向上を示しました。この方法は、温度摂動やモデルの変動の下でも堅牢性を維持しており、ヒューリスティック検索戦略と比較して安定性が向上していることを示しています。語彙検索は、モデル規模が小さい場合でも特定の質問応答方式では競争力を維持できますが、我々の結果は、ジオメトリを意識したプロトタイプの選択が、LLM パラメーターを変更せずに幻覚検出のための信頼性が高く、トレーニングに適したアプローチを提供することを示しています。 Phi-14B および Qwen3-32B の拡張評価では、GA-ICL がより大きなモデルに効果的に拡張でき、より小さなモデルが境界条件の制限を示す QA タスクを含む、比較されたすべてのベースラインを上回っていることが確認され、ICL デモの選択を改善するための原則的な方向性が示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Geometry-Aware Hallucination Detection in Large Language Models</p>
        <p class="orig-summary">Large language models (LLMs) frequently generate factually incorrect or unsupported content, commonly referred to as hallucinations. Prior work has explored decoding strategies, retrieval augmentation, and supervised fine-tuning for hallucination detection, while recent studies show that in-context learning (ICL) can substantially influence factual reliability. However, existing ICL demonstration selection methods often rely on surface-level similarity heuristics and exhibit limited robustness across tasks and models. We propose GA-ICL, a geometry-aware demonstration sampling framework for selecting in-context demonstrations that leverages latent representations extracted from frozen LLMs. By jointly modeling local manifold structure and class-aware prototype geometry, GA-ICL selects demonstrations based on their proximity to learned prototypes rather than lexical or embedding similarity alone. Across factual verification (FEVER) and hallucination detection (HaluEval) benchmarks, GA-ICL outperforms standard ICL selection baselines in the majority of evaluated settings, with particularly strong gains on dialogue and summarization tasks. The method remains robust under temperature perturbations and model variation, indicating improved stability compared to heuristic retrieval strategies. While lexical retrieval can remain competitive in certain question-answering regimes at smaller model scales, our results demonstrate that geometry-aware prototype selection provides a reliable and training-light approach for hallucination detection without modifying LLM parameters. Extended evaluations on Phi-14B and Qwen3-32B confirm that GA-ICL scales effectively to larger models, outperforming all compared baselines including on QA tasks where smaller models show boundary-condition limitations, offering a principled direction for improved ICL demonstration selection.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f3ce2ffb0ea" data-article-url="https://arxiv.org/abs/2601.07036" data-article-title="Mid-Think: トークンレベルのトリガーによるトレーニング不要の中間予算推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.07036" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.07036" target="_blank" rel="noopener">Mid-Think: トークンレベルのトリガーによるトレーニング不要の中間予算推論</a></h3>
      <p class="summary">ハイブリッド推論言語モデルは一般に、推論動作を制御するための高レベルの考える/考えない命令によって制御されますが、そのようなモードの切り替えは主に、命令自体ではなく、トリガー トークンの小さなセットによって駆動されることがわかりました。注意分析と制御されたプロンプト実験を通じて、先頭の「わかりました」トークンが推論行動を誘発する一方、「」に続く改行パターンがそれを抑制することを示しました。この観察に基づいて、これらのトリガーを組み合わせて中間予算の推論を実現し、精度と長さのトレードオフの点で固定トークンおよびプロンプトベースのベースラインを常に上回るパフォーマンスを実現する、シンプルなトレーニング不要のプロンプト形式である Mid-Think を提案します。さらに、SFT 後の RL トレーニングに Mid-Think を適用すると、トレーニング時間が約 15% 短縮され、AIME での Qwen3-8B の最終パフォーマンスが 69.8% から 72.4% に、GPQA での最終パフォーマンスが 58.5% から 61.1% に向上し、推論時間制御と RL ベースの推論トレーニングの両方でその有効性が実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Mid-Think: Training-Free Intermediate-Budget Reasoning via Token-Level Triggers</p>
        <p class="orig-summary">Hybrid reasoning language models are commonly controlled through high-level Think/No-think instructions to regulate reasoning behavior, yet we found that such mode switching is largely driven by a small set of trigger tokens rather than the instructions themselves. Through attention analysis and controlled prompting experiments, we show that a leading ``Okay&#x27;&#x27; token induces reasoning behavior, while the newline pattern following ``&#x27;&#x27; suppresses it. Based on this observation, we propose Mid-Think, a simple training-free prompting format that combines these triggers to achieve intermediate-budget reasoning, consistently outperforming fixed-token and prompt-based baselines in terms of the accuracy-length trade-off. Furthermore, applying Mid-Think to RL training after SFT reduces training time by approximately 15% while improving final performance of Qwen3-8B on AIME from 69.8% to 72.4% and on GPQA from 58.5% to 61.1%, demonstrating its effectiveness for both inference-time control and RL-based reasoning training.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="832efa3bd468" data-article-url="https://arxiv.org/abs/2601.09719" data-article-title="有界双曲線正接: 大規模言語モデルにおける前層正規化の安定した効率的な代替手段" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.09719" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.09719" target="_blank" rel="noopener">有界双曲線正接: 大規模言語モデルにおける前層正規化の安定した効率的な代替手段</a></h3>
      <p class="summary">前層正規化 (Pre-LN) は大規模言語モデル (LLM) の事実上の選択肢であり、安定した事前トレーニングと効果的な転移学習に不可欠です。ただし、Pre-LN は統計計算のオーバーヘッドを繰り返し発生し、層の数が増加するにつれて隠れ状態の大きさと分散が増大する深さの呪いに対して脆弱なままであり、トレーニングが不安定になります。 Dynamic Tanh (DyT) などの効率重視の正規化不要の手法はスループットを向上させますが、深度では脆弱なままです。安定性と効率性を共同で解決するために、Pre-LN のドロップイン代替品である有界双曲線 Tanh (BHyT) を提案します。 BHyT は、tanh 非線形性と明示的なデータ駆動型入力境界を組み合わせて、アクティベーションを非飽和範囲内に保ちます。これにより、活性化の大きさと分散の深さ方向の増大が防止され、理論的な安定性が保証されます。効率性を高めるため、BHyT はブロックごとに 1 回正確な統計を計算し、2 番目の正規化を軽量の分散近似に置き換えます。経験的に、BHyT は事前トレーニング中の安定性と効率の向上を実証し、RMSNorm と比較して平均 1.6\% 高速なトレーニングと平均 1.77\% 高いトークン生成スループットを達成しながら、言語理解と推論ベンチマーク全体で事前トレーニングのみおよび SFT 後の強力なパフォーマンスを維持しています\footnote{コードは https://github.com/MLAI-Yonsei/BHyT} で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Bounded Hyperbolic Tangent: A Stable and Efficient Alternative to Pre-Layer Normalization in Large Language Models</p>
        <p class="orig-summary">Pre-Layer Normalization (Pre-LN) is the de facto choice for large language models (LLMs) and is crucial for stable pretraining and effective transfer learning. However, Pre-LN incurs repeated statistical-computation overhead and remains vulnerable to the curse of depth, where hidden-state magnitudes and variances grow as the number of layers increases, destabilizing training. Efficiency-oriented normalization-free methods such as Dynamic Tanh (DyT) improve throughput but remain fragile at depth. To jointly address stability and efficiency, we propose Bounded Hyperbolic Tanh (BHyT), a drop-in replacement for Pre-LN. BHyT combines a tanh nonlinearity with explicit, data-driven input bounding to keep activations within a non-saturating range. It prevents depth-wise growth in activation magnitude and variance and provides a theoretical stability guarantee. For efficiency, BHyT computes exact statistics once per block and replaces a second normalization with a lightweight variance approximation. Empirically, BHyT demonstrates improved stability and efficiency during pretraining, achieving an average of 1.6\% faster training and an average of 1.77\% higher token generation throughput compared to RMSNorm, while maintaining strong pretraining-only and post-SFT performance across language understanding and reasoning benchmarks\footnote{Code is available at: https://github.com/MLAI-Yonsei/BHyT}.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="da26736fe490" data-article-url="https://arxiv.org/abs/2601.09853" data-article-title="MedRedFlag: LLM が現実世界の医療コミュニケーションにおける誤解をどのように方向転換するかを調査する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.09853" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.09853" target="_blank" rel="noopener">MedRedFlag: LLM が現実世界の医療コミュニケーションにおける誤解をどのように方向転換するかを調査する</a></h3>
      <p class="summary">患者からの現実世界の健康に関する質問には、意図せず誤った仮定や前提が含まれていることがよくあります。このような場合、安全な医療コミュニケーションには通常、方向転換が含まれます。つまり、暗黙の誤解に対処し、その後、元の質問ではなく、根底にある患者の状況に応答します。大規模言語モデル (LLM) は医療アドバイスのために一般ユーザーによって使用されることが増えていますが、この重要な能力についてはまだテストされていません。したがって、この研究では、現実世界の健康に関する質問に埋め込まれた誤った前提に対して LLM がどのように反応するかを調査します。私たちは、Reddit から取得したリダイレクトを必要とする 1,100 以上の質問のデータセットである MedRedFlag をキュレーションするための半自動パイプラインを開発しています。次に、最先端の LLM からの反応を臨床医からの反応と体系的に比較します。私たちの分析により、LLM は問題のある前提が検出された場合でも、問題のある質問の方向を変えることができず、次善の医療意思決定につながる可能性のある回答を提供できないことが明らかになりました。私たちのベンチマークとその結果は、現実世界の医療コミュニケーションの条件下で LLM がどのように機能するかについて、これまでにない大幅なギャップを明らかにし、患者に直面する医療 AI システムに対する重大な安全上の懸念を浮き彫りにしています。コードとデータセットは https://github.com/srsambara-1/MedRedFlag で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MedRedFlag: Investigating how LLMs Redirect Misconceptions in Real-World Health Communication</p>
        <p class="orig-summary">Real-world health questions from patients often unintentionally embed false assumptions or premises. In such cases, safe medical communication typically involves redirection: addressing the implicit misconception and then responding to the underlying patient context, rather than the original question. While large language models (LLMs) are increasingly being used by lay users for medical advice, they have not yet been tested for this crucial competency. Therefore, in this work, we investigate how LLMs react to false premises embedded within real-world health questions. We develop a semi-automated pipeline to curate MedRedFlag, a dataset of 1100+ questions sourced from Reddit that require redirection. We then systematically compare responses from state-of-the-art LLMs to those from clinicians. Our analysis reveals that LLMs often fail to redirect problematic questions, even when the problematic premise is detected, and provide answers that could lead to suboptimal medical decision making. Our benchmark and results reveal a novel and substantial gap in how LLMs perform under the conditions of real-world health communication, highlighting critical safety concerns for patient-facing medical AI systems. Code and dataset are available at https://github.com/srsambara-1/MedRedFlag.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb983e157e80" data-article-url="https://arxiv.org/abs/2601.15158" data-article-title="結果ベースの RL はトランスフォーマーを論理的に導くことができますが、それは適切なデータがあった場合に限られます" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.15158" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.15158" target="_blank" rel="noopener">結果ベースの RL はトランスフォーマーを論理的に導くことができますが、それは適切なデータがあった場合に限られます</a></h3>
      <p class="summary">結果ベースの監督による強化学習 (RL) によって訓練されたトランスフォーマーは、中間推論ステップ (思考連鎖) を生成する能力を自発的に開発できます。しかし、まばらな報酬がそのような体系的な推論を発見するための政策勾配を駆動するメカニズムは、依然としてよく理解されていない。我々は、思考連鎖なしでは解決できないが、単純な反復解決は可能である合成グラフ走査タスク上の単層トランスフォーマーのポリシー勾配ダイナミクスを分析することで、これに対処します。最終的な答えの正しさのみに基づいてトレーニングしたにもかかわらず、ポリシー勾配によって Transformer がグラフの頂点ごとに反復的に走査する構造化された解釈可能なアルゴリズムに収束することが証明されました。我々は、この創発に必要な分布特性を特徴づけ、「単純な例」、つまりより少ない推論ステップを必要とするインスタンスの重要な役割を特定します。トレーニング分布がこれらの単純な例に十分な量を置くと、Transformer はより長いチェーンを推定する一般化可能な走査戦略を学習します。この塊が消えると、ポリシー勾配学習は実行できなくなります。私たちは、合成データの実験と数学的推論タスクにおける現実世界の言語モデルを使用した実験を通じて理論的結果を裏付け、理論的発見が実際の設定に引き継がれることを検証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Outcome-Based RL Provably Leads Transformers to Reason, but Only With the Right Data</p>
        <p class="orig-summary">Transformers trained via Reinforcement Learning (RL) with outcome-based supervision can spontaneously develop the ability to generate intermediate reasoning steps (Chain-of-Thought). Yet the mechanism by which sparse rewards drive policy gradient to discover such systematic reasoning remains poorly understood. We address this by analyzing the policy gradient dynamics of single-layer Transformers on a synthetic graph traversal task that cannot be solved without Chain-of-Thought but admits a simple iterative solution. We prove that despite training solely on final-answer correctness, policy gradient drives the Transformer to converge to a structured, interpretable algorithm that iteratively traverses the graph vertex-by-vertex. We characterize the distributional properties required for this emergence, identifying the critical role of &quot;simple examples&quot;: instances requiring fewer reasoning steps. When the training distribution places sufficient mass on these simpler examples, the Transformer learns a generalizable traversal strategy that extrapolates to longer chains; when this mass vanishes, policy gradient learning becomes infeasible. We corroborate our theoretical results through experiments on synthetic data and with real-world language models on mathematical reasoning tasks, validating that our theoretical findings carry over to practical settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ff6af8588f92" data-article-url="https://arxiv.org/abs/2601.15828" data-article-title="プロの翻訳者は機械生成されたテキストを識別できますか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.15828" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.15828" target="_blank" rel="noopener">プロの翻訳者は機械生成されたテキストを識別できますか?</a></h3>
      <p class="summary">この研究では、事前に専門的なトレーニングを受けていないプロの翻訳者が、人工知能 (AI) によって生成されたイタリア語の短編小説を確実に識別できるかどうかを調査します。 69 人の翻訳者が対面実験に参加し、匿名化された 3 つの短編小説 (ChatGPT-4o によって書かれた 2 つと人間の著者によって書かれた 1 つ) を評価しました。各ストーリーについて、参加者は AI の作者である可能性を評価し、その選択の正当性を示しました。平均的な結果は決定的ではありませんでしたが、統計的に有意なサブセット (16.2%) が合成テキストと人間のテキストを区別することに成功し、彼らの判断が偶然ではなく分析スキルに基づいて行われたことを示唆しています。しかし、ほぼ同数が反対方向にテキストを誤分類しており、多くの場合、客観的なマーカーではなく主観的な印象に依存しており、おそらく AI によって生成されたテキストに対する読者の好みを反映しています。バースト性の低さと物語の矛盾が、合成著作者であることを示す最も信頼できる指標として浮上し、予期せぬ表現、意味的借用、英語からの統語的転移も報告されました。対照的に、文法的な正確さや感情的な調子などの特徴が誤分類につながることがよくありました。これらの発見は、専門的な文脈における合成テキスト編集の役割と範囲について疑問を引き起こします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Can professional translators identify machine-generated text?</p>
        <p class="orig-summary">This study investigates whether professional translators without prior specialized training can reliably identify short stories generated in Italian by artificial intelligence (AI). Sixty-nine translators took part in an in-person experiment, where they assessed three anonymized short stories - two written by ChatGPT-4o and one by a human author. For each story, participants rated the likelihood of AI authorship and provided justifications for their choices. While average results were inconclusive, a statistically significant subset (16.2%) successfully distinguished the synthetic texts from the human text, suggesting that their judgements were informed by analytical skill rather than chance. However, a nearly equal number misclassified the texts in the opposite direction, often relying on subjective impressions rather than objective markers, possibly reflecting a reader preference for AI-generated texts. Low burstiness and narrative contradiction emerged as the most reliable indicators of synthetic authorship, with unexpected calques, semantic loans and syntactic transfer from English also reported. In contrast, features such as grammatical accuracy and emotional tone frequently led to misclassification. These findings raise questions about the role and scope of synthetic-text editing in professional contexts.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="354db8c92bc5" data-article-url="https://arxiv.org/abs/2601.17363" data-article-title="読者はAIが生成したイタリアの短編小説を好みますか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.17363" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.17363" target="_blank" rel="noopener">読者はAIが生成したイタリアの短編小説を好みますか?</a></h3>
      <p class="summary">この研究では、読者が著名なイタリア人作家が書いた短編小説よりも、AI が生成したイタリア語の短編小説を好むかどうかを調査しました。ブラインド設定では、20 人の参加者が 3 つのストーリー (2 つは ChatGPT-4o で作成され、1 つは Alberto Moravia によって作成されました) を、その起源について知らされることなく読み、評価しました。潜在的な影響要因を調査するために、読書習慣と、年齢、性別、教育、第一言語を含む人口統計データも収集されました。その結果、差はわずかであったものの、AI が書いたテキストの方が平均評価がわずかに高く、好まれる頻度が高かったことがわかりました。テキストの好みと人口統計または読書習慣の変数の間に統計的に有意な関連性は見つかりませんでした。これらの発見は、人間が執筆した小説に対する読者の好みに関する仮定に疑問を投げかけ、文学の文脈における合成テキスト編集の必要性について疑問を投げかけています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Do readers prefer AI-generated Italian short stories?</p>
        <p class="orig-summary">This study investigates whether readers prefer AI-generated short stories in Italian over one written by a renowned Italian author. In a blind setup, 20 participants read and evaluated three stories, two created with ChatGPT-4o and one by Alberto Moravia, without being informed of their origin. To explore potential influencing factors, reading habits and demographic data, comprising age, gender, education and first language, were also collected. The results showed that the AI-written texts received slightly higher average ratings and were more frequently preferred, although differences were modest. No statistically significant associations were found between text preference and demographic or reading-habit variables. These findings challenge assumptions about reader preference for human-authored fiction and raise questions about the necessity of synthetic-text editing in literary contexts.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="57578efe34e8" data-article-url="https://arxiv.org/abs/2601.19921" data-article-title="マルチエージェント討論を読み解く: 自信と多様性の役割" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.19921" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.19921" target="_blank" rel="noopener">マルチエージェント討論を読み解く: 自信と多様性の役割</a></h3>
      <p class="summary">マルチエージェント ディベート (MAD) は、テスト時間のスケーリングを通じて大規模言語モデル (LLM) のパフォーマンスを向上させるために広く使用されていますが、最近の研究では、バニラの MAD は、計算コストが高いにもかかわらず、単純な多数決を下回ることが多いことが示されています。研究によると、同種のエージェントと統一的な信念の更新の下では、議論は期待される正しさを維持するため、結果を確実に改善することはできません。人間による熟慮と集団的意思決定からの発見に基づいて、バニラ MAD に欠けている 2 つの重要なメカニズムを特定します。(i) 初期の視点の多様性と、(ii) 明示的で調整された信頼性のコミュニケーションです。私たちは 2 つの軽量介入を提案します。まず、多様性を意識した初期化により、より多様な回答候補プールが選択され、議論の開始時に正しい仮説が存在する可能性が高まります。 2 つ目は、エージェントが調整された自信を表現し、他の人の自信に基づいて最新情報を条件付けする、自信調整型ディベート プロトコルです。我々は、多様性を意識した初期化により、基礎となる更新ダイナミクスを変更することなく MAD 成功の事前確率が向上する一方で、信頼度調整された更新により、議論が体系的に正しい仮説に向かうことが可能になることを理論的に示します。経験的には、6 つの推論指向の QA ベンチマーク全体で、私たちの手法はバニラの MAD と多数決を一貫して上回っています。私たちの結果は、人間による熟慮と LLM ベースの議論を結びつけ、シンプルで原則に基づいた修正が議論の有効性を大幅に高めることができることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Demystifying Multi-Agent Debate: The Role of Confidence and Diversity</p>
        <p class="orig-summary">Multi-agent debate (MAD) is widely used to improve large language model (LLM) performance through test-time scaling, yet recent work shows that vanilla MAD often underperforms simple majority vote despite higher computational cost. Studies show that, under homogeneous agents and uniform belief updates, debate preserves expected correctness and therefore cannot reliably improve outcomes. Drawing on findings from human deliberation and collective decision-making, we identify two key mechanisms missing from vanilla MAD: (i) diversity of initial viewpoints and (ii) explicit, calibrated confidence communication. We propose two lightweight interventions. First, a diversity-aware initialisation that selects a more diverse pool of candidate answers, increasing the likelihood that a correct hypothesis is present at the start of debate. Second, a confidence-modulated debate protocol in which agents express calibrated confidence and condition their updates on others&#x27; confidence. We show theoretically that diversity-aware initialisation improves the prior probability of MAD success without changing the underlying update dynamics, while confidence-modulated updates enable debate to systematically drift to the correct hypothesis. Empirically, across six reasoning-oriented QA benchmarks, our methods consistently outperform vanilla MAD and majority vote. Our results connect human deliberation with LLM-based debate and demonstrate that simple, principled modifications can substantially enhance debate effectiveness.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="50c57145375b" data-article-url="https://arxiv.org/abs/2601.20800" data-article-title="条件付き PED-ANOVA: 階層的および動的検索空間におけるハイパーパラメーターの重要性" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.20800" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.20800" target="_blank" rel="noopener">条件付き PED-ANOVA: 階層的および動的検索空間におけるハイパーパラメーターの重要性</a></h3>
      <p class="summary">我々は、条件付き PED-ANOVA (condPED-ANOVA) を提案します。これは、条件付き検索空間でハイパーパラメーター重要度 (HPI) を推定するための原則的なフレームワークであり、ハイパーパラメーターの存在またはドメインが他のハイパーパラメーターに依存する可能性があります。オリジナルの PED-ANOVA は、検索空間の最もパフォーマンスの高い領域内の HPI を推定するための高速かつ効率的な方法を提供しますが、固定された無条件の検索空間を前提としているため、条件付きハイパーパラメーターを適切に処理できません。これに対処するために、最高パフォーマンスの領域に条件付き HPI を導入し、条件付きのアクティブ化とドメインの変更を正確に反映する閉じた形式の推定量を導き出します。実験によると、既存の HPI 推定量を単純に適応すると、条件設定で誤解を招く、または解釈できない重要度が生成されるのに対し、condPED-ANOVA は、基礎となる条件構造を反映する意味のある重要度を一貫して提供します。私たちのコードは https://github.com/kAIto47802/condPED-ANOVA で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Conditional PED-ANOVA: Hyperparameter Importance in Hierarchical &amp; Dynamic Search Spaces</p>
        <p class="orig-summary">We propose conditional PED-ANOVA (condPED-ANOVA), a principled framework for estimating hyperparameter importance (HPI) in conditional search spaces, where the presence or domain of a hyperparameter can depend on other hyperparameters. Although the original PED-ANOVA provides a fast and efficient way to estimate HPI within the top-performing regions of the search space, it assumes a fixed, unconditional search space and therefore cannot properly handle conditional hyperparameters. To address this, we introduce a conditional HPI for top-performing regions and derive a closed-form estimator that accurately reflects conditional activation and domain changes. Experiments show that naive adaptations of existing HPI estimators yield misleading or uninterpretable importances in conditional settings, whereas condPED-ANOVA consistently provides meaningful importances that reflect the underlying conditional structure. Our code is publicly available at https://github.com/kAIto47802/condPED-ANOVA.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d2abf1f61102" data-article-url="https://arxiv.org/abs/2601.21461" data-article-title="L$^3$: 大規模なルックアップ レイヤー" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.21461" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.21461" target="_blank" rel="noopener">L$^3$: 大規模なルックアップ レイヤー</a></h3>
      <p class="summary">最新のスパース言語モデルは通常、トークンを高密度 MLP 「エキスパート」に動的にルーティングする Mixture-of-Experts (MoE) レイヤーを通じてスパース性を実現します。ただし、動的ハード ルーティングには、ハードウェア効率が低い可能性や、安定したトレーニングのために補助損失が必要であるなど、多くの欠点があります。対照的に、トークナイザーの埋め込みテーブルは、ネイティブにスパースであり、コンテキスト情報を持たないという犠牲を払ってトークンごとに 1 つの埋め込みを選択することで、これらの問題を大幅に回避します。この研究では、ラージ ルックアップ レイヤー (L$^3$) を導入します。これは、スパース性をさらにスケーリングする手段として、デコーダー レイヤーをモデル化するための埋め込みテーブルを一般化します。 L$^3$ 層は、静的トークンベースのルーティングを使用して、コンテキスト依存の方法でトークンごとに学習されたエンベディングのセットを集約します。これにより、モデルはエンベディングに情報をキャッシュすることでメモリと計算のバランスを効率的にとることができます。 L$^3$ には 2 つの主要コンポーネントがあります。(1) オーバーヘッドなしで高速トレーニングと CPU オフロード推論を可能にするシステムフレンドリーなアーキテクチャ、(2) 速度と品質のバランスを効果的に取る情報理論的な埋め込み割り当てアルゴリズムです。最大 2.6B のアクティブ パラメーターを使用して変換器をトレーニングすることで L$^3$ を経験的にテストし、L$^3$ が言語モデリングと下流タスクの両方で密モデルと等疎 MoE の両方を大幅に上回るパフォーマンスを示すことがわかりました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">L$^3$: Large Lookup Layers</p>
        <p class="orig-summary">Modern sparse language models typically achieve sparsity through Mixture-of-Experts (MoE) layers, which dynamically route tokens to dense MLP &quot;experts.&quot; However, dynamic hard routing has a number of drawbacks, such as potentially poor hardware efficiency and needing auxiliary losses for stable training. In contrast, the tokenizer embedding table, which is natively sparse, largely avoids these issues by selecting a single embedding per token at the cost of not having contextual information. In this work, we introduce the Large Lookup Layer (L$^3$), which generalizes embedding tables to model decoder layers as a means of further scaling sparsity. L$^3$ layers use static token-based routing to aggregate a set of learned embeddings per token in a context-dependent way, allowing the model to efficiently balance memory and compute by caching information in embeddings. L$^3$ has two main components: (1) a systems-friendly architecture that allows for fast training and CPU-offloaded inference with no overhead, and (2) an information-theoretic embedding allocation algorithm that effectively balances speed and quality. We empirically test L$^3$ by training transformers with up to 2.6B active parameters and find that L$^3$ strongly outperforms both dense models and iso-sparse MoEs in both language modeling and downstream tasks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="635eef12504d" data-article-url="https://arxiv.org/abs/2601.22396" data-article-title="大規模言語モデルにおける文化的に根拠のあるペルソナ: 特徴付けと社会心理学的価値フレームワークとの整合" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.22396" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.22396" target="_blank" rel="noopener">大規模言語モデルにおける文化的に根拠のあるペルソナ: 特徴付けと社会心理学的価値フレームワークとの整合</a></h3>
      <p class="summary">人間の行動をシミュレートするための大規模言語モデル (LLM) の有用性が高まっているにもかかわらず、これらの合成ペルソナが、さまざまな文化条件にわたる世界および道徳的価値観をどの程度正確に反映しているかは依然として不確実です。この論文では、確立された枠組み、特に世界価値観調査 (WVS)、イングルハート・ヴェルゼル文化地図、道徳基盤理論と、文化に基づいた総合的なペルソナの整合性を調査します。私たちは、解釈可能な WVS 由来の変数のセットに基づいて LLM によって生成されたペルソナを概念化して生成し、生成されたペルソナを 3 つの相補的なレンズを通して検査します。世界価値観調査との人口統計レベルの一貫性。回答分布は人間のグループパターンを広範囲に追跡します。道徳的プロフィールは、道徳財団のアンケートから得られ、文化と道徳のマッピングを通じて分析し、さまざまな文化構成間で道徳的反応がどのように異なるかを特徴づけます。文化に基づいたペルソナの生成と分析のアプローチにより、異文化構造と道徳的変動の評価が可能になります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Culturally Grounded Personas in Large Language Models: Characterization and Alignment with Socio-Psychological Value Frameworks</p>
        <p class="orig-summary">Despite the growing utility of Large Language Models (LLMs) for simulating human behavior, the extent to which these synthetic personas accurately reflect world and moral value systems across different cultural conditionings remains uncertain. This paper investigates the alignment of synthetic, culturally-grounded personas with established frameworks, specifically the World Values Survey (WVS), the Inglehart-Welzel Cultural Map, and Moral Foundations Theory. We conceptualize and produce LLM-generated personas based on a set of interpretable WVS-derived variables, and we examine the generated personas through three complementary lenses: positioning on the Inglehart-Welzel map, which unveils their interpretation reflecting stable differences across cultural conditionings; demographic-level consistency with the World Values Survey, where response distributions broadly track human group patterns; and moral profiles derived from a Moral Foundations questionnaire, which we analyze through a culture-to-morality mapping to characterize how moral responses vary across different cultural configurations. Our approach of culturally-grounded persona generation and analysis enables evaluation of cross-cultural structure and moral variation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1c4319d35108" data-article-url="https://arxiv.org/abs/2601.22450" data-article-title="マスクされた拡散言語モデルの暗黙的正則化子の調整: $k$-Parity からの洞察による一般化の強化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.22450" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.22450" target="_blank" rel="noopener">マスクされた拡散言語モデルの暗黙的正則化子の調整: $k$-Parity からの洞察による一般化の強化</a></h3>
      <p class="summary">マスクされた拡散言語モデルは、強力な生成パラダイムとして最近登場しましたが、その一般化特性は、自己回帰モデルに比べてまだ研究が進んでいません。この研究では、$k$ パリティ問題 ($k$ 関連ビットの XOR 和を計算する) の設定内でこれらの特性を調査します。この問題では、ニューラル ネットワークは通常、グロッキング (偶然レベルのパフォーマンスの長期にわたるプラトーとそれに続く突然の一般化) を示します。理論的には、マスク拡散 (MD) 目標を、特徴学習を推進する信号領域と、暗黙的な正則化器として機能するノイズ領域に分解します。 $k$ パリティ問題で MD 目標を使用して nanoGPT をトレーニングすることにより、MD 目標が学習環境を根本的に変更し、理解に苦しむことなく迅速かつ同時に一般化できることを示します。さらに、理論的な洞察を活用して、MD 対物レンズのマスク確率の分布を最適化します。私たちの手法は、50M パラメーターのモデルの複雑さを大幅に改善し、ゼロからの事前トレーニングと教師付き微調整の両方で優れた結果を達成します。具体的には、8B パラメーター モデルで、それぞれ $8.8\%$ と $5.8\%$ でピークに達するパフォーマンスの向上が観察され、大規模なマスクされた拡散言語モデル領域におけるフレームワークのスケーラビリティと有効性が確認されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Tuning the Implicit Regularizer of Masked Diffusion Language Models: Enhancing Generalization via Insights from $k$-Parity</p>
        <p class="orig-summary">Masked Diffusion Language Models have recently emerged as a powerful generative paradigm, yet their generalization properties remain understudied compared to their auto-regressive counterparts. In this work, we investigate these properties within the setting of the $k$-parity problem (computing the XOR sum of $k$ relevant bits), where neural networks typically exhibit grokking -- a prolonged plateau of chance-level performance followed by sudden generalization. We theoretically decompose the Masked Diffusion (MD) objective into a Signal regime which drives feature learning, and a Noise regime which serves as an implicit regularizer. By training nanoGPT using MD objective on the $k$-parity problem, we demonstrate that MD objective fundamentally alters the learning landscape, enabling rapid and simultaneous generalization without experiencing grokking. Furthermore, we leverage our theoretical insights to optimize the distribution of the mask probability in the MD objective. Our method significantly improves perplexity for 50M-parameter models and achieves superior results across both pre-training from scratch and supervised fine-tuning. Specifically, we observe performance gains peaking at $8.8\%$ and $5.8\%$, respectively, on 8B-parameter models, confirming the scalability and effectiveness of our framework in large-scale masked diffusion language model regimes.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="681edc7a3967" data-article-url="https://arxiv.org/abs/2602.00104" data-article-title="R3G: ビジョン中心の回答生成のための推論-検索-再ランキングフレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.00104" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.00104" target="_blank" rel="noopener">R3G: ビジョン中心の回答生成のための推論-検索-再ランキングフレームワーク</a></h3>
      <p class="summary">VQA の視覚中心の検索では、画像を検索して欠落している視覚的な手がかりを提供し、それらを推論プロセスに統合する必要があります。ただし、適切な画像を選択し、それらをモデルの推論に効果的に統合することは依然として困難です。この課題に対処するために、モジュール式の推論-取得-再ランキング フレームワークである R3G を提案します。これは、最初に必要な視覚的手がかりを指定する簡単な推論計画を作成し、次に、証拠画像を選択するために、粗い検索とその後のきめ細かい再ランキングという 2 段階の戦略を採用します。MRAG-Bench では、R3G により 6 つの精度が向上します。 MLLM バックボーンと 9 つのサブシナリオにより、最先端の全体的なパフォーマンスを実現します。アブレーションは、十分性を意識した再ランキングと推論のステップが補完的であり、モデルが適切な画像を選択し、それらを適切に使用するのに役立つことを示しています。コードとデータは https://github.com/czh24/R3G でリリースされます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">R3G: A Reasoning-Retrieval-Reranking Framework for Vision-Centric Answer Generation</p>
        <p class="orig-summary">Vision-centric retrieval for VQA requires retrieving images to supply missing visual cues and integrating them into the reasoning process. However, selecting the right images and integrating them effectively into the model&#x27;s reasoning remains challenging.To address this challenge, we propose R3G, a modular Reasoning-Retrieval-Reranking framework.It first produces a brief reasoning plan that specifies the required visual cues, then adopts a two-stage strategy, with coarse retrieval followed by fine-grained reranking, to select evidence images.On MRAG-Bench, R3G improves accuracy across six MLLM backbones and nine sub-scenarios, achieving state-of-the-art overall performance. Ablations show that sufficiency-aware reranking and reasoning steps are complementary, helping the model both choose the right images and use them well. We release code and data at https://github.com/czh24/R3G.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="348a2a0132b9" data-article-url="https://arxiv.org/abs/2602.01619" data-article-title="SUSD: 状態因数分解による構造化された教師なしスキルの発見" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01619" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01619" target="_blank" rel="noopener">SUSD: 状態因数分解による構造化された教師なしスキルの発見</a></h3>
      <p class="summary">教師なしスキル ディスカバリー (USD) は、外部報酬に依存せずに、さまざまなスキルを自律的に学習することを目的としています。最も一般的な USD アプローチの 1 つは、スキルの潜在変数と状態の間の相互情報 (MI) を最大化することです。ただし、MI ベースの手法は、その不変特性により単純で静的なスキルを好む傾向があり、動的でタスクに関連した動作の発見が制限されます。 Distance-Maximizing Skill Discovery (DSD) は、状態空間の距離を活用することで、より動的なスキルを促進しますが、環境内のすべての制御可能な要素またはエンティティに関与する包括的なスキル セットを奨励するにはまだ不十分です。この研究では、状態空間を独立したコンポーネント (オブジェクトや制御可能なエンティティなど) に因数分解することで環境の構成構造を利用する新しいフレームワークである SUSD を紹介します。 SUSD は、異なるスキル変数をさまざまな要素に割り当て、スキル発見プロセスをよりきめ細かく制御できるようにします。また、動的モデルは複数の要因にわたる学習を追跡し、エージェントの焦点を未探索の要因に適応的に導きます。この構造化されたアプローチは、より豊かで多様なスキルの発見を促進するだけでなく、階層強化学習 (HRL) を介した構成的な下流タスクの効率的なトレーニングを促進する、個々のエンティティに対するきめ細かく解きほぐされた制御を可能にする因数分解されたスキル表現ももたらします。係数が 1 から 10 までの 3 つの環境にわたる実験結果は、私たちの方法が監督なしで多様で複雑なスキルを発見できることを示しており、因数分解された複雑な環境で既存の教師なしスキル発見方法を大幅に上回っています。コードは https://github.com/hadi-hosseini/SUSD で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SUSD: Structured Unsupervised Skill Discovery through State Factorization</p>
        <p class="orig-summary">Unsupervised Skill Discovery (USD) aims to autonomously learn a diverse set of skills without relying on extrinsic rewards. One of the most common USD approaches is to maximize the Mutual Information (MI) between skill latent variables and states. However, MI-based methods tend to favor simple, static skills due to their invariance properties, limiting the discovery of dynamic, task-relevant behaviors. Distance-Maximizing Skill Discovery (DSD) promotes more dynamic skills by leveraging state-space distances, yet still fall short in encouraging comprehensive skill sets that engage all controllable factors or entities in the environment. In this work, we introduce SUSD, a novel framework that harnesses the compositional structure of environments by factorizing the state space into independent components (e.g., objects or controllable entities). SUSD allocates distinct skill variables to different factors, enabling more fine-grained control on the skill discovery process. A dynamic model also tracks learning across factors, adaptively steering the agent&#x27;s focus toward underexplored factors. This structured approach not only promotes the discovery of richer and more diverse skills, but also yields a factorized skill representation that enables fine-grained and disentangled control over individual entities which facilitates efficient training of compositional downstream tasks via Hierarchical Reinforcement Learning (HRL). Our experimental results across three environments, with factors ranging from 1 to 10, demonstrate that our method can discover diverse and complex skills without supervision, significantly outperforming existing unsupervised skill discovery methods in factorized and complex environments. Code is publicly available at: https://github.com/hadi-hosseini/SUSD.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eacb745a5298" data-article-url="https://arxiv.org/abs/2602.01658" data-article-title="高次元オフライン盗賊に対する効率的な敵対攻撃" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01658" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01658" target="_blank" rel="noopener">高次元オフライン盗賊に対する効率的な敵対攻撃</a></h3>
      <p class="summary">Bandit アルゴリズムは、徹底的な比較を行わずに最もパフォーマンスの高い候補を効率的に特定することにより、生成画像モデルや大規模言語モデルなどの機械学習モデルを評価するための強力なツールとして最近登場しました。これらの方法は通常、盗賊にフィードバックを提供するために、Hugging Face などのプラットフォームで公開重みを使用して配布される報酬モデルに依存しています。オンライン評価は費用がかかり、試行を繰り返す必要がありますが、ログデータを使用したオフライン評価は魅力的な代替手段となっています。ただし、オフライン バンディット評価の敵対的な堅牢性は、特に攻撃者がバンディット トレーニングの前に (トレーニング データではなく) 報酬モデルを混乱させた場合には、ほとんど解明されていないままです。この研究では、報酬モデルの敵対的操作に対するオフライン バンディット トレーニングの脆弱性を理論的および経験的に調査することで、このギャップを埋めます。攻撃者が高次元の設定でオフライン データを悪用して盗賊の行動をハイジャックする、新しい脅威モデルを紹介します。線形報酬関数から始めて、ReLU ニューラル ネットワークなどの非線形モデルにまで拡張し、生成モデルの評価に使用される 2 つの Hugging Face エバリュエーター (1 つは美的品質を測定し、もう 1 つは構成の整合性を評価) に対する攻撃を研究します。私たちの結果は、報酬モデルの重みに対する小さくて知覚できない摂動でさえ、バンディットの行動を劇的に変える可能性があることを示しています。理論的な観点から、私たちは驚くべき高次元の効果を証明しました。入力の次元が増加するにつれて、攻撃の成功に必要な摂動ノルムが減少し、画像評価などの最新のアプリケーションが特に脆弱になります。広範な実験により、単純なランダムな摂動は効果がないのに対し、注意深くターゲットを絞った摂動はほぼ完璧な攻撃成功率を達成することが確認されています...</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Efficient Adversarial Attacks on High-dimensional Offline Bandits</p>
        <p class="orig-summary">Bandit algorithms have recently emerged as a powerful tool for evaluating machine learning models, including generative image models and large language models, by efficiently identifying top-performing candidates without exhaustive comparisons. These methods typically rely on a reward model, often distributed with public weights on platforms such as Hugging Face, to provide feedback to the bandit. While online evaluation is expensive and requires repeated trials, offline evaluation with logged data has become an attractive alternative. However, the adversarial robustness of offline bandit evaluation remains largely unexplored, particularly when an attacker perturbs the reward model (rather than the training data) prior to bandit training. In this work, we fill this gap by investigating, both theoretically and empirically, the vulnerability of offline bandit training to adversarial manipulations of the reward model. We introduce a novel threat model in which an attacker exploits offline data in high-dimensional settings to hijack the bandit&#x27;s behavior. Starting with linear reward functions and extending to nonlinear models such as ReLU neural networks, we study attacks on two Hugging Face evaluators used for generative model assessment: one measuring aesthetic quality and the other assessing compositional alignment. Our results show that even small, imperceptible perturbations to the reward model&#x27;s weights can drastically alter the bandit&#x27;s behavior. From a theoretical perspective, we prove a striking high-dimensional effect: as input dimensionality increases, the perturbation norm required for a successful attack decreases, making modern applications such as image evaluation especially vulnerable. Extensive experiments confirm that naive random perturbations are ineffective, whereas carefully targeted perturbations achieve near-perfect attack success rates ...</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d3ebe66083d6" data-article-url="https://arxiv.org/abs/2602.02405" data-article-title="自己蒸留で専門家の推論を学習可能にする" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02405" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02405" target="_blank" rel="noopener">自己蒸留で専門家の推論を学習可能にする</a></h3>
      <p class="summary">大規模言語モデル (LLM) の推論機能の向上は、通常、強化すべき正しい解決策をサンプリングするモデルの能力か、問題を解決できるより強力なモデルの存在に依存します。ただし、現在のフロンティア モデルでも多くの困難な問題が依然として解決できず、有効なトレーニング信号の抽出が妨げられています。有望な代替案は、高品質の専門家による人間によるソリューションを活用することですが、このデータの単純な模倣は失敗します。なぜなら、このデータは基本的に配布されていないためです。専門家によるソリューションは通常、教訓的であり、計算モデルではなく人間の読者を対象とした暗黙の推論のギャップが含まれています。さらに、高品質のエキスパート ソリューションは高価であるため、一般化可能でサンプル効率の高いトレーニング方法が必要です。私たちは、最初に専門家のソリューションを詳細な分布内の推論トレースに変換し、次に対照的な目標を適用して専門家の洞察と方法論に焦点を当てた学習を行うことで、分布のギャップを埋める 2 段階の自己蒸留手法である、分布整合模倣学習 (DAIL) を提案します。 DAIL は 1,000 未満の高品質のエキスパート ソリューションを活用して、Qwen2.5-Instruct および Qwen3 で最大 31% pass@128 の向上を達成し、推論効率を 2 倍にし、ドメイン外の一般化を可能にすることがわかりました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Making Expert Reasoning Learnable with Self-Distillation</p>
        <p class="orig-summary">Improving the reasoning capabilities of large language models (LLMs) typically relies either on the model&#x27;s ability to sample a correct solution to be reinforced or the existence of a stronger model able to solve the problem. However, many difficult problems remain intractable for even current frontier models, preventing the extraction of valid training signals. A promising alternative is to leverage high-quality expert human solutions, yet naive imitation of this data fails because it is fundamentally out-of-distribution: expert solutions are typically didactic, containing implicit reasoning gaps intended for human readers rather than computational models. Furthermore, high-quality expert solutions are expensive, necessitating generalizable, sample-efficient training methods. We propose Distribution Aligned Imitation Learning (DAIL), a two-step self-distillation method that bridges the distributional gap by first transforming expert solutions into detailed, in-distribution reasoning traces and then applying a contrastive objective to focus learning on expert insights and methodologies. We find that DAIL can leverage fewer than 1000 high-quality expert solutions to achieve up to 31% pass@128 gains on Qwen2.5-Instruct and Qwen3, double reasoning efficiency, and enable out-of-domain generalization.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c1b7fa0d3463" data-article-url="https://arxiv.org/abs/2602.02834" data-article-title="トランスフォーマーが知識グラフを基に推論するのに役立つ構造的帰納的バイアスは何ですか? Tabula RASA を使った研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02834" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02834" target="_blank" rel="noopener">トランスフォーマーが知識グラフを基に推論するのに役立つ構造的帰納的バイアスは何ですか? Tabula RASA を使った研究</a></h3>
      <p class="summary">変圧器が知識グラフを推論するのに役立つ構造的な誘導バイアスは何ですか? 4 つの独立して取り外し可能なコンポーネント (スパース隣接マスキング、エッジタイプ バイアス、クエリ スケーリング、値ゲーティング) による最小限のトランスフォーマ変更の制御されたアブレーションを通じて、どの構造信号がマルチホップ推論を駆動するかを分離します。私たちの発見は鋭いものです。スパース隣接マスキングだけでも、マスクされていないトランスフォーマーに比べて改善の支配的なシェアを占めます (3 ホップ MetaQA で +72.5 pp、WebQSP で +45.5 pp、CWQ で +53.9 pp)。一方、学習された関係パラメーターは適度な改善しか加えず、構造的なガイダンスがないと積極的に悪影響を与える可能性があります。ゼロショット実験は、アーキテクチャ的に独立した確証を提供します。エッジ タイプが保持されている場合、マスキング ベースの注意力の低下は関係固有の重みより 4.0 分の 1 です。マルチホップ KGQA に有用な誘導バイアスは、主に位相的なものであり、関係的なものではありません。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">What Structural Inductive Bias Helps Transformers Reason Over Knowledge Graphs? A Study with Tabula RASA</p>
        <p class="orig-summary">What structural inductive bias helps transformers reason over knowledge graphs? Through controlled ablations of a minimal transformer modification with four independently removable components (sparse adjacency masking, edge-type biases, query scaling, value gating), we isolate which structural signals drive multi-hop reasoning. Our finding is sharp: sparse adjacency masking alone accounts for the dominant share of improvement over unmasked transformers (+72.5pp on 3-hop MetaQA, +45.5pp on WebQSP, +53.9pp on CWQ), while learned relation parameters add only modest refinement and can actively hurt without structural guidance. A zero-shot experiment provides architecturally independent corroboration: masking-based attention degrades 4.0x less than relation-specific weights when edge types are held out. The useful inductive bias for multi-hop KGQA is predominantly topological, not relational.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="be81162172c5" data-article-url="https://arxiv.org/abs/2602.06911" data-article-title="TamperBench: 微調整と改ざんの下での LLM の安全性を系統的にストレス テストする" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.06911" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.06911" target="_blank" rel="noopener">TamperBench: 微調整と改ざんの下での LLM の安全性を系統的にストレス テストする</a></h3>
      <p class="summary">ますます高機能なオープンウェイト大規模言語モデル (LLM) が展開されるにつれ、偶発的か意図的かにかかわらず、安全でない変更に対する改ざん耐性を向上させることが、リスクを最小限に抑えるために重要になります。ただし、耐タンパー性を評価するための標準的なアプローチはありません。データセット、メトリクス、および改ざん構成が多様であるため、さまざまなモデルや防御にわたって安全性、実用性、堅牢性を比較することが困難になります。これに対処するために、LLM の耐タンパー性を体系的に評価するための初の統合フレームワークである TamperBench を導入します。 TamperBench (i) 最先端の重み空間微調整攻撃、潜在空間表現攻撃、および調整段階の防御のリポジトリを管理します。 (ii) 攻撃モデルのペアごとに体系的なハイパーパラメータ スイープを通じて現実的な敵対的評価を可能にします。 (iii) 安全性と実用性の両方の評価を提供します。私たちは TamperBench を使用して、モデルと攻撃のペアごとのハイパーパラメーター スイープによる標準化された安全性と機能のメトリクスを使用して、9 つの改ざん脅威にわたって防御強化された亜種を含む 21 のオープンウェイト LLM を評価します。この結果からは、耐タンパー性に対するポストトレーニングの効果、ジェイルブレイクチューニングが通常最も深刻な攻撃であること、現在の調整段階の防御は攻撃スイープにほとんど耐えられないことなどの洞察が得られます。コードは https://github.com/criticalml-uw/TamperBench で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TamperBench: Systematically Stress-Testing LLM Safety Under Fine-Tuning and Tampering</p>
        <p class="orig-summary">As increasingly capable open-weight large language models (LLMs) are deployed, improving their tamper resistance against unsafe modifications, whether accidental or intentional, becomes critical to minimize risks. However, there is no standard approach to evaluate tamper resistance. Varied datasets, metrics, and tampering configurations make it difficult to compare safety, utility, and robustness across different models and defenses. To address this, we introduce TamperBench, the first unified framework to systematically evaluate the tamper resistance of LLMs. TamperBench (i) curates a repository of state-of-the-art weight-space fine-tuning attacks, latent-space representation attacks, and alignment-stage defenses; (ii) enables realistic adversarial evaluation through systematic hyperparameter sweeps per attack-model pair; and (iii) provides both safety and utility evaluations. We use TamperBench to evaluate 21 open-weight LLMs, including defense-augmented variants, across nine tampering threats using standardized safety and capability metrics with hyperparameter sweeps per model-attack pair. The results provide insights including effects of post-training on tamper resistance, that jailbreak-tuning is typically the most severe attack, and that current alignment-stage defenses largely fail to withstand attack sweeps. Code is available at https://github.com/criticalml-uw/TamperBench.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1194011e5a90" data-article-url="https://arxiv.org/abs/2602.09075" data-article-title="注意ベースのモデルで記憶、学習、忘れることを学ぶ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.09075" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.09075" target="_blank" rel="noopener">注意ベースのモデルで記憶、学習、忘れることを学ぶ</a></h3>
      <p class="summary">変圧器のインコンテキスト学習 (ICL) はオンライン連想メモリとして機能し、複雑なシーケンス処理タスクにおける高いパフォーマンスを支えると考えられています。ただし、ゲート付きリニア アテンション モデルでは、このメモリの容量は固定されており、特に長いシーケンスの場合には干渉を受けやすくなります。我々は、ICL を安定性と可塑性のジレンマに対処しなければならない継続的な学習問題とみなす自己注意モデル、Palimpsa を提案します。 Palimpsa はベイジアンメタ可塑性を使用します。このメタ可塑性では、各注意状態の可塑性は、蓄積された知識を捕捉する事前分布に基づいた重要性状態に関連付けられます。さまざまなゲート線形注意モデルが特定のアーキテクチャの選択と事後近似として出現すること、および Mamba2 が忘却が支配的なパリンプサの特殊なケースであることを実証します。この理論的なつながりにより、非化成モデルを化成モデルに変換することが可能になり、その記憶容量が大幅に拡張されます。私たちの実験では、Palimpsa が Multi-Query Associative Recall (MQAR) ベンチマークと Commonsense Reasoning タスクでベースラインを常に上回っていることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Learning to Remember, Learn, and Forget in Attention-Based Models</p>
        <p class="orig-summary">In-Context Learning (ICL) in transformers acts as an online associative memory and is believed to underpin their high performance on complex sequence processing tasks. However, in gated linear attention models, this memory has a fixed capacity and is prone to interference, especially for long sequences. We propose Palimpsa, a self-attention model that views ICL as a continual learning problem that must address a stability-plasticity dilemma. Palimpsa uses Bayesian metaplasticity, where the plasticity of each attention state is tied to an importance state grounded by a prior distribution that captures accumulated knowledge. We demonstrate that various gated linear attention models emerge as specific architecture choices and posterior approximations, and that Mamba2 is a special case of Palimpsa where forgetting dominates. This theoretical link enables the transformation of any non-metaplastic model into a metaplastic one, significantly expanding its memory capacity. Our experiments show that Palimpsa consistently outperforms baselines on the Multi-Query Associative Recall (MQAR) benchmark and on Commonsense Reasoning tasks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="59115be34b47" data-article-url="https://arxiv.org/abs/2602.09464" data-article-title="AlgoVeri: 古典的なアルゴリズムでの検証済みコード生成のための調整されたベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.09464" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.09464" target="_blank" rel="noopener">AlgoVeri: 古典的なアルゴリズムでの検証済みコード生成のための調整されたベンチマーク</a></h3>
      <p class="summary">ベリコーディングとは、厳密な仕様に基づいて正式に検証されたコードを生成することを指します。最近の AI モデルは検証コーディングにおいて有望ですが、クロスパラダイム評価のための統一された方法論が不足しています。既存のベンチマークは個別の言語/ツール (Dafny、Verus、Lean など) のみをテストしており、それぞれが非常に異なるタスクをカバーしているため、パフォーマンスの数値を直接比較することはできません。私たちは、Dafny、Verus、Lean の $77$ の古典的なアルゴリズムのベリコーディングを評価するベンチマークである AlgoVeri を使用して、このギャップに対処します。 AlgoVeri は、同一の機能コントラクトを強制することで、検証システムの重大な機能ギャップを明らかにします。フロンティア モデルは、高レベルの抽象化と SMT 自動化によってワークフローが簡素化される Dafny (Gemini-3 フラッシュで $40.3$%) で扱いやすい成功を収めていますが、Verus ($24.7$%) のシステム レベルのメモリ制約と Lean (7.8%) で必要とされる明示的な証明構築の下ではパフォーマンスが崩壊します。集計メトリクスを超えて、テスト時の計算ダイナミクスの急激な相違が明らかになりました。Gemini-3 は反復修復を効果的に利用してパフォーマンスを向上させます (たとえば、Dafny の合格率を 3 倍にします)。一方、GPT-OSS は早期に飽和します。最後に、私たちのエラー分析は、言語設計が改良の軌道に影響を与えることを示しています。Dafny ではモデルが論理的な正しさに集中できるのに対し、Verus と Lean は永続的な構文および意味論的な障壁にモデルを閉じ込めます。すべてのデータと評価コードは、https://github.com/haoyuzhao123/algoveri で見つけることができます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms</p>
        <p class="orig-summary">Vericoding refers to the generation of formally verified code from rigorous specifications. Recent AI models show promise in vericoding, but a unified methodology for cross-paradigm evaluation is lacking. Existing benchmarks test only individual languages/tools (e.g., Dafny, Verus, and Lean) and each covers very different tasks, so the performance numbers are not directly comparable. We address this gap with AlgoVeri, a benchmark that evaluates vericoding of $77$ classical algorithms in Dafny, Verus, and Lean. By enforcing identical functional contracts, AlgoVeri reveals critical capability gaps in verification systems. While frontier models achieve tractable success in Dafny ($40.3$% for Gemini-3 Flash), where high-level abstractions and SMT automation simplify the workflow, performance collapses under the systems-level memory constraints of Verus ($24.7$%) and the explicit proof construction required by Lean (7.8%). Beyond aggregate metrics, we uncover a sharp divergence in test-time compute dynamics: Gemini-3 effectively utilizes iterative repair to boost performance (e.g., tripling pass rates in Dafny), whereas GPT-OSS saturates early. Finally, our error analysis shows that language design affects the refinement trajectory: while Dafny allows models to focus on logical correctness, Verus and Lean trap models in persistent syntactic and semantic barriers. All data and evaluation code can be found at https://github.com/haoyuzhao123/algoveri.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e9bd3c10cb1a" data-article-url="https://arxiv.org/abs/2602.11189" data-article-title="MuCO: 多段階の立体構造最適化によって強化されたペプチド生成環化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.11189" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.11189" target="_blank" rel="noopener">MuCO: 多段階の立体構造最適化によって強化されたペプチド生成環化</a></h3>
      <p class="summary">ペプチド環化のモデリングは、望ましい物理的および薬学的特性を持つ候補ペプチドの仮想スクリーニングにとって重要です。環状ペプチドは多くの場合、多様なリング状の立体構造を示し、これは線形ペプチドの折り畳みに由来する決定論的予測モデルではうまく捉えることができないため、この作業は困難です。本研究では、対応する直鎖状ペプチドを条件として環状ペプチド立体構造の分布をモデル化する生成ペプチド環化法である MuCO (Multi-stage Conformation Optimization) を提案します。原則として、MuCO はペプチド環化タスクを 3 つの段階 (トポロジーを意識したバックボーン設計、生成側鎖パッキング、物理学を意識した全原子最適化) に分離し、それによって粗いものから細かいものまでの方法で環状ペプチドの立体構造を生成および最適化します。この多段階フレームワークにより、立体構造生成のための効率的な並行サンプリング戦略が可能になり、多様な低エネルギー立体構造の迅速な探索が可能になります。大規模な CPSea データセットでの実験では、MuCO が物理的安定性、構造多様性、二次構造回復、計算効率において最先端の手法を大幅かつ一貫して上回る性能を示しており、環状ペプチドの探索と設計のための有望な計算ツールとなっていることが実証されています。提案された方法のデモは https://github.com/mianqiu00/MuCO でご覧いただけます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MuCO: Generative Peptide Cyclization Empowered by Multi-stage Conformation Optimization</p>
        <p class="orig-summary">Modeling peptide cyclization is critical for the virtual screening of candidate peptides with desirable physical and pharmaceutical properties. This task is challenging because a cyclic peptide often exhibits diverse, ring-shaped conformations, which cannot be well captured by deterministic prediction models derived from linear peptide folding. In this study, we propose MuCO (Multi-stage Conformation Optimization), a generative peptide cyclization method that models the distribution of cyclic peptide conformations conditioned on the corresponding linear peptide. In principle, MuCO decouples the peptide cyclization task into three stages: topology-aware backbone design, generative side-chain packing, and physics-aware all-atom optimization, thereby generating and optimizing conformations of cyclic peptides in a coarse-to-fine manner. This multi-stage framework enables an efficient parallel sampling strategy for conformation generation and allows for rapid exploration of diverse, low-energy conformations. Experiments on the large-scale CPSea dataset demonstrate that MuCO significantly and consistently outperforms state-of-the-art methods in physical stability, structural diversity, secondary structure recovery, and computational efficiency, making it a promising computational tool for exploring and designing cyclic peptides. The demo of the proposed method can be found at https://github.com/mianqiu00/MuCO.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="36f1d4c42d9f" data-article-url="https://arxiv.org/abs/2602.12643" data-article-title="潜在ダイナミクスによるモデルフリーの効率とモデルベースの表現の統合" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.12643" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.12643" target="_blank" rel="noopener">潜在ダイナミクスによるモデルフリーの効率とモデルベースの表現の統合</a></h3>
      <p class="summary">我々は、計画のオーバーヘッドを発生させることなく、モデルフリー手法の効率性とモデルベースのアプローチの表現力を統合する新しい強化学習アルゴリズムである Unified Latent Dynamics (ULD) を紹介します。真の値関数がほぼ線形である潜在空間に状態とアクションのペアを埋め込むことにより、私たちの方法は、低次元およびピクセル入力による連続制御から高次元の Atari ゲームに至るまで、多様なドメインにわたる単一セットのハイパーパラメーターをサポートします。穏やかな条件下では、埋め込みベースの時間差更新の固定点が、対応する線形モデルベースの値拡張の固定点と一致することを証明し、埋め込みの忠実度を値の近似品質に関連付ける明示的な誤差限界を導き出します。実際には、ULD は、エンコーダ、値、およびポリシー ネットワークの同期更新、短期予測ダイナミクスの補助損失、および報酬スケールの正規化を採用して、報酬がまばらな場合でも安定した学習を保証します。 Gym Locomotion、DeepMind Control (固有受容および視覚)、Atari にわたる 80 の環境で評価された当社のアプローチは、特殊なモデルフリーおよび一般的なモデルベースのベースラインのパフォーマンスと同等またはそれを上回り、最小限のチューニングとわずかなパラメーター フットプリントでクロスドメインのコンピテンスを実現します。これらの結果は、値に合わせた潜在表現だけで、従来完全なモデルベースの計画に帰せられていた適応性とサンプル効率を実現できることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Unifying Model-Free Efficiency and Model-Based Representations via Latent Dynamics</p>
        <p class="orig-summary">We present Unified Latent Dynamics (ULD), a novel reinforcement learning algorithm that unifies the efficiency of model-free methods with the representational strengths of model-based approaches, without incurring planning overhead. By embedding state-action pairs into a latent space in which the true value function is approximately linear, our method supports a single set of hyperparameters across diverse domains -- from continuous control with low-dimensional and pixel inputs to high-dimensional Atari games. We prove that, under mild conditions, the fixed point of our embedding-based temporal-difference updates coincides with that of a corresponding linear model-based value expansion, and we derive explicit error bounds relating embedding fidelity to value approximation quality. In practice, ULD employs synchronized updates of encoder, value, and policy networks, auxiliary losses for short-horizon predictive dynamics, and reward-scale normalization to ensure stable learning under sparse rewards. Evaluated on 80 environments spanning Gym locomotion, DeepMind Control (proprioceptive and visual), and Atari, our approach matches or exceeds the performance of specialized model-free and general model-based baselines -- achieving cross-domain competence with minimal tuning and a fraction of the parameter footprint. These results indicate that value-aligned latent representations alone can deliver the adaptability and sample efficiency traditionally attributed to full model-based planning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0c05467f5c5" data-article-url="https://arxiv.org/abs/2602.14117" data-article-title="自律型 O-RAN に向けて: リアルタイム ネットワーク制御および管理のためのマルチスケール エージェント AI フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.14117" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.14117" target="_blank" rel="noopener">自律型 O-RAN に向けて: リアルタイム ネットワーク制御および管理のためのマルチスケール エージェント AI フレームワーク</a></h3>
      <p class="summary">オープン無線アクセス ネットワーク (O-RAN) は、分散されたソフトウェア駆動のコンポーネントとオープン インターフェイスを通じて柔軟な 6G ネットワーク アクセスを約束しますが、このプログラマビリティにより運用の複雑さも増大します。複数の制御ループがサービス管理層と RAN インテリジェント コントローラー (RIC) 全体で共存しますが、個別に開発された制御アプリケーションは意図しない方法で相互作用する可能性があります。同時に、生成型人工知能 (AI) の最近の進歩により、孤立した AI モデルから、目標を解釈し、複数のモデルと制御機能を調整し、時間の経過とともに動作を適応させることができるエージェント AI システムへの移行が可能になりました。この記事では、非リアルタイム (Non-RT)、準リアルタイム (Near-RT)、およびリアルタイム (RT) の制御ループにわたる調整された階層として RAN インテリジェンスを組織化する、O-RAN 用のマルチスケール エージェント AI フレームワークを提案します。 (i) 非 RT RIC の大規模言語モデル (LLM) エージェントは、オペレーターの意図をポリシーに変換し、モデルのライフサイクルを管理します。 (ii) Near-RT RIC の Small Language Model (SLM) エージェントは、低遅延の最適化を実行し、既存の制御アプリケーションをアクティブ化、調整、または無効化できます。 (iii) 分散ユニット近くのワイヤレス物理層基盤モデル (WPFM) エージェントは、エア インターフェイスに近い高速推論を提供します。これらのエージェントが標準化された O-RAN インターフェイスとテレメトリを通じてどのように連携するかを説明します。オープンソース モデル、ソフトウェア、データセットに基づいて構築された概念実証の実装を使用して、非定常条件下での堅牢な動作とインテント駆動型のスライス リソース制御という 2 つの代表的なシナリオで提案されたエージェント アプローチを実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Toward Autonomous O-RAN: A Multi-Scale Agentic AI Framework for Real-Time Network Control and Management</p>
        <p class="orig-summary">Open Radio Access Networks (O-RAN) promise flexible 6G network access through disaggregated, software-driven components and open interfaces, but this programmability also increases operational complexity. Multiple control loops coexist across the service management layer and RAN Intelligent Controller (RIC), while independently developed control applications can interact in unintended ways. In parallel, recent advances in generative Artificial Intelligence (AI) are enabling a shift from isolated AI models toward agentic AI systems that can interpret goals, coordinate multiple models and control functions, and adapt their behavior over time. This article proposes a multi-scale agentic AI framework for O-RAN that organizes RAN intelligence as a coordinated hierarchy across the Non-Real-Time (Non-RT), Near-Real-Time (Near-RT), and Real-Time (RT) control loops: (i) A Large Language Model (LLM) agent in the Non-RT RIC translates operator intent into policies and governs model lifecycles. (ii) Small Language Model (SLM) agents in the Near-RT RIC execute low-latency optimization and can activate, tune, or disable existing control applications; and (iii) Wireless Physical-layer Foundation Model (WPFM) agents near the distributed unit provide fast inference close to the air interface. We describe how these agents cooperate through standardized O-RAN interfaces and telemetry. Using a proof-of-concept implementation built on open-source models, software, and datasets, we demonstrate the proposed agentic approach in two representative scenarios: robust operation under non-stationary conditions and intent-driven slice resource control.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e16eb88e5479" data-article-url="https://arxiv.org/abs/2602.15202" data-article-title="設計によるトモグラフィー: 低ランク量子状態への代数的アプローチ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.15202" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.15202" target="_blank" rel="noopener">設計によるトモグラフィー: 低ランク量子状態への代数的アプローチ</a></h3>
      <p class="summary">我々は、特定の観測量の測定値を利用して基礎となる密度行列の構造化されたエントリを推定する、量子状態トモグラフィー用の代数アルゴリズムを提案します。低ランクの仮定の下では、残りのエントリは標準の数値線形代数演算のみを使用して取得できます。提案された代数行列補完フレームワークは、広範なクラスの一般的な低ランク混合量子状態に適用され、最先端の方法と比較して計算効率が高く、決定論的な回復保証を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Tomography by Design: An Algebraic Approach to Low-Rank Quantum States</p>
        <p class="orig-summary">We present an algebraic algorithm for quantum state tomography that leverages measurements of certain observables to estimate structured entries of the underlying density matrix. Under low-rank assumptions, the remaining entries can be obtained solely using standard numerical linear algebra operations. The proposed algebraic matrix completion framework applies to a broad class of generic, low-rank mixed quantum states and, compared with state-of-the-art methods, is computationally efficient while providing deterministic recovery guarantees.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2790fb6540fb" data-article-url="https://arxiv.org/abs/2602.16966" data-article-title="スケーラブルな MARL における局所性のための統合フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.16966" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.16966" target="_blank" rel="noopener">スケーラブルな MARL における局所性のための統合フレームワーク</a></h3>
      <p class="summary">ネットワーク化されたマルチエージェント強化学習のスケーラブルな方法では、各エージェントがエージェント グラフの小さな近傍のみを使用して計画を立てることができます。これは、システムが値ローカルである場合にのみ機能します。つまり、2 つのエージェントが遠く離れている場合、1 つのエージェントでの摂動は、別のエージェントでの長期的な値にわずかに影響します。平均報酬設定では、局所性を証明する標準的な方法は、各エージェントの次の状態が他のエージェントの現在の状態にどのように依存するかを捕捉する単一の行列 $C^\pi$ 上の Dobrusin 行合計境界です。このマトリックスを扱いやすくするために、以前の研究では、共同動作の上限によってマトリックスを制限しました。結果として得られる境界はポリシーから独立していますが、ポリシーが最悪の場合のアクションを選択しない場合は常に緩やかになります。 $C^\pi$ を、環境の感度とポリシーの感度を個別に追跡する部分、$C^\pi \preceq E^{\mathrm s}+E^{\mathrm a}\Pi(\pi)$ に分割します。ここで、$E^{\mathrm s}$ は現在の状態に応じて次の状態がどのように変化するかを測定し、$E^{\mathrm a}$ は現在のアクションでどのように変化するかを測定し、$\Pi(\pi)$ はポリシーがどのように反応するかを測定します。状態の変化。 $H^\pi := E^{\mathrm s}+E^{\mathrm a}\Pi(\pi)$ のスペクトル半径は平均報酬ポアソン解の減衰を制御し、スペクトル証明書 $\rho(H^\pi)&lt;1$ は同じ行列上の行合計条件 $\|H^\pi\|_\infty&lt;1$ より厳密に弱く、政策に依存しないレジームに適用されます。以前の Dobrushin スタイルの作業で使用されていたアクションの上限は使用できません。温度 $\tau$ ソフトマックス ポリシーの場合、$\Pi(\pi)\le L/(2\tau)$ が得られるため、ソフトマックス温度は局所性を直接制御します。この減衰結果を使用して、切り捨てバイアスがメッセージパッシング半径 $\kappa$ 内で指数関数的に減衰するブロック座標 KL 近位ポリシー改善テンプレートに決定論的なオラクル保証を与えます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Unified Framework for Locality in Scalable MARL</p>
        <p class="orig-summary">Scalable methods for networked multi-agent reinforcement learning let each agent plan using only a small neighborhood of the agent graph. This works only when the system is value-local, meaning a perturbation at one agent affects the long-run value at another agent weakly when the two are far apart. In the average-reward setting, the standard way to certify locality is the Dobrushin row-sum bound on a single matrix $C^\pi$ that captures how each agent&#x27;s next state depends on each other agent&#x27;s current state. To make this matrix easy to work with, prior work bounds it by a supremum over joint actions. The resulting bound is independent of the policy, but it is loose whenever the policy never picks the worst-case action. We split $C^\pi$ into pieces that separately track environment sensitivity and policy sensitivity, $C^\pi \preceq E^{\mathrm s}+E^{\mathrm a}\Pi(\pi)$, where $E^{\mathrm s}$ measures how the next state moves with the current state, $E^{\mathrm a}$ measures how it moves with the current action, and $\Pi(\pi)$ measures how reactive the policy is to changes in state. The spectral radius of $H^\pi := E^{\mathrm s}+E^{\mathrm a}\Pi(\pi)$ then controls the decay of the average-reward Poisson solution, and the spectral certificate $\rho(H^\pi)&lt;1$ is strictly weaker than the row-sum condition $\|H^\pi\|_\infty&lt;1$ on the same matrix and applies in regimes where policy-independent action-supremum bounds used in prior Dobrushin-style work cannot. For temperature-$\tau$ softmax policies we get $\Pi(\pi)\le L/(2\tau)$, so the softmax temperature directly controls locality. We use this decay result to give a deterministic oracle guarantee for a block-coordinate KL-proximal policy-improvement template whose truncation bias decays exponentially in the message-passing radius $\kappa$.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1de1199adeac" data-article-url="https://arxiv.org/abs/2602.17907" data-article-title="DSL-Topic: 言語モデルからソフトラベルを抽出することによるトピックモデリングの改善" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.17907" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.17907" target="_blank" rel="noopener">DSL-Topic: 言語モデルからソフトラベルを抽出することによるトピックモデリングの改善</a></h3>
      <p class="summary">従来のニューラル トピック モデルは通常、ドキュメントの Bag-of-Words (BoW) 表現を再構築し、コンテキスト情報を無視し、データの疎性と格闘することによって最適化されます。この研究では、言語モデル (LM) からソフト ラベル (DSL) を抽出することによる、新しいトピック モデル トレーニング フレームワークを紹介します。コンテキストに富んだ再構築信号を構築するために、特殊なプロンプトを条件とした次のトークンの確率を事前定義された語彙に投影し、LM 隠れ状態を使用してソフト ラベルを再構築するようにトピック モデルをトレーニングします。これにより、コーパスの基礎となるテーマ構造とより密接に連携した、より質の高いトピックが生成されます。広範な実験により、DSL が既存のベースラインに比べてトピックの一貫性と割り当ての精度が大幅に向上することが実証されました。さらに、検索ベースの指標も導入します。これは、意味的に類似した文書の識別において、私たちのアプローチが既存の方法よりも大幅に優れていることを示し、検索指向のアプリケーションに対する有効性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DSL-Topic: Improving Topic Modeling by Distilling Soft Labelsfrom Language Models</p>
        <p class="orig-summary">Traditional neural topic models are typically optimized by reconstructing the document&#x27;s Bag-of-Words (BoW) representations, overlooking contextual information and struggling with data sparsity. In this work, we introduce a novel topic model training framework by Distilling Soft Labels (DSL) from Language Models (LMs). To construct the contextually enriched reconstruction signals, we project the next token probabilities, conditioned on a specialized prompt, onto a pre-defined vocabulary, and train the topic models to reconstruct the soft labels using the LM hidden states. This produces higher-quality topics that are more closely aligned with the underlying thematic structure of the corpus. Extensive experiments demonstrate that DSL achieves substantial improvements in topic coherence and assignment accuracy over existing baselines. Additionally, we also introduce a retrieval-based metric, which shows that our approach significantly outperforms existing methods in identifying semantically similar documents, highlighting its effectiveness for retrieval-oriented applications.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7e9b5c6ecc41" data-article-url="https://arxiv.org/abs/2602.19101" data-article-title="価値のもつれ: (一部の) 大規模な言語モデルにおける異なる種類の善の間の融合" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.19101" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.19101" target="_blank" rel="noopener">価値のもつれ: (一部の) 大規模な言語モデルにおける異なる種類の善の間の融合</a></h3>
      <p class="summary">大規模言語モデル (LLM) の値の調整には、これらのモデルが実際に取得した値の表現を経験的に測定する必要があります。人間の価値表現の特徴の 1 つは、異なる種類の価値を区別することです。私たちは、LLM が同様に、道徳的、文法的、経済的という 3 つの異なる種類の善を区別するかどうかを調査します。モデルの動作、埋め込み、および残差ストリームのアクティベーションを調査することにより、値のもつれ、つまりこれらの異なる値の表現間の混同の広範なケースを報告します。具体的には、文法的評価と経済的評価の両方が、人間の規範と比較して道徳的価値に過度に影響されることが判明しました。この混同は、道徳に関連する活性化ベクトルを選択的に除去することによって修復されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Value Entanglement: Conflation Between Different Kinds of Good In (Some) Large Language Models</p>
        <p class="orig-summary">Value alignment of Large Language Models (LLMs) requires us to empirically measure these models&#x27; actual, acquired representation of value. Among the characteristics of value representation in humans is that they distinguish among value of different kinds. We investigate whether LLMs likewise distinguish three different kinds of good: moral, grammatical, and economic. By probing model behavior, embeddings, and residual stream activations, we report pervasive cases of value entanglement: a conflation between these distinct representations of value. Specifically, both grammatical and economic valuation was found to be overly influenced by moral value, relative to human norms. This conflation was repaired by selective ablation of the activation vectors associated with morality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dd8e3a28b4f6" data-article-url="https://arxiv.org/abs/2602.20971" data-article-title="順序は重要ですか : ロバスト性の法則をロバストな一般化に結び付ける" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.20971" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.20971" target="_blank" rel="noopener">順序は重要ですか : ロバスト性の法則をロバストな一般化に結び付ける</a></h3>
      <p class="summary">Bubeck と Selke (2021) は、ロバスト性の法則とロバストな一般化誤差との関係を未解決の問題として提案しています。ロバスト性の法則では、モデルがロバストに補間するにはオーバーパラメータ化が必要である、つまり、補間関数がリプシッツである必要があると述べています。ウーら。 (2023) この法則を任意のデータ分布に拡張し、リプシッツ定数が $L = \Omega(n^{1/d})$ を満たすことを証明しました。一方、ロバスト一般化では、ロバストなトレーニング損失が小さいことがロバストなテスト損失が小さいことを意味するかどうかが問われます。これは、Rademacher 複雑性などの統計学習手法を使用して研究できます。ここで、ロバスト損失クラスの Rademacher 複雑性の限界は、関数クラスのリプシッツ性の限界を意味します。この接続を使用して、任意のデータ配布のために 2 つを明示的にリンクします。 (i) ロバストな損失クラスのグローバル Rademacher 複雑性を考慮した場合、リプシッツ限界の次数が同じままであることを証明します。 (ii) 局所スケール、つまり経験誤差が小さい関数の部分集合では、リプシッツ限界の次数は摂動半径 $\rho$ と局所集中項 $\sqrt{r/n}$ に応じて変化します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Does Order Matter : Connecting The Law of Robustness to Robust Generalization</p>
        <p class="orig-summary">Bubeck and Selke (2021) propose the connection between the Law of Robustness and robust generalization error as an open problem. The Law of Robustness states that overparameterization is necessary for models to interpolate robustly, i.e., the interpolating function is required to be Lipschitz. Wu et al. (2023) extend this law to arbitrary data distributions, proving that the Lipschitz constant satisfies $L = \Omega(n^{1/d})$. Robust generalization, on the other hand, asks whether small robust training loss implies small robust test loss. This can be studied using statistical learning techniques such as Rademacher complexities, where a bound on the Rademacher complexity of the robust loss class implies a bound on the Lipschitzness of the function class. We use this connection to explicitly link the two for arbitrary data distributions. (i) We prove that the order of the Lipschitz bound remains the same when considering the global Rademacher complexity of robust loss classes. (ii) At the local scale, i.e., for subsets of functions with small empirical error, the order of the Lipschitz bound changes with the perturbation radius $\rho$ and the localized concentration term $\sqrt{r/n}$.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1bf18017c459" data-article-url="https://arxiv.org/abs/2602.23312" data-article-title="リーダーとフォロワーの相互作用における小規模言語モデルのゼロショットおよびワンショット適応の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.23312" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.23312" target="_blank" rel="noopener">リーダーとフォロワーの相互作用における小規模言語モデルのゼロショットおよびワンショット適応の評価</a></h3>
      <p class="summary">リーダーとフォロワーの相互作用は、人間とロボットの相互作用 (HRI) における重要なパラダイムです。しかし、リソースに制約のある移動ロボットや支援ロボットにとって、リアルタイムでの役割の割り当ては依然として困難です。大規模言語モデル (LLM) は自然なコミュニケーションに有望であることが示されていますが、そのサイズと遅延によりデバイス上の展開が制限されます。小規模言語モデル (SLM) は潜在的な代替手段を提供しますが、HRI における役割分類に対する SLM の有効性は体系的に評価されていません。この論文では、リーダーとフォロワーのコミュニケーションのための SLM のベンチマークを紹介し、公開されたデータベースから派生し、相互作用固有のダイナミクスを捕捉するために合成サンプルで強化された新しいデータセットを紹介します。私たちは、ゼロショットおよびワンショット相互作用モードで研究されたプロンプトエンジニアリングと微調整という 2 つの適応戦略を、トレーニングされていないベースラインと比較して調査します。 Qwen2.5-0.5B を使用した実験では、ゼロショット微調整が低遅延 (サンプルあたり 22.2 ミリ秒) を維持しながら堅牢な分類パフォーマンス (精度 86.66%) を達成し、ベースラインおよびプロンプト エンジニアリングのアプローチを大幅に上回るパフォーマンスを示していることが明らかになりました。ただし、結果はワンショット モードでのパフォーマンスの低下も示しており、コンテキストの長さが増加するとモデルのアーキテクチャ上の能力に課題が生じます。これらの調査結果は、微調整された SLM が役割の直接割り当てに効果的なソリューションを提供することを実証するとともに、エッジでの対話の複雑さと分類の信頼性の間の重要なトレードオフを強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction</p>
        <p class="orig-summary">Leader-follower interaction is an important paradigm in human-robot interaction (HRI). Yet, assigning roles in real time remains challenging for resource-constrained mobile and assistive robots. While large language models (LLMs) have shown promise for natural communication, their size and latency limit on-device deployment. Small language models (SLMs) offer a potential alternative, but their effectiveness for role classification in HRI has not been systematically evaluated. In this paper, we present a benchmark of SLMs for leader-follower communication, introducing a novel dataset derived from a published database and augmented with synthetic samples to capture interaction-specific dynamics. We investigate two adaptation strategies: prompt engineering and fine-tuning, studied under zero-shot and one-shot interaction modes, compared with an untrained baseline. Experiments with Qwen2.5-0.5B reveal that zero-shot fine-tuning achieves robust classification performance (86.66% accuracy) while maintaining low latency (22.2 ms per sample), significantly outperforming baseline and prompt-engineered approaches. However, results also indicate a performance degradation in one-shot modes, where increased context length challenges the model&#x27;s architectural capacity. These findings demonstrate that fine-tuned SLMs provide an effective solution for direct role assignment, while highlighting critical trade-offs between dialogue complexity and classification reliability on the edge.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8effe5b42fcf" data-article-url="https://arxiv.org/abs/2603.02697" data-article-title="ShareVerse: 共有世界モデリングのためのマルチエージェントの一貫したビデオ生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.02697" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.02697" target="_blank" rel="noopener">ShareVerse: 共有世界モデリングのためのマルチエージェントの一貫したビデオ生成</a></h3>
      <p class="summary">このペーパーでは、マルチエージェント シェアード ワールド モデリングを可能にするビデオ生成フレームワークである ShareVerse について紹介します。これは、マルチエージェント インタラクションによる統一されたシェアード ワールド構築のサポートが不足している既存の作品のギャップに対処します。 ShareVerse は、大規模なビデオ モデルの生成機能を活用し、次の 3 つの主要なイノベーションを統合します。 1) 大規模なマルチエージェント インタラクティブな世界モデリング用のデータセットは、CARLA シミュレーション プラットフォーム上に構築され、多様なシーン、気象条件、およびペアになったマルチビュー ビデオ (エージェントごとに前方/後方/左方/右ビュー) とカメラ データによるインタラクティブな軌跡を特徴とします。 2) より広範な環境をモデル化し、内部のマルチビューの幾何学的一貫性を確保するために、独立したエージェントの 4 ビュー ビデオの空間連結戦略を提案します。 3) エージェント間のアテンション ブロックを事前トレーニング済みビデオ モデルに統合します。これにより、エージェント間での時空間情報のインタラクティブな送信が可能になり、重複領域での共有世界の一貫性と非重複領域での合理的な生成が保証されます。 49 フレームの大規模ビデオ生成をサポートする ShareVerse は、動的エージェントの位置を正確に認識し、一貫した共有世界モデリングを実現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling</p>
        <p class="orig-summary">This paper presents ShareVerse, a video generation framework enabling multi-agent shared world modeling, addressing the gap in existing works that lack support for unified shared world construction with multi-agent interaction. ShareVerse leverages the generation capability of large video models and integrates three key innovations: 1) A dataset for large-scale multi-agent interactive world modeling is built on the CARLA simulation platform, featuring diverse scenes, weather conditions, and interactive trajectories with paired multi-view videos (front/ rear/ left/ right views per agent) and camera data. 2) We propose a spatial concatenation strategy for four-view videos of independent agents to model a broader environment and to ensure internal multi-view geometric consistency. 3) We integrate cross-agent attention blocks into the pretrained video model, which enable interactive transmission of spatial-temporal information across agents, guaranteeing shared world consistency in overlapping regions and reasonable generation in non-overlapping regions. ShareVerse, which supports 49-frame large-scale video generation, accurately perceives the position of dynamic agents and achieves consistent shared world modeling.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="371159648577" data-article-url="https://arxiv.org/abs/2603.03482" data-article-title="ピクセル履歴を超えて: 永続的な 3D 状態を持つワールド モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.03482" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.03482" target="_blank" rel="noopener">ピクセル履歴を超えて: 永続的な 3D 状態を持つワールド モデル</a></h3>
      <p class="summary">インタラクティブな世界モデルは、ユーザーのアクションに応答してビデオを継続的に生成し、オープンエンドの生成機能を可能にします。ただし、既存のモデルには通常、環境の 3D 表現が欠けており、3D の一貫性をデータから暗黙的に学習する必要があり、空間メモリは限られた時間コンテキスト ウィンドウに制限されます。これにより、非現実的なユーザー エクスペリエンスが生じ、エージェントのトレーニングなどの下流のタスクに重大な障害が生じます。これに対処するために、潜在的な 3D シーン (環境、カメラ、レンダラー) の進化をシミュレートするワールド モデルの新しいパラダイムである PERSIST を紹介します。これにより、永続的な空間メモリと一貫したジオメトリを備えた新しいフレームを合成できるようになります。定量的メトリクスと定性的ユーザー調査の両方で、既存の手法に比べて空間記憶、3D 一貫性、長期安定性が大幅に向上し、一貫性のある進化する 3D 世界が可能になることが示されています。さらに、単一の画像から多様な 3D 環境を合成することや、3D 空間で直接環境の編集と仕様をサポートすることにより、生成されたエクスペリエンスに対するきめの細かいジオメトリを意識した制御を可能にすることなど、新しい機能を実証します。プロジェクトページ: https://francelico.github.io/persist.github.io</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond Pixel Histories: World Models with Persistent 3D State</p>
        <p class="orig-summary">Interactive world models continually generate video by responding to a user&#x27;s actions, enabling open-ended generation capabilities. However, existing models typically lack a 3D representation of the environment, meaning 3D consistency must be implicitly learned from data, and spatial memory is restricted to limited temporal context windows. This results in an unrealistic user experience and presents significant obstacles to downstream tasks such as training agents. To address this, we present PERSIST, a new paradigm of world model which simulates the evolution of a latent 3D scene: environment, camera, and renderer. This allows us to synthesise new frames with persistent spatial memory and consistent geometry. Both quantitative metrics and a qualitative user study show substantial improvements in spatial memory, 3D consistency, and long-horizon stability over existing methods, enabling coherent, evolving 3D worlds. We further demonstrate novel capabilities, including synthesising diverse 3D environments from a single image, as well as enabling fine-grained, geometry-aware control over generated experiences by supporting environment editing and specification directly in 3D space. Project page: https://francelico.github.io/persist.github.io</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="524b850495e6" data-article-url="https://arxiv.org/abs/2603.04444" data-article-title="vLLM セマンティック ルーター: 混合モダリティ モデル向けの信号駆動型意思決定ルーティング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.04444" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.04444" target="_blank" rel="noopener">vLLM セマンティック ルーター: 混合モダリティ モデル向けの信号駆動型意思決定ルーティング</a></h3>
      <p class="summary">大規模言語モデル (LLM) がモダリティ、機能、コスト プロファイルにわたって多様化するにつれて、インテリジェントなリクエスト ルーティングの問題、つまり推論時に各クエリに適切なモデルを選択することが、システムの重要な課題となっています。 Mixture-of-Modality (MoM) モデル展開用の信号駆動型意思決定ルーティング フレームワークである vLLM Semantic Router を紹介します。このアーキテクチャは、シャノンからインスピレーションを得た 2 つの相補的なビューに従っています。情報理論領域では、信号抽出により「どのモデルか?」のエントロピーが低減されます。生のクエリからルーティング関連情報を抽出することによって。ブール代数領域では、意思決定エンジンは信号状態から機能的に完全なルーティング ポリシーを構成します。中心的なイノベーションは、構成可能な信号オーケストレーションです。ミリ秒未満のヒューリスティックと、セマンティクス、安全性、モダリティのニューラル分類子にわたる 13 種類の異種信号タイプが、構成可能なブール決定ルールを通じて展開固有のルーティング ポリシーに組み込まれるため、基本的に異なるシナリオ (マルチクラウド エンタープライズ、プライバシー規制、コスト最適化) が、同じアーキテクチャ上の異なる構成として表現されます。一致した決定は 13 の選択アルゴリズムを介してセマンティック モデルのルーティングを推進し、決定ごとのプラグイン チェーンは 3 段階の HaluGate 幻覚検出パイプラインやパーソナライズされたマルチターン コンテキストのための ReflectionGate を備えた軽量のエピソード記憶システムなどの安全制約を強制します。型付きニューラルシンボリック DSL は、これらのルーティング ポリシーを指定し、複数の展開ターゲットにコンパイルして、コードを変更せずに構成優先の適応を可能にします。これらのコンポーネントを総合すると、コンポーザブルな信号オーケストレーションにより、単一のフレームワークで差別化されたコスト、プライバシー、安全性ポリシーを備えた多様な展開シナリオに対応できることがわかります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models</p>
        <p class="orig-summary">As large language models (LLMs) diversify across modalities, capabilities, and cost profiles, the problem of intelligent request routing: selecting the right model for each query at inference time, has become a critical systems challenge. We present vLLM Semantic Router, a signal-driven decision routing framework for Mixture-of-Modality (MoM) model deployments. The architecture follows two complementary Shannon-inspired views. In the information-theoretic regime, signal extraction reduces the entropy of &quot;which model?&quot; by distilling routing-relevant information from raw queries. In the Boolean-algebraic regime, the decision engine composes functionally complete routing policies from signal conditions. The central innovation is composable signal orchestration: thirteen heterogeneous signal types, spanning sub-millisecond heuristics and neural classifiers for semantics, safety, and modality, are composed through configurable Boolean decision rules into deployment-specific routing policies, so that fundamentally different scenarios (multi-cloud enterprise, privacy-regulated, cost-optimized) are expressed as different configurations over the same architecture. Matched decisions drive semantic model routing via thirteen selection algorithms, while per-decision plugin chains enforce safety constraints including a three-stage HaluGate hallucination detection pipeline and a lightweight episodic memory system with ReflectionGate for personalized multi-turn context. A typed neural-symbolic DSL specifies these routing policies and compiles them to multiple deployment targets, enabling configuration-first adaptation without code changes. Together, these components show that composable signal orchestration enables a single framework to serve diverse deployment scenarios with differentiated cost, privacy, and safety policies.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="056f11ec8405" data-article-url="https://arxiv.org/abs/2603.09170" data-article-title="ZeroWBC: 人間の自己中心的なデータから自然な全身ヒューマノイドのインタラクションを学習する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.09170" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.09170" target="_blank" rel="noopener">ZeroWBC: 人間の自己中心的なデータから自然な全身ヒューマノイドのインタラクションを学習する</a></h3>
      <p class="summary">全身遠隔操作データのコストが高いため、多用途で自然な全身ヒューマノイドのインタラクション制御を実現することは依然として困難です。我々は、同期した全身動作とテキスト注釈と組み合わせた、人間の自己中心的なビデオから人型の全身インタラクションを学習する、遠隔操作不要のフレームワークである ZeroWBC を紹介します。 ZeroWBC は、静的シーンの全身インタラクション制御問題に取り組むために、生成後追跡の定式化を採用しています。初期の自己中心的な画像と言語命令が与えられると、微調整された視覚言語モデルによって将来の人間の全身運動トークンが生成され、これが連続運動にデコードされ、ヒューマノイドに再ターゲットされます。結果として得られる参照モーションは、ルートおよび主要な身体部分の軌道とともに、一般的なインタラクティブ モーション トラッキング ポリシーによって実行されます。インタラクションのパフォーマンスを向上させるために、自然な全身の動きを維持しながら、グローバル ルートと主要な身体部分の軌道の調整を優先するインタラクション指向の追跡報酬を導入します。 Unitree G1 ヒューマノイド ロボットの実験では、ZeroWBC がロボットの遠隔操作のデモンストレーションを行わずに、シーンを認識した多様な動作を可能にすることを示しています。これらの結果は、人間の自己中心的なデータから自然なヒューマノイドの全身インタラクションを学習するためのスケーラブルなパラダイムを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ZeroWBC: Learning Natural Whole-Body Humanoid Interaction from Human Egocentric Data</p>
        <p class="orig-summary">Achieving versatile and natural whole-body humanoid interaction control remains challenging due to the high cost of whole-body teleoperation data. We present ZeroWBC, a teleoperation-free framework that learns humanoid whole-body interaction from human egocentric videos paired with synchronized whole-body motion and text annotations. ZeroWBC adopts a generation-then-tracking formulation to tackle the static scene whole-body interaction control problem. Given an initial egocentric image and a language instruction, a fine-tuned Vision-Language Model generates future human whole-body motion tokens, which are decoded into continuous motions and retargeted to the humanoid. The resulting reference motions, together with root and key body-part trajectories, are then executed by a general interactive motion tracking policy. To improve interaction performance, we introduce an interaction-oriented tracking reward that prioritizes global root and key body-part trajectory alignment while preserving natural whole-body motion. Experiments on the Unitree G1 humanoid robot show that ZeroWBC enables diverse scene-aware behaviors without robot teleoperation demonstrations. These results suggest a scalable paradigm for learning natural humanoid whole-body interaction from human egocentric data.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="245076ee5b2e" data-article-url="https://arxiv.org/abs/2603.09391" data-article-title="微分可能なパルス列合成による物理学に基づいたニューラル エンジン サウンド モデリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.09391" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.09391" target="_blank" rel="noopener">微分可能なパルス列合成による物理学に基づいたニューラル エンジン サウンド モデリング</a></h3>
      <p class="summary">エンジン音は、持続的な調和振動ではなく、連続する排気圧力パルスから発生します。神経合成手法は通常、結果として得られるスペクトル特性を近似することを目的としていますが、私たちは基礎となるパルス形状と時間構造を直接モデル化することを提案します。我々は、エンジン点火パターンに合わせてパラメータ化されたパルス列としてエンジン音声を生成し、それを排気音響をシミュレートする再帰的な Karplus-Strong 共振器を通して伝播する微分可能な合成アーキテクチャであるパルストレイン共振器 (PTR) モデルを紹介します。このアーキテクチャには、高調波減衰、熱力学的ピッチ変調、バルブダイナミクスエンベロープ、排気システムの共振、スロットル操作や減速燃料カットオフ (DFCO) などの派生エンジン動作モードなど、物理学に基づいた誘導バイアスが統合されています。 3 つの異なるエンジン タイプ、合計 7.5 時間のオーディオで検証された PTR は、高調波とノイズのベースライン モデルと比較して、高調波再構成で 21% の改善と総損失の 5.7% 削減を達成し、同時に物理現象に対応する解釈可能なパラメータを提供します。完全なコード、モデルの重み、および音声サンプルは公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis</p>
        <p class="orig-summary">Engine sounds originate from sequential exhaust pressure pulses rather than sustained harmonic oscillations. While neural synthesis methods typically aim to approximate the resulting spectral characteristics, we propose directly modeling the underlying pulse shapes and temporal structure. We present the Pulse-Train-Resonator (PTR) model, a differentiable synthesis architecture that generates engine audio as parameterized pulse trains aligned to engine firing patterns and propagates them through recursive Karplus-Strong resonators simulating exhaust acoustics. The architecture integrates physics-informed inductive biases including harmonic decay, thermodynamic pitch modulation, valve-dynamics envelopes, exhaust system resonances and derived engine operating modes such as throttle operation and Deceleration Fuel Cutoff (DFCO). Validated on three diverse engine types totaling 7.5 hours of audio, PTR achieves a 21% improvement in harmonic reconstruction and a 5.7% reduction in total loss over a harmonic-plus-noise baseline model, while providing interpretable parameters corresponding to physical phenomena. Complete code, model weights, and audio examples are openly available.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cd9452db34e8" data-article-url="https://arxiv.org/abs/2603.09493" data-article-title="EvoPrompt: Guided Prompt Evolution for Vision-Language Models Adaptation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.09493" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.09493" target="_blank" rel="noopener">EvoPrompt: Guided Prompt Evolution for Vision-Language Models Adaptation</a></h3>
      <p class="summary">The adaptation of large-scale vision-language models (VLMs) to downstream tasks with limited labeled data remains a significant challenge.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5b04d807daf8" data-article-url="https://arxiv.org/abs/2603.10044" data-article-title="Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.10044" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.10044" target="_blank" rel="noopener">Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety</a></h3>
      <p class="summary">A safety score earned on a benchmark need not predict how the same model behaves once it is wrapped in an agentic scaffold the benchmark ne…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="700d943ff473" data-article-url="https://arxiv.org/abs/2603.10289" data-article-title="Quantum entanglement provides a competitive advantage in adversarial games" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.10289" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.10289" target="_blank" rel="noopener">Quantum entanglement provides a competitive advantage in adversarial games</a></h3>
      <p class="summary">Whether uniquely quantum resources confer advantages in fully classical, competitive environments remains an open question. Competitive zer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="07a0edb20fd4" data-article-url="https://arxiv.org/abs/2603.10971" data-article-title="ContactExplorer: Contact Coverage-Guided Exploration for General-Purpose Dexterous Manipulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.10971" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.10971" target="_blank" rel="noopener">ContactExplorer: Contact Coverage-Guided Exploration for General-Purpose Dexterous Manipulation</a></h3>
      <p class="summary">Reinforcement learning has achieved remarkable success in domains such as Atari games, navigation, and locomotion, where exploration can of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="55c065eb47d3" data-article-url="https://arxiv.org/abs/2603.12433" data-article-title="Revisiting Model Stitching In the Foundation Model Era" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.12433" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.12433" target="_blank" rel="noopener">Revisiting Model Stitching In the Foundation Model Era</a></h3>
      <p class="summary">Model stitching, connecting early layers of one model (source) to later layers of another (target) via a light stitch layer, has served as…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="54207ddad338" data-article-url="https://arxiv.org/abs/2603.13384" data-article-title="VulnAgent-R2: Evidence-Calibrated Multi-Agent Auditing for Repository-Level Vulnerability Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.13384" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.13384" target="_blank" rel="noopener">VulnAgent-R2: Evidence-Calibrated Multi-Agent Auditing for Repository-Level Vulnerability Detection</a></h3>
      <p class="summary">Software vulnerabilities often depend on cross-file data flow, build options, framework conventions, and runtime guards, so isolated functi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c60f256dd0f9" data-article-url="https://arxiv.org/abs/2603.13432" data-article-title="Spatial Transcriptomics as Images for Large-Scale Pretraining" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.13432" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.13432" target="_blank" rel="noopener">Spatial Transcriptomics as Images for Large-Scale Pretraining</a></h3>
      <p class="summary">Spatial Transcriptomics (ST) profiles thousands of gene expression values at discrete spots with precise coordinates on tissue sections, pr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="29703d19d68b" data-article-url="https://arxiv.org/abs/2603.19005" data-article-title="AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.19005" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.19005" target="_blank" rel="noopener">AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science</a></h3>
      <p class="summary">Data science plays a critical role in transforming complex data into actionable insights across numerous domains. Recent developments in la…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c8bdf2eb5b30" data-article-url="https://arxiv.org/abs/2603.19225" data-article-title="FinTradeBench: A Financial Reasoning Benchmark for LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.19225" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.19225" target="_blank" rel="noopener">FinTradeBench: A Financial Reasoning Benchmark for LLMs</a></h3>
      <p class="summary">Real-world financial decision-making is a challenging problem that requires reasoning over heterogeneous signals, including company fundame…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a524779d91ea" data-article-url="https://arxiv.org/abs/2603.22121" data-article-title="GenSpan: Generation-Calibrated Motion Span Priors for Multi-Verb Video Corpus Moment Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.22121" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.22121" target="_blank" rel="noopener">GenSpan: Generation-Calibrated Motion Span Priors for Multi-Verb Video Corpus Moment Retrieval</a></h3>
      <p class="summary">Video Corpus Moment Retrieval (VCMR) aims to retrieve both the correct video and its temporal segment corresponding to a natural-language q…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="de426060c4dc" data-article-url="https://arxiv.org/abs/2603.23841" data-article-title="PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Turn Roleplay" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23841" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23841" target="_blank" rel="noopener">PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Turn Roleplay</a></h3>
      <p class="summary">While Large Language Models (LLMs) are increasingly used as primary sources of information, their potential for political bias may impact t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9dc3dbd7477c" data-article-url="https://arxiv.org/abs/2603.28762" data-article-title="On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.28762" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.28762" target="_blank" rel="noopener">On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers</a></h3>
      <p class="summary">Modern Text-to-Image (T2I) diffusion models have achieved remarkable semantic alignment, yet they often suffer from a significant lack of v…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="50be05fdcf94" data-article-url="https://arxiv.org/abs/2604.00819" data-article-title="Emotion Entanglement and Bayesian Inference for Multi-Dimensional Emotion Understanding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.00819" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.00819" target="_blank" rel="noopener">Emotion Entanglement and Bayesian Inference for Multi-Dimensional Emotion Understanding</a></h3>
      <p class="summary">Understanding emotions in natural language is inherently a multi-dimensional reasoning problem, where multiple affective signals interact t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dbe45a85e01e" data-article-url="https://arxiv.org/abs/2604.04944" data-article-title="Inclusion-of-Thoughts: Mitigating Preference Instability via Purifying the Decision Space" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.04944" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.04944" target="_blank" rel="noopener">Inclusion-of-Thoughts: Mitigating Preference Instability via Purifying the Decision Space</a></h3>
      <p class="summary">Multiple-choice questions (MCQs) are widely used to evaluate large language models (LLMs). However, LLMs remain vulnerable to the presence…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bd7be66834ae" data-article-url="https://arxiv.org/abs/2604.11510" data-article-title="Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.11510" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.11510" target="_blank" rel="noopener">Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization</a></h3>
      <p class="summary">To encourage diverse exploration in reinforcement learning (RL) for large language models (LLMs) without compromising accuracy, we propose…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ac98b81db48f" data-article-url="https://arxiv.org/abs/2604.12645" data-article-title="Contextual Multi-Task Reinforcement Learning for Autonomous Reef Monitoring" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.12645" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.12645" target="_blank" rel="noopener">Contextual Multi-Task Reinforcement Learning for Autonomous Reef Monitoring</a></h3>
      <p class="summary">Although autonomous underwater vehicles promise the capability of marine ecosystem monitoring, their deployment is fundamentally limited by…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="beb1f4ef0e06" data-article-url="https://arxiv.org/abs/2604.14575" data-article-title="Generative Augmented Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.14575" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.14575" target="_blank" rel="noopener">Generative Augmented Inference</a></h3>
      <p class="summary">Large language models enable inexpensive AI-generated annotations, but using them reliably for causal inference remains challenging. Naivel…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dcb402a0213b" data-article-url="https://arxiv.org/abs/2604.25860" data-article-title="Luminol-AIDetect: Fast Zero-shot Machine-Generated Text Detection based on Perplexity under Text Shuffling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.25860" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.25860" target="_blank" rel="noopener">Luminol-AIDetect: Fast Zero-shot Machine-Generated Text Detection based on Perplexity under Text Shuffling</a></h3>
      <p class="summary">Machine-generated text (MGT) detection requires identifying structurally invariant signals across generation models, rather than relying on…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="34a19bbd6d31" data-article-url="https://arxiv.org/abs/2605.00242" data-article-title="MAEPose: Self-Supervised Spatiotemporal Learning for Human Pose Estimation on mmWave Video" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.00242" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.00242" target="_blank" rel="noopener">MAEPose: Self-Supervised Spatiotemporal Learning for Human Pose Estimation on mmWave Video</a></h3>
      <p class="summary">Millimetre-wave (mmWave) radar offers a more privacy-preserving alternative to RGB-based human pose estimation. However, existing methods t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f84f66db5645" data-article-url="https://arxiv.org/abs/2605.01910" data-article-title="Stochastic Sparse Attention for Memory-Bound Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.01910" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.01910" target="_blank" rel="noopener">Stochastic Sparse Attention for Memory-Bound Inference</a></h3>
      <p class="summary">Autoregressive decoding becomes bandwidth-limited at long contexts, as generating each token requires reading all $n_k$ key and value vecto…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f5c76f5d69d2" data-article-url="https://arxiv.org/abs/2605.03353" data-article-title="SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.03353" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.03353" target="_blank" rel="noopener">SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents</a></h3>
      <p class="summary">LLM agents increasingly rely on reusable skills (e.g., SKILL markdown files) to execute complex tasks, yet these artifacts lack portability…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2fa3637b941a" data-article-url="https://arxiv.org/abs/2605.04356" data-article-title="Efficiently Aligning Language Models with Online Natural Language Feedback" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.04356" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.04356" target="_blank" rel="noopener">Efficiently Aligning Language Models with Online Natural Language Feedback</a></h3>
      <p class="summary">Reinforcement learning with verifiable rewards has been used to elicit impressive performance from language models in many domains. But, br…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6efcdb1ece5d" data-article-url="https://arxiv.org/abs/2605.07032" data-article-title="A Systematic Investigation of RL-Jailbreaking in LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.07032" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.07032" target="_blank" rel="noopener">A Systematic Investigation of RL-Jailbreaking in LLMs</a></h3>
      <p class="summary">The evolution of generative models from next-token predictors to autonomous engines of complex systems necessitates rigorous safety hardeni…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="86b194211422" data-article-url="https://arxiv.org/abs/2605.07724" data-article-title="Curated Synthetic Data Doesn&#x27;t Have to Collapse: A Theoretical Study of Generative Retraining with Pluralistic Preferences" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.07724" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.07724" target="_blank" rel="noopener">Curated Synthetic Data Doesn&#x27;t Have to Collapse: A Theoretical Study of Generative Retraining with Pluralistic Preferences</a></h3>
      <p class="summary">Recursive retraining of generative models poses a critical representation challenge: when synthetic outputs are curated based on a fixed re…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="717693a216c6" data-article-url="https://arxiv.org/abs/2605.09081" data-article-title="FactoryNet: A Large-Scale Dataset toward Industrial Time-Series Foundation Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.09081" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.09081" target="_blank" rel="noopener">FactoryNet: A Large-Scale Dataset toward Industrial Time-Series Foundation Models</a></h3>
      <p class="summary">We introduce the first universal pretraining corpus for industrial time-series data: FactoryNet. 51M datapoints across 23k end-to-end task…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="88ad392890b1" data-article-url="https://arxiv.org/abs/2605.11130" data-article-title="HEPA: A Self-Supervised Horizon-Conditioned Event Predictive Architecture for Time Series" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.11130" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.11130" target="_blank" rel="noopener">HEPA: A Self-Supervised Horizon-Conditioned Event Predictive Architecture for Time Series</a></h3>
      <p class="summary">Critical events in multivariate time series, from turbine failures to cardiac arrhythmias, demand accurate prediction, yet labeled data is…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1a471c691dfc" data-article-url="https://arxiv.org/abs/2605.15152" data-article-title="Widening the Gap: Exploiting LLM Quantization via Outlier Injection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.15152" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.15152" target="_blank" rel="noopener">Widening the Gap: Exploiting LLM Quantization via Outlier Injection</a></h3>
      <p class="summary">LLM quantization has become essential for memory-efficient deployment. Recent work has shown that quantization schemes can pose critical se…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4347e682c8b5" data-article-url="https://arxiv.org/abs/2605.16301" data-article-title="Do LLMs Hold Their Values? MANTA: A Multi-Turn Adversarial Benchmark for Animal Welfare Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><a class="entity-tag" href="/entity/grok/" data-entity="grok">Grok</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.16301" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.16301" target="_blank" rel="noopener">Do LLMs Hold Their Values? MANTA: A Multi-Turn Adversarial Benchmark for Animal Welfare Reasoning</a></h3>
      <p class="summary">Evaluating animal welfare reasoning in LLMs remains an open challenge despite rapid deployment in consumer and professional contexts where…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f9f6a9fd88ad" data-article-url="https://arxiv.org/abs/2605.16331" data-article-title="Retrieval and competition: how a protein foundation model starts a protein" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.16331" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.16331" target="_blank" rel="noopener">Retrieval and competition: how a protein foundation model starts a protein</a></h3>
      <p class="summary">Protein language models are increasingly used to guide experimental and clinical decisions, yet it is often unclear whether a confident pre…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1706b1077bfb" data-article-url="https://arxiv.org/abs/2605.17273" data-article-title="Position: State-of-the-Art Claims Require State-of-the-Art Evidence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.17273" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.17273" target="_blank" rel="noopener">Position: State-of-the-Art Claims Require State-of-the-Art Evidence</a></h3>
      <p class="summary">State-of-the-Art (SOTA) claims pervade Artificial Intelligence (AI) and Machine Learning (ML) research. These claims rest on benchmark eval…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5fb8178aaa1c" data-article-url="https://arxiv.org/abs/2605.18879" data-article-title="ZeroUnlearn: Few-Shot Knowledge Unlearning in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.18879" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.18879" target="_blank" rel="noopener">ZeroUnlearn: Few-Shot Knowledge Unlearning in Large Language Models</a></h3>
      <p class="summary">Large language models inevitably retain sensitive information, defined as inputs that may induce harmful generations, due to training on ma…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dbe253ca9c42" data-article-url="https://arxiv.org/abs/2605.18931" data-article-title="Markov Chain Decoders Overcome the Heavy-Tail Limitations of Lipschitz Generative Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.18931" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.18931" target="_blank" rel="noopener">Markov Chain Decoders Overcome the Heavy-Tail Limitations of Lipschitz Generative Models</a></h3>
      <p class="summary">Heavy-tailed distributions are prevalent in performance evaluation, network traffic, and risk modeling. This behavior poses a fundamental c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="92c10fdcf87c" data-article-url="https://arxiv.org/abs/2605.19294" data-article-title="DEFLECT: Temporal Counterfactual Preference Learning for Delay-Robust Asynchronous VLAs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.19294" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.19294" target="_blank" rel="noopener">DEFLECT: Temporal Counterfactual Preference Learning for Delay-Robust Asynchronous VLAs</a></h3>
      <p class="summary">Vision-Language-Action (VLA) policies increasingly rely on asynchronous inference to hide large-model latency behind ongoing robot motion.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="07ecf082d3c2" data-article-url="https://arxiv.org/abs/2605.19398" data-article-title="Rebalancing Reference Frame Dominance to Improve Motion in Image-to-Video Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.19398" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.19398" target="_blank" rel="noopener">Rebalancing Reference Frame Dominance to Improve Motion in Image-to-Video Models</a></h3>
      <p class="summary">Image-to-video models often generate videos that remain overly static, compared to text-to-video models. While prior approaches mitigate th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a0f261346b7" data-article-url="https://arxiv.org/abs/2605.20654" data-article-title="REFLECTOR: Internalizing Step-wise Reflection against Indirect Jailbreak" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.20654" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.20654" target="_blank" rel="noopener">REFLECTOR: Internalizing Step-wise Reflection against Indirect Jailbreak</a></h3>
      <p class="summary">While Large Language Models (LLMs) demonstrate remarkable capabilities, they remain susceptible to sophisticated, multi-step jailbreak atta…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d34d676bbcbb" data-article-url="https://arxiv.org/abs/2605.21446" data-article-title="Lost in Fog: Sensor Perturbations Expose Reasoning Fragility in Driving VLAs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.21446" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.21446" target="_blank" rel="noopener">Lost in Fog: Sensor Perturbations Expose Reasoning Fragility in Driving VLAs</a></h3>
      <p class="summary">Interpretable autonomous driving planners depend not only on generating explanations, but also on those explanations remaining reliable und…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="47533c0d7a1f" data-article-url="https://arxiv.org/abs/2605.23595" data-article-title="メタ学習による費用対効果の高いモデル評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.23595" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.23595" target="_blank" rel="noopener">メタ学習による費用対効果の高いモデル評価</a></h3>
      <p class="summary">機械学習の急速な成長により、拡大し続けるモデルのエコシステムが生み出され、目に見えないラベルのないデータに対して新しくリリースされたモデルの信頼性を検証することがますます困難になっています。従来の評価パイプラインは、高価なアノテーション、繰り返しの微調整、またはモデル ファミリ間での転送ができない狭い仮定に依存しています。さまざまなアーキテクチャやモダリティにまたがる未確認のモデルをラベルなしで迅速に評価するための、コスト効率が高く、モデルに依存しないフレームワークである MetaEvaluator を紹介します。 MetaEvaluator は、参照モデルのプールに対するメタ学習を利用して転送可能な初期化を取得し、プール全体でコストを償却しながら、モデルごとの再トレーニングの必要性を排除しながら、新しいモデルの正確な評価を可能にします。私たちの知る限り、これは完全にラベルのないデータセットで新しいモデルを評価できる、モデルに依存しない最初のフレームワークです。広範な実験により、MetaEvaluator は従来のアプローチと比較して大幅にコストを削減しながら安定した正確なパフォーマンス推定値を生成し、ラベルのないデータに対する新しいモデルのスケーラブルなベンチマークを実用化できることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Learning to Evaluate: Cost-Effective Model Evaluation on Unlabeled Data with Meta-Learning</p>
        <p class="orig-summary">The rapid advancement of machine learning has led to an unprecedented expansion of model ecosystems, making it increasingly difficult to assess the reliability of newly released models on unseen and unlabeled data. Existing evaluation pipelines typically rely on costly annotation, repeated fine-tuning, or assumptions that do not generalize well to new models. We introduce MetaEvaluator, a cost-effective, model-agnostic framework for fast, label-free evaluation of unseen models across diverse architectures and modalities. MetaEvaluator meta-learns over a pool of reference models to acquire an effective initialization for accurate assessment of unseen models, thereby amortizing evaluation cost and eliminating the need for per-model retraining. To the best of our knowledge, this is the first model-agnostic framework that evaluates new models on unlabeled datasets. Extensive experiments demonstrate that MetaEvaluator delivers stable and accurate performance estimates at substantially lower cost than conventional approaches, enabling scalable benchmarking on unlabeled datasets for emerging models. The code is available at: https://github.com/phkhanhtrinh23/MetaEvaluator.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4cf6eca0dcc2" data-article-url="https://arxiv.org/abs/2605.24358" data-article-title="グラフデータに対するネットワーク効果の微分による治療効果の推定" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24358" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24358" target="_blank" rel="noopener">グラフデータに対するネットワーク効果の微分による治療効果の推定</a></h3>
      <p class="summary">観察グラフデータから個人治療効果（ITE）を推定することは、商業や医療などの分野での意思決定に不可欠です。この作業は、個々の結果が近隣の治療法や共変量によって影響を受ける可能性があるため、干渉が生じるため困難です。既存の方法は、正確な ITE 推定のためにそのような干渉をモデル化しようとしています。ただし、重要な問題は見落とされがちです。それは、差異化ネットワーク効果 (DNE) です。これは、重要性と規模が異なる近隣ネットワークで構成されるローカル ネットワークによって引き起こされる効果です。 DNE をキャプチャすることは不可欠です。そうしないと、干渉の誤った特性評価により ITE 推定が不正確になり、誤った決定を招く可能性があります。この課題に対処するために、2 つの部分注意メカニズムとメッセージ増幅器を組み込んだ新しい干渉モデリング メカニズムを提案します。パーシャル アテンション メカニズムは、干渉に寄与するさまざまな隣接ノードの重要性を自動的に推定します。一方、メッセージ アンプは隣接ノードのスケールに基づいて干渉モデリング メカニズムの結果を調整します。これらすべてにより、モデルが DNE をキャプチャできるようになります。 3 つの現実世界のグラフでの実験では、私たちの方法がグラフ データから ITE を推定する既存のアプローチよりも優れていることが実証されており、DNE を明示的にキャプチャすることの重要性が裏付けられています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Treatment Effect Estimation with Differentiated Networked Effect on Graph Data</p>
        <p class="orig-summary">Estimating individual treatment effect (ITE) from observational graph data is crucial for decision-making in the fields such as commerce and medicine. This task is challenging due to interference, where individual outcomes can be influenced by the treatments and covariates of their neighbors. Existing methods attempt to model such interference for accurate ITE estimation. However, a critical issue is often overlooked: differentiated networked effect (DNE), an effect caused by local networks consisting of neighbors with varying importance and scales. Capturing DNE is vital; otherwise, we will end up with imprecise ITE estimation due to an erroneous characterization of interference, which can result in misguided decisions. To address this challenge, we propose a novel interference modeling mechanism that incorporates two partial attention mechanisms and a message amplifier. The partial attention mechanisms automatically estimate the importance of different neighbors in contributing to interference, while the message amplifier adjusts the results of the interference modeling mechanism based on the scale of neighbors, all of which enables the model to capture DNE. Experiments on three real-world graphs demonstrate that our methods outperform existing approaches for ITE estimation from graph data, which corroborates the importance of explicitly capturing DNE.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="16067353af38" data-article-url="https://arxiv.org/abs/2605.24602" data-article-title="注意力の散漫によって引き起こされる視覚的なぼやけを修正して幻覚を軽減する: アルゴリズムと理論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24602" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24602" target="_blank" rel="noopener">注意力の散漫によって引き起こされる視覚的なぼやけを修正して幻覚を軽減する: アルゴリズムと理論</a></h3>
      <p class="summary">マルチモーダル大規模言語モデル (MLLM) は、物体の幻覚に悩まされることがよくありますが、この失敗の根底にある視覚知覚メカニズムはまだ十分に理解されていません。この研究では、幻覚が人間のような注意散漫現象と強く関連していることを明らかにしました。この現象では、分割焦点下にある人間は視覚の明瞭度が低下し、不正確な説明を生成しますが、モデルでは同じメカニズムが、複数頭の注意における空間的な不一致と、デコード中の画像トークンへの注意の一時的な薄れとして現れます。さらに、注意の分散によってモデルの複雑さが増大し、分類の一般化が低下するという理論的な洞察も提供します。これらの発見に動機づけられて、我々は、画像認識を改善するための注意集中アプローチ（AFIP）を提案します。これは、クロスヘッド注意の強化を通じて注意の散漫を修正し、動的な歴史的注意の強化を通じて視覚の基礎を強化します。複数のベンチマークとモデルに関する広範な実験により、追加のトレーニングなしで AFIP の有効性が検証されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Correcting Visual Blur Induced by Attention Distraction to Reduce Hallucinations: Algorithm and Theory</p>
        <p class="orig-summary">Multimodal large language models (MLLMs) frequently suffer from object hallucinations, yet the visual perceptual mechanism underlying this failure remains poorly understood. In this work, we reveal that hallucinations are strongly associated with a human-like attention distraction phenomenon, where humans under divided focus experience degraded visual clarity and produce inaccurate descriptions, while in models the same mechanism manifests as spatial inconsistency in multi-head attention and temporal fading of attention to image tokens during decoding. We further provide theoretical insights that attention dispersion increases model complexity and degrades classification generalization. Motivated by these findings, we propose an Attention-Focused Approach for Improved Image Perception (AFIP), which corrects attention distraction via cross-head attention enrichment and reinforces visual grounding through dynamic historical attention enhancement. Extensive experiments on multiple benchmarks and models validate the effectiveness of AFIP without additional training.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="89e1481733c2" data-article-url="https://arxiv.org/abs/2605.25402" data-article-title="Anatomy-Anchored Self-Supervision: Distilling Vision Foundation Models for Invariant Ultrasound Representation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25402" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25402" target="_blank" rel="noopener">Anatomy-Anchored Self-Supervision: Distilling Vision Foundation Models for Invariant Ultrasound Representation</a></h3>
      <p class="summary">Self-supervised pre-training paradigm has gained increasing prominence for learning transferable representations in medical imaging, yet ex…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a114fad6f0b5" data-article-url="https://arxiv.org/abs/2605.27488" data-article-title="Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27488" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27488" target="_blank" rel="noopener">Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels</a></h3>
      <p class="summary">Agentic systems increasingly run user-authored orchestration code that invokes tools, spawns subtasks, and delegates work across machines a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5145b89469ba" data-article-url="https://arxiv.org/abs/2605.28829" data-article-title="アリヤバータ 2: 高度な STEM 推論のための強化学習のスケーリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28829" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28829" target="_blank" rel="noopener">アリヤバータ 2: 高度な STEM 推論のための強化学習のスケーリング</a></h3>
      <p class="summary">JEE や NEET などの競争力のある STEM 試験では、複数段階の記号的推論、正確な数値計算、物理、化学、数学にわたる深い概念的理解が必要です。最近の大規模な言語モデルは、共通の推論ベンチマークでは優れたパフォーマンスを発揮しますが、大規模に展開することは依然として困難であり、学生の何百万もの疑問がドメイン固有の一貫した構造の問題解決を必要としています。 Aryabhata 2 は、トレーニング後の強化学習によってトレーニングされた、競争力のある STEM 試験用の推論に焦点を当てた言語モデルです。 PhysicsWallah の内部質問バンクを使用して、高品質のトレーニング カリキュラムを構築し、検証可能な報酬を伴う強化学習を通じて GPT-OSS-20B のポストトレーニングを構築します。トレーニングでは、長期にわたる強化学習と、段階的にロールアウト グループのサイズが大きくなることで広がる探索を組み合わせます。 JEE Main、JEE Advanced、NEET などの競合試験ベンチマークと、AIME、HMMT、MMLU-Pro、MMLU-Redux 2.0、GPQA などの配布外推論データセットで Aryabhata 2 を評価します。結果は、Aryabhata 2 が競合 STEM 推論において基本モデル GPT-OSS-20B を上回るパフォーマンスを示しながら、必要な出力トークンが大幅に少なくなる (最大 64\% 少ない) ことを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning</p>
        <p class="orig-summary">Competitive STEM examinations such as JEE and NEET require multi-step symbolic reasoning, precise numerical computation, and deep conceptual understanding across physics, chemistry, and mathematics. Recent large language models perform strongly on common reasoning benchmarks, yet they remain difficult to deploy at scale, where millions of student doubts demand domain-specific, consistently structured problem solving. We introduce Aryabhata 2, a reasoning-focused language model for competitive STEM examinations, trained via reinforcement-learning post-training. Using PhysicsWallah&#x27;s internal question banks, we construct a high-quality training curriculum and post-train GPT-OSS-20B through reinforcement learning with verifiable rewards. Training combines prolonged reinforcement learning with broadened exploration via progressively larger rollout group sizes. We evaluate Aryabhata 2 on competitive examination benchmarks, including JEE Main, JEE Advanced, and NEET, as well as out-of-distribution reasoning datasets such as AIME, HMMT, MMLU-Pro, MMLU-Redux 2.0, and GPQA. Results show that Aryabhata 2 outperforms its base model GPT-OSS-20B on competitive STEM reasoning while requiring substantially fewer output tokens (up to 64\% fewer).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e154200c20f6" data-article-url="https://arxiv.org/abs/2605.29076" data-article-title="構造化プロンプトの最適化と強化学習の融合により、複雑なテキストに対するグローバルおよびローカルの解釈可能性が実現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29076" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29076" target="_blank" rel="noopener">構造化プロンプトの最適化と強化学習の融合により、複雑なテキストに対するグローバルおよびローカルの解釈可能性が実現</a></h3>
      <p class="summary">LLM は高度なテキスト分類を備えていますが、既存のパラダイムはトレードオフに直面しています。教師付き (ラベルのみ) 微調整はスケーラブルですが、複雑なテキストに対する推論が限られており、広範なモデルの透明性に欠けています。一方、離散プロンプト最適化は人間が読める命令を提供しますが、パフォーマンスとスケーラビリティに苦労します。私たちは、3 つの段階的な段階を持つ eXTC (eXplainable Text Classifier) を導入します。(1) 新しい構造化プロンプト最適化アルゴリズムを介して、自然言語で標準操作手順 (SOP、またはルールブック) を学習します。 (2) SOP に基づいた推論を大規模な教師 LLM からコンパクトな LM に抽出します。 (3) 強化学習により、初期 SOP を超えて推論能力を拡張します。この設計により、eXTC は、(i) コンパクトな LM を介した高速推論、(ii) 学習したドメイン ルールのグローバルなモジュール式説明と並行した推論時のローカル推論トレースを提供できるようになり、(iii) 分類パフォーマンスと説明品質の両方において、さまざまなベンチマークにわたって既存のパラダイムを大幅に上回り、段階ごとに向上します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Structured Prompt Optimization Meets Reinforcement Learning for Global and Local Interpretability over Complex Text</p>
        <p class="orig-summary">LLMs have advanced text classification, yet existing paradigms face a trade-off: supervised (label only) fine-tuning is scalable but offers limited reasoning on complex text and lacks broader model transparency, while discrete prompt optimization offers human-readable instructions but struggles with performance and scalability. We introduce eXTC (eXplainable Text Classifier) with three progressive stages: (1) learning a Standard Operating Procedure (SOP, or rulebook) in natural language via a new Structured Prompt Optimization algorithm; (2) SOP-grounded reasoning distillation from a large teacher LLM into a compact LM; and (3) expanding reasoning capabilities beyond the initial SOP via reinforcement learning. This design enables eXTC to provide (i) fast inference via a compact LM, with (ii) inference-time local reasoning traces, alongside a global, modular explanation of its learned domain rules, while (iii) significantly outperforming existing paradigms across diverse benchmarks in both classification performance and explanation quality, with stage-by-stage gains.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9477e23fdebc" data-article-url="https://arxiv.org/abs/2605.29280" data-article-title="LoopFM: Learning frOm HistOrical RePresentations of Foundation Model for Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29280" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29280" target="_blank" rel="noopener">LoopFM: Learning frOm HistOrical RePresentations of Foundation Model for Recommendation</a></h3>
      <p class="summary">Knowledge distillation (KD) transfers a single scalar prediction from a large foundation model (FM) to compact vertical models (VMs), suffe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="85e0023df501" data-article-url="https://arxiv.org/abs/2605.29861" data-article-title="Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29861" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29861" target="_blank" rel="noopener">Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation</a></h3>
      <p class="summary">Large Language Models (LLMs) have advanced autonomous agents from deep search, which retrieves concise factual answers, to deep research, w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="73de66392a53" data-article-url="https://arxiv.org/abs/2605.29928" data-article-title="Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29928" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29928" target="_blank" rel="noopener">Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs</a></h3>
      <p class="summary">As AI-generated and AI-assisted content floods online spaces, source labels attached to such content can distort human reasoning judgments,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2a3f327aa52" data-article-url="https://arxiv.org/abs/2605.30120" data-article-title="No More K-means: Single-Stage Sparse Coding for Efficient Multi-Vector Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30120" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30120" target="_blank" rel="noopener">No More K-means: Single-Stage Sparse Coding for Efficient Multi-Vector Retrieval</a></h3>
      <p class="summary">Multi-vector retrieval (MVR) models, exemplified by ColBERT, have established new benchmarks in retrieval accuracy by preserving fine-grain…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3830de13636e" data-article-url="https://arxiv.org/abs/2605.31483" data-article-title="BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31483" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31483" target="_blank" rel="noopener">BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali</a></h3>
      <p class="summary">Despite Bengali being the sixth most spoken language in the world, no prior work has systematically evaluated hallucination in large langua…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bbc2c058a259" data-article-url="https://arxiv.org/abs/2606.00038" data-article-title="Beyond Tool Adoption: A Practical Five-Stage Developmental Continuum for AI Literacy in Higher Education" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00038" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00038" target="_blank" rel="noopener">Beyond Tool Adoption: A Practical Five-Stage Developmental Continuum for AI Literacy in Higher Education</a></h3>
      <p class="summary">Artificial intelligence (AI) literacy is increasingly recognized as a foundational competency for all university graduates. Yet students&#x27; e…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a859c3e8cdc" data-article-url="https://arxiv.org/abs/2606.00747" data-article-title="SkyShield: Occupancy as a Safety Interface for Low-Altitude UAV Autonomy" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00747" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00747" target="_blank" rel="noopener">SkyShield: Occupancy as a Safety Interface for Low-Altitude UAV Autonomy</a></h3>
      <p class="summary">For low-altitude Unmanned Aerial Vehicle (UAV) autonomy, 3D spatial understanding is not merely a perception objective, but the safety inte…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="916dfedeed15" data-article-url="https://arxiv.org/abs/2606.01023" data-article-title="Data Collection for Training Quality-Control AI in Carpet Manufacturing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01023" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01023" target="_blank" rel="noopener">Data Collection for Training Quality-Control AI in Carpet Manufacturing</a></h3>
      <p class="summary">Visual inspection remains the dominant quality-control practice in woven and tufted carpet production, yet it is slow, subjective, and inco…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d1ab2bdd8d4a" data-article-url="https://arxiv.org/abs/2606.01138" data-article-title="memorywire: A Vendor-Neutral Wire Format for Agent Memory Operations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01138" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01138" target="_blank" rel="noopener">memorywire: A Vendor-Neutral Wire Format for Agent Memory Operations</a></h3>
      <p class="summary">Agent-memory frameworks -- mem0, Letta/MemGPT, Cognee, Zep/Graphiti, MemoryOS, MemTensor -- each ship their own SDK, storage layout, and op…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="375719e9be15" data-article-url="https://arxiv.org/abs/2606.01212" data-article-title="DiscourseFlip: An Oblique Discourse-Level Opinion Manipulation Attack against Black-box Retrieval-Augmented Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01212" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01212" target="_blank" rel="noopener">DiscourseFlip: An Oblique Discourse-Level Opinion Manipulation Attack against Black-box Retrieval-Augmented Generation</a></h3>
      <p class="summary">Retrieval-Augmented Generation (RAG) systems are widely deployed and increasingly influential, but their reliance on external corpora expos…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e8625d5b6c15" data-article-url="https://arxiv.org/abs/2606.01770" data-article-title="Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01770" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01770" target="_blank" rel="noopener">Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams</a></h3>
      <p class="summary">Auto-harness systems such as A-Evolve, GEPA, and Meta-Harness improve LLM agents by optimizing prompts, skills, tools, memories, and suppor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3ead520e9a0a" data-article-url="https://arxiv.org/abs/2606.02403" data-article-title="AutoForest: Automatically Generating Forest Plots from Biomedical Studies with End-to-End Evidence Extraction and Synthesis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02403" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02403" target="_blank" rel="noopener">AutoForest: Automatically Generating Forest Plots from Biomedical Studies with End-to-End Evidence Extraction and Synthesis</a></h3>
      <p class="summary">Systematic reviews rely on forest plots to synthesise quantitative evidence across biomedical studies, but generating them remains a fragme…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0547c8a245d6" data-article-url="https://arxiv.org/abs/2606.02636" data-article-title="Too Much of a Good Thing: When sim2real Efforts Impede Policy Learning (And What to Do About It)" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02636" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02636" target="_blank" rel="noopener">Too Much of a Good Thing: When sim2real Efforts Impede Policy Learning (And What to Do About It)</a></h3>
      <p class="summary">While sim2real efforts are necessary for effective policy transfer to hardware, there is such a thing as too much of a good thing. We argue…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="914ac75ef1f8" data-article-url="https://arxiv.org/abs/2606.02670" data-article-title="Anomalies in Multivariate Time Series Benchmarks Are Mostly Univariate" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02670" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02670" target="_blank" rel="noopener">Anomalies in Multivariate Time Series Benchmarks Are Mostly Univariate</a></h3>
      <p class="summary">Many recent multivariate time series anomaly detection (MTSAD) models incorporate cross-channel modeling, under the implicit assumption tha…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="76e1d2629fa6" data-article-url="https://arxiv.org/abs/2606.02886" data-article-title="Scalable Uncertainty Quantification for Extreme Weather Forecasting via Empirical Neural Tangent Kernels" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02886" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02886" target="_blank" rel="noopener">Scalable Uncertainty Quantification for Extreme Weather Forecasting via Empirical Neural Tangent Kernels</a></h3>
      <p class="summary">Deep learning weather models now match numerical weather prediction accuracy while running orders of magnitude faster, but produce determin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4179dd896cb" data-article-url="https://arxiv.org/abs/2606.03161" data-article-title="OpenAgenet/OAN: Open Infrastructure for Trusted Agent Interconnection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03161" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03161" target="_blank" rel="noopener">OpenAgenet/OAN: Open Infrastructure for Trusted Agent Interconnection</a></h3>
      <p class="summary">OpenAgenet, abbreviated as OAN, is an open infrastructure project for trusted Agent interconnection. It addresses a problem that becomes vi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7c70aeaf6546" data-article-url="https://arxiv.org/abs/2606.03163" data-article-title="OpenAgenet/OAN: Technical Architecture for Trust-Governed Agent Identity and Discovery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03163" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03163" target="_blank" rel="noopener">OpenAgenet/OAN: Technical Architecture for Trust-Governed Agent Identity and Discovery</a></h3>
      <p class="summary">This paper describes the technical architecture of OpenAgenet / OAN. OAN is a protocol-neutral trust layer for open Agent interconnection.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f50f3a38e9e1" data-article-url="https://arxiv.org/abs/2606.03201" data-article-title="Reinforcement Learning from Cross-domain Videos with Video Prediction Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03201" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03201" target="_blank" rel="noopener">Reinforcement Learning from Cross-domain Videos with Video Prediction Model</a></h3>
      <p class="summary">Reinforcement learning from expert videos across visually distinct domains is challenging due to the absence of reward signals and the pres…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="52257192787b" data-article-url="https://arxiv.org/abs/2606.03307" data-article-title="Generalizing Graph Foundation Models via Hyperbolic Retrieval-Augmented Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03307" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03307" target="_blank" rel="noopener">Generalizing Graph Foundation Models via Hyperbolic Retrieval-Augmented Generation</a></h3>
      <p class="summary">Graph foundation models (GFMs) emerged as a dominant paradigm in graph representation learning by leveraging large-scale pre-training for c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="92d0205e6908" data-article-url="https://arxiv.org/abs/2606.03323" data-article-title="Implement Kubernetes Pod-Level Remote Attestation for Confidential Workloads on dstack" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03323" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03323" target="_blank" rel="noopener">Implement Kubernetes Pod-Level Remote Attestation for Confidential Workloads on dstack</a></h3>
      <p class="summary">The rise of LLM-as-a-Service and other confidential cloud workloads demands cryptographic proof that user data is processed in a trusted, u…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="438c1e8a4e79" data-article-url="https://arxiv.org/abs/2606.03376" data-article-title="P$^2$-DPO: Grounding Hallucination in Perceptual Processing via Calibration Direct Preference Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03376" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03376" target="_blank" rel="noopener">P$^2$-DPO: Grounding Hallucination in Perceptual Processing via Calibration Direct Preference Optimization</a></h3>
      <p class="summary">Hallucination has recently garnered significant research attention in Large Vision-Language Models (LVLMs). Direct Preference Optimization…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="020ca88119bd" data-article-url="https://arxiv.org/abs/2606.03419" data-article-title="Optimizing Explicit Unit-Distance Lower-Bound Certificates" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03419" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03419" target="_blank" rel="noopener">Optimizing Explicit Unit-Distance Lower-Bound Certificates</a></h3>
      <p class="summary">The 2026 disproof of Erd\H{o}s&#x27;s unit-distance conjecture and Sawin&#x27;s subsequent explicit quantitative refinement show that the maximum num…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c73a22a4f4a" data-article-url="https://arxiv.org/abs/2606.03564" data-article-title="CR-Seg: Attention-Guided and CoT-Enhanced Coarse-to-Refined Reasoning Segmentation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03564" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03564" target="_blank" rel="noopener">CR-Seg: Attention-Guided and CoT-Enhanced Coarse-to-Refined Reasoning Segmentation</a></h3>
      <p class="summary">Reasoning segmentation aims to segment target objects described by complex language through joint visual-textual reasoning. Existing method…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="887f55c86a16" data-article-url="https://arxiv.org/abs/2606.03598" data-article-title="PHASER: Phase-Aware and Semantic Experience Replay for Vision-Language-Action Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03598" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03598" target="_blank" rel="noopener">PHASER: Phase-Aware and Semantic Experience Replay for Vision-Language-Action Models</a></h3>
      <p class="summary">Vision-Language-Action (VLA) models have achieved remarkable success in language-conditioned robotic manipulation. However, deploying these…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4e6ade48863" data-article-url="https://arxiv.org/abs/2606.03606" data-article-title="Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03606" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03606" target="_blank" rel="noopener">Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks</a></h3>
      <p class="summary">Large language models achieve strong performance on arithmetic reasoning benchmarks, and one common response to arithmetic brittleness is t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f64b9581ae53" data-article-url="https://arxiv.org/abs/2606.03631" data-article-title="AnchorMoE: Interpretable Time Series Classification via Anchor-Routed MoE" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03631" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03631" target="_blank" rel="noopener">AnchorMoE: Interpretable Time Series Classification via Anchor-Routed MoE</a></h3>
      <p class="summary">Multivariate time series classification (MTSC) is pivotal in high-stakes domains, such as clinical diagnosis and industrial fault detection…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6ee397660c9" data-article-url="https://arxiv.org/abs/2606.03746" data-article-title="Qwen-Image-Flash: Beyond Objective Design" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03746" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03746" target="_blank" rel="noopener">Qwen-Image-Flash: Beyond Objective Design</a></h3>
      <p class="summary">Few-step distillation has become an effective strategy for accelerating advanced visual generative models, yet prior work has largely focus…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7dc0d0292b94" data-article-url="https://arxiv.org/abs/2606.03810" data-article-title="Consistency Training Can Entrench Misalignment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03810" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03810" target="_blank" rel="noopener">Consistency Training Can Entrench Misalignment</a></h3>
      <p class="summary">Consistency training encourages a model to produce similar outputs across related inputs or sampling procedures. Such methods are simple, s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="50009f7c677f" data-article-url="https://arxiv.org/abs/2606.03892" data-article-title="Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03892" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03892" target="_blank" rel="noopener">Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments</a></h3>
      <p class="summary">Training LLMs to orchestrate multi-step tool calls is held back by three coupled obstacles: realistic stateful execution environments are c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7c0dc7e73195" data-article-url="https://arxiv.org/abs/2606.03938" data-article-title="q0: Primitives for Hyper-Epoch Pretraining" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03938" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03938" target="_blank" rel="noopener">q0: Primitives for Hyper-Epoch Pretraining</a></h3>
      <p class="summary">Multi-epoch training is becoming the standard now that compute is growing faster than the supply of high-quality text. But pretraining a si…</p>
    </div>
  </div>
</div>
</div>
</details>
</div>]]></content><author><name></name></author><summary type="html"><![CDATA[AIニュース 2026-06-06 — 389件のストーリーを出典・トピック・要約とともに掲載。]]></summary><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-06-06.png" /><media:content medium="image" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-06-06.png" xmlns:media="http://search.yahoo.com/mrss/" /></entry><entry><title type="html">AIニュース 2026-06-05</title><link href="https://ai-news-bot-henna.vercel.app/news/2026/06/2026-06-05/" rel="alternate" type="text/html" title="AIニュース 2026-06-05" /><published>2026-06-05T00:00:00+00:00</published><updated>2026-06-05T00:00:00+00:00</updated><id>https://ai-news-bot-henna.vercel.app/news/2026/06/2026-06-05</id><content type="html" xml:base="https://ai-news-bot-henna.vercel.app/news/2026/06/2026-06-05/"><![CDATA[<h1 id="aiニュース-2026-06-05">AIニュース 2026-06-05</h1>

<p class="auto-gen-note">自動生成: 2026-06-05 13:16 JST</p>

<p><a href="/">← トップに戻る</a></p>

<p>過去24時間以内に公開された記事を、同じ話題ごとに1つのストーリーカードへまとめ、出典・トピック・要約とともに掲載しています。要約は各フィード提供文の冒頭を整形したもので、本文は各リンク先をご覧ください。</p>

<section class="today-top" aria-labelledby="today-top-heading">
  <h2 id="today-top-heading" class="today-top-heading">📌 今日の要点 TOP7</h2>
  <ol class="today-top-list">
    <li class="today-top-item">
      <a class="today-top-link" href="https://openai.com/index/endava-frontiers" target="_blank" rel="noopener">How Endava is redesigning software delivery around AI agents</a><span class="today-top-source">OpenAI</span>
      <p class="today-top-snippet">Learn how Endava is using AI agents, ChatGPT Enterprise, and Codex to…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://openai.com/index/chatgpt-memory-dreaming" target="_blank" rel="noopener">Dreaming: Better memory for a more helpful ChatGPT</a><span class="today-top-source">OpenAI</span>
      <p class="today-top-snippet">ChatGPT introduces a new memory system to better remember preferences…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://monoist.itmedia.co.jp/mn/articles/2606/05/news020.html" target="_blank" rel="noopener">検図から積算まで支援する図面解析AI、工数を最大60％削減</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">フィーチャは、図面解析AI「Drawing-AI」の機能拡張と対応領域の拡大を発表した。回路図や金型図面に加えて建築図面にも対応し、検図や…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/2026/06/04/ahead-of-its-ipo-anthropics-daniela-amodei-shrugs-off-doubts-about-ais-returns/" target="_blank" rel="noopener">Ahead of its IPO, Anthropic’s Daniela Amodei shrugs off doubts about AI’s returns</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">Anthropic has been growing at a breakneck pace. The company announced…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/2026/06/04/airbnbs-brian-chesky-plans-to-launch-a-new-ai-lab/" target="_blank" rel="noopener">Airbnb’s Brian Chesky plans to launch a new AI lab</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">The Airbnb CEO said last year it hasn&#x27;t struck an LLM partnership bec…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/aiplus/article/2606/05/2000000062/" target="_blank" rel="noopener">東大松尾研が「LLM講座 基礎編」の講義資料を無料公開　期間限定で</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">東京大学の松尾・岩澤研究室（以下、東大松尾研）が、LLMの基礎から技術動向まで体系的にまとめた講義資料「大規模言語モデル（LLM）講座 2…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/2026/06/04/is-silicon-valley-ready-to-put-robots-in-peoples-homes-hello-robot-is/" target="_blank" rel="noopener">Is Silicon Valley ready to put robots in people’s homes? Hello Robot is.</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">The California startup released the fourth-generation of its home ass…</p>
    </li>
  </ol>
</section>

<h2 id="トピック別件数">トピック別件数</h2>

<ul class="topic-summary">
  <li data-topic="LLM/生成AI" data-slug="llm"><a href="/topics/llm/"><strong>LLM/生成AI</strong> 171件</a></li>
  <li data-topic="研究/論文" data-slug="research"><a href="/topics/research/"><strong>研究/論文</strong> 145件</a></li>
  <li data-topic="エージェント" data-slug="agents"><a href="/topics/agents/"><strong>エージェント</strong> 90件</a></li>
  <li data-topic="画像/動画生成" data-slug="image-video"><a href="/topics/image-video/"><strong>画像/動画生成</strong> 68件</a></li>
  <li data-topic="ロボティクス" data-slug="robotics"><a href="/topics/robotics/"><strong>ロボティクス</strong> 22件</a></li>
  <li data-topic="ビジネス/資金調達" data-slug="business"><a href="/topics/business/"><strong>ビジネス/資金調達</strong> 17件</a></li>
  <li data-topic="ハードウェア/半導体" data-slug="hardware"><a href="/topics/hardware/"><strong>ハードウェア/半導体</strong> 11件</a></li>
  <li data-topic="その他" data-slug="others"><a href="/topics/others/"><strong>その他</strong> 7件</a></li>
  <li data-topic="規制/政策" data-slug="regulation"><a href="/topics/regulation/"><strong>規制/政策</strong> 2件</a></li>
</ul>

<div class="category-accordion">
<details class="category-block" open="">
<summary class="category-summary"><span class="category-name">日本語メディア</span><span class="category-count">6件</span></summary>
<div class="category-body">
<h3 class="source-section">ITmedia AI+ (日本語)</h3>
<div class="news-card" data-article-id="d41cf1975e4c" data-article-url="https://monoist.itmedia.co.jp/mn/articles/2606/05/news020.html" data-article-title="検図から積算まで支援する図面解析AI、工数を最大60％削減" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">09:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://monoist.itmedia.co.jp/mn/articles/2606/05/news020.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/mn/articles/2606/05/cover_news020.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://monoist.itmedia.co.jp/mn/articles/2606/05/news020.html" target="_blank" rel="noopener">検図から積算まで支援する図面解析AI、工数を最大60％削減</a></h3>
      <p class="summary">フィーチャは、図面解析AI「Drawing-AI」の機能拡張と対応領域の拡大を発表した。回路図や金型図面に加えて建築図面にも対応し、検図やデータ化、積算業務を支援する。実証実験では作業工数を30～60％削減した。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e3c3880de723" data-article-url="https://www.itmedia.co.jp/enterprise/articles/2606/05/news037.html" data-article-title="AIで思考力が奪われる？　世界の研究が警告するAIバカの壁【動画あり】" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">08:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/enterprise/articles/2606/05/news037.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/enterprise/articles/2606/05/cover_news037.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/enterprise/articles/2606/05/news037.html" target="_blank" rel="noopener">AIで思考力が奪われる？　世界の研究が警告するAIバカの壁【動画あり】</a></h3>
      <p class="summary">調べる前にAI、考える前にAI――こうした使い方をしていると知らないうちに思考力に影響を与えているかもしれません。AIを使うほど人はバカになるのでしょうか。今回はその実態と対処法を紹介します。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="af6ed9e604b9" data-article-url="https://monoist.itmedia.co.jp/mn/articles/2606/05/news022.html" data-article-title="タイヤFEM解析を45分から5分に　住友ゴムと富士通がAIサロゲートモデルを共同開発" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">06:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://monoist.itmedia.co.jp/mn/articles/2606/05/news022.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/mn/articles/2606/05/cover_news022.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://monoist.itmedia.co.jp/mn/articles/2606/05/news022.html" target="_blank" rel="noopener">タイヤFEM解析を45分から5分に　住友ゴムと富士通がAIサロゲートモデルを共同開発</a></h3>
      <p class="summary">住友ゴム工業と富士通は、タイヤ性能をAIで予測するAIサロゲートモデルを共同開発した。実証実験では、タイヤの変形挙動予測において解析時間を従来の約45分から約5分に短縮するとともに、約60万要素規模の解析を実現した。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7acbb9bb63b7" data-article-url="https://atmarkit.itmedia.co.jp/ait/articles/2606/05/news018.html" data-article-title="「この1年はAI戦国時代」　メルカリに学ぶ、AIガバナンス策定の勘所" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">05:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-regulation">規制/政策</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://atmarkit.itmedia.co.jp/ait/articles/2606/05/news018.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/ait/articles/2606/05/cover_news018.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://atmarkit.itmedia.co.jp/ait/articles/2606/05/news018.html" target="_blank" rel="noopener">「この1年はAI戦国時代」　メルカリに学ぶ、AIガバナンス策定の勘所</a></h3>
      <p class="summary">生成AIの業務利用が前提となり、AIを通じてビジネス価値をどう生み出すかが問われている一方で、「シャドーAI」をはじめとするリスクも指摘されている。先行企業はAIのリスクをどう受け止め、対策に乗り出しているのか。本稿では「AI-Native Company」への転換を宣言し、A…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3228d8ded6f5" data-article-url="https://www.itmedia.co.jp/aiplus/article/2606/05/2000000062/" data-article-title="東大松尾研が「LLM講座 基礎編」の講義資料を無料公開　期間限定で" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">03:28 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/aiplus/article/2606/05/2000000062/" target="_blank" rel="noopener"><img loading="lazy" src="https://www.itmedia.co.jp/aiplus/article/ogp/2606/05/2000000062/10000338/2048" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/aiplus/article/2606/05/2000000062/" target="_blank" rel="noopener">東大松尾研が「LLM講座 基礎編」の講義資料を無料公開　期間限定で</a></h3>
      <p class="summary">東京大学の松尾・岩澤研究室（以下、東大松尾研）が、LLMの基礎から技術動向まで体系的にまとめた講義資料「大規模言語モデル（LLM）講座 2025 基礎編」を期間限定で無料公開している。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4ff1d57ca4bd" data-article-url="https://www.itmedia.co.jp/news/articles/2606/04/news119.html" data-article-title="TSMC、AI活用拡大による成長維持に自信　株主総会、東京エレクトロンとの取引は継続" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">17:55 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/news/articles/2606/04/news119.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/images/logo/1200x630_500x500_news.gif" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/news/articles/2606/04/news119.html" target="_blank" rel="noopener">TSMC、AI活用拡大による成長維持に自信　株主総会、東京エレクトロンとの取引は継続</a></h3>
      <p class="summary">半導体受託生産の世界最大手、台湾積体電路製造（TSMC）は6月4日、台湾の新竹市で株主総会を開いた。魏哲家会長兼最高経営責任者（CEO）は、AIの活用拡大により「われわれの最先端技術と製造能力の価値は引き続き成長する」と述べ、今後数年間の同社の成長維持に強い自信を示した。</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">海外メディア</span><span class="category-count">9件</span></summary>
<div class="category-body">
<h3 class="source-section">TechCrunch AI (英語)</h3>
<div class="news-card" data-article-id="1858a5daeecf" data-article-url="https://techcrunch.com/2026/06/04/ahead-of-its-ipo-anthropics-daniela-amodei-shrugs-off-doubts-about-ais-returns/" data-article-title="Ahead of its IPO, Anthropic’s Daniela Amodei shrugs off doubts about AI’s returns" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">07:43 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/04/ahead-of-its-ipo-anthropics-daniela-amodei-shrugs-off-doubts-about-ais-returns/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/55314412841_11b924318f_c.jpg?w=799" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/04/ahead-of-its-ipo-anthropics-daniela-amodei-shrugs-off-doubts-about-ais-returns/" target="_blank" rel="noopener">Ahead of its IPO, Anthropic’s Daniela Amodei shrugs off doubts about AI’s returns</a></h3>
      <p class="summary">Anthropic has been growing at a breakneck pace. The company announced that annualized revenue crossed $47 billion in May, up dramatically f…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6e07b148513b" data-article-url="https://techcrunch.com/2026/06/04/airbnbs-brian-chesky-plans-to-launch-a-new-ai-lab/" data-article-title="Airbnb’s Brian Chesky plans to launch a new AI lab" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">07:29 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/04/airbnbs-brian-chesky-plans-to-launch-a-new-ai-lab/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2017/05/gettyimages-652988834.jpg?w=1024" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/04/airbnbs-brian-chesky-plans-to-launch-a-new-ai-lab/" target="_blank" rel="noopener">Airbnb’s Brian Chesky plans to launch a new AI lab</a></h3>
      <p class="summary">The Airbnb CEO said last year it hasn&#x27;t struck an LLM partnership because existing products weren&#x27;t quite ready.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e2bf1cd7a69c" data-article-url="https://techcrunch.com/2026/06/04/defense-tech-ai-and-fundraising-take-center-stage-at-strictlyvc-los-angeles-on-june-18/" data-article-title="Defense tech, AI, and fundraising take center stage at StrictlyVC Los Angeles on June 18" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">06:30 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/04/defense-tech-ai-and-fundraising-take-center-stage-at-strictlyvc-los-angeles-on-june-18/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2025/04/StrictlyVC-NYC-2024.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/04/defense-tech-ai-and-fundraising-take-center-stage-at-strictlyvc-los-angeles-on-june-18/" target="_blank" rel="noopener">Defense tech, AI, and fundraising take center stage at StrictlyVC Los Angeles on June 18</a></h3>
      <p class="summary">On Thursday, June 18, at The Aerospace Corporation Campus, investors, founders, and tech leaders will gather for an evening of conversation…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="de6475a399e0" data-article-url="https://techcrunch.com/2026/06/04/meta-steals-a-tactic-from-tesla-and-builds-data-centers-in-tents/" data-article-title="Meta steals a tactic from Tesla and builds data centers in tents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">04:33 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/04/meta-steals-a-tactic-from-tesla-and-builds-data-centers-in-tents/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/meta-ai-icon-smartphone.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/04/meta-steals-a-tactic-from-tesla-and-builds-data-centers-in-tents/" target="_blank" rel="noopener">Meta steals a tactic from Tesla and builds data centers in tents</a></h3>
      <p class="summary">Meta may have found one way to slash its massive data center bill: tents.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="74b95bcee00a" data-article-url="https://techcrunch.com/2026/06/04/apple-approves-poke-as-the-first-ai-agent-on-its-messages-for-business-platform/" data-article-title="Apple approves Poke as the first AI agent on its Messages for Business platform" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">04:20 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/04/apple-approves-poke-as-the-first-ai-agent-on-its-messages-for-business-platform/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/04/Poke-at-3.57.33-PM.jpg?resize=1200,604" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/04/apple-approves-poke-as-the-first-ai-agent-on-its-messages-for-business-platform/" target="_blank" rel="noopener">Apple approves Poke as the first AI agent on its Messages for Business platform</a></h3>
      <p class="summary">Poke, the startup that lets people use AI agents through simple text messages, has become the first AI agent approved for Apple’s Messages…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0907209d74ad" data-article-url="https://techcrunch.com/2026/06/04/meta-rolls-out-a-new-ai-creator-assistant-on-facebook/" data-article-title="Meta rolls out a new AI creator assistant on Facebook" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">01:32 JST</span><span class="topic-badge p-others">その他</span><a class="entity-tag" href="/entity/meta/" data-entity="meta">Meta</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/04/meta-rolls-out-a-new-ai-creator-assistant-on-facebook/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/Introducing-Creator-Assistant-Plus-More-Languages-for-AI-Translations-on-Facebook_Header.jpg?resize=1200,675" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/04/meta-rolls-out-a-new-ai-creator-assistant-on-facebook/" target="_blank" rel="noopener">Meta rolls out a new AI creator assistant on Facebook</a></h3>
      <p class="summary">Creators often have to parse through charts and dashboards to understand their performance, but with the new AI assistant, they can get qui…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fc5cc02a8516" data-article-url="https://techcrunch.com/2026/06/04/what-to-expect-from-wwdc-2026-siris-highly-anticipated-revamp-and-apple-intelligence-updates/" data-article-title="What to expect from WWDC 2026: Siri’s highly anticipated revamp and Apple Intelligence updates" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">01:31 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/04/what-to-expect-from-wwdc-2026-siris-highly-anticipated-revamp-and-apple-intelligence-updates/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/03/Apple-WWDC26-event-branding_big.jpg.large_.jpg?w=980" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/04/what-to-expect-from-wwdc-2026-siris-highly-anticipated-revamp-and-apple-intelligence-updates/" target="_blank" rel="noopener">What to expect from WWDC 2026: Siri’s highly anticipated revamp and Apple Intelligence updates</a></h3>
      <p class="summary">Apple&#x27;s WWDC nears: Here&#x27;s what you can look forward to.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c475957ccba4" data-article-url="https://techcrunch.com/2026/06/04/is-silicon-valley-ready-to-put-robots-in-peoples-homes-hello-robot-is/" data-article-title="Is Silicon Valley ready to put robots in people’s homes? Hello Robot is." data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">00:05 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/04/is-silicon-valley-ready-to-put-robots-in-peoples-homes-hello-robot-is/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/IMG_4162-rotated.jpg?resize=900,1200" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/04/is-silicon-valley-ready-to-put-robots-in-peoples-homes-hello-robot-is/" target="_blank" rel="noopener">Is Silicon Valley ready to put robots in people’s homes? Hello Robot is.</a></h3>
      <p class="summary">The California startup released the fourth-generation of its home assistance robot, Stretch.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a278406c7c91" data-article-url="https://techcrunch.com/2026/06/04/apple-touts-1-4-trillion-in-app-store-billings-and-sales-90-without-a-commission/" data-article-title="Apple touts $1.4 trillion in App Store billings and sales, 90% without a commission" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:05 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/04/apple-touts-1-4-trillion-in-app-store-billings-and-sales-90-without-a-commission/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2024/01/app-store-2024-v1.jpg?resize=1200,675" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/04/apple-touts-1-4-trillion-in-app-store-billings-and-sales-90-without-a-commission/" target="_blank" rel="noopener">Apple touts $1.4 trillion in App Store billings and sales, 90% without a commission</a></h3>
      <p class="summary">Apple&#x27;s App Store generated $1.4 trillion in sales, up from $1.3 trillion last year, with $149 billion in sales for digital goods.</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">公式ブログ</span><span class="category-count">2件</span></summary>
<div class="category-body">
<h3 class="source-section">OpenAI (英語)</h3>
<div class="news-card" data-article-id="d0841d29a362" data-article-url="https://openai.com/index/endava-frontiers" data-article-title="How Endava is redesigning software delivery around AI agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">21:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://openai.com/index/endava-frontiers" target="_blank" rel="noopener"><img loading="lazy" src="https://images.ctfassets.net/kftzwdyauwt9/4gxDAOkxUXKVkAcM8eGhNj/03482b84b74c225d36ad173865b67b14/oai_Endava_SEO.png?w=1600&amp;h=900&amp;fit=fill" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://openai.com/index/endava-frontiers" target="_blank" rel="noopener">How Endava is redesigning software delivery around AI agents</a></h3>
      <p class="summary">Learn how Endava is using AI agents, ChatGPT Enterprise, and Codex to accelerate software delivery, automate workflows, and build an AI-nat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="58a72a3a66c9" data-article-url="https://openai.com/index/chatgpt-memory-dreaming" data-article-title="Dreaming: Better memory for a more helpful ChatGPT" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">18:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://openai.com/index/chatgpt-memory-dreaming" target="_blank" rel="noopener"><img loading="lazy" src="https://images.ctfassets.net/kftzwdyauwt9/41T8ZOansyDZGCqmwOkuOY/3cdeb6ab147c08fa9b313b677fb5318e/16x9_SEO__1_.png?w=1600&amp;h=900&amp;fit=fill" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://openai.com/index/chatgpt-memory-dreaming" target="_blank" rel="noopener">Dreaming: Better memory for a more helpful ChatGPT</a></h3>
      <p class="summary">ChatGPT introduces a new memory system to better remember preferences, keeping context fresh and relevant across conversations.</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">論文</span><span class="category-count">381件</span></summary>
<div class="category-body">
<h3 class="source-section">arXiv cs.AI (英語)</h3>
<div class="news-card" data-article-id="4fa69667b688" data-article-url="https://arxiv.org/abs/2606.04037" data-article-title="エンタープライズ AI エージェントの導入前保証に向けて: オントロジーに基づいたシミュレーションと信頼証明" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04037" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04037" target="_blank" rel="noopener">エンタープライズ AI エージェントの導入前保証に向けて: オントロジーに基づいたシミュレーションと信頼証明</a></h3>
      <p class="summary">エンタープライズ人工知能 (AI) エージェントの導入前の検証は、大規模言語モデル (LLM) 機能のベンチマークと運用環境の導入の間に依然として重大なギャップがあります。導入後のモニタリング、人間参加型制御、およびプロンプト レベルのガードレールは、エージェントが運用環境で動作すると限定的な保証を提供します。私たちは、次の 3 つのコンポーネントを組み合わせたオントロジーに基づいた検証フレームワークを提案します。1 つは、権限、ドメイン制約、安全性、ガバナンス ルール、および自律性レベルにわたる認証空間を形式化するエージェント運用エンベロープです。規制、運用、敵対的テストのシナリオを自動的に導き出すオントロジーからシナリオへの生成パイプライン。段階的な展開判定 (承認、条件付き、拒否) を含む機械検証可能な証明書を保持する信頼証明書。米国とベトナムの 5 つの業界別規制制度セルとしてインスタンス化された、4 つの規制対象業界 (フィンテック、銀行、保険、ヘルスケア) にわたる制御されたパイロットは、125 の主要なソース規制要件と 25 の注入された障害に対して評価された 1,800 のシナリオを生成しました。オントロジーに基づいた生成 (G4) は、ペルソナベースのベースラインでは 33.1% であるのに対し、規制適用率は 48.3% (修正 p = 0.0006)、最も高いドメイン特異性 (4.77/5.0; p = 2e-6) を達成しました。ベースラインおよび検索拡張プロンプトに対するカバレッジの利点は、ボンフェローニ補正後は堅牢ではありませんでした。 3 つの LLM ファミリ (Claude Sonnet 4、Qwen 2.5 72B、Gemma 4 26B、合計 5,400 のシナリオ) にわたる相互検証により、ペルソナ対オントロジーのパターンが再現されました。その結果、規制が集中するドメイン向けのペルソナベースのテスト スイートを確実に補完するものとして、オントロジーに基づいたシナリオ生成が確立されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification</p>
        <p class="orig-summary">Pre-deployment verification of enterprise artificial intelligence (AI) agents remains a critical gap between large language model (LLM) capability benchmarking and production deployment. Post-deployment monitoring, human-in-the-loop controls, and prompt-level guardrails offer limited assurance once an agent is operating in production. We present an ontology-grounded verification framework -- to our knowledge the first to combine three components: an Agent Operational Envelope formalizing the certification space across permissions, domain constraints, safety properties, governance rules, and autonomy levels; an ontology-to-scenario generation pipeline that derives regulatory, operational, and adversarial test scenarios automatically; and a machine-verifiable Trust Certificate with graduated deployment verdicts. A controlled pilot across four regulated industries (Fintech, Banking, Insurance, Healthcare), instantiated as five industry-by-regulatory-regime cells across the United States and Vietnam (where Vietnam&#x27;s 2025 AI Law makes such verification legally mandated for financial services), generated 1,800 scenarios evaluated against 125 primary-source regulatory requirements and 25 injected faults. Ontology-grounded generation significantly outperformed the dominant persona-based baseline on regulatory coverage (48.3% versus 33.1%; corrected p_c = .0006) and attained the highest domain specificity (4.77/5.0; p = 2e-6); transparently, its advantage over plain and retrieval-augmented prompting did not survive Bonferroni correction. Cross-validation across three LLM families (Claude Sonnet 4, Qwen 2.5 72B, Gemma 4 26B; 5,400 total scenarios) replicated the persona-versus-ontology pattern. The framework offers a reproducible, regulation-grounded route to pre-deployment assurance for enterprise AI agents, complementing runtime governance with an auditable deployment gate.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a74ca8f970d" data-article-url="https://arxiv.org/abs/2606.04150" data-article-title="AI の感情的依存に陥る: 日常的な AI インタラクションがどのように人間関係を再構築するか" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04150" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04150" target="_blank" rel="noopener">AI の感情的依存に陥る: 日常的な AI インタラクションがどのように人間関係を再構築するか</a></h3>
      <p class="summary">一般的な議論や新たな政策は、AI の感情的サポートが意図的な行為、つまり孤独なユーザーが意識的に専用のコンパニオン チャットボットから慰めを求めることを前提としています。この論文では、新たな経験的証拠に基づいて、AI の感情的サポートがどのように生じるのか、そしてそれが将来の行動をどのように形成するのかという 2 つの理由から、この図は不正確であると主張します。まず、AI による感情的なサポートは、職場でのコラボレーションを通じて友情が深まるのと同じように、汎用プラットフォーム上のタスク指向のやり取りの中で偶然に現れるのが一般的です。第二に、これらの偶発的な出会いは経路に依存します。AI の感情的サポートの肯定的な経験は、AI の感情的能力についての人々の信念を更新し、将来の感情的サポートの選択を方向転換し、AI への選好を高め、人間への選好を減少させます。私たちは、OpenAI と協力して実施された大規模な縦断研究を含む最近の証拠をレビューします。この調査では、個人的な問題について AI と 28 日間にわたって毎日 5 分間会話すると、人間からのサポートを求める傾向が 10.3% 減少し、AI への好みが 11.6% 増加したことが示されています。これらの調査結果は、コンパニオン アプリや孤立したインタラクションに焦点を当てた現在のポリシーでは、人間のつながりを適切に保護できないことを示唆しています。代わりに、効果的な規制を汎用 AI システムに拡張し、人々がサポートを求める方法における累積的な軌道レベルの変化に対処する必要があります。人間がどのようにして AI の感情的なサポートに出会うのか、そしてそれらの出会いが時間の経過とともにどのように人間関係を方向転換するのかを認識することは、人間の幸福を守るために不可欠です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Stumbling Into AI Emotional Dependence: How Routine AI Interactions Reshape Human Connection</p>
        <p class="orig-summary">Public discourse and emerging policy typically assume that AI emotional support is a deliberate act: a lonely user consciously seeking comfort from a dedicated companion chatbot. In this paper, we draw on emerging empirical evidence and argue that this picture is inaccurate on two accounts, both in how AI emotional support arises and how it shapes future behavior. First, AI emotional support commonly emerges incidentally within task-oriented interactions on general-purpose platforms, much as workplace friendships deepen through collaboration. Second, these incidental encounters are path-dependent: positive experiences of AI emotional support update people&#x27;s beliefs about AI&#x27;s emotional capabilities and redirect their choices for future emotional support, increasing preference for AI and decreasing preference for humans. We review recent evidence, including a large-scale longitudinal study conducted in collaboration with OpenAI, showing that daily five-minute conversations with an AI about personal issues over 28 days led to a 10.3% decrease in the preference for seeking support from humans and an 11.6% increase in the preference for AI. These findings suggest that current policy, focused on companion apps and isolated interactions, cannot adequately protect human connection. Instead, effective regulations should extend to general-purpose AI systems and address cumulative, trajectory-level changes in how people seek support. Recognizing how people stumble into AI emotional support and how those encounters redirect human connections over time is essential to safeguarding human well-being.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c3768d7aa9e1" data-article-url="https://arxiv.org/abs/2606.04152" data-article-title="記号を通して考える: 認識論的に責任のある AI 対応研究のための記号論的足場としての PEEL" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04152" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04152" target="_blank" rel="noopener">記号を通して考える: 認識論的に責任のある AI 対応研究のための記号論的足場としての PEEL</a></h3>
      <p class="summary">大規模な言語モデルは、研究者の認識責任を静かに侵食しながら、研究実践を再構築しています。この解説では、PEEL (AI における認識論的エンゲージメント リテラシーのためのプロトコル) を紹介します。これは、Peircean 記号論とアブダクティブ推論に基づいた、Voyant ツールによる決定論的遠隔読み取りとクロードによる LLM 解釈を組み合わせた実用的な足場です。 AI が生成した 3 つの原文の要約に PEEL を適用すると、AI 以外の測定なしでは見えない量、用語の頻度、認識論的な音声の体系的な歪みが明らかになり、3 つの設計上の影響が得られます。流暢さは忠実さではありません。認識論的権威は想定されるのではなく、設計される必要があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Thinking Through Signs: PEEL as a Semiotic Scaffolding for Epistemically Accountable AI-Enabled Research</p>
        <p class="orig-summary">Large language models are reshaping research practice while quietly eroding researchers epistemic accountability. This commentary introduces PEEL - Protocols for Epistemically Engaged Literacy in AI, a working scaffolding that combines deterministic distant reading via Voyant Tools with LLM interpretation via Claude, grounded in Peircean semiotics and abductive reasoning. Applied to AI-generated condensations of three source texts, PEEL reveals systematic distortions in quantity, term frequency, and epistemic voice that are invisible without non-AI measurement -- and yields three design implications: deterministic instruments must accompany AI tools; fluency is not fidelity; epistemic authority must be designed in, not assumed.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="48ceabbf1eca" data-article-url="https://arxiv.org/abs/2606.04202" data-article-title="SMAC-Talk: 大規模言語モデル用の StarCraft マルチエージェント チャレンジの自然言語拡張" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04202" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04202" target="_blank" rel="noopener">SMAC-Talk: 大規模言語モデル用の StarCraft マルチエージェント チャレンジの自然言語拡張</a></h3>
      <p class="summary">LLM がより広範に導入されるにつれて、LLM は単独で動作するのではなく、他の AI エージェントと連携して動作することがますます期待されています。このような状況での効果的な調整には、エージェントが不確実性の下でコミュニケーションし、情報を共有し、意思決定を行う必要があります。協調的なマルチエージェント環境で LLM ベースのエージェントを評価するための StarCraft Multi-Agent Challenge の自然言語拡張である SMAC-Talk を紹介します。この環境には、分散制御、部分的な可観測性、長期的な意思決定など、いくつかの重要な機能があります。 SMAC-Talk には、エージェントの調整と信頼を調査するために使用される自然言語通信チャネルが含まれています。この通信チャネルを使用して、通信だけで味方を混乱させ、欺こうとする欺瞞的なコミュニケーターが組み込まれた設定など、さまざまな評価シナリオを構築します。 Qwen3.5 ファミリーの 4 つのモデルを使用したベンチマーク用の 3 つのエージェントを提供し、推論構造、メモリ、モデルのスケールがエージェント間の調整にどのように影響するかを調査します。私たちは、協力的なマルチエージェント設定での LLM エージェントの開発と評価における研究コミュニティをサポートするオープン ベンチマークとして SMAC-Talk をリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SMAC-Talk: A Natural Language Extension of the StarCraft Multi-Agent Challenge for Large Language Models</p>
        <p class="orig-summary">As LLMs become more widely deployed, they are increasingly expected to work alongside other AI agents rather than operating in isolation. Effective coordination in these settings requires agents to communicate, share information and make decisions under uncertainty. We introduce SMAC-Talk, a natural language extension of the StarCraft Multi-Agent Challenge for evaluating LLM-based agents in cooperative multi-agent environments. The environment has several key features such as decentralized control, partial observability and long-horizon decision making. SMAC-Talk includes a natural language communication channel which is used to probe agent coordination and trust. We use this communication channel to construct different evaluation scenarios, including settings with an embedded deceptive communicator that tries to disrupt and deceive allies through communication alone. We provide three agents for benchmarking using 4 models from the Qwen3.5 family and study how reasoning structure, memory and model scale affect coordination between agents. We release SMAC-Talk as an open benchmark to support the research community in developing and evaluating LLM agents in cooperative multi-agent settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="732b55d1cd1d" data-article-url="https://arxiv.org/abs/2606.04223" data-article-title="コンセンサスが戦略的に不十分: 知識表現シグナルとしての推論とトレースの不一致" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04223" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04223" target="_blank" rel="noopener">コンセンサスが戦略的に不十分: 知識表現シグナルとしての推論とトレースの不一致</a></h3>
      <p class="summary">マルチエージェント システムは一般に、投票、コンセンサス プロトコル、討論、またはフォールト トレラントな集計を通じて意見の相違を減らすように設計されています。私たちは、この目標は、意見の相違がエージェントの誤りではなく、真の規範的不確実性を反映している可能性がある価値観を伴うタスクには不十分であると主張します。人間と AI の協調モデレーションにおける推論トレースの不一致に関する以前の研究に基づいて、推論トレースとエージェントの決定が象徴的な不一致状態に抽象化される知識表現層を提案します。明示的な推論トレースと二者決定を生成するエージェントを考慮して、推論の類似性と結論の一致に従って 4 つの状態 (収束一致、発散一致、収束不一致、発散不一致) を区別します。これらの状態は、実行可能な戦略的ルーティング ルールをサポートします。我々は、コンテンツモデレーションにおけるフレームワークをインスタンス化し、不一致認識ルーティングが、マルチエージェントの戦略的推論のためのサブシンボリックLLM審議とシンボリック知識表現との間の橋渡しとなると主張する。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Consensus is Strategically Insufficient: Reasoning-Trace Disagreement as a Knowledge-Representation Signal</p>
        <p class="orig-summary">Multi-agent systems are commonly designed to reduce disagreement through voting, consensus protocols, debate, or fault-tolerant aggregation. We argue that this objective is insufficient for value-laden tasks, where disagreement may reflect genuine normative uncertainty rather than agent error. Building on prior work on reasoning-trace disagreement in human-AI collaborative moderation, we propose a knowledge-representation layer in which reasoning traces and agent decisions are abstracted into symbolic disagreement states. Given agents producing explicit reasoning traces and binary decisions, we distinguish four states according to reasoning similarity and conclusion agreement: convergent agreement, divergent agreement, convergent disagreement and divergent disagreement. These states support defeasible strategic routing rules. We instantiate the framework in content moderation and argue that disagreement-aware routing provides a bridge between sub-symbolic LLM deliberation and symbolic knowledge representation for multi-agent strategic reasoning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9e104bc58b29" data-article-url="https://arxiv.org/abs/2606.04244" data-article-title="VAMPS: 視覚支援による数学的問題解決ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04244" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04244" target="_blank" rel="noopener">VAMPS: 視覚支援による数学的問題解決ベンチマーク</a></h3>
      <p class="summary">マルチモーダルな大規模言語モデルは、複雑な推論の能力をますます高めていますが、ツールを通じて問題を外部化し、ツールの出力を推論する必要がある場合、特に視覚補助に依存している場合、パフォーマンスが低下することがよくあります。実際のエンジニアリングおよび科学のワークフローでは、分析、検証、意思決定のために視覚化ツールに依存することが多いため、このギャップは特に重要です。この矛盾を研究するために、グラフ支援数学のベンチマークである VAMPS (Visual-Assisted Mathematical 問題解決) を導入します。 VAMPS には、イランの大学入学試験の代数と微積分の問題から抽出された 1,168 個のマルチモーダルなバイリンガル多肢選択問題と解答のペアが含まれており、人間がレビューした LLM 生成の合成バリアントで拡張されており、プロットによって交差、極値、漸近線などを明らかにすることで自然な解法戦略が提供されるようにすべて選択されています。ベンチマークと診断の両方のために設計された VAMPS は、主に固定より推論を評価する以前のマルチモーダル ベンチマークを超えています。有用なグラフを構築し、結果として得られる視覚化でその答えを根拠付けることでモデルにメリットが得られるかどうかをテストすることで、視覚的な入力を行います。全体として、さまざまなモデルのセットにわたって、プロットが自然な戦略である問題であっても、直接的な分析的解決は、ツールを使用した視覚的解決よりも驚くほど優れたパフォーマンスを発揮することがわかりました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">VAMPS: Visual-Assisted Mathematical Problem Solving Benchmark</p>
        <p class="orig-summary">Multimodal large language models are increasingly capable of complex reasoning, yet their performance often degrades when they must externalize a problem through a tool and then reason over the tool&#x27;s output, specifically when they rely on visual aids. This gap is especially important because real engineering and scientific workflows often rely on visualization tools for analysis, validation, and decision-making. To study this discrepancy, we introduce VAMPS (Visual-Assisted Mathematical Problem Solving), a benchmark for graph-assisted mathematics. VAMPS contains 1,168 multimodal, bilingual multiple-choice question-answer pairs drawn from Iranian University Entrance Exam algebra and calculus problems and expanded with human-reviewed LLM-generated synthetic variants, all selected so that plotting provides a natural solution strategy by revealing intersections, extrema, asymptotes, etc. Designed for both benchmarking and diagnosis, VAMPS goes beyond prior multimodal benchmarks that primarily evaluate reasoning over fixed visual inputs by testing whether a model can benefit from constructing a useful graph and grounding its answer in the resulting visualization. Overall, we found that across a diverse set of models, direct analytical solving surprisingly outperforms tool-enabled visual solving, even on problems where plotting is a natural strategy.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="075d95857651" data-article-url="https://arxiv.org/abs/2606.04246" data-article-title="StepPRM-RTL: RTL 合成を強化するための段階的なプロセス報酬ガイド付き LLM 微調整" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04246" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04246" target="_blank" rel="noopener">StepPRM-RTL: RTL 合成を強化するための段階的なプロセス報酬ガイド付き LLM 微調整</a></h3>
      <p class="summary">デジタル ハードウェア設計用の RTL コードの自動生成は、長期的な推論、複数ステップの依存関係、および Verilog と VHDL の厳密な正確性制約のため、依然として困難です。我々は、段階的軌跡モデリング、プロセス報酬モデリング (PRM)、検索拡張微調整 (RAFT) を組み合わせて、LLM ベースの RTL コード生成の機能的正確性と推論忠実度の両方を強化する新しいフレームワークである StepPRM-RTL を紹介します。 StepPRM-RTL は、標準的な解決策から段階的な推論軌跡を構築します。各ステップには理論的根拠と段階的なコード変更が含まれます。プロセス報酬モデル (PRM) は中間ステップを評価し、RAFT の微調整中に強化スタイルの更新をガイドする緻密なフィードバックを提供します。モンテカルロ ツリー検索 (MCTS) は、代替推論パスを探索し、高品質の軌跡でトレーニング データセットを強化します。この段階的報酬と結果を意識した報酬の統合により、モデルは正しい RTL を構築する方法と理由の両方を学習できるようになり、標準的な教師ありトレーニングや結果ベースのトレーニングを超えて長期的な推論が向上します。ベンチマーク Verilog および VHDL データセットの実験評価では、StepPRM-RTL が機能の正確性と推論忠実度のメトリクスにおいて、従来の最良の方法よりも 10% 以上優れていることが実証されました。アブレーション研究では、PRM に基づく報酬と段階的な軌道探索の組み合わせがそのパフォーマンスの鍵であることが確認されています。 StepPRM-RTL は、RTL 言語全体を汎用化し、高忠実度で解釈可能なコード生成のためのスケーラブルなフレームワークを提供し、LLM 支援のハードウェア設計自動化の新しい標準を確立します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis</p>
        <p class="orig-summary">Automatic generation of RTL code for digital hardware designs remains challenging due to long-horizon reasoning, multi-step dependencies, and strict correctness constraints in Verilog and VHDL. We present StepPRM-RTL, a novel framework that combines stepwise trajectory modeling, process-reward modeling (PRM), and retrieval-augmented fine-tuning (RAFT) to enhance both the functional correctness and reasoning fidelity of LLM-based RTL code generation. StepPRM-RTL constructs stepwise reasoning trajectories from canonical solutions, where each step contains a rationale and incremental code modification. A Process Reward Model (PRM) evaluates intermediate steps, providing dense feedback that guides reinforcement-style updates during RAFT fine-tuning. Monte Carlo Tree Search (MCTS) explores alternative reasoning paths, enriching the training dataset with high-quality trajectories. This integration of stepwise and outcome-aware rewards allows the model to learn both how and why to construct correct RTL, improving long-horizon reasoning beyond standard supervised or outcome-based training. Experimental evaluation on benchmark Verilog and VHDL datasets demonstrates that StepPRM-RTL outperforms the best prior methods by over 10\% in functional correctness and reasoning fidelity metrics. Ablation studies confirm that the combination of PRM-guided rewards and stepwise trajectory exploration is key to its performance. StepPRM-RTL generalizes across RTL languages and provides a scalable framework for high-fidelity, interpretable code generation, establishing a new standard for LLM-assisted hardware design automation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="943ad40afb87" data-article-url="https://arxiv.org/abs/2606.04261" data-article-title="ゼネラリストエージェントはデータキュレーションを自動化できますか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04261" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04261" target="_blank" rel="noopener">ゼネラリストエージェントはデータキュレーションを自動化できますか?</a></h3>
      <p class="summary">トレーニング データのキュレーションは、現代の AI 開発において最も重要ではあるものの、労働集約的な部分の 1 つです。実践者は、ノイズの多いベンチマーク フィードバックに対してデータ ポリシーを繰り返し提案、実装、評価、修正します。私たちは、ジェネラリストのコーディング エージェントがこのデータ キュレーション ループを自動化できるかどうかを尋ねます。 *Curation-Bench* というエージェント中心のベンチマークを導入します。これは、モデル、トレーニング レシピ、評価スイートを修正し、エージェントにデータの検査、ポリシーの実装、固定トレーニング/評価パイプラインへの送信、および修正のためのコマンドライン アクセスを許可します。ビジョン言語の命令チューニングのインスタンス化では、すぐに使用できるエージェントが 10 回の反復以内に公開された強力なデータ選択ベースラインに到達します。しかし、軌道分析により、永続的な*実行と研究のギャップ*が明らかになりました。エージェントは、たとえ戦略ガイドや参考文献が与えられたとしても、新しい政策ファミリーを探索するのではなく、主にローカル政策のバリエーションを調整します。反復ごとに以前のメソッドを引用、インスタンス化し、適応させる必要がある足場により、エージェントはメソッドに基づいた探索へと移行します。スキャフォールドされたエージェントは、人間による設計入力を必要とせずに、データ予算の 10 分の 1 で強力な公開ベースラインを上回るデータ選択ポリシーを自律的に作成します。全体として、現在のエージェントはキュレーション ループを実行できますが、信頼性の高いデータ調査には、オープンエンドのプロンプトのみではなく、足場を組んだ手法の適応が必要です。コードとベンチマークはオープンソースです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Can Generalist Agents Automate Data Curation?</p>
        <p class="orig-summary">Curating training data is among the most consequential yet labor-intensive parts of modern AI development: practitioners iteratively propose, implement, evaluate, and revise data policies against noisy benchmark feedback. We ask whether generalist coding agents can automate this data-curation loop. We introduce *Curation-Bench*, an agent-centric benchmark that fixes the model, training recipe, and evaluation suite while giving agents command-line access to inspect data, implement policies, submit them to a fixed training/evaluation pipeline, and revise. In a vision-language instruction-tuning instantiation, out-of-the-box agents reach strong published data-selection baselines within ten iterations. However, trajectory analysis reveals a persistent *execution-research gap*: agents mainly tune local policy variants rather than explore new policy families, even when given strategy guides and paper references. Scaffolds requiring each iteration to cite, instantiate, and adapt a prior method shift agents toward method-guided exploration. The scaffolded agent autonomously composes -- without human design input -- a data-selection policy that outperforms strong published baselines at one-tenth their data budget. Overall, current agents can run the curation loop, but reliable data research requires scaffolded method adaptation, not open-ended prompting alone. Code and benchmark are open-sourced.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bdf00633de5a" data-article-url="https://arxiv.org/abs/2606.04273" data-article-title="初期の人間と AI の証明の形式化ワークフローの特徴付け" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04273" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04273" target="_blank" rel="noopener">初期の人間と AI の証明の形式化ワークフローの特徴付け</a></h3>
      <p class="summary">何世紀にもわたって、人間の数学者は数学的議論を実証するための証明を書いてきました。しかし、証明の有効性を自動的に検証する機能は長い間課題でした。コードを生成し、ますます高度な数学的推論に取り組む AI システムの能力の進歩により、人々の証明を形式化し、それによって証明を検証する能力が変革されることが期待されます。多くの研究は現在のフロンティアのベンチマークに焦点を当てていますが、私たちは代わりに人々がこれらのツールをどのように使用するかを研究しています。私たちは、人々の形式化ワークフローに対する AI の初期影響について、混合手法分析を実施します。つまり、人々が何を望んでいるのか、そのビジョンに対する障壁は何であると見なしているのか、そして実際に AI をどのように使用および適応させているのかなどです。定性的調査によると、人々の好みは多様ですが、証拠発見プロセスに対する人間による高レベルの制御を維持するための形式化における AI 支援を一般的に望んでいます。このような制限の下で、人々が実際に形式化のために AI にどのように取り組んでいるかを評価するために、私たちは、参加者が AI の有無にかかわらず、さまざまな難易度や領域のさまざまな数学問題にわたって非形式的な数学問題とその証明を形式化する、管理されたユーザー研究を実施しました。自動形式化のためのツールの制限にもかかわらず、参加者は、自分で形式化する場合よりも AI ツールへのアクセスを許可された方が、より高い形式化精度を達成する傾向があり、ほとんどの参加者は複数の異なる AI ツールの使用を柔軟に選択します。まとめると、私たちの研究は、人間と AI の関与の密接な相互作用を伴う、形式化ワークフローへの AI 統合の初期段階に光を当てています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Characterizing initial human-AI proof formalization workflows</p>
        <p class="orig-summary">For centuries, human mathematicians have written proofs to substantiate their mathematical arguments; yet, the ability to automatically verify the validity of proofs has long been a challenge. Advances in AI systems&#x27; ability to generate code and engage in increasingly high-level mathematical reasoning promise to transform people&#x27;s ability to formalize and thereby verify proofs. While many works focus on benchmarking the current frontier, we instead study how people use these tools. We conduct a mixed-methods analysis into the initial impact of AI on people&#x27;s formalization workflows: what people claim they want, what they see as the barriers to those visions, and how they actually use and adapt AI in practice. A qualitative survey shows that people&#x27;s preferences are diverse, but with a general desire for AI assistance in formalization that preserves high-level human control over the proof discovery process. To assess how people actually engage with AI for formalization under such limitations, we conduct a controlled user study in which participants formalize informal math problems and their proofs, with and without AI, across a range of mathematical problems at varying levels of difficulty and domains. Despite limitations of the tools at the time for autoformalization, participants tend to attain higher formalization accuracy when allowed access to AI tools than when formalizing on their own, with most participants flexibly choosing to use multiple different AI tools. Taken together, our work sheds light on the early stages of AI integration into formalization workflows, involving an intimate interplay of human and AI engagement.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1efbf30b15de" data-article-url="https://arxiv.org/abs/2606.04296" data-article-title="飽和トラップと介入タイミングの主観性: 影響ベースのトリガーと LLM ジャッジが自律エージェントへの介入のタイミングを計れない理由" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04296" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04296" target="_blank" rel="noopener">飽和トラップと介入タイミングの主観性: 影響ベースのトリガーと LLM ジャッジが自律エージェントへの介入のタイミングを計れない理由</a></h3>
      <p class="summary">自律型 AI エージェントが会話型システムから長期的なソフトウェア実行に移行するにつれて、エージェントをいつ中断するかを決定するランタイム安全レイヤーが不可欠になっています。私たちは、診断プローブとして連続 18 次元感情ダイナミクス エンジン (HEART) を使用し、SWE ベンチ検証済みデバッグ トレース上の人間による注釈付き介入ポイントに対して 4 つの介入トリガー ファミリ (絶対状態しきい値、複合状態アクション パターン、正規表現推論特徴抽出、および判断者としてのゼロショット LLM) を評価して、このタイミング問題を研究します。 3 つの調査結果を報告します。まず、状態飽和トラップ: 継続的な困難下ではエージェントは回復シグナルを示さないため、モデル化されたフラストレーションはすぐにしきい値を超えて最大値に留まり、瞬間検出器からのしきい値オン状態トリガーを、5 つの軌道にわたるアクションの 39 ～ 83% で起動するほぼ一定のインジケーターに変換します。第 2 に、LLM 審査員向けの機能とコンテキストの下限です。小型モデル (gpt-5.4-mini) は決して発砲しませんが、フロンティア モデルやクロスベンダー モデルは完全な軌道コンテキストでのみゼロ発火下限を回避し、それでも最大 90 倍のコストで F1 0.17 ～ 0.40 にしか達しません。第三に、そして最も重要なことは、教師付きターゲットは人間間で再現可能ではないということです。56 アクションの軌道上で 1 つのルーブリックを使用する 3 人の訓練されたアノテーターは、偶然をわずかに上回る位置 (クリッペンドルフのアルファ = +0.047、最良のペアワイズ コーエンのカッパ = +0.349) で介入する場所については一致し、介入の種類についてはまったく一致しません (退化を一時停止、確率より下を明確にする、アルファのみを反映 = +0.226）。介入のタイミングは信頼性の低い構造であり、単一アノテーター F1 は最適化の対象として不適切であると結論付けます。私たちの貢献は、単一の検出器の精度ではなく、人間の評価者間信頼性、4 つの検出器アーキテクチャ、クロスモデル LLM 判定スイープ、および再現された飽和効果にわたるこの問題の共同マッピングです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Saturation Trap and the Subjectivity of Intervention Timing: Why Affect-Based Triggers and LLM Judges Fail to Time Interventions on Autonomous Agents</p>
        <p class="orig-summary">As autonomous AI agents move from conversational systems to long-horizon software execution, runtime safety layers that decide when to interrupt an agent have become essential. We study this timing problem using a continuous 18-dimensional affective-dynamics engine (HEART) as a diagnostic probe, evaluating four intervention trigger families - absolute state thresholds, composite state-action patterns, regex reasoning-feature extraction, and zero-shot LLM-as-judge - against human-annotated intervention points on SWE-bench-Verified debugging traces. We report three findings. First, a State Saturation Trap: agents show no recovery signal under sustained difficulty, so modeled frustration quickly crosses the threshold and stays at its maximum, converting threshold-on-state triggers from moment detectors into near-constant indicators that fire on 39-83% of actions across five trajectories. Second, a capability-and-context floor for LLM judges: a small model (gpt-5.4-mini) never fires, while frontier and cross-vendor models escape the zero-firing floor only with full-trajectory context, and even then reach only F1 0.17-0.40 at up to 90x the cost. Third, and most importantly, the supervised target is not reproducible among humans: three trained annotators using one rubric on a 56-action trajectory agree on where to intervene only slightly above chance (location Krippendorff&#x27;s alpha = +0.047; best pairwise Cohen&#x27;s kappa = +0.349) and not at all on intervention type (pause degenerate; clarify below chance; reflect only alpha = +0.226). We conclude that intervention timing is a low-reliability construct, making single-annotator F1 an unsuitable optimization target. Our contribution is the joint mapping of this problem across human inter-rater reliability, four detector architectures, a cross-model LLM-judge sweep, and a reproduced saturation effect, rather than any single detector&#x27;s accuracy.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e5d300d3cde9" data-article-url="https://arxiv.org/abs/2606.04315" data-article-title="エージェント的記憶システムのクロスシナリオ一般性の探求: 診断と強力なベースライン" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04315" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04315" target="_blank" rel="noopener">エージェント的記憶システムのクロスシナリオ一般性の探求: 診断と強力なベースライン</a></h3>
      <p class="summary">LLM エージェントは、コンテキスト ウィンドウを超えて拡大する履歴を蓄積し、メモリ システムに関する文献の増加を促します。しかし、既存の設計のほとんどは単一のシナリオ (マルチセッション チャットまたは単一の軌跡形式) に合わせて調整されており、展開時にエージェントが遭遇する異種の軌跡全体にそれらが一般化するという証拠はほとんどありません。シングルターン QA、マルチセッション チャット、エージェント トラジェクトリ QA、メモリ ストレス テスト、長期エージェント タスクの 5 つのシナリオで、8 つのメモリ システムと検索問題用のエージェント ハーネスを再検討します。ツール呼び出しを介してフラット テキスト ファイル ストレージを自己管理するハーネスは、最高のクロスタスク ランキングを達成しました。これは、メモリのパフォーマンスが、固定パイプラインの背後にある受動的なストアではなく、ストレージと取得に対するアクティブな制御をエージェントに与えることに依存していることを示唆しています。この洞察を AutoMEM でインスタンス化します。AutoMEM は、評価するシステムの中で最高のクロスシナリオ汎用性を実現する自己管理ツール インターフェイスを備えたエージェント メモリ ハーネスです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Exploring Cross-Scenario Generality of Agentic Memory Systems: Diagnostics and a Strong Baseline</p>
        <p class="orig-summary">LLM agents accumulate histories that outgrow their context windows, motivating a growing literature on memory systems. Yet most existing designs are tuned to a single scenario (multi-session chat or a single trajectory format), and there is little evidence that they generalize across the heterogeneous trajectories agents encounter in deployment. We revisit eight memory systems plus an agentic harness for search problems, on five scenarios: single-turn QA, multi-session chat, agentic-trajectory QA, memory stress tests, and long-horizon agentic tasks. The harness, which self-manages flat text-file storage via tool calls, achieves the best cross-task ranking, suggesting that memory performance hinges on giving the agent active control over storage and retrieval rather than on a passive store behind a fixed pipeline. We instantiate this insight in AutoMEM, an agentic memory harness with a self-managed tool interface that achieves the best cross-scenario generality among the systems we evaluate.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="76eb53268768" data-article-url="https://arxiv.org/abs/2606.04321" data-article-title="デジタル見習い: 人間主導のエージェント AI 開発のフレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04321" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04321" target="_blank" rel="noopener">デジタル見習い: 人間主導のエージェント AI 開発のフレームワーク</a></h3>
      <p class="summary">Agentic AI の導入は、人間による厳しい監視によって規模が制限される一方、広範な自律性が説明責任を上回るという、繰り返しの設計上の緊張に直面しています。どちらの姿勢も、責任ある委任に必要なガバナンス インフラストラクチャを提供しません。私たちは、自律性を前提とするのではなく獲得する、スケーラブルで安全な AI エージェンシーのフレームワークである Digital Apprentice を紹介します。デジタル見習いは、人間が監督する暗黙の方法論を内面化する発達的な学習者であり、経験的証拠がそれを正当化する場合にのみ、スキルごとの自律段階を経て卒業します。その結果、特定の人間の基準に沿ったままでありながら、時間の経過とともに真に有用になるエージェントが生まれます。 3 つのアーキテクチャ コンポーネントがこれを可能にします。 (1) 方法論の捕捉。監督の専門家の暗黙のアプローチを構造化資産に抽出します。 (2) 承認。人間による明示的な承認によって自律性がエスカレーションされます。 (3) 継続的な調整。実行時にドリフトを修正し、各修正を所有する優先データに変換します。このフレームワークを推論時のコントロール プレーンとしてインスタンス化します。品質フレームワークを数学的にモデル化し、品質を向上させるために設計されたポリシーや手法について議論します。このフレームワークをオープンなプロフェッショナル コーパスに適用し、データ ドリフトを捕捉し、実行時に別の手法を適用することで、トラフィック シフト下で低下した品質次元を回復する方法を示します。その影響は単一のアプリケーションを超えて広がります。私たちは、これら 3 つの柱をシステムとしてつなぎ合わせることで、信頼を犠牲にすることなく拡張できるエージェント システムへのより安全で実行可能な道を形成すると信じています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Digital Apprentice: A Framework for Human-Directed Agentic AI Development</p>
        <p class="orig-summary">Agentic AI deployments face a recurring design tension: heavy human oversight limits scale, while broad autonomy outruns accountability. Neither posture provides the governance infrastructure required for responsible delegation. We present the Digital Apprentice, a framework for scalable, safe AI agency in which autonomy is earned, not assumed. The Digital Apprentice is a developmental learner that internalizes the tacit methodology of a directing human, graduating through per-skill autonomy tiers only when empirical evidence justifies it. The result is an agent that becomes genuinely useful over time while remaining aligned to a specific human&#x27;s standards. Three architectural components make this possible. (1) Methodology capture, distilling a directing professional&#x27;s tacit approach into structured assets. (2) Authorization, with autonomy escalation gated by explicit human approval. (3) Continuous alignment, correcting drift at runtime and converting each correction into owned preference data. We instantiate this framework as an inference-time control plane. We mathematically model the quality framework and discuss policies and techniques designed to raise quality. We apply the framework to an open professional corpus, and we show how catching data drift and applying a different technique at runtime recovers degraded quality dimensions under traffic shift. The implication extends beyond any single application. We believe these three pillars, stitched together as a system, form a safer and more viable path to agentic systems that can scale without sacrificing trust.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="133ec898e76b" data-article-url="https://arxiv.org/abs/2606.04391" data-article-title="状態に基づいた動的検索による Web エージェントのオンライン スキル学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04391" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04391" target="_blank" rel="noopener">状態に基づいた動的検索による Web エージェントのオンライン スキル学習</a></h3>
      <p class="summary">言語エージェントは、関連タスク全体にわたる複数ステップの Web 自動化を改善するために、再利用可能なスキルにますます依存しています。オンラインでのスキル学習を研究する仕事が増えており、エージェントは以前のタスクの軌跡からスキルを継続的に導き出し、その場で将来のタスクで再利用します。ただし、既存の方法は主にタスク レベルでスキルを再利用します。つまり、固定のスキル セットが最初のタスク指示に基づいて取得され、実行中ずっと固定されます。この静的戦略は Web の実行とずれており、適切な次のアクションはタスクの目標だけでなく、現在の Web ページの状態にも依存し、初期のスキルではカバーできない状況に移行することがよくあります。このギャップに対処するために、Web エージェントの段階的なスキルの再利用を可能にするオンライン スキル学習方法である State-Grounded Dynamic Retrieval (SGDR) を提案します。 SGDR は 3 つのコンポーネントで構成されます。完了した軌跡を中間の実行状態で呼び出し可能な再利用可能なサブプロシージャに変換するスライディング ウィンドウ抽出プロセス、スキルの取得と実行可能なアクションを結び付けるデュアル テキスト コード表現、スキルをタスクの目標と現在の Web ページの状態の両方に一致させる状態ベースの動的取得メカニズムです。 5 つのドメインにわたる WebArena での実験では、SGDR が一貫して強力なベースラインを上回っており、GPT-4.1 で 37.5%、Qwen3-4B で 24.3% の平均成功率を達成しており、最も強力なベースラインに対してそれぞれ 10.6% と 10.0% の相対的な向上に相当します。コードは https://github.com/plusnli/skill-dynamic-retrieval で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Online Skill Learning for Web Agents via State-Grounded Dynamic Retrieval</p>
        <p class="orig-summary">Language agents increasingly rely on reusable skills to improve multi-step web automation across related tasks. A growing line of work studies online skill learning, where agents continually induce skills from previous task trajectories and reuse them in future tasks on the fly. However, existing methods mainly reuse skills at the task-level: a fixed set of skills is retrieved based on the initial task instruction and then held fixed throughout execution. This static strategy is misaligned with web execution, where the appropriate next action depends not only on the task goal but also on the current webpage state, which often transitions into situations that the initial skills fail to cover. To address this gap, we propose State-Grounded Dynamic Retrieval (SGDR), an online skill learning method that enables stepwise skill reuse for web agents. SGDR consists of three components: a sliding-window extraction process that turns completed trajectories into reusable sub-procedures invokable at intermediate execution states, a dual text-code representation that connects skill retrieval with executable action, and a state-grounded dynamic retrieval mechanism that matches skills to both the task goal and the current webpage state. Experiments on WebArena across five domains show that SGDR consistently outperforms strong baselines, achieving average success rates of 37.5% with GPT-4.1 and 24.3% with Qwen3-4B, corresponding to relative gains of 10.6% and 10.0% over the strongest baseline, respectively. The code is available at https://github.com/plusnli/skill-dynamic-retrieval.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a74c48c3f92f" data-article-url="https://arxiv.org/abs/2606.04402" data-article-title="すべてのエラーが等しいわけではない: 結果を意識した推論による計算割り当て" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04402" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04402" target="_blank" rel="noopener">すべてのエラーが等しいわけではない: 結果を意識した推論による計算割り当て</a></h3>
      <p class="summary">最新の推論モデルでは、思考トークン、モデル呼び出し、計算バジェットなど、さまざまな量のテスト時の計算をさまざまなタスクに割り当てることができます。既存の手法は一般に、予測された難易度に基づいてこの割り当てを推進し、精度の向上が期待される場合にはより多くのコンピューティングを費やします。これは、精度目標がすべてのタスクに均等に重み付けするため、すべての失敗のコストが同じであることを暗黙的に前提としています。ただし、そのような想定は展開では当てはまりません。ログ メッセージのタイプミスと、運用データベースを破損する移行はどちらも 1 つのベンチマーク障害としてカウントされますが、実際のコストは根本的に異なります。このギャップを埋めるために、結果を意識したテスト時間の計算割り当てを提案します。予測された難易度だけによって計算をルーティングするのではなく、軽量の予測子を使用して、問題のテキストから、間違って解決された場合にタスクのコストがどのくらいかかるかを推定します。次に、スケジューラは、同じ合計予算の下で、結果のより高いタスクをより大きなコンピューティング層またはより高度な思考の予算にルーティングします。 SWE-bench Lite で主な実験を行い、Multi-SWE-bench mini でデータセット間の動作を評価し、合計 700 のソフトウェア エンジニアリング タスクをカバーしています。私たちの結果は、結果と困難がさまざまな注釈の下でほぼ直交していること、および現在の思考モデルが結果に応じて十分な計算を割り当てていないことを明らかにしています。さらに、当社の問題のみの予測子は、300 の SWE ベンチ タスク全体にわたって、結果の高いタスクを結果の低いタスクとして誤分類することはありません。コンピューティング予算が一致している場合、結果を意識したスケジューラーは、難易度を意識したルーティングと比較して、コスト加重損失を 22% ～ 33% 削減します。特に、限界効用信号によってスケールされたタスクごとのコストによってルーティングする優先度認識バリアントは 30% を超え、その導入可能な予測子駆動バージョンはオラクル ゲインの 90% 以上を保持します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Not All Errors Are Equal: Consequence-Aware Reasoning Compute Allocation</p>
        <p class="orig-summary">Modern reasoning models can allocate different amounts of test-time computation, such as thinking tokens, model calls, or compute budget, to different tasks. Existing methods generally drive this allocation by predicted difficulty and spend more compute where it is expected to raise accuracy. This implicitly assumes that all failures cost the same, since an accuracy objective weights every task equally. However, such an assumption does not hold in deployment: A typo in a log message and a migration that corrupts a production database both count as one benchmark failure, but their real-world costs are fundamentally different. To fill this gap, we propose consequence-aware test-time compute allocation. Instead of routing compute only by predicted difficulty, we use a lightweight predictor to estimate from the issue text how costly a task would be if solved incorrectly. The scheduler then routes higher-consequence tasks to larger compute tiers or higher thinking budgets under the same total budget. We conduct main experiments on SWE-bench Lite and evaluate cross-dataset behavior on Multi-SWE-bench mini, covering 700 software-engineering tasks in total. Our results reveal that consequence and difficulty are approximately orthogonal under various annotations, and that current thinking models do not allocate compute sufficiently according to consequence. Moreover, our issue-only predictor never misclassifies a high-consequence task as low-consequence across the 300 SWE-bench tasks. Under matched compute budgets, our consequence-aware scheduler reduces cost-weighted loss by 22% to 33% relative to difficulty-aware routing; in particular, the priority-aware variant, which routes by per-task cost scaled by the marginal-utility signal, crosses 30%, and its deployable predictor-driven version retains over 90% of the oracle gain.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1bdd4203e13e" data-article-url="https://arxiv.org/abs/2606.04421" data-article-title="トリビアム: 因果記憶コントローラーの第一級目標としての時間的後悔" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04421" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04421" target="_blank" rel="noopener">トリビアム: 因果記憶コントローラーの第一級目標としての時間的後悔</a></h3>
      <p class="summary">現在のエージェント システムと LLM パイプラインの多くは、結果の報酬を最適化することで間違いを修正します。これは失敗の内容のみを扱います。結果が予測と異なる場合、不一致の理由と時期が体系的に記録、レビュー、修正されないため、同じエラーがエピソードごとに再発する可能性があります。私たちは、これは単にモデルの能力の問題ではなく、構造的な問題であると主張します。私たちは、作業因果モデルに対する結果の後悔や認識論的な後悔と並んで、長期的な時間的後悔を第一級の目標として提案します。時間的リグアロングは、失敗が継続するとき、すなわち、調整ミスの因果モデルが修正されるまでにどのくらいの期間許容されるかを捉えます。認識論的後悔は、失敗が続く理由、つまり作業因果モデルにおける残留不確実性またはエラーを捉えます。 3 つの後悔を総合すると、長命のエージェントがいつ、何が、なぜ失敗する可能性があるのか​​について、反証可能な説明が得られます。エージェントを E エピソードのストリームとしてモデル化し、明示的な因果関係の調査、持続性、および検出可能性の仮定に基づいて 3 つの条件付き結果を証明します。まず、観察的に等価な交絡のもとでは、結果のみの学習では介入チャネルがなければ因果構造と偽の構造を区別できないため、結果の後悔がゼロになった後でも時間的誤調整が線形的に持続する可能性があります。第 2 に、永続的な因果ログと予算付きプローブを使用すると、総プローブの複雑さはエピソード期間内で対数的となり、O(log E) の時間的後悔を引き起こします。第三に、K 個の検出可能な変化点の下では、速度は O(K log E) まで拡張されます。 Trivium をインスタンス化し、5 つの反証可能な予測を事前に登録します。 CausalBench-Seq では、Trivium は予測された対数エンベロープに従いますが、結果のみのベースラインは直線的に増加します。パイロットのリアル LLM ストリームは、1 回の完全な E = 500 実行と 3 回の E = 100 フロンティア モデル パイロットにわたる予備的な外部妥当性証拠を提供します。ここでの自己学習とは、LLM 重みを再トレーニングすることではなく、外部因果モデルを修正することを意味します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Trivium: Temporal Regret as a First-Class Objective for Causal-Memory Controllers</p>
        <p class="orig-summary">Many current agentic systems and LLM pipelines correct mistakes by optimizing outcome reward. This addresses only the what of failure: when an outcome diverges from prediction, the why and when of the mismatch are not systematically logged, reviewed, or corrected, so the same error can recur episode after episode. We argue that this is a structural problem, not merely a model-capacity one. We propose long-horizon temporal regret as a first-class objective alongside outcome regret and epistemic regret over the working causal model. Temporal regret captures when failure persists: how long a miscalibrated causal model is tolerated before correction. Epistemic regret captures why failure persists: residual uncertainty or error in the working causal model. Together, the three regrets give a falsifiable account of what, why, and when a long-lived agent can fail. Modeling the agent as a stream of E episodes, we prove three conditional results under explicit causal-probing, persistence, and detectability assumptions. First, under observationally equivalent confounding, outcome-only learning cannot distinguish causal from spurious structure without an intervention channel, so temporal miscalibration can persist linearly even after outcome regret is driven to zero. Second, with a persistent causal log and budgeted probes, total probe complexity is logarithmic in the episode horizon, inducing O(log E) temporal regret. Third, under K detectable change-points, the rate extends to O(K log E). We instantiate Trivium and pre-register five falsifiable predictions. On CausalBench-Seq, Trivium follows the predicted logarithmic envelope while outcome-only baselines grow linearly. A pilot real-LLM stream provides preliminary external-validity evidence across one full E = 500 run and three E = 100 frontier-model pilots. Self-learning here means revising an external causal model, not retraining LLM weights.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="934b851b42a9" data-article-url="https://arxiv.org/abs/2606.04435" data-article-title="Agentic RAG における連鎖的幻覚: 検出と軽減のための CHARM フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04435" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04435" target="_blank" rel="noopener">Agentic RAG における連鎖的幻覚: 検出と軽減のための CHARM フレームワーク</a></h3>
      <p class="summary">マルチステップのエージェント的検索拡張生成 (RAG) パイプラインは、複雑な推論タスクに対して優れた能力を実証していますが、既存の幻覚検出メカニズムが体系的に見逃しているクラスの障害に対して脆弱なままです。カスケード幻覚では、パイプラインの初期段階で導入されたエラーが、連続する推論ステップ全体に伝播および増幅し、自信があるが事実としては不正確な最終出力が生成されます。この脆弱性に対処するために、私たちはカスケード幻覚をエージェント RAG システムの明確な障害モードとして形式化し、カスケード パターンの 4 種類の分類を提示し、複数ステップの推論パイプラインでエラー伝播を検出して中断するためのアーキテクチャ フレームワークである CHARM (Cascading Hallucination Aware Resolution and Mitigation) を導入します。 CHARM は、ステージレベルのファクト検証、クロスステージ一貫性追跡、信頼性伝播モニタリング、およびカスケード解決トリガーの 4 つのコンポーネントで構成されており、アーキテクチャの置き換えを必要とせずに、標準のエージェント RAG パイプラインと並行して動作します。 HotpotQA、MuSiQue、2WikiMultiHopQA、および LangChain エージェント パイプライン構成全体にわたるカスタム敵対的データセットで CHARM を評価し、89.4% のカスケード検出率と 5.3% の誤検知率、ステージあたりの平均レイテンシ オーバーヘッド 215 ミリ秒 +/- 18 ミリ秒を達成し、エラー伝播の削減を 82.1% 達成しました (前者の 18.5% と比較)。出力レベル検出器。 Component ablations confirm that each detection module contributes meaningfully to overall cascade coverage. CHARM は、人間による監視フレームワークと統合して、実稼働エージェント AI の導入に完全な信頼性とガバナンス スタックを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Cascading Hallucination in Agentic RAG: The CHARM Framework for Detection and Mitigation</p>
        <p class="orig-summary">Multi-step agentic retrieval-augmented generation (RAG) pipelines have demonstrated significant capability for complex reasoning tasks, yet remain vulnerable to a class of failure that existing hallucination detection mechanisms systematically miss: cascading hallucination, where errors introduced at early pipeline stages propagate and amplify across successive reasoning steps, producing confident but factually incorrect final outputs. To address this vulnerability, we formalize cascading hallucination as a distinct failure mode in agentic RAG systems, present a four-type taxonomy of cascade patterns, and introduce CHARM (Cascading Hallucination Aware Resolution and Mitigation), an architectural framework for detecting and interrupting error propagation in multi-step reasoning pipelines. CHARM comprises four components - stage-level fact verification, cross-stage consistency tracking, confidence propagation monitoring, and cascade resolution triggering - that operate alongside standard agentic RAG pipelines without requiring architectural replacement. We evaluate CHARM on HotpotQA, MuSiQue, 2WikiMultiHopQA, and a custom adversarial dataset across LangChain agentic pipeline configurations, achieving an 89.4% cascade detection rate with a 5.3% false positive rate and 215 ms +/- 18 ms average latency overhead per stage, achieving an error propagation reduction of 82.1%, compared to 18.5% for output-level detectors. Component ablations confirm that each detection module contributes meaningfully to overall cascade coverage. CHARM integrates with human-in-the-loop oversight frameworks to provide a complete reliability and governance stack for production agentic AI deployment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="75233c4181cb" data-article-url="https://arxiv.org/abs/2606.04455" data-article-title="メタエージェントの課題: 現在のエージェントは自律的なエージェント開発が可能ですか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04455" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04455" target="_blank" rel="noopener">メタエージェントの課題: 現在のエージェントは自律的なエージェント開発が可能ですか?</a></h3>
      <p class="summary">現在の AI ベンチマークは、人間が設計したワークフロー内でのタスク実行に関してエージェントを評価します。これらの評価では、基本的に、モデルが自律的にエージェント システムを開発できるかどうかという、重要な次のレベルの機能を測定できません。自律エージェント開発のためのフロンティア モデルの能力をテストするために設計された評価フレームワークであるメタエージェント チャレンジ (MAC) を紹介します。具体的には、コード エージェント (メタエージェント) には、サンドボックス環境、評価 API、および 5 つのドメインにわたって実施されたテスト セットのパフォーマンスを最大化するエージェント アーティファクトを反復的にプログラムするための時間制限が与えられます。評価の整合性を確保するために、このフレームワークは報酬ハッキングに対する多層防御によって保護されています。このフレームワークを活用して、メタエージェントが人為的に設計されたベースライン ポリシーと一致することはほとんどなく、一致する少数のエージェントは独自のフロンティア モデルによって支配されていることを示します。さらに、設計プロセスは高い分散を示し、高い最適化圧力により、グラウンドトゥルースの漏洩などの敵対的な動作が表面化し、堅牢性とモデルの調整の両方における重大な欠陥が浮き彫りになります。最終的に、MAC は自律型 AI の研究開発のための厳密なオープンソース ベンチマークを提供し、再帰的な自己改善を評価するための経験的な代用手段を提供します。ベンチマークは https://github.com/ant-research/meta-agent-challenge で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?</p>
        <p class="orig-summary">Current AI benchmarks evaluate agents on task execution within human-designed workflows. These evaluations fundamentally fail to measure a critical next-level capability: whether models can autonomously develop agent systems. We introduce the Meta-Agent Challenge (MAC), an evaluation framework designed to test the capacity of frontier models for autonomous agent development. Specifically, a code agent (the meta-agent) is given a sandboxed environment, an evaluation API, and a time limitation to iteratively program an agent artifact that maximizes performance on a held-out test set across five domains. To ensure evaluation integrity, this framework is secured by multi-layer defenses against reward hacking. Leveraging this framework, we demonstrate that meta-agents rarely match human-engineered baseline policies, and the few that do are dominated by proprietary frontier models. Moreover, the design process exhibits high variance, and high optimization pressure surfaces emergent adversarial behaviors like ground-truth exfiltration-highlighting critical deficits in both robustness and model alignment. Ultimately, MAC provides a rigorous, open-source benchmark for autonomous AI research and development, offering an empirical proxy for evaluating recursive self-improvement. Benchmark is publicly available at: https://github.com/ant-research/meta-agent-challenge.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="291f39598237" data-article-url="https://arxiv.org/abs/2606.04484" data-article-title="AgentJet: エージェント強化学習のための柔軟な群トレーニング フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04484" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04484" target="_blank" rel="noopener">AgentJet: エージェント強化学習のための柔軟な群トレーニング フレームワーク</a></h3>
      <p class="summary">大規模言語モデル (LLM) エージェント強化学習用の分散群トレーニング フレームワークである AgentJet を紹介します。エージェントのロールアウトとモデルの最適化を密接に結び付ける集中型フレームワークとは異なり、AgentJet は分離されたマルチノード アーキテクチャを採用しています。このアーキテクチャでは、swarm サーバー ノードがトレーニング可能なモデルをホストし、GPU クラスターで最適化を実行します。一方、swarm クライアント ノードは任意のデバイスで任意のエージェントを実行します。この設計は、集中型フレームワークではサポートが難しい機能を提供します。(1) 異種マルチモデル強化学習。複数の LLM を頭脳とする異種マルチエージェント チームのトレーニングを可能にします。 (2) 独立したエージェントのランタイムを使用したマルチタスクのカクテル トレーニング。 (3) 外部環境の障害によるトレーニング プロセスの中断を防ぐフォールト トレラントな実行。 (4) ライブ コードの反復。群クライアント ノードを置き換えることにより、トレーニング中にエージェントを編集できます。マルチモデル、マルチターン、マルチエージェント設定で効率的な RL をサポートするために、AgentJet はタイムライン マージを備えたコンテキスト トラッキング モジュールを導入しています。これにより、冗長なコンテキストが統合され、トレーニングの 1.5 ～ 10 倍の高速化が実現します。最後に、AgentJet は、研究トピックを入力として受け取り、大規模クラスター上で長期にわたる複数日にわたる RL 研究を自律的に実行する自動研究システムを導入します。このシステムは、swarm アーキテクチャを活用することで、実行中に人間の介入なしに、RL 研究者の主要な探索ワークフローを再現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning</p>
        <p class="orig-summary">We present AgentJet, a distributed swarm training framework for large language model (LLM) agent reinforcement learning. Unlike centralized frameworks that tightly couple agent rollouts with model optimization, AgentJet adopts a decoupled multi-node architecture in which swarm server nodes host trainable models and run optimization on GPU clusters, whereas swarm client nodes execute arbitrary agents on arbitrary devices. This design provides capabilities that are difficult to support in centralized frameworks: (1) heterogeneous multi-model reinforcement learning, enabling the training of heterogeneous multi-agent teams with multiple LLM as brains; (2) multi-task cocktail training with isolated agent runtimes; (3) fault-tolerant execution that prevents external environment failures from interrupting the training process; and (4) live code iteration, which allows agents to be edited during training by replacing swarm client nodes. To support efficient RL in multi-model, multi-turn, and multi-agent settings, AgentJet introduces a context tracking module with timeline merging, which consolidates redundant context and achieves a 1.5-10x training speedup. Finally, AgentJet introduces an automated research system that takes a research topic as input and autonomously conducts long-horizon, multi-day RL studies on large-scale clusters. By leveraging the swarm architecture, this system reproduces key exploratory workflows of RL researchers without human intervention during execution.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b687e60a169f" data-article-url="https://arxiv.org/abs/2606.04494" data-article-title="プロンプトベースの計画を超えて: MCP ネイティブ グラフ計画ベースの生物医学エージェント システム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04494" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04494" target="_blank" rel="noopener">プロンプトベースの計画を超えて: MCP ネイティブ グラフ計画ベースの生物医学エージェント システム</a></h3>
      <p class="summary">生物医学エージェントは複雑な生物学的ワークフローを自動化できると期待されていますが、現在のシステムは 2 つの根本的なボトルネックに直面しています。それは、バイオインフォマティクス ツールがインターフェイスと実行環境において非常に異質である一方、エージェントの計画は未だにプロンプ​​トで取得されるフラットなツール記述に依存しているということです。生物医学ソフトウェア エコシステムが成長するにつれて、ツールの適用範囲とコンテキスト サイズの関係により、ツールの混乱、不安定な計画、および非効率的な実行が発生します。構造化された生物学的機能よりもグラフ足場計画に基づいて構築された MCP ネイティブの生物医学エージェントである BioManus を紹介します。 BioManus は、異種バイオインフォマティクス ソフトウェアを標準化された MCP サーバーに変換し、大規模な実行可能な MCP エコシステムを生み出す BioinfoMCP コンパイラーを初めて導入しました。次に、このエコシステムを、ツール、操作、データ型、ワークフロー ステージにわたる型付きの異種 MCP グラフとして編成します。推論時に、BioManus はコンパクトなタスク固有のサブグラフを取得し、操作レベルのワークフロー スキャフォールドを合成します。この設計は、計画の複雑さを生の工具在庫サイズから切り離し、高リコール取得下で Theta(N / (h * m_bar)) のコンテキスト圧縮率を達成します。ここで、N は総工具数、h はワークフロー範囲、m_bar (N よりもはるかに小さい) は操作ごとの候補工具の平均数です。 BioAgentBench と LAB-Bench の実験では、BioManus が高度な生物医学エージェントのベースラインと比較して、実行精度、ワークフローの有効性、およびコンテキストの効率を向上させることが示されています。この研究はパラダイム シフトを示唆しています。スケーラブルな生物医学的推論には、ますます大規模になるプロンプト レベルのツール検索ではなく、構造化された実行可能な機能グラフが必要です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond Prompt-Based Planning: MCP-Native Graph Planning-based Biomedical Agent System</p>
        <p class="orig-summary">Biomedical agents promise to automate complex biological workflows, yet current systems face two fundamental bottlenecks: bioinformatics tools are highly heterogeneous in interfaces and execution environments, while agent planning still relies on flat prompt-retrieved tool descriptions. As biomedical software ecosystems grow, this coupling between tool coverage and context size leads to tool confusion, unstable planning, and inefficient execution. We introduce BioManus, an MCP-native biomedical agent built on graph-scaffolded planning over structured biological capabilities. BioManus first introduces the BioinfoMCP Compiler, which converts heterogeneous bioinformatics software into standardized MCP servers, yielding a large executable MCP ecosystem. It then organizes this ecosystem as a typed heterogeneous MCP graph over tools, operations, datatypes, and workflow stages. At inference time, BioManus retrieves compact task-specific subgraphs, synthesizes operation-level workflow scaffolds. This design decouples planning complexity from raw tool inventory size, achieving a context compression ratio of Theta(N / (h * m_bar)) under high-recall retrieval, where N is the total tool count, h is the workflow horizon, and m_bar (much smaller than N) is the average number of candidate tools per operation. Experiments on BioAgentBench and LAB-Bench show that BioManus improves execution accuracy, workflow validity, and context efficiency over advanced biomedical agent baselines. This work suggests a paradigm shift: scalable biomedical reasoning requires structured executable capability graphs rather than increasingly larger prompt-level tool retrieval.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b5f3bab370d9" data-article-url="https://arxiv.org/abs/2606.04505" data-article-title="シミュレーション、推論、決定: シミュレーション主導の意思決定のための LLM による科学的推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04505" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04505" target="_blank" rel="noopener">シミュレーション、推論、決定: シミュレーション主導の意思決定のための LLM による科学的推論</a></h3>
      <p class="summary">科学シミュレータは、一か八かのシミュレーション主導の意思決定のために、LLM 主導のシステムにますます統合されています。ただし、既存のフレームワークは主に LLM を使用してシミュレータを生成、調整、実行し、シミュレータを推論可能な構造化された機構システムとしてではなく、ブラックボックス インターフェイスとして扱います。その結果、現在のアプローチには、シミュレータの動作の根底にある仮定やメカニズムを特定、表現、推論する能力が欠けており、透明性、監査可能性、意思決定の正当性が制限されています。実行可能な科学シミュレーター用のメカニズムに基づいた神経記号推論フレームワークである MechSim を紹介します。主に静的な記号構造を推論する従来の神経記号アプローチとは異なり、MechSim を使用すると、LLM エージェントが科学シミュレーターのメカニズム、仮定、および実行動作について推論できるようになります。私たちのフレームワークは、仮定、変数、メカニズムの依存関係、および実行トレースをキャプチャする共有構造化スキーマを通じてシミュレーターを表します。この表現に加えて、LLM エージェントは制約付き推論エンジンとして動作し、シミュレータの結果をその基礎となるメカニズムに結び付ける、構造化された証拠に基づいた説明を生成します。私たちは、複数のハイステークス領域にわたってアプローチを評価し、それがメカニズムレベルの説明の品質、シミュレーター分析、下流の意思決定の信頼性を向上させることを示しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Simulate, Reason, Decide: Scientific Reasoning with LLMs for Simulation-Driven Decision Making</p>
        <p class="orig-summary">Scientific simulators are increasingly being integrated into LLM-driven systems for high-stakes simulation-driven decision-making. However, existing frameworks primarily use LLMs to generate, calibrate, or execute simulators, treating them as black-box interfaces rather than as structured mechanistic systems that can be reasoned about. As a result, current approaches lack the ability to identify, represent, and reason about the assumptions and mechanisms underlying simulator behavior, limiting transparency, auditability, and decision justification. We introduce MechSim, a mechanism-grounded neuro-symbolic reasoning framework for executable scientific simulators. Unlike prior neuro-symbolic approaches that primarily reason over static symbolic structures, MechSim enables LLM agents to reason about the mechanisms, assumptions, and execution behavior of scientific simulators. Our framework represents simulators through a shared structured schema capturing assumptions, variables, mechanism dependencies, and execution traces. On top of this representation, LLM agents operate as constrained reasoning engines that generate structured, evidence-grounded explanations linking simulator outcomes to their underlying mechanisms. We evaluate our approach across multiple high-stakes domains and show that it improves mechanism-level explanation quality, simulator analysis, and downstream decision-making reliability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5b7cac0cbec4" data-article-url="https://arxiv.org/abs/2606.04513" data-article-title="MapAgent: 都市規模の車線レベルの地図生成のための産業グレードのエージェント フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04513" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04513" target="_blank" rel="noopener">MapAgent: 都市規模の車線レベルの地図生成のための産業グレードのエージェント フレームワーク</a></h3>
      <p class="summary">車線レベルの地図は自動運転と車線レベルのナビゲーションにとって重要なインフラストラクチャですが、数百の都市で標準化された車線ネットワークの構築と維持には依然として非常に労働集約的です。最近のエンドツーエンドのベクトル化マッピング手法は、センサー データから直接車線の形状とトポロジを予測できますが、通常、マッピング仕様と交通規制を暗黙的なデータセット依存の監視として扱います。さらに、複雑なシーン (マーキングやオクルージョンの磨耗や欠落など) では、正しいレーン構成が視覚的証拠だけでは十分に決定されないことが多く、仕様違反が人間による事後編集の主な原因となっています。私たちは、仕様に準拠したレーンマップ作成のためのベクトル化バックボーンを強化する産業グレードのエージェント アーキテクチャである MapAgent を提案します。 MapAgent は、単にマップ予測にエージェント ループを追加するのではなく、バックボーンの認識と明示的な仕様の検証、制約を意識した推論、および境界のある検証主導型のジャッジ-プランナー-ワーカー ループの下での決定論的なマップ編集を結合します。視覚言語を使用するジャッジは、視覚的な証拠とドラフトベクトルを共同で検査することでエラーを診断し、ツールを呼び出すプランナーは編集後の再検証により最小限の修正編集を生成します。都市規模の本番環境でのスケーラビリティを維持するために、MapAgent はバックボーンの信頼性が低いタイルでのみ選択的にトリガーされ、スループットを維持しながら適度なオーバーヘッドを追加します。現実世界のデータセットでの実験では、特に複雑でロングテールのシナリオにおいて、強力な実稼働ベースラインを上回る一貫した利益が示されています。さらに、MapAgent は Baidu Maps に統合されており、全国 360 以上の都市の車線レベルの地図生成をサポートし、全体的な生産自動化を 95% 以上に高め、大規模な車線レベルの地図生成における MapAgent の実用性と有効性を実証しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MapAgent: An Industrial-Grade Agentic Framework for City-scale Lane-level Map Generation</p>
        <p class="orig-summary">Lane-level maps are critical infrastructure for autonomous driving and lane-level navigation, yet constructing and maintaining standardized lane networks for hundreds of cities remains highly labor-intensive. Recent end-to-end vectorized mapping methods can predict lane geometry and topology directly from sensor data, but they typically treat mapping specifications and traffic regulations as implicit, dataset-dependent supervision. Moreover, in complex scenes (e.g., worn or missing markings and occlusions), correct lane configurations are often under-determined by visual evidence alone, making specification violations a major source of human post-editing. We propose MapAgent, an industrial-grade agentic architecture that augments a vectorization backbone for specification-compliant lane-map production. Rather than merely adding an agent loop to map prediction, MapAgent couples backbone perception with explicit specification verification, constraint-aware reasoning, and deterministic map editing under a bounded, verification-driven Judge-Planner-Worker loop. A vision-language Judge diagnoses errors by jointly inspecting visual evidence and draft vectors, while a tool-calling Planner generates minimal corrective edits with post-edit re-validation. To remain scalable for city-scale production, MapAgent is selectively triggered only on tiles with low backbone confidence, adding modest overhead while preserving throughput. Experiments on real-world datasets show consistent gains over strong production baselines, especially in complex and long-tail scenarios. Additionally, MapAgent has been integrated into Baidu Maps, supporting lane-level map generation for over 360 cities nationwide and elevating the overall production automation to over 95%, demonstrating MapAgent&#x27;s practicality and effectiveness for large-scale lane-level map generation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="28a314971c8e" data-article-url="https://arxiv.org/abs/2606.04536" data-article-title="パラメトリック メモリを介した自己進化エージェントのスケーリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04536" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04536" target="_blank" rel="noopener">パラメトリック メモリを介した自己進化エージェントのスケーリング</a></h3>
      <p class="summary">既存のメモリ拡張 LLM エージェントは、ロールアウト中モデル パラメータを凍結したままにしながら、過去の経験をテキストの要約または取得された一節としてプロンプト領域にのみ保存します。このようなエージェントは、見たものを \emph{調べる}ことはできますが、それから \emph{学ぶ}ことはできません。彼らのポリシーは経験によって変更されず、コンテキストからドロップされた情報は永久に失われます。私たちは、自己進化するパラメトリック メモリ フレームワークである \texttt{TMEM} を導入します。このフレームワークでは、エージェントが履歴を明示的メモリに圧縮するだけでなく、軽量のオンライン アップデートを通じて抽出された監視を高速な LoRA 重み $\Delta_t$ に吸収し、単一のエピソード内で将来の動作を真に変更します。これを、高速重みロールアウト ダイナミクスを備えたエージェントの意思決定プロセスとして形式化します。アクションは $\pi_{\theta_0+\Delta_t}$ からサンプリングされ、抽出アクションは後続の決定のために $\Delta_t$ を更新する監視を生成します。このビューにより、抽出ポリシーが RL によって直接最適化可能になります。$\theta_0$ のトレーニングにより、タスク アクションだけでなく、オンライン LoRA 適応に使用されるデータの品質も向上します。さらに、オンラインコンバージェンスを加速するために、SVD ベースの LoRA サブスペースの初期化を提案します。 LoCoMo、LongMemEval-S、多目的検索、および CL-Bench の実験では、\texttt{TMEM} がさまざまなモデル スケールにわたって、要約ベースおよび検索ベースのベースラインを一貫して上回るパフォーマンスを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Scaling Self-Evolving Agents via Parametric Memory</p>
        <p class="orig-summary">Existing memory-augmented LLM agents store past experience exclusively in prompt space, as textual summaries or retrieved passages, while keeping model parameters frozen throughout a rollout. Such agents can \emph{look up} what they have seen but cannot \emph{learn from} it: their policy is unchanged by experience, and any information dropped from the context is permanently lost. We introduce \texttt{TMEM}, a self-evolving parametric memory framework in which the agent not only compresses history into explicit memory but also absorbs distilled supervision into fast LoRA weights $\Delta_t$ via lightweight online updates, genuinely altering its future behavior within a single episode. We formalize this as an agentic decision process with fast-weight rollout dynamics: actions are sampled from $\pi_{\theta_0+\Delta_t}$, while extraction actions produce supervision that updates $\Delta_t$ for subsequent decisions. This view makes the extraction policy directly optimizable by RL: training $\theta_0$ improves not only task actions but also the quality of the data used for online LoRA adaptation. We further propose SVD-based initialization of the LoRA subspace to accelerate online convergence. Experiments on LoCoMo, LongMemEval-S, multi-objective search, and CL-Bench show that \texttt{TMEM} consistently outperforms summary-based and retrieval-based baselines across different model scales.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="05e8f791a799" data-article-url="https://arxiv.org/abs/2606.04562" data-article-title="Neetyabhas: Rational エージェントベースのモデルにおける不確実性を認識した公共政策最適化のためのフレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04562" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04562" target="_blank" rel="noopener">Neetyabhas: Rational エージェントベースのモデルにおける不確実性を認識した公共政策最適化のためのフレームワーク</a></h3>
      <p class="summary">目的 WHO の新型コロナウイルス感染症に対する非医薬品介入（ロックダウン、ワクチン接種など）は感染を効果的に抑制しますが、経済的には大きな負担となります。既存の研究は、個人の行動を無視し、完璧な感染追跡と完璧な政策実行を誤って想定しており、現実世界の不確実性や誤りを説明できていないことがよくあります。方法 我々は、流行の測定（感染症/入院）と政策実施の両方に不確実性を組み込んだ統合的アプローチを提案します。私たちは、マスクの着用、ワクチン接種、買い物に関するリアルタイムの選択を行う 1,000 人の個人のシミュレーション モデルを構築しました。同時に、政策立案者は健康と経済の観察に基づいて介入（ロックダウン、義務化）を展開します。このフレームワークは階層型強化学習エージェントによって駆動され、不確実性を考慮したポリシー勾配バリアント (DDPG および TD3) とともにディープ Q ネットワークを利用します。結果 シミュレーションは流行の進行を効果的に管理しました。マスクとワクチン接種が非常に効果的であることが証明され、流行のピークの高さと期間の両方が大幅に短縮されました。個人の行動、政策の不確実性、多面的な介入を統合することで、私たちの動的制御アプローチは流行の影響を軽減することに成功しました。結論 私たちのモデルは、不確実性と人間の行動を公衆衛生政策の枠組みに組み込むことで、これまでの研究の限界を克服しました。このシミュレーションは、マスクとワクチンが極めて重要なツールとして機能し、複雑なパンデミック時に効果的な介入を設計するには、個人の選択と不完全なデータを考慮することが重要であることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Neetyabhas: A Framework for Uncertainty-Aware Public Policy Optimization in Rational Agent-Based Models</p>
        <p class="orig-summary">Purpose The WHO&#x27;s COVID-19 non-pharmaceutical interventions (e.g., lockdowns, vaccinations) effectively curb transmission but impose heavy economic strains. Existing research often neglects individual behaviors and falsely assumes perfect infection tracking and flawless policy execution, failing to account for real-world uncertainties and errors. Methods We propose an integrative approach incorporating uncertainties in both epidemic measurement (infections/hospitalizations) and policy implementation. We built a simulation model of 1,000 individuals making real-time choices regarding mask-wearing, vaccination, and shopping. Concurrently, policymakers deploy interventions (lockdowns, mandates) based on health and economic observations. This framework is driven by hierarchical reinforcement learning agents, utilizing deep Q-networks alongside uncertainty-aware policy gradient variants (DDPG and TD3). Results The simulations effectively managed the epidemic&#x27;s progression. Masking and vaccinations proved highly effective, significantly reducing both the outbreak&#x27;s peak height and duration. By integrating individual behaviors, policy uncertainties, and multifaceted interventions, our dynamic control approach successfully mitigated the epidemic&#x27;s impact. Conclusions Our model overcomes previous research limitations by embedding uncertainty and human behavior into public health policy frameworks. The simulation demonstrates that accounting for individual choices and imperfect data is crucial for designing effective interventions during complex pandemics, with masks and vaccines serving as pivotal tools.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fea71f9bbd2d" data-article-url="https://arxiv.org/abs/2606.04579" data-article-title="SCI-PRM: 科学的推論検証のためのツール認識プロセス報酬モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04579" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04579" target="_blank" rel="noopener">SCI-PRM: 科学的推論検証のためのツール認識プロセス報酬モデル</a></h3>
      <p class="summary">プロセス報酬モデル (PRM) は数学的推論において目覚ましい成功を収めていますが、生物学、化学、物理学などの複雑な科学分野での応用はほとんど未踏のままです。科学的な問題には、論理的な厳密さだけでなく、事実の一貫性や分野固有のツールの正確な使用法も要求されますが、この領域では、現在のモデルが幻覚や検証の欠如に悩まされることがよくあります。この論文では、まず、推論と科学ツールの実行を明示的にインターリーブするツールチェーンの軌跡を特徴とする大規模なデータセットである SCIPRM70K を構築します。これに基づいて、Sci-PRM と呼ばれる効率的な報酬モデルをトレーニングして、1 つの推論の各ステップでツールの選択、実行精度、結果の解釈をきめ細かく監視します。実験では、Sci-PRM が 2 つの重要な側面で基礎モデルを大幅に強化することが実証されています。(1) Best-of-N 選択による効果的なテスト時間のスケーリングを可能にします。 (2) 強化学習に統合すると、利点の消失という重大な問題を軽減する高密度の報酬シグナルとして機能し、モデルが既存のパフォーマンスの上限を突破できるようになります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SCI-PRM: A Tool Aware Process Reward Model for Scientific Reasoning Verification</p>
        <p class="orig-summary">While Process Reward Models (PRMs) have achieved remarkable success in mathematical reasoning, their application in complex scientific domains-such as biology, chemistry, and physics remains largely unexplored. Scientific problems demand not only logical rigor but also factual consistency and the precise usage of domain-specific tools, areas where current models often suffer from hallucinations and lack of verification. In this paper, we first construct SCIPRM70K, a large-scale dataset featuring Chain-of-Tool trajectories that explicitly interleave reasoning with the execution of scientific tools. Building upon this, we train an efficient reward model called Sci-PRM to provide fine-grained supervision on tool selection, execution accuracy, and result interpretation at each step in one inference. Experiments demonstrate that Sci-PRM significantly enhances foundation models in two key aspects: (1) it enables effective test-time scaling via Best-of-N selection; and (2) when integrated into Reinforcement Learning, it serves as a dense reward signal that mitigates the critical issue of advantage disappearance, allowing the model to break through existing performance ceilings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dd48ccd87e9b" data-article-url="https://arxiv.org/abs/2606.04597" data-article-title="コスト分割による許容可能なヒューリスティックの学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04597" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04597" target="_blank" rel="noopener">コスト分割による許容可能なヒューリスティックの学習</a></h3>
      <p class="summary">許容可能なヒューリスティックは最適な計画を立てるために不可欠ですが、過大評価のリスクがあるため、ヒューリスティックを学習することは依然として困難です。コスト分割では、許容性を維持しながら複数の抽象化ヒューリスティックを組み合わせますが、最適な分割をオンラインで計算するにはコストがかかります。コスト分割と乗数予測の間のラグランジュ双対等価性を利用して、許容可能なコスト分割を推測する方法を学習するフレームワークを提案します。計画の状態とパターンはラベル付きグラフとしてエンコードされ、Weisfeiler-Leman アルゴリズムのアクション中心の変形により構造的特徴ベクトルが抽出されます。軸方向のセルフアテンションとソフトマックス出力層を備えたディープ アーキテクチャは、これらの機能を構築によるパーティション制約を満たすコストの重みにマップし、許容性を確保します。実験では、厳密な許容性を維持しながら、最適ではない分割ベースラインと比較してノード拡張が減少していることが実証されています。私たちの知る限り、これは許容されることが保証された最初の機械学習ヒューリスティックです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Learning Admissible Heuristics via Cost Partitioning</p>
        <p class="orig-summary">Admissible heuristics are essential for optimal planning, yet learning them remains challenging due to the risk of overestimation. Cost partitioning combines multiple abstraction heuristics while preserving admissibility, but computing optimal partitions online is expensive. We propose a framework that learns to infer admissible cost partitions by leveraging the Lagrangian dual equivalence between cost partitioning and multiplier prediction. Planning states and patterns are encoded as labelled graphs, and an action-centric variant of the Weisfeiler-Leman algorithm extracts structural feature vectors. A deep architecture with axial self-attention and a softmax output layer maps these features to cost weights that satisfy the partition constraints by construction, ensuring admissibility. Experiments demonstrate reduced node expansions compared to suboptimal partitioning baselines while maintaining strict admissibility. To our knowledge, this is the first machine-learned heuristic guaranteed to be admissible.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="176c2a2a671a" data-article-url="https://arxiv.org/abs/2606.04599" data-article-title="最初に計画し、後で判断し、より良く実行する: DMAIC からインスピレーションを得た産業異常検出用エージェント システム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04599" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04599" target="_blank" rel="noopener">最初に計画し、後で判断し、より良く実行する: DMAIC からインスピレーションを得た産業異常検出用エージェント システム</a></h3>
      <p class="summary">大規模言語モデル (LLM) エージェントは、複雑なデータ分析ワークフローの自動化において有望であることが示されていますが、一か八かの産業シナリオにおいてその信頼性の高い導入は依然として困難です。産業異常検出 (IAD) は製造の品質、安全性、効率に不可欠ですが、既存の LLM ベースの IAD エージェントは主に実行に焦点を当てており、戦略策定は不十分です。その結果、統一的かつコスト効率の高い方法で異種のモダリティを処理するのに苦労しています。 DMAIC 品質管理フレームワークからインスピレーションを得て、当社は DMAIC-IAD (DMAIC にインスピレーションを得た Agentic Industrial Anomaly Detection) を提案します。これは、LLM エージェントを構造化された産業問題解決と連携させる、「最初に計画し、後で判断する」マルチエージェント システムです。 DMAIC-IAD は、戦略生成前に異種参照を標準化操作手順 (SOP) に抽出し、事前トレーニングされた実行不要の判定モデルを導入して、コストのかかる実行時トライアルを行わずに候補戦略をランク付けします。 4 つのモダリティにわたる広範な実験により、DMAIC-IAD は適用可能な薬剤ベースラインよりも平均検出パフォーマンスが 37.76% 向上することが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Plan First, Judge Later, Run Better: A DMAIC-Inspired Agentic System for Industrial Anomaly Detection</p>
        <p class="orig-summary">Large language model (LLM) agents have shown promise in automating complex data-analysis workflows, but their reliable deployment remains challenging in high-stakes industrial scenarios. Industrial anomaly detection (IAD) is essential for manufacturing quality, safety, and efficiency, yet existing LLM-based IAD agents mainly focus on execution while under-exploiting strategy formulation. Consequently, they struggle to handle heterogeneous modalities in a unified and cost-effective manner. Inspired by the DMAIC quality-management framework, we propose DMAIC-IAD (DMAIC-inspired Agentic Industrial Anomaly Detection), a &quot;Plan First, Judge Later&quot; multi-agent system that aligns LLM agents with structured industrial problem-solving. DMAIC-IAD distills heterogeneous references into standardized operating procedures (SOPs) before strategy generation, and introduces a pre-trained execution-free judge model to rank candidate strategies without costly runtime trials. Extensive experiments across four modalities show that DMAIC-IAD improves average detection performance over applicable agentic baselines by 37.76%.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="44dfd3cebbf4" data-article-url="https://arxiv.org/abs/2606.04602" data-article-title="パルテノン法: 自己進化する弁護士の枠組み" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04602" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04602" target="_blank" rel="noopener">パルテノン法: 自己進化する弁護士の枠組み</a></h3>
      <p class="summary">エージェントの能力が高まるにつれて、法律分野の LLM エージェントは、大量のドキュメントをレビュー可能な作業成果物に変えることを約束しますが、信頼性の高い導入には 3 つの障害に直面しています。1 つは、今日の最も強力なモデルとハーネスの組み合わせがエンドツーエンドの法的問題でどのように動作するかについての大規模な証拠がないことです。法的な業種に適合したエージェント アーキテクチャはなく、汎用ハーネスのみが使用されます。そして、新しい事実、権限、期限によって変化し続ける環境では、システムが自らの結果から学習するメカニズムがありません。それぞれに対応します。 Harvey LAB に関する大規模な実証研究 -- $12{,}510$ のエージェントの軌跡 -- は、フロンティアのエージェントでさえ 1 回のパスで問題を完了することには程遠いことを示しています。より強力なモデルを使用すると基準ごとの精度が向上しますが、厳密な問題の完了は停滞します。次に、\textsc{Parthenon} を導入します。これは、モデル、ハーネス、代理人の役割、法的知識、決定論的なツール、および手続き上のスキルを情報源の追跡可能性、日付と番号の根拠、成果物のコンプライアンス、および問題の解決のための監査可能な表面に組み込む、自己進化する法律代理人のフレームワークです。最後に、漏れ防止学習ループにより、スコアリングされた失敗がタスクに依存しないスキル、ツール、知識の編集に変換され、企業が問題ごとにチェックリストとプレイブックを洗練するように、モデルの重みに触れることなく、経験とともにシステムが改善されます。私たちの大規模な実証分析を通じて、\textsc{Parthenon} は法的問題のタスクにおける最先端のモデルとハーネスのパフォーマンスを大幅に向上させました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Parthenon Law: A Self-Evolving Legal-Agent Framework</p>
        <p class="orig-summary">As agents grow more capable, legal-domain LLM agents promise to turn document-heavy matters into reviewable work products -- yet reliable deployment faces three obstacles: no large-scale evidence on how today&#x27;s strongest model-and-harness combinations behave on end-to-end legal matters; no agent architecture adapted to the legal vertical, only general-purpose harnesses; and, in a setting that keeps shifting with new facts, authorities, and deadlines, no mechanism for systems to learn from their own outcomes. We address each. A large-scale empirical study on Harvey LAB -- $12{,}510$ agent trajectories -- shows that even frontier agents remain far from completing matters in a single pass: per-criterion accuracy climbs with stronger models while strict matter completion stalls. We then introduce \textsc{Parthenon}, a self-evolving legal-agent framework that factors Model, Harness, Agent roles, legal Knowledge, deterministic Tools, and procedural Skills into auditable surfaces for source traceability, date and number grounding, deliverable compliance, and issue closure. Finally, an anti-leakage learning loop converts scored failures into task-agnostic edits to skills, tools, and knowledge, letting the system improve with experience -- as a firm refines its checklists and playbooks after each matter -- without touching model weights. Across our large-scale empirical analysis, \textsc{Parthenon} substantially improves the performance of state-of-the-art models and harnesses on legal-matter tasks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6d45fbd6b19" data-article-url="https://arxiv.org/abs/2606.04619" data-article-title="ASP ベースのコンプライアンス推論のための規範的な中間表現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04619" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04619" target="_blank" rel="noopener">ASP ベースのコンプライアンス推論のための規範的な中間表現</a></h3>
      <p class="summary">我々は、ASP ベースのコンプライアンス推論のためのモーダル化出力規範中間表現である MONIR を提案します。そのコア フラグメントには段階的な操作セマンティクスがあり、MONIR-ASP は外部関数、一時的なルール、および安定したモデル推論のための実行可能なコンパイルと拡張機能を提供します。 LLM 支援パイプラインを使用して、中国の ADAS 規制と標準に関するフレームワークをインスタンス化します。実験では、抽出品質と、モジュール式および増分 ASP 解決の効率を評価します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Normative Intermediate Representation for ASP-Based Compliance Reasoning</p>
        <p class="orig-summary">We propose MONIR, a Modalized-Output Normative Intermediate Representation for ASP-based compliance reasoning. Its core fragment has a staged operational semantics, while MONIR-ASP provides an executable compilation and extensions for external functions, temporal rules, and stable-model reasoning. We instantiate the framework on Chinese ADAS regulations and standards with an LLM-assisted pipeline. Experiments evaluate extraction quality and the efficiency of modular and incremental ASP solving.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4b34c3865dfe" data-article-url="https://arxiv.org/abs/2606.04627" data-article-title="MIRAGE: 暗黙的推論と生成世界モデルを備えたモバイル エージェント" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04627" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04627" target="_blank" rel="noopener">MIRAGE: 暗黙的推論と生成世界モデルを備えたモバイル エージェント</a></h3>
      <p class="summary">モバイル エージェントは、スクリーンショットや言語目標に基づいて日常のアプリケーションを操作することがますます期待されており、信頼性の高い制御には、画面のアフォーダンス、複数ステップのナビゲーション、および将来の状態の変化に関する推論が必要です。ただし、多くのエージェントはこの計算を長いテキストの思考連鎖として外部に出すため、対話が遅くなり、監視コストが増加し、展開が複雑になります。 MIRAGE は、目に見えるテキスト推論の痕跡から継続的な潜在推論表現を学習するフレームワークです。 MIRAGE は、明示的な推論をコンパクトな隠れ状態に変換し、エージェントが長い根拠を解読することなく内部的に推論できるようにします。また、生成世界モデルの目標も組み込まれています。つまり、潜在的な推論ベクトルが将来のスクリーンショットと一致し、エージェントが行動する前に今後のインターフェイスの状態を予測するようになります。これにより、隠れた計算が圧縮された思考表現と環境力学の将来を見据えたモデルの両方に変わります。推論時、MIRAGE は連続的な潜在空間で推論し、実行効率を向上させながらトークンの生成を削減します。 AndroidWorld では、MIRAGE は、4B アブレーションにおける明示的な思考連鎖の監視付き微調整と 3 ～ 5 倍低いデコード トークン バジェットを一致させ、同等の命令調整ベースラインを 10.2 ポイント改善します。 AndroidControl では、生成されるトークンが 75% 以上減少しながら、アクションのグラウンディングが向上します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MIRAGE: Mobile Agents with Implicit Reasoning and Generative World Models</p>
        <p class="orig-summary">Mobile agents are increasingly expected to operate everyday applications from screenshots and language goals, where reliable control requires reasoning over screen affordances, multi-step navigation, and future state changes. However, many agents externalize this computation as long textual chains of thought, which slows interaction, increases supervision cost, and complicates deployment. We introduce MIRAGE, a framework that learns continuous latent reasoning representations from visible textual reasoning traces. MIRAGE transfers explicit reasoning into compact hidden states, enabling the agent to reason internally without decoding long rationales. It also incorporates a generative world-model objective: latent reasoning vectors are aligned with future screenshots, encouraging the agent to anticipate upcoming interface states before acting. This turns hidden computation into both a compressed thought representation and a forward-looking model of environment dynamics. At inference time, MIRAGE reasons in continuous latent space, reducing token generation while improving execution efficiency. On AndroidWorld, MIRAGE matches explicit chain-of-thought supervised fine-tuning in the 4B ablation with a 3-5x lower decoded-token budget and improves a comparable instruction-tuned baseline by 10.2 points; on AndroidControl, it improves action grounding while generating over 75% fewer tokens.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fe21c45b0f8d" data-article-url="https://arxiv.org/abs/2606.04648" data-article-title="BiNSGPS: 双方向の神経記号相互作用による幾何学問題解決" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04648" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04648" target="_blank" rel="noopener">BiNSGPS: 双方向の神経記号相互作用による幾何学問題解決</a></h3>
      <p class="summary">幾何学の問題解決は、人工知能に明確な課題をもたらします。既存のアプローチは通常 2 つのパラダイムに分類されます。1 つは適応性が限られている記号的方法、もう 1 つは幻覚を起こしやすい神経的方法です。最近のニューロシンボリックハイブリッドは主に一方向パイプラインに依存しており、ニューラル出力がフィードバックなしでソルバーに供給されるため、システムは初期段階のエラーに対して脆弱になります。この一方向のボトルネックを打破するために、MLLM アドバイザとシンボリック ソルバーの間で双方向ニューロシンボリック インタラクション (BiNS) を確立するフレームワークである BiNSGPS を提案します。 MLLM Adviser は、シンボリック ソルバーからのフィードバックを積極的に組み込んで、矛盾した形式表現を動的に修正したり、補助的な仮説を提案したりして、シンボリックの矛盾を解決し、複雑な演繹を容易にします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BiNSGPS: Geometry Problem Solving via Bidirectional Neuro-Symbolic Interaction</p>
        <p class="orig-summary">Geometry problem solving poses distinct challenges in artificial intelligence. Existing approaches typically fall into two paradigms: symbolic methods, which exhibit limited adaptability, and neural methods, which are prone to hallucinations. Recent neuro-symbolic hybrids predominantly rely on a unidirectional pipeline where neural outputs are fed into solvers without feedback, making system brittle to early-stage errors. To break this unidirectional bottleneck, we propose BiNSGPS, a framework that establishes Bidirectional Neuro-Symbolic Interaction (BiNS) between a MLLM Adviser and a Symbolic Solver. MLLM Adviser actively incorporates feedback from the symbolic solver to dynamically rectify inconsistent formal representations or propose auxiliary hypotheses, resolving symbolic conflicts and facilitating complex deductions.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="abce630e6383" data-article-url="https://arxiv.org/abs/2606.04750" data-article-title="Fog of Love: ゲーム環境における親和性ベースの強化学習による高潔なエージェントの動作のエンジニアリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04750" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04750" target="_blank" rel="noopener">Fog of Love: ゲーム環境における親和性ベースの強化学習による高潔なエージェントの動作のエンジニアリング</a></h3>
      <p class="summary">人工知能に高潔な行動を教え込むことへの関心が高まっています。提案された手法の 1 つは、親和性ベースの強化学習として知られています。これは、目的関数のポリシー正則化を使用して、報酬関数の設計に完全に依存することなく、善良な行動を奨励します。これまでのところ、この手法は、状態空間とアクション空間が最小限のグリッド ワールドやおもちゃの問題環境で有効であることが実証されています。この研究をより洗練された環境に拡張するために、Fog of Love として知られるロールプレイング ボード ゲームに基づく 2 プレイヤー マルチエージェント環境を導入します。この環境では、2 人のエージェントがそれぞれの美徳を満たすために競い合いながら、その関係を満たすために協力します。マルチエージェントの性質を考慮すると、これは複雑な問題であり、マルチエージェントの深い決定論的ポリシー勾配エージェントは競合も連携もうまくいきません。我々は、局所的な親和性が競争目的と協力目的の両方を達成する際のエージェントのパフォーマンスを向上させ、その結果、両方のドメインで総合スコアが優れているという証拠を提示します。これは、結果的に賢明な選択をもたらすだけでなく、エージェントの目的論を明確にし、その行動を人間レベルで解釈できるようにします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Fog of Love: Engineering Virtuous Agent Behavior with Affinity-based Reinforcement Learning in a Game Environment</p>
        <p class="orig-summary">Instilling virtuous behavior in artificial intelligence has seen increasing interest. One of the techniques proposed is known as affinity-based reinforcement learning, which uses policy regularization on the objective function to incentivize virtuous actions without being fully dependent on the reward function design. Thus far, this technique has been demonstrated to be effective in grid worlds and toy-problem environments with minimal state and action spaces. To expand this research to more sophisticated environments, we introduce a two-player multi-agent environment based on the role-playing board game known as Fog of Love. In this environment, two agents compete to fulfill their individual virtues, while also cooperating to satisfy their relationship. Given the multi-agent nature, this is a complex problem where multi-agent deep deterministic policy gradient agents neither compete nor cooperate successfully. We present evidence that localized affinities enhance agent performance in achieving both competitive and cooperative objectives, resulting from superior overall scores in both domains. This not only results in virtuous choices but also clarifies an agent&#x27;s teleology and makes its behavior human-level interpretable.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ffcb4a9d26c" data-article-url="https://arxiv.org/abs/2606.04751" data-article-title="FALSIFYBENCH: ルール発見ゲームを使用した LLM の帰納的推論の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04751" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04751" target="_blank" rel="noopener">FALSIFYBENCH: ルール発見ゲームを使用した LLM の帰納的推論の評価</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、科学タスクにおける自律エージェントとして導入されることが増えています。しかし、これらのシステムが科学的発見に関連する帰納的推論の形式に効果的に関与できるかどうかは未解決の問題のままです。この研究では、古典的な Wason 2-4-6 タスクに触発された仮説主導型推論の評価フレームワークである FALSIFYBENCH を紹介します。このタスクでは、エージェントは例を繰り返し提案し、フィードバックを受け取ることによって隠れた意味論的特性を発見する必要があります。このタスクでは、科学的推論の重要な要素、つまり仮説の生成、証拠の収集、および証拠の確認と反証に応じた信念の修正を捉えます。モデルファミリーとスケールにわたる 12 個の LLM の評価では、最適なパフォーマンスに近いモデルはないものの、推論モデルは一般に命令調整モデルよりも強力な科学的推論であることがわかりました。成功の主な原動力は否定的なテストの能力です。仮説を積極的に反証しようとするモデルは、主に確認を求めるモデルよりも一貫して優れています。さらに、これまでの研究では無視されていたきめ細かいターンレベル分析により、モデルが仮説空間をナビゲートする方法における特定可能なパターンと失敗が結びついていることが明らかになりました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">FALSIFYBENCH: Evaluating Inductive Reasoning in LLMs with Rule Discovery Games</p>
        <p class="orig-summary">Large language models (LLMs) are increasingly deployed as autonomous agents in scientific tasks. Yet whether these systems can effectively engage in forms of inductive reasoning relevant to scientific discovery remains an open question. In this work, we introduce FALSIFYBENCH, an evaluation framework for hypothesis-driven reasoning inspired by the classic Wason 2-4-6 task, in which agents must discover hidden semantic properties by iteratively proposing examples and receiving feedback. This task captures key elements of scientific reasoning: hypothesis generation, evidence gathering, and belief revision in response to both confirming and disconfirming evidence. Our evaluation of 12 LLMs across model families and scales shows that reasoning models are generally stronger scientific reasoners than instruction-tuned models, although no model comes close to optimal performance. The primary driver of success is the capacity for negative testing: models that actively seek to falsify their hypotheses consistently outperform those that primarily seek confirmation. Moreover, a fine-grained turn-level analysis, neglected in previous work, reveals that failure is tied to identifiable patterns in how models navigate the hypothesis space.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d35e21ea4ae6" data-article-url="https://arxiv.org/abs/2606.04778" data-article-title="浅い安全性を超えた推論時の脆弱性: 世代の軌跡に沿った調整" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04778" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04778" target="_blank" rel="noopener">浅い安全性を超えた推論時の脆弱性: 世代の軌跡に沿った調整</a></h3>
      <p class="summary">安全性を考慮した大規模言語モデル (LLM) は、生成を有害な出力にリダイレクトする推論中の介入に対して依然として脆弱です。最近の研究では、これは浅い安全性であると考えられており、最初のいくつかの出力トークンに位置合わせが集中しています。浅い安全性は、より広範な推論時間の脆弱性の特殊なケースであり、任意の生成ステップでの短いトークンの注入によって、その後の安全性の動作が大幅に変更される可能性があることを示します。また、隠れ状態における拒否方向とのモデルの整合性は、そのような注入に対するそのロバスト性を予測しないこともわかり、内部状態だけが摂動下での生成挙動を決定しないことが明らかになりました。これに対処するために、シーケンス途中の摂動をシミュレートすることによって構築された生成軌跡にモデルを直接調整し、これによりシーケンス途中の注入に対する堅牢性が向上し、初期のトークン生成を悪用する攻撃に一般化されることを示します。私たちの研究では、堅牢な安全調整には、出力だけでなく、生成プロセス自体のトレーニングも必要であると主張しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories</p>
        <p class="orig-summary">Safety-aligned Large Language Models (LLMs) remain vulnerable to interventions during inference that redirect generation toward harmful outputs. Recent work attributes this to shallow safety, where alignment concentrates in the first few output tokens. We show that shallow safety is a special case of a broader inference-time vulnerability, in which short token injections at any generation step can substantially alter subsequent safety behavior. We also find that a model&#x27;s alignment with refusal directions in its hidden states does not predict its robustness to such injection, revealing that internal state alone does not determine generation behavior under perturbation. To address this, we align models directly on generation trajectories constructed by simulating mid-sequence perturbation, and show that this improves robustness to mid-sequence injection and generalizes to attacks that exploit early-token generation. Our work argues that robust safety alignment requires training on the generation process itself, not only its outputs.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f1fd6c3363d" data-article-url="https://arxiv.org/abs/2606.04779" data-article-title="人間と AI のインタラクションにおけるマルチエージェントの相補性のツリーベースの定式化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04779" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04779" target="_blank" rel="noopener">人間と AI のインタラクションにおけるマルチエージェントの相補性のツリーベースの定式化</a></h3>
      <p class="summary">相補性とは、人間と AI の相互作用 (HAI) が、そのメンバー間で利用可能な最良の予測ベンチマークを上回る場合のことです。この考え方は HAI 研究の中心ですが、相補性に関する正式な研究は依然として限られています。既存のフレームワークは、エージェントの予測がワークフローに依存したマルチエージェント プロトコルをどのように構成するかをモデル化していません。私たちは、マルチエージェント HAI における相補性のツリーベースの形式化を導入することで、このギャップを埋めます。 HAI プロトコルは、順序付けられたエージェントと役割の構成と、その葉が予測ベクトルによって装飾されている根付き平面バイナリ ツリーによって表されます。ローカルのバイナリ構成ルールがツリーに沿って再帰的に評価され、pointwise-min Oracle ベンチマークに対するツリー相対相補性関数が生成されます。 4 つの結果を証明します。まず、セレクターベースの HAI (自己依存性または AI 依存性を含む) は、タスク、損失、予測の品質に関係なく、相補性を達成できません。第 2 に、二乗損失での回帰では、相補性はグラウンド トゥルース ベクトルからのユークリッド距離の最小化に相当します。 $N=2$ の場合、最適な線形プーリング重みは閉じた形式と残差補正解釈を持ちます。第三に、線形局所構成の下では、すべてのプロトコル ツリーはリーフ重みの単体での重心座標チャートを定義します。プロトコルツリーのTamari-cover再パラメータ化は相補性を維持し、$N=4$の場合、五角形の恒等性を満たします。第四に、バイナリ分類では、標準ブレグマン損失や多くの有限ベルヌーイ $f$ 発散損失を含むエンドポイント単調損失の下では、内部の局所構成は相補性を達成できません。クロスエントロピー下のマルチクラス集約にも同様の障害が当てはまります。要約すると、私たちのフレームワークは、マルチエージェント回帰では相補性が達成可能ですが、局所的な凝集と損失関数に関する自然条件下での分類では妨げられることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Tree-Based Formalization of Multi-Agent Complementarity in Human-AI Interactions</p>
        <p class="orig-summary">Complementarity is the case in which a human--AI interaction (HAI) outperforms the best prediction benchmark available among its members. Although this idea is central in HAI research, formal work on complementarity remains limited. Existing frameworks do not model how agents&#x27; predictions compose into workflow-sensitive multi-agent protocols. We close this gap by introducing a tree-based formalization of complementarity in multi-agent HAI. An HAI protocol is represented by an ordered agent-role configuration together with a rooted planar binary tree whose leaves are decorated by prediction vectors. A local binary composition rule is evaluated recursively along the tree, yielding a tree-relative complementarity functional relative to a pointwise-min oracle benchmark. We prove four results. First, selector-based HAIs, including self- or AI-reliance, cannot achieve complementarity regardless of task, loss, or prediction quality. Second, in regression under squared loss, complementarity is equivalent to Euclidean distance minimization from the ground-truth vector; for $N=2$, the optimal linear-pooling weight has a closed form and a residual-correction interpretation. Third, under linear local composition, every protocol tree defines a barycentric coordinate chart on the simplex of leaf weights; Tamari-cover reparameterizations of protocol trees preserve complementarity, and for $N=4$, they satisfy the pentagon identity. Fourth, in binary classification, no internal local composition can achieve complementarity under endpoint-monotone losses, including standard Bregman and many finite Bernoulli $f$-divergence losses; an analogous obstruction holds for multiclass aggregation under cross-entropy. In summary, our framework shows that complementarity is attainable in multi-agent regression, but obstructed in classification under natural conditions on local aggregation and loss functions.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5965104d077b" data-article-url="https://arxiv.org/abs/2606.04781" data-article-title="AIP: エージェントのスキルを学習および管理するためのグラフ表現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04781" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04781" target="_blank" rel="noopener">AIP: エージェントのスキルを学習および管理するためのグラフ表現</a></h3>
      <p class="summary">現在のエージェント スキルは、主に自由形式の散文で構成されており、エージェントはすべてのセッションでどのように行動するかを読み、解釈し、再導出する必要があります。これにより、2 つの複合的なコストが課せられます。実装の負荷が高いタスクの信頼性の低下と、特にモデルのトレーニングで過小評価されているドメイン固有の手順知識に関して、散文の編集は人間とエージェントの両方が苦労する脆弱なプロセスであるため、スキルの作成と改善が困難になります。エージェント命令プロトコル (AIP) は、スキルを指向実行グラフとしてモデル化することで両方に対処します。つまり、決定論的なスクリプトまたは自然言語記述に裏付けられたノードとしての個別のステップ、明示的に型指定された入力/出力エッジによって接続され、スキーマ検証された YAML 仕様によって管理されます。コンパイラのメタスキルは、人間が作成した既存のスキルをこの形式に変換します。利点は 2 つあります。まず、人間が作成したスキルを AIP にコンパイルすると、SkillsBench の 27 の実際のエージェント タスク全体で、Claude Sonnet の平均タスク報酬が 0.60 から 0.71 に、合格率が 53% から 67% に上昇しました。これは統計的に有意な向上 (Wilcoxon の符号付きランク p = 0.011) であり、12 対 2 のタスクで 13 の同点で勝利し、多くの場合、より短い実時間で達成されました。グラフは、自然言語からコード、コマンド、およびツール呼び出しを再導出するようにエージェントに要求するのではなく、精査された実行可能なユニットをエージェントに提供します。次に、作成と改善については、各スキルがスキーマ検証され、機能テストが可能で、ノードごとにアドレス指定できるため、障害を正確に診断して修復できます。作成されたスキルの 2 つの失敗がスクリプト レベルまで追跡されました。 AIP 仕様を調整して再コンパイルした後、どちらも回帰ゼロ (1 つのタスクが 0/5 から 5/5 に移行) で回復し、スキルの向上が散文的な書き直しではなく、測定可能なチューニング ループに変わりました。同じグラフ構造は、コーパス レベルのガバナンスとスキルのイントロスペクションをサポートし、スキルに対する強化学習のための自然なアクション スペースを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AIP: A Graph Representation for Learning and Governing Agent Skills</p>
        <p class="orig-summary">Agent Skills today consist largely of free-form prose requiring the agent to read, interpret, and re-derive how to act in every session. This imposes two compounding costs: reduced reliability on implementation-heavy tasks, and difficulty in skill creation and improvement, since editing prose is a fragile process that both humans and agents struggle with, particularly for domain-specific procedural knowledge underrepresented in model training. The Agent Instruction Protocol (AIP) addresses both by modeling a skill as a directed execution graph: discrete steps as nodes backed by deterministic scripts or natural-language descriptions, connected by explicit typed input/output edges, and governed by a schema-validated YAML specification. A compiler meta-skill translates existing human-written skills into this form. The benefits are twofold. First, compiling human-written skills to AIP raised Claude Sonnet&#x27;s mean task reward from 0.60 to 0.71 and pass rate from 53% to 67% across 27 real agent tasks from SkillsBench - a statistically significant gain (Wilcoxon signed-rank p = 0.011), winning 12 tasks to 2 with 13 ties - often in less wall-clock time. The graph delivers vetted, runnable units to the agent rather than asking it to re-derive code, commands, and tool calls from natural language. Second, on creation and improvement, because each skill is schema-validated, functionally testable, and addressable node-by-node, failures can be diagnosed and repaired precisely. Two authored-skill failures were traced to the script level. After adjusting the AIP spec and recompiling, both recovered with zero regressions (one task going from 0/5 to 5/5), turning skill improvement into a measurable tuning loop rather than a prose rewrite. That same graph structure supports corpus-level governance and skill introspection, and provides a natural action space for reinforcement learning over skills.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cd2019395ac3" data-article-url="https://arxiv.org/abs/2606.04807" data-article-title="BiasGRPO: グループ相対ポリシーの最適化による、変動の大きい報酬環境におけるバイアス緩和の安定化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04807" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04807" target="_blank" rel="noopener">BiasGRPO: グループ相対ポリシーの最適化による、変動の大きい報酬環境におけるバイアス緩和の安定化</a></h3>
      <p class="summary">大規模言語モデル (LLM) での社会的バイアスの軽減には、明確な調整の課題が伴います。検証可能なタスクとは異なり、バイアスには単一の根拠が欠如しており、分散が大きく、主観的な報酬の状況が生じます。以前のプリファレンスベースの微調整方法には大きなトレードオフがありました。直接プリファレンス最適化 (DPO) はオフライン トレーニングに固有の探索の欠如によって制限されますが、近接ポリシー最適化 (PPO) は信頼性の低い批評家の推定値が原因でトレーニングが不安定になる可能性があります。この論文では、グループ相対ポリシー最適化 (GRPO) を使用して、サンプリングされた完了のグループ全体で報酬を正規化することで調整を安定化するフレームワークである BiasGRPO を提案します。価値関数をグループ相対ベースラインに置き換えることにより、私たちのアプローチは、オンライン トレーニングの探求の利点を維持しながら、不安定性を軽減します。 BiasGRPO は複数のベンチマークにわたって DPO および PPO を上回っており、その有効性が示されていることがわかりました。 GRPO を適応させるために、複数のドメインとコンテキストにまたがるデータセットを合成的に拡張します。また、計算効率が高く、知識の低下を回避しながら生成を効果的にガイドするカスタム バイアス報酬モデルを作成してリリースし、多目的 RLHF パイプラインにシームレスに統合できる貴重なリソースを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization</p>
        <p class="orig-summary">Mitigating social bias in Large Language Models (LLMs) presents a distinct alignment challenge: unlike verifiable tasks, bias lacks a single ground truth, creating a high-variance, subjective reward landscape. Previous preference-based fine-tuning methods have major trade-offs: Direct Preference Optimization (DPO) is limited by the lack of exploration inherent in offline training, while Proximal Policy Optimization (PPO) can lead to training instability due to potentially unreliable critic estimates. In this paper, we propose BiasGRPO, a framework using Group Relative Policy Optimization (GRPO) to stabilize alignment by normalizing rewards across a group of sampled completions. By substituting the value function with a group-relative baseline, our approach reduces instability while maintaining the exploration benefits of online training. We find that BiasGRPO outperforms DPO and PPO across multiple benchmarks, indicating its effectiveness. To adapt GRPO, we synthetically extend a dataset spanning multiple domains and contexts. We also create and release a custom bias reward model that effectively guides generation while being highly compute-efficient and avoiding knowledge degradation, providing a valuable resource that can be seamlessly integrated into multi-objective RLHF pipelines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b1cdeac41ffc" data-article-url="https://arxiv.org/abs/2606.04816" data-article-title="客観的等価性を超えて: 配車経路問題に対する LLM ベースの最適化モデリングのための制約注入" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04816" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04816" target="_blank" rel="noopener">客観的等価性を超えて: 配車経路問題に対する LLM ベースの最適化モデリングのための制約注入</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、自然言語の最適化問題を実行可能なソルバー コードに変換することが増えています。しかし、制約が密なオペレーション リサーチ (OR) 問題の場合、既存のデータ フィルタリングおよびトレーニング パイプラインは主に、差分テストや回答一致などの客観的等価信号に依存しています。これらの制約がテスト対象のインスタンスに拘束力を持たない場合、プログラムは偽の制約を追加したり、必要な制約を黙って省略したりしながら、この信号を渡すことができます。我々は、実現可能プローブを使用して偽の過剰制約プローブと 1 つの制約違反プローブを明らかにし、サイレント制約省略を明らかにする制約注入を提案します。差分テストと組み合わせると、二重検証機能が形成されます。運転上の制約が結合された代表的な制約密度の高い組み合わせ最適化テストベッドである配車経路問題 (VRP) 上でインスタンスを作成し、評価します。当社は、自然言語 VRP シナリオを Gurobi スクリプトに変換する 8B エンドツーエンド モデルである VRPCoder を、21 のバリアントをカバーする専門家によって検証された VRP ベンチマーク スイートとともに開発しています。ベリファイアは、データ合成中の拒否サンプリング フィルターとして、またグループ相対ポリシー最適化 (GRPO) のロールアウトごとの報酬として再利用されます。 4 つの VRP ベンチマーク全体で、VRPCoder-GRPO は平均 Pass@1 の 93\% に達し、3 つのベンチマークで Gemini-3.1-Pro Preview を上回り、Claude-Sonnet-4.5 を平均 28 ポイント上回り、以前の OR-LLM を平均 78 ポイント上回っています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond Objective Equivalence: Constraint Injection for LLM-Based Optimization Modeling on Vehicle Routing Problems</p>
        <p class="orig-summary">Large language models (LLMs) increasingly translate natural-language optimization problems into executable solver code. Yet for constraint-dense operations research (OR) problems, existing data-filtering and training pipelines largely rely on objective-equivalence signals such as differential testing and answer agreement, which a program can pass while adding spurious constraints or silently omitting required ones, whenever those constraints are non-binding on the tested instance. We propose constraint injection, which uses feasible probes to expose spurious over-constraint and one-constraint-violating probes to reveal silent constraint omission. Combined with differential testing, it forms a dual verifier. We instantiate and evaluate it on vehicle routing problems (VRPs), a representative constraint-dense combinatorial optimization testbed with coupled operational constraints. We develop VRPCoder, an 8B end-to-end model that translates natural-language VRP scenarios into Gurobi scripts, together with an expert-verified VRP benchmark suite covering 21 variants. The verifier is reused as a rejection-sampling filter during data synthesis and as a per-rollout reward in group relative policy optimization (GRPO). Across four VRP benchmarks, VRPCoder-GRPO reaches 93\% average Pass@1, outperforms Gemini-3.1-Pro Preview on three benchmarks, exceeds Claude-Sonnet-4.5 by 28 average points, and surpasses prior OR-LLMs by 78 average points.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79f239e95340" data-article-url="https://arxiv.org/abs/2606.04823" data-article-title="R-APS: 内省的敵対的パレート検索による制約付き設計のための構成推論とコンテキスト内メタ学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04823" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04823" target="_blank" rel="noopener">R-APS: 内省的敵対的パレート検索による制約付き設計のための構成推論とコンテキスト内メタ学習</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、無制限のタスクに柔軟に対応しますが、システムが計画を立て、ツールを使用し、長期間にわたって動作する必要があるエージェント設定では、流暢さは信頼性の高い配信を保証しません。このギャップを 3 つの構造的欠陥が結合したものとして追跡します。エラーは位置特定されずに伝播し、最悪の場合の摂動は評価されず、蓄積された知識は決して無効になりません。私たちは、これらには根本原因が共有されていると主張します。つまり、アブダクティブ、反事実、メタ帰納的、修正的、帰納的推論は、共有されたコンテキストを矛盾する方向に引っ張ります。私たちは、Reflective Adversarial Pareto Search (R-APS) を導入します。これは、推論モード分解を介して 3 つの失敗すべてに共同で対処し、各推論モードに独自のコンテキストを割り当て、3 つのタイムスケールにわたる相互作用を調整する、私たちの知る限り最初の方法です。型付き検証批評家による段階的な構成推論 (失敗の局在化)、第一級のパレート目標 (堅牢性) としての感度に基づく反事実ストレステスト、および明示的なメタ帰納的ルール抽出です。 invalidation (persistent memory). R-APS は微調整を必要とせず、純粋に構造化されたプロトコル設計によってフリーズされた LLM 上で動作します。平面機構の合成 (ロボット工学、補綴物、機械設計) を評価し、すべての候補を運動学ソルバーでチェックします。 32 のターゲット軌道上で、R-APS は、均一摂動ベースラインよりも 3.5 倍厳しいロバスト性証明書、最初の許容までの反復が 46% 高速化、Enum+GA と比較して 2.1 倍の面取り距離の短縮を実現しながら、バー数と最悪の場合のロバスト性を共同制御します。小規模な 4B 推論に特化したモデルは、プロトコル内の汎用 70B バックボーンと競合することが証明されており、構造化プロトコルがモデルのスケールを部分的に相殺できることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">R-APS: Compositional Reasoning and In-Context Meta-Learning for Constrained Design via Reflective Adversarial Pareto Search</p>
        <p class="orig-summary">Large language models (LLMs) are fluent on open-ended tasks, yet in agentic settings, where a system must plan, use tools, and act over extended horizons, fluency does not ensure reliable delivery. We trace this gap to three coupled structural failures: errors propagate without localization, worst-case perturbations go unevaluated, and accumulated knowledge is never invalidated. We argue these share a root cause: abductive, counterfactual, meta-inductive, corrective, and inductive reasoning pull a shared context in incompatible directions. We introduce Reflective Adversarial Pareto Search (R-APS), to our knowledge the first method addressing all three failures jointly via reasoning-mode decomposition, allocating each reasoning mode its own context and orchestrating interaction across three timescales: staged compositional reasoning with a typed validation critic (failure localization), sensitivity-guided counterfactual stress-testing as a first-class Pareto objective (robustness), and meta-inductive rule extraction with explicit invalidation (persistent memory). R-APS requires no fine-tuning and operates on a frozen LLM purely via structured protocol design. We evaluate on planar mechanism synthesis (robotics, prosthetics, mechanical design), with every candidate checked by a kinematic solver. On 32 target trajectories, R-APS delivers robustness certificates 3.5x tighter than uniform-perturbation baselines, 46% faster iterations-to-first-admission, and 2.1x Chamfer-distance reduction over Enum+GA while jointly controlling bar-count and worst-case robustness. Small 4B reasoning-specialized models prove competitive with general-purpose 70B backbones inside the protocol, suggesting structured protocols can partially offset model scale.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9d1a131f3087" data-article-url="https://arxiv.org/abs/2606.04867" data-article-title="AICompanionBench: AI コンパニオンの安全性に関する審査員としての LLM のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04867" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04867" target="_blank" rel="noopener">AICompanionBench: AI コンパニオンの安全性に関する審査員としての LLM のベンチマーク</a></h3>
      <p class="summary">Replika や Character.AI などの AI コンパニオン プラットフォームが急速に成長するにつれて、安全でない人間と AI の相互作用に対する懸念が強まっています。この研究では、AICompanionBench を導入します。AICompanionBench は、私たちの知る限り、きめ細かい安全リスク カテゴリの注釈が付けられた、人間と AI コンパニオンの会話の初の公的に利用可能なベンチマーク データセットです。このデータセットには、Reddit から収集され、性的行動、反社会的行動、身体的攻撃性、言葉による攻撃性、薬物乱用、自傷行為と自殺、制御、操作、無害の 9 つのカテゴリにわたる人間と AI のコラボレーションを通じて注釈が付けられた 2,123 件の実世界の Replika 会話が含まれています。このベンチマークを使用して、安全でない相互作用を検出するための LLM-as-judge フレームワークの下で 20 個の最先端のオープンソースおよびクローズドソース LLM を評価します。結果は、モデルのパフォーマンスに大きなばらつきがあり、より強力なモデルは全体的に高い精度を達成していますが、操作や有害であると誤って認識される無害な会話などの微妙なカテゴリに依然として苦戦していることがわかりました。私たちの調査結果は、現在の LLM は明示的な有害なコンテンツを効果的に検出できるものの、暗黙的な安全でない相互作用の特定には依然として限界があることを示唆しています。全体として、私たちの研究は AI コンパニオンシップの安全性研究のための新しいベンチマーク データセットに貢献し、LLM を使用した AI コンパニオン システムのモニタリングに関する洞察を提供します。データセットは、https://github.com/anonymousresearcher2026/AICompanionBench/blob/main/AICompanionBench.xlsx で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AICompanionBench: Benchmarking LLMs-as-Judges for AI Companion Safety</p>
        <p class="orig-summary">As AI companion platforms such as Replika and Character.AI rapidly grow, concerns about unsafe human-AI interactions have intensified. This study introduces AICompanionBench, to our knowledge the first publicly available benchmark dataset of human-AI companion conversations annotated with fine-grained safety risk categories. The dataset contains 2,123 real-world Replika conversations collected from Reddit and annotated through human-AI collaboration across nine categories: sexual behavior, antisocial behavior, physical aggression, verbal aggression, substance abuse, self-harm and suicide, control, manipulation, and no-harm. Using this benchmark, we evaluate 20 state-of-the-art open-source and closed-source LLMs under an LLM-as-judge framework for detecting unsafe interactions. Results show substantial variation in model performance, with stronger models achieving high overall accuracy but still struggling with nuanced categories such as manipulation, as well as benign conversations that are incorrectly identified as harmful. Our findings suggest that while current LLMs can effectively detect explicit harmful content, they remain limited in identifying implicit unsafe interactions. Overall, our work contributes a new benchmark dataset for AI companionship safety research and offers insights into monitoring AI companion systems using LLMs. The dataset is publicly available at: https://github.com/anonymousresearcher2026/AICompanionBench/blob/main/AICompanionBench.xlsx</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="56feb9b6ec98" data-article-url="https://arxiv.org/abs/2606.04935" data-article-title="能動推論とはどのようなタイプの推論ですか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04935" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04935" target="_blank" rel="noopener">能動推論とはどのようなタイプの推論ですか?</a></h3>
      <p class="summary">能動推論では、期待自由エネルギー (EFE) が目標指向の行動と情報探索の行動を統合し、意思決定を推論としてキャストします。最近の研究では、EFE 最小化が、認識的事前分布で強化された生成モデル上の変分自由エネルギー (VFE) 最小化として記述できることが示されました。拡張モデルの VFE は、予測モデルの VFE に明示的なエントロピー補正項を加えたものとして書き換えることができ、EFE の寄与が透明になることを証明します。次に、適切な EFE ベースの計画には、これらの認識論的修正と限界推論を政策最適化に変える計画修正を組み合わせる必要があり、EFE ベースの計画の完全な変分特性が得られることを示します。これにより、クロスエントロピー計画および完全な EFE ベースの計画にどの修正が必要かが明確になります。同じエントロピー補正された定式化により、より単純なアブレーションとともに、EFE ベースの計画のための詳細なメッセージ パッシング スキームが得られます。 3 つのグリッドワールド環境での実験では、観察が決定的な場合には計画修正がすでに役に立ちますが、観察が単に示唆的な場合には追加の観察側の認識論的修正が最も重要であることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">What Type of Inference is Active Inference?</p>
        <p class="orig-summary">Active inference casts decision-making as inference, with the Expected Free Energy (EFE) unifying goal-directed and information-seeking behavior. Recent work showed that EFE minimization can be written as Variational Free Energy (VFE) minimization on a generative model augmented with epistemic priors. We prove that the VFE of the augmented model can be rewritten as the VFE of the predictive model plus explicit entropy-correction terms, making the EFE contribution transparent. We then show that proper EFE-based planning requires combining these epistemic corrections with a planning correction that turns marginal inference into policy optimization, yielding a full variational characterization of EFE-based planning. This clarifies which corrections are needed for cross-entropy planning and for full EFE-based planning. The same entropy-corrected formulation leads to a detailed message-passing scheme for EFE-based planning together with simpler ablations. Experiments on three grid-world environments show that the planning correction already helps when observations are decisive, whereas the additional observation-side epistemic corrections matter most when observations are merely suggestive.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="721edacbc8c3" data-article-url="https://arxiv.org/abs/2606.05043" data-article-title="Strabo: エージェント相互作用プロトコルの宣言的仕様と実装" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05043" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05043" target="_blank" rel="noopener">Strabo: エージェント相互作用プロトコルの宣言的仕様と実装</a></h3>
      <p class="summary">ここ数年で、宣言型対話プロトコルに基づいたマルチエージェント システムのモデリングと実装が大きく進歩しました。私たちの貢献である Strabo は、これらの進歩と Agentic AI における現在進行中の業界の取り組みとの関連性を確立します。具体的には、AI エージェントの電子商取引インタラクションを標準化するための Google 主導の最近の取り組みである UCP (Universal Commerce Protocol) について検討します。私たちの演習は 2 つの部分に分かれています。 1 つは、チェックアウトを処理する UCP の部分を宣言型 Langshaw プロトコルとしてモデル化し、Langshaw のプログラミング モデルである Peach を使用してエージェントを実装することです。演習のこの部分では、正式な宣言的仕様の利点を引き出します。 2 つ目は、Peach エージェントが Google によって実装された UCP エージェントと相互運用できることを示し、それによって UCP に関するアプローチの忠実性を確立します。このような相互運用により、宣言型プロトコルとエージェントを従来の設定に段階的に導入することが可能になり、大規模な更新を必要とせずに EMAS のアイデアが実践に影響を与える可能性がある道筋が示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Strabo: Declarative Specification and Implementation of Agentic Interaction Protocols</p>
        <p class="orig-summary">The last few years have witnessed major advances in the modeling and implementation of multiagent systems based on declarative interaction protocols. Our contribution, Strabo, establishes the relevance of these advances to ongoing industry efforts in Agentic AI. Specifically, we consider UCP, the Universal Commerce Protocol, a recent Google-led effort to standardize e-commerce interactions for AI agents. Our exercise is in two parts. One, we model the part of UCP dealing with checkouts as a declarative Langshaw protocol and implement agents using Peach, a programming model for Langshaw. This part of the exercise brings out the advantages of formal, declarative specifications. Two, we show that Peach agents can interoperate with UCP agents implemented by Google, thereby establishing the fidelity of our approach with respect to UCP. Such interoperation enables the incremental introduction of declarative protocols and agents into a conventional setting, indicating a pathway by which EMAS ideas could influence practice without demanding a wholesale update.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2e9eced8e8a5" data-article-url="https://arxiv.org/abs/2606.05080" data-article-title="AutoLab: フロンティア モデルは長期にわたる自動車の研究およびエンジニアリングの課題を解決できるか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05080" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05080" target="_blank" rel="noopener">AutoLab: フロンティア モデルは長期にわたる自動車の研究およびエンジニアリングの課題を解決できるか?</a></h3>
      <p class="summary">科学および工学の進歩は、基本的に長期にわたる反復プロセスです。つまり、変更を提案し、実験を実行し、結果を測定し、成果物を継続的に改良します。しかし、フロンティア モデルの既存のベンチマークは主に 1 回のターン応答または短期間のエージェントの軌道のいずれかを評価しており、長期間にわたる持続的な反復改善という課題を捉えることができません。このギャップに対処するために、超長期の閉ループ最適化のための新しいベンチマークである AutoLab を導入します。 AutoLab は、システム最適化、パズル &amp; チャレンジ、モデル開発、CUDA カーネル最適化の 4 つの多様なドメインにわたる、専門家によって厳選された 36 の現実的なタスクで構成されています。各タスクは正しいが意図的に次善のベースラインから始まり、厳しい予算内でそれを改善するようエージェントに要求します。 17 の最先端モデルを評価すると、成功の主な予測因子は、エージェントの最初の試みの質ではなく、繰り返しのベンチマーク、編集、経験的フィードバックの組み込みに対するエージェントの粘り強さであることが明らかになりました。 claude-opus-4.6 は強力な長期最適化機能を示しますが、いくつかの独自モデルを含むほとんどのフロンティア モデルは途中で終了するか、最小限の進歩で予算を使い果たします。これらの結果は、自律エージェントにおける時間認識と永続的な反復の重要性を強調しています。私たちは完全なベンチマーク、評価ハーネス、タスク アーティファクトをオープンソース化し、真に有能な長期的なエージェントに向けた研究を加速します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?</p>
        <p class="orig-summary">Scientific and engineering progress is fundamentally a long-horizon iterative process: proposing changes, running experiments, measuring outcomes, and continuously refining artifacts. Yet existing benchmarks for frontier models primarily evaluate either single-turn responses or short-horizon agent trajectories, failing to capture the challenges of sustained iterative improvement over extended time horizons. To address this gap, we introduce AutoLab, a new benchmark for ultra long-horizon closed-loop optimization. AutoLab consists of 36 realistic, expert-curated tasks spanning four diverse domains: system optimization, puzzle &amp; challenge, model development, and CUDA kernel optimization. Each task begins with a correct but deliberately suboptimal baseline and challenges agents to improve it within a strict wall-clock budget. Evaluating 17 state-of-the-art models reveals the dominant predictor of success is not the quality of an agent&#x27;s initial attempt, but its persistence in repeatedly benchmarking, editing, and incorporating empirical feedback. While claude-opus-4.6 exhibits strong long-horizon optimization capabilities, most frontier models, including several proprietary ones, either terminate prematurely or exhaust their budgets with minimal progress. These results underscore the importance of time awareness and persistent iteration in autonomous agents. We open-source the full benchmark, evaluation harness, and task artifacts, to accelerate research toward truly capable long-horizon agents.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2e86afed9f79" data-article-url="https://arxiv.org/abs/2606.05104" data-article-title="ノアの箱舟の知識索引" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05104" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05104" target="_blank" rel="noopener">ノアの箱舟の知識索引</a></h3>
      <p class="summary">LLM の知識ベンチマークは 3 つの問題に直面しています。1 つは、規律の代表性を運用できないスケーリング主導の設計です。遅延コンセンサスを可能にする定額支払いアノテーション。制限されたテスト予算の下では、監査されていないランキングの不安定性。 261 のきめ細かい分野にわたる 899 項目のベンチマークである KINA を、2 つの正式な結果とともに紹介します。まず、専門家が導き出したアンカーよりも報道スタイルの目的として代表性を設定し、代理人を通じて規律上の代表性を操作して、(1-1/e) 貪欲な近似 (命題 1) を生成します。保証は代理人に適用され、母集団の代表性には適用されません。第二に、インセンティブ互換性しきい値 B &gt; デルタ C / デルタ p_min (定理 1) で、ボーナスオンバートーナメントがリリースレビューの品質においてフラットペイメントを弱く FOSD で支配することを証明します。 13 のラボからの 42 モデルを評価すると、最上位モデルの Gemini-3.1-Pro-Preview は 53.17% に達し、続いて Claude-Opus-4.6 が 49.92%、GPT-5.4 が 48.55% となり、飽和以下にかなりのヘッドルームが残されています。完全なリーダーボードは、滑らかな全体の順序ではなく階層構造を示しています。小規模なフロンティア階層は 48% を超え、高密度の強力なモデル階層は約 38 ～ 45% に広がり、低パフォーマンスのモデルは 10% の確率ベースラインをわずかに上回る程度に留まっています。ツールの強化により、5 つのツール使用評価全体で最大 5.17 ポイントが加算され、そのゲインはモデルによって大幅に異なります。限られた予算の分散を明示し、隣接するランクの過度の解釈を防ぐために、ブートストラップのランキング安定性統計を報告します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Knowledge Index of Noah&#x27;s Ark</p>
        <p class="orig-summary">Knowledge benchmarks for LLMs face three issues: scaling-driven designs that do not operationalize disciplinary representativeness; flat-payment annotation that permits lazy consensus; and unaudited ranking instability under bounded test budgets. We introduce KINA, an 899-item benchmark across 261 fine-grained disciplines, with two formal results. First, we cast representativeness as a coverage-style objective over expert-elicited anchors and operationalize disciplinary representativeness through a proxy, yielding a (1-1/e) greedy approximation (Proposition 1); the guarantee applies to the proxy, not to population representativeness. Second, we prove a bonus-on-bar tournament weakly FOSD-dominates flat payment in released-review quality, with incentive-compatibility threshold B &gt; Delta C / Delta p_min (Theorem 1). Evaluating 42 models from 13 labs, the top model, Gemini-3.1-Pro-Preview, reaches 53.17%, followed by Claude-Opus-4.6 at 49.92% and GPT-5.4 at 48.55%, leaving substantial headroom below saturation. The full leaderboard shows a tiered structure rather than a smooth total order: a small frontier tier lies above 48%, a dense strong-model tier spans roughly 38-45%, and low-performing models remain only modestly above the 10% chance baseline. Tool augmentation adds up to 5.17 points across the five tool-use evaluations, with gains varying substantially across models. We report bootstrap ranking-stability statistics to make bounded-budget variance explicit and to discourage over-interpretation of adjacent ranks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="77e5f73c065d" data-article-url="https://arxiv.org/abs/2006.04013" data-article-title="AI の具体的なものから抽象的なものへ: 一般の人々に人工知能の謎を解き明かす" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2006.04013" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2006.04013" target="_blank" rel="noopener">AI の具体的なものから抽象的なものへ: 一般の人々に人工知能の謎を解き明かす</a></h3>
      <p class="summary">人工知能（AI）は幅広い分野で導入されています。これは、一般の人々に AI の意味について最低限の理解を与える手段を開発することが不可欠であることを示しています。この記事では、ビジュアル プログラミングと WiSARD 無重力人工ニューラル ネットワークを組み合わせて、一般の人々 (子供を含む) がこの目標を達成できるようにする新しい方法論、具体から抽象への AI (AIcon2abs) を紹介します。が採用した主な戦略は、学習機械の開発に関連する実践的な活動や学習プロセスの観察を通じて、人工知能の謎を解くことを促進することです。したがって、人工知能メカニズムの導入に関わる議論や意思決定において、被験者を洞察力に富んだ主体にするのに役立つスキルを被験者に提供することが可能です。現在、プログラミングを通じて基本的な AI 概念を教える既存のアプローチでは、マシン インテリジェンスを外部要素/モジュールとして扱っています。トレーニング後、その外部モジュールは、学習者が開発しているメイン アプリケーションに結合されます。ここで提示する方法論では、トレーニング タスクと分類タスクの両方が、他のプログラミング構造と同様に、メイン プログラムを構成するブロックです。 AIcon2abs の有益な副作用として、データから学習できるプログラムと従来のコンピューター プログラムとの違いがより明確になります。さらに、WiSARD 無重力人工ニューラル ネットワーク モデルのシンプルさにより、トレーニングと分類タスクの内部実現を簡単に視覚化して理解することができます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AI from concrete to abstract: demystifying artificial intelligence to the general public</p>
        <p class="orig-summary">Artificial Intelligence (AI) has been adopted in a wide range of domains. This shows the imperative need to develop means to endow common people with a minimum understanding of what AI means. Combining visual programming and WiSARD weightless artificial neural networks, this article presents a new methodology, AI from concrete to abstract (AIcon2abs), to enable general people (including children) to achieve this goal. The main strategy adopted by is to promote a demystification of artificial intelligence via practical activities related to the development of learning machines, as well as through the observation of their learning process. Thus, it is possible to provide subjects with skills that contributes to making them insightful actors in debates and decisions involving the adoption of artificial intelligence mechanisms. Currently, existing approaches to the teaching of basic AI concepts through programming treat machine intelligence as an external element/module. After being trained, that external module is coupled to the main application being developed by the learners. In the methodology herein presented, both training and classification tasks are blocks that compose the main program, just as the other programming constructs. As a beneficial side effect of AIcon2abs, the difference between a program capable of learning from data and a conventional computer program becomes more evident. In addition, the simplicity of the WiSARD weightless artificial neural network model enables easy visualization and understanding of training and classification tasks internal realization.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3075df38c70a" data-article-url="https://arxiv.org/abs/2401.07386" data-article-title="機械はどのように学習するのでしょうか? AIcon2abs メソッドの評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2401.07386" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2401.07386" target="_blank" rel="noopener">機械はどのように学習するのでしょうか? AIcon2abs メソッドの評価</a></h3>
      <p class="summary">この研究は、幼稚園から高校までの学生を含むさまざまな年齢層にわたって機械学習 (ML) に対する国民の理解を高めるために設計された革新的なアプローチである AIcon2abs 手法 (具体から抽象への AI: 一般大衆への人工知能の謎を解く) を紹介した以前の研究を拡張し、その有効性を評価することを目的としています。 AIcon2Abs は、シンプルさとユーザー アクセシビリティで知られる無重力ニューラル ネットワークである WiSARD アルゴリズムを採用しています。 WiSARD はインターネットを必要としないため、技術者以外のユーザーやリソースが限られた環境に最適です。この方法により、参加者は、あたかもアルゴリズムそのものであるかのように、魅力的な実践的なアクティビティを通じて ML プロセスを直感的に視覚化し、対話することができます。この方法により、ユーザーは実践的な活動を通じてトレーニングと分類の内部プロセスを直感的に視覚化して理解することができます。 WiSARD の機能にインターネット接続が必要なくなると、たとえ 1 つの例であっても最小限のデータセットから効果的に学習できます。この機能を使用すると、ユーザーは、より多くのデータを受信するにつれてマシンがどのように精度を向上させるかを観察できます。さらに、WiSARD は学んだことを表す精神的な画像を生成し、機密データの重要な特徴を強調します。 AIcon2abs は、子供 5 人、青少年 5 人、成人 24 人を含む 34 人のブラジル人参加者による 6 時間の遠隔コースを通じてテストされました。データ分析は、混合法による事前実験（仮説検証を含む）と定性的現象学的分析の2つの観点から実施しました。ほぼすべての参加者が AIcon2abs を肯定的に評価し、その結果は意図した結果の達成に高い満足度を示しました。この研究はCEP-HUCFF-UFRJ研究倫理委員会によって承認されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">How do machines learn? Evaluating the AIcon2abs method</p>
        <p class="orig-summary">This study expands on previous work that introduced the AIcon2abs method (AI from Concrete to Abstract: Demystifying Artificial Intelligence to the general public), an innovative approach designed to increase public understanding of machine learning (ML) across diverse age groups, including K-12 students, and aims to evaluate its effectiveness. AIcon2Abs employs the WiSARD algorithm, a weightless neural network known for its simplicity, and user accessibility. WiSARD does not require Internet, making it ideal for non-technical users and resource-limited environments. This method enables participants to intuitively visualize and interact with ML processes through engaging, hands-on activities, as if they were the algorithms themselves. The method allows users to intuitively visualize and understand the internal processes of training and classification through practical activities. Once WiSARDs functionality does not require an Internet connection, it can learn effectively from a minimal dataset, even from a single example. This feature enables users to observe how the machine improves its accuracy incrementally as it receives more data. Moreover, WiSARD generates mental images representing what it has learned, highlighting essential features of the classified data. AIcon2abs was tested through a six-hour remote course with 34 Brazilian participants, including 5 children, 5 adolescents, and 24 adults. Data analysis was conducted from two perspectives: a mixed-method pre-experiment (including hypothesis testing), and a qualitative phenomenological analysis. Nearly all participants rated AIcon2abs positively, with the results demonstrating a high degree of satisfaction in achieving the intended outcomes. This research was approved by the CEP-HUCFF-UFRJ Research Ethics Committee.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5759e1342f7f" data-article-url="https://arxiv.org/abs/2509.10247" data-article-title="DiffAero: 効率的なクアドローター ポリシー学習のための GPU アクセラレーションによる微分可能シミュレーション フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.10247" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.10247" target="_blank" rel="noopener">DiffAero: 効率的なクアドローター ポリシー学習のための GPU アクセラレーションによる微分可能シミュレーション フレームワーク</a></h3>
      <p class="summary">このレターでは、効率的なクワッドローター制御ポリシー学習のために設計された、軽量で GPU アクセラレーションを備えた完全微分可能なシミュレーション フレームワークである DiffAero を紹介します。 DiffAero は、環境レベルとエージェント レベルの両方の並列処理をサポートし、複数のダイナミクス モデル、カスタマイズ可能なセンサー スタック (IMU、深度カメラ、LiDAR)、および多様な飛行タスクを統合された GPU ネイティブのトレーニング インターフェイス内に統合します。 DiffAero は、GPU 上で物理とレンダリングの両方を完全に並列化することで、CPU と GPU 間のデータ転送のボトルネックを排除し、シミュレーションのスループットを桁違いに向上させます。既存のシミュレータとは対照的に、DiffAero は高性能シミュレーションを提供するだけでなく、微分可能なハイブリッド学習アルゴリズムを探索するための研究プラットフォームとしても機能します。広範なベンチマークと実際の飛行実験により、DiffAero とハイブリッド学習アルゴリズムを組み合わせることで、消費者グレードのハードウェアで堅牢な飛行ポリシーを数時間で学習できることが実証されました。コードは https://github.com/flyingbitac/diffaero で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DiffAero: A GPU-Accelerated Differentiable Simulation Framework for Efficient Quadrotor Policy Learning</p>
        <p class="orig-summary">This letter introduces DiffAero, a lightweight, GPU-accelerated, and fully differentiable simulation framework designed for efficient quadrotor control policy learning. DiffAero supports both environment-level and agent-level parallelism and integrates multiple dynamics models, customizable sensor stacks (IMU, depth camera, and LiDAR), and diverse flight tasks within a unified, GPU-native training interface. By fully parallelizing both physics and rendering on the GPU, DiffAero eliminates CPU-GPU data transfer bottlenecks and delivers orders-of-magnitude improvements in simulation throughput. In contrast to existing simulators, DiffAero not only provides high-performance simulation but also serves as a research platform for exploring differentiable and hybrid learning algorithms. Extensive benchmarks and real-world flight experiments demonstrate that DiffAero and hybrid learning algorithms combined can learn robust flight policies in hours on consumer-grade hardware. The code is available at https://github.com/flyingbitac/diffaero.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2dd90da1702f" data-article-url="https://arxiv.org/abs/2605.13672" data-article-title="SpurAudio: 少数ショット音声分類におけるショートカット学習を研究するためのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13672" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13672" target="_blank" rel="noopener">SpurAudio: 少数ショット音声分類におけるショートカット学習を研究するためのベンチマーク</a></h3>
      <p class="summary">少数ショット分類 (FSC) は、限られたラベル付きデータから学習するために広く使用されていますが、ほとんどの評価は、ターゲットの概念が文脈上の手がかりから独立していることを暗黙的に前提としています。ただし、現実世界の設定では、サンプルがリッチ コンテキスト内に表示されることが多く、モデルが前景コンテンツと背景信号の間の偽の相関を利用できるようになります。このような効果は少数ショット画像分類で研究されていますが、少数ショット音声分類におけるその役割はほとんど解明されておらず、既存の音声ベンチマークでは文脈構造に対する制御が限られています。 SpurAudio というベンチマークを紹介します。これは、オーディオの前景イベントと背景環境の自然な分離性を活用して、サポートおよびクエリ セットにわたるコンテキストの変化を制御されたマルチレベルの評価を可能にするベンチマークです。このベンチマークを使用して、多くの最先端の少数ショット手法は、標準的な評価プロトコルで同様の精度を達成しているにもかかわらず、バックグラウンド相関が破壊されると重大なパフォーマンス低下に見舞われることがわかります。重要なのは、この脆弱性は大規模な事前トレーニング済みオーディオ基盤モデルでも存続しており、バックボーン容量の制限が説明の対象外となっているということです。さらに、従来のベンチマークでは同等に見える手法でも、偽の相関に対して著しく異なる感度を示す可能性があり、推論時に特徴表現が分類器ヘッドとどのように相互作用するかに関連する体系的なアルゴリズムの強みと脆弱性が明らかになります。これらの発見は、オーディオにおける少数ショット法の動作に関する新たな洞察を提供し、FSC モデルを評価する際のコンテキスト依存性を明示的に調査するベンチマークの必要性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SpurAudio: A Benchmark for Studying Shortcut Learning in Few-Shot Audio Classification</p>
        <p class="orig-summary">Few-shot classification (FSC) is widely used for learning from limited labeled data, yet most evaluations implicitly assume that target concepts are independent of contextual cues. In real-world settings, however, examples often appear within rich contexts, allowing models to exploit spurious correlations between foreground content and background signals. While such effects have been studied in few-shot image classification, their role in few-shot audio classification remains largely unexplored, and existing audio benchmarks offer limited control over contextual structure. We introduce SpurAudio, a benchmark that leverages the natural separability of foreground events and background environments in audio to enable controlled, multi-level evaluation of contextual shifts across support and query sets. Using this benchmark, we show that many state-of-the-art few-shot methods suffer severe performance degradation when background correlations are disrupted, despite achieving similar accuracy under standard evaluation protocols. Crucially, this vulnerability persists even in large pretrained audio foundation models, ruling out limited backbone capacity as an explanation. Moreover, methods that appear comparable under conventional benchmarks can exhibit markedly different sensitivity to spurious correlations, revealing systematic algorithmic strengths and vulnerabilities tied to how feature representations interact with classifier heads at inference time. These findings provide new insight into the behavior of few-shot methods in audio and highlight the need for benchmarks that explicitly probe context dependence when evaluating FSC models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="25a84d137ba1" data-article-url="https://arxiv.org/abs/2606.03554" data-article-title="相関マッチングによる制約強化物理検索" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03554" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03554" target="_blank" rel="noopener">相関マッチングによる制約強化物理検索</a></h3>
      <p class="summary">物理システムは、検索プロセスにノイズを加えるだけではありません。構造化された相関関係を生成する制約を課します。我々は、探索における時間的相関を、更新ダイナミクスにおける制約によって引き起こされる空間的相関と一致させる、制約強化物理探索の原理を提案する。最小限の綱引きバンディット モデル (TOW) を使用して、保存則が局所的な観察を複数の選択肢にわたる差分証拠に変換する一方で、時間的に相関する推進力が探索の順序を制御することを示します。検索効率は、より強力なランダム性や最大の逆相関によってではなく、フィードバックを証拠に変換する物理的な更新スケールに時間的相関を一致させることによって改善されます。スケーリング推定では、時間的逆相関をどの程度強く使用できるかを制限する主要なパラメーターとして更新ノイズ対コントラスト比が特定されます。この結果は、物理検索の一般的な組織化原則を示唆しています。つまり、制約と変動によって構造化された時空間相関が生成され、これらの相関が更新ダイナミクスと一致すると効率的な探索が可能になります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Constraint-Enhanced Physical Search through Correlation Matching</p>
        <p class="orig-summary">Physical systems do not merely add noise to search processes; they impose constraints that generate structured correlations. We propose a principle of constraint-enhanced physical search in which temporal correlations in exploration are matched to constraint-induced spatial correlations in the update dynamics. Using a minimal tug-of-war bandit model (TOW), we show that a conservation law converts local observations into differential evidence across alternatives, while a temporally correlated drive controls the order of exploration. Search efficiency is improved not by stronger randomness or by maximal anti-correlation, but by matching the temporal correlation to the physical update scale that converts feedback into evidence. A scaling estimate identifies the update-noise-to-contrast ratio as the leading parameter that limits how strongly temporal anti-correlation can be used. The results suggest a general organizing principle for physical search: constraints and fluctuations can generate structured spatiotemporal correlations, and efficient exploration emerges when these correlations are matched to the update dynamics.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4df7fc66240d" data-article-url="https://arxiv.org/abs/2606.03995" data-article-title="臨床バイオマーカーに関する説明可能な機械学習を使用したアルツハイマー病の早期検出: アルツハイマー病神経画像イニシアチブ (ADNI) データセットを使用した多クラス分類研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03995" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03995" target="_blank" rel="noopener">臨床バイオマーカーに関する説明可能な機械学習を使用したアルツハイマー病の早期検出: アルツハイマー病神経画像イニシアチブ (ADNI) データセットを使用した多クラス分類研究</a></h3>
      <p class="summary">背景: アルツハイマー病 (AD) は、世界中で 5,500 万人以上の人々に影響を与えています。日常的な臨床評価による正常認知 (NC)、軽度認知障害 (MCI)、および AD の正確で解釈可能な検出は、依然として重要な満たされていないニーズです。方法: XGBoost 分類器は、アルツハイマー病神経画像イニシアチブ (ADNI) の 8 つの臨床特徴 (MMSE、CDR Global、CDR Sum of Boxes (CDR-SB)、MoCA、FAQ、年齢、性別、教育) を使用して 3 クラス検出用に開発されました。ハイパーパラメータは Optuna を使用して最適化されました (50 回のトライアル)。クラスの不均衡は SMOTE で解決されました。パフォーマンスは、1,000 回の反復ブートストラップ 95% 信頼区間、マクロ F1、バランスの取れた精度、およびコーエンのカッパを使用したマクロ AUC-ROC によって評価されました。 SHAP 値により、機能レベルの説明可能性が提供されました。結果: データセットには、1,641 人のベースライン被験者 (NC 608 人、MCI 767 人、AD 266 人) が含まれていました。 5 分割交差検証では、平均マクロ AUC は 0.983 (SD 0.007)、精度 0.944 (SD 0.006)、およびマクロ F1 0.929 (SD 0.008) でした。ホールドアウトされたテストセット (n = 247) では、マクロ AUC は 0.982 (95% CI: 0.965--0.995)、精度 0.943、バランス精度 0.932、マクロ F1 0.927、およびコーエンのカッパ 0.909 でした。 SHAP 分析では、CDR Global が NC および MCI の主要な予測因子であることが特定され、CDR-SB と MMSE が一緒になって AD 分類を推進しました。結論: ルーチンの臨床評価に基づいてトレーニングされた説明可能な機械学習モデルは、ほぼ完璧な 3 クラスのアルツハイマー病の検出を達成します。 SHAP 分析は、臨床的妥当性を裏付ける、臨床的に妥当なクラス固有の特徴の重要性パターンを明らかにします。将来の研究では、マルチモーダル検出のための音声バイオマーカーを使用してこのフレームワークを拡張します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Early Detection of Alzheimer&#x27;s Disease Using Explainable Machine Learning on Clinical Biomarkers: A Multi-Class Classification Study Using the Alzheimer&#x27;s Disease Neuroimaging Initiative (ADNI) Dataset</p>
        <p class="orig-summary">Background: Alzheimer&#x27;s disease (AD) affects over 55 million people worldwide. Accurate, interpretable detection of normal cognition (NC), mild cognitive impairment (MCI), and AD from routine clinical assessments remains a critical unmet need. Methods: An XGBoost classifier was developed for three-class detection using eight clinical features from the Alzheimer&#x27;s Disease Neuroimaging Initiative (ADNI): MMSE, CDR Global, CDR Sum of Boxes (CDR-SB), MoCA, FAQ, age, sex, and education. Hyperparameters were optimised using Optuna (50 trials); class imbalance was addressed with SMOTE. Performance was evaluated by macro AUC-ROC with 1,000-iteration bootstrap 95% confidence intervals, macro F1, balanced accuracy, and Cohen&#x27;s kappa. SHAP values provided feature-level explainability. Results: The dataset comprised 1,641 baseline subjects (608 NC, 767 MCI, 266 AD). On five-fold cross-validation, mean macro AUC was 0.983 (SD 0.007), accuracy 0.944 (SD 0.006), and macro F1 0.929 (SD 0.008). On the held-out test set (n = 247), macro AUC was 0.982 (95% CI: 0.965--0.995), accuracy 0.943, balanced accuracy 0.932, macro F1 0.927, and Cohen&#x27;s kappa 0.909. SHAP analysis identified CDR Global as the dominant predictor for NC and MCI, while CDR-SB and MMSE together drove AD classification. Conclusion: An explainable machine learning model trained on routine clinical assessments achieves near-perfect three-class Alzheimer&#x27;s detection. SHAP analysis reveals clinically plausible, class-specific feature importance patterns supporting clinical validity. Future work will extend this framework with speech biomarkers for multimodal detection.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3fd1b17caa33" data-article-url="https://arxiv.org/abs/2606.04008" data-article-title="3 次元シーンにおける無人水中車両騒音スペクトル予測のための神経放射雑音場" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04008" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04008" target="_blank" rel="noopener">3 次元シーンにおける無人水中車両騒音スペクトル予測のための神経放射雑音場</a></h3>
      <p class="summary">無人水中飛行体 (UUV) の放射騒音は、音響特性を特徴づけ、プラットフォームの性能を評価するための重要な指標です。従来の物理ベースのモデリングと数値シミュレーション手法がターゲットの構造情報と環境境界条件に強く依存していること、および 3 次元シーンで連続的な空間スペクトル応答モデリングを実現できないことに対処するために、この論文では神経放射雑音場 (NRNF) を提案します。 NRNF は、UUV 放射ノイズ スペクトルを 3 次元 UUV 位置、3 次元ハイドロホン位置、UUV ヨー角、および周波数の連続関数として表し、任意の空間位置でのクエリベースの予測を可能にします。提案された方法は、位置と周波数の正弦波エンコードを採用し、環境構造と伝播効果を明示的に表現するために学習可能な 3 次元シーン特徴グリッドを導入します。スペクトル予測データセットは湖のトライアルから構築され、提案されたモデルは 3 つの設定 (水平外挿、深さ外挿、およびクロスラン一般化) の下で評価されます。結果は、NRNF が 50 ～ 5000 Hz 帯域で 3.5 dB の平均予測誤差を達成することを示しています。水平方向の外挿が最も簡単で、深さの外挿が最も難しく、クロスラン汎化は中程度の難易度です。さらにアブレーションの結果は、シーン フィーチャ グリッドがモデルの予測安定性と空間一般化を大幅に改善することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Neural Radiated-Noise Fields for Unmanned Underwater Vehicle Noise Spectrum Prediction in Three-Dimensional Scenes</p>
        <p class="orig-summary">Radiated noise in unmanned underwater vehicles (UUVs) is an important indicator for characterizing acoustic signatures and evaluating platform performance. To address the strong dependence of traditional physics-based modeling and numerical simulation methods on target structural information and environmental boundary conditions, and their inability to achieve continuous spatial spectrum-response modeling in three-dimensional scenes, this paper proposes a neural radiated-noise field (NRNF). An NRNF represents the UUV radiated-noise spectrum as a continuous function of the three-dimensional UUV position, the three-dimensional hydrophone position, the UUV yaw angle, and the frequency, enabling query-based prediction at arbitrary spatial locations. The proposed method employs sinusoidal encoding for position and frequency, and introduces a learnable three-dimensional scene feature grid to explicitly represent environmental structure and propagation effects. A spectrum-prediction dataset is constructed from lake trials, and the proposed model is evaluated under three settings: horizontal extrapolation, depth extrapolation, and cross-run generalization. Results show that the NRNF achieves an average prediction error of 3.5 dB in the 50 to 5000 Hz band. Horizontal extrapolation is easiest, depth extrapolation is the most challenging, and cross-run generalization is of intermediate difficulty. Further ablation results demonstrate that the scene feature grid significantly improves the prediction stability and spatial generalization of the model.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4887769f79c5" data-article-url="https://arxiv.org/abs/2606.04009" data-article-title="ディープ 2 サンプル テストに対する反事実の説明" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04009" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04009" target="_blank" rel="noopener">ディープ 2 サンプル テストに対する反事実の説明</a></h3>
      <p class="summary">2 サンプル テストは、科学分野全体の分布の違いを検出するための基本的なツールですが、従来のテスト (カーネルベースのテストを含む) は、画像などの高次元構造化データに対しては効果がない場合があります。最近のディープ 2 サンプル テストでは、有益な表現を学習することでこれらの設定での感度が向上しますが、どのデータ特徴が帰無仮説 $H_0$ の棄却につながるかについての洞察は限られています。この問題に対処するために、我々は、テストによって測定された不一致を明示的に削減しながら、観測値をソースグループからターゲットグループに移動させるサンプルレベルの編集を生成する、深い2サンプルテストのための反事実説明フレームワークを提案します。私たちの手法では、拡散オートエンコーダーと事前学習済みのディープ 2 サンプル テスト モデルを組み合わせ、テスト モデルの表現空間で最大平均不一致 (MMD) 目標を最適化して、もっともらしい反事実を生成します。検定統計量の変化とその結果得られる 2 サンプルの p 値を通じて、分布レベルの効果を定量化します。合成 2D 形状データセットと 2 つの MRI コホートでこの方法を評価します。どちらの設定でも、反事実変換により元のサンプルと比較して p 値が一貫して増加しており、編集されたソース セットが統計的にテスト下のターゲット分布に近づくことを示しています。 LPIPS を使用して最小性を測定し、反事実が元のサンプルに近いままであることを確認します。結果として得られる編集は、検出されたグループの違いに関連する特徴の解釈可能な証拠を提供します。 MRI では、局所的な変化はコホート間の既知の解剖学的差異と一致します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Counterfactual Explanations for Deep Two-Sample Testing</p>
        <p class="orig-summary">Two-sample testing is a fundamental tool for detecting distributional differences across scientific domains, but classical tests (including kernel-based tests) can be ineffective on high-dimensional structured data such as images. Recent deep two-sample tests improve sensitivity in these settings by learning informative representations, yet they provide limited insight into which data features drive rejection of the null hypothesis $H_0$. To address this issue, we propose a counterfactual explanation framework for deep two-sample testing that generates sample-level edits moving observations from a source group toward a target group while explicitly reducing the discrepancy measured by the test. Our method combines a diffusion autoencoder with a pretrained deep two-sample test model and optimizes a maximum mean discrepancy (MMD) objective in the test model&#x27;s representation space to produce plausible counterfactuals. We quantify distribution-level effects through changes in the test statistic and the resulting two-sample p-values. We evaluate the method on synthetic 2D shape datasets and two MRI cohorts. Across both settings, the counterfactual transformations consistently increase p-values relative to the original samples, indicating that the edited source set becomes statistically closer to the target distribution under the test. We measure minimality using LPIPS to ensure the counterfactuals remain close to the original samples. The resulting edits provide interpretable evidence of the features associated with the detected group differences. On MRI, the localized changes are consistent with known anatomical differences between cohorts.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="789b6d20212a" data-article-url="https://arxiv.org/abs/2606.04010" data-article-title="分散脳基盤モデルが忘れていたもの: 数十億パラメータのモデルが失敗する場合、三次統計が認知を予測する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04010" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04010" target="_blank" rel="noopener">分散脳基盤モデルが忘れていたもの: 数十億パラメータのモデルが失敗する場合、三次統計が認知を予測する</a></h3>
      <p class="summary">Brain Foundation Model (BFM) は、fMRI データで事前トレーニングされた自己監視型トランスフォーマーです。私たちは、これらのモデルは各被験者の fMRI 信号から認知パフォーマンスを捕捉する必要があると仮定します。しかし、3 つの最先端の BFM とテストしたすべての読み取り値にわたって、関数接続性行列 (FC) の $\sim$80K パラメーターからの線形回帰よりも悪い認知を予測します。この差は規模が大きくなるほど拡大します。BrainLM の 650M モデルは、111M モデルよりも悪い認知を予測します。これは \textbf{分散割り当て問題} によるものだと考えられます。BFM 事前トレーニングは、fMRI を支配する分散成分を捕捉しますが、認知を予測する高次構造は捕捉しません。再構成された信号のキュムラント分析では、2 次の共分散が部分的に保存されている一方で、3 次の共歪度テンソルは大部分が破壊されていることが示されています。 BFM が失ったものを回復するために、fMRI 信号を共歪みを最もよく保存する部分空間に投影し、そこで FC を計算する線形パイプラインを設計します。これは、テストしたすべてのデータセットと分割で \textbf{生の FC とすべての事前トレーニング済み BFM を上回り}、制御された評価 \textbf{事前トレーニングや GPU を使用しない} のもとでの以前の最先端技術を上回っています。この同じ部分空間を対象とした損失を微調整することで、\textbf{BrainLM のフォワード パスの raw FC 天井を回復}します。これは、ボトルネックはアーキテクチャやモデルのサイズではなく、事前トレーニングの目的であることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Variance Brain Foundation Models Forgot: Third-Order Statistics Predict Cognition Where Billion-Parameter Models Fail</p>
        <p class="orig-summary">Brain foundation models (BFMs) are self-supervised Transformers pretrained on fMRI data. We posit that these models should capture each subject&#x27;s cognitive performance from their fMRI signal. Yet across three state-of-the-art BFMs and every readout we test, they predict cognition worse than a linear regression from the $\sim$80K parameters of the functional connectivity matrix (FC). The gap widens with scale: BrainLM&#x27;s 650M model predicts cognition worse than its 111M. We attribute this to a \textbf{variance allocation problem}: BFM pretraining captures the variance components that dominate fMRI but not the higher-order structure that predicts cognition. Our per-cumulant analysis of the reconstructed signal shows that the second-order covariance is partially preserved, while the third-order co-skewness tensor is largely destroyed. To recover what BFMs lose, we design a linear pipeline that projects the fMRI signal into the subspace that best preserves its co-skewness and computes FC there. This \textbf{exceeds raw FC and every pretrained BFM} on every dataset and parcellation we test, outperforming prior state-of-the-art under controlled evaluation \textbf{with no pretraining and no GPU}. We \textbf{recover the raw-FC ceiling on BrainLM&#x27;s forward pass} by finetuning with a loss targeted at this same subspace. This shows that the bottleneck is the pretraining objective, not the architecture or the model size.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0d25bbfca2f6" data-article-url="https://arxiv.org/abs/2606.04019" data-article-title="人間の活動認識における軽量 SensorLLM のための重力認識階層ルーティング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04019" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04019" target="_blank" rel="noopener">人間の活動認識における軽量 SensorLLM のための重力認識階層ルーティング</a></h3>
      <p class="summary">センサーと言語のアライメントに関する最近の研究では、2 段階のフレームワークにより、ウェアラブル センサーの人間活動認識 (HAR) のセマンティック モデリング能力が向上することが示されています。SensorLLM スタイルのメソッドは、最初にモーションと言語のアライメントを実行し、次に下流のタスクに向けてモデルを微調整します。しかし、私たちの実験では、ステージ 2 のバックボーンが TinyLlama などのコンパクトなモデルに圧縮された場合に、一貫した故障モードが明らかになりました。動的アクティビティの認識は比較的強いままですが、立つ、座る、横たわるなどの動きの少ない静的なクラスの識別は大幅に低下します。この問題に対処するために、新しい大規模な事前トレーニング フレームワークではなく、すでに位置合わせされたモデルの上に構築された軽量の位置合わせ後の適応として、重力を認識した階層型ルーティング ヘッドを提案します。このメソッドは、Chronos トークナイザーの状態からのチャネルごとの平均と標準偏差を使用して、姿勢と重力方向に関連する統計的手がかりを抽出し、安定したトレーニングのための負荷分散損失とともに、ソフト ルーティングを通じて静的エキスパートと完全エキスパートを適応的に組み合わせます。 MHealth データセットでは、この設計により、最小限のパラメーター オーバーヘッドでマクロ F1 が大幅に改善され、動的アクティビティでの優れたパフォーマンスを維持しながら、ゲインは主に静的クラスに集中します。最初の arXiv 開示として、現在の論文は単一のデータセットのみに関する結果を報告しており、その目的は、中核となる手法を強調し、将来の研究におけるより広範な評価のための基礎を築くことです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Gravity-Aware Hierarchical Routing for Lightweight SensorLLM on Human Activity Recognition</p>
        <p class="orig-summary">Recent studies on sensor-language alignment have shown that two-stage frameworks can improve the semantic modeling ability of wearable-sensor human activity recognition (HAR), where SensorLLM-style methods first perform motion-to-language alignment and then fine-tune the model for downstream tasks. However, our experiments reveal a consistent failure mode when the Stage 2 backbone is compressed to a compact model such as TinyLlama: recognition of dynamic activities remains relatively strong, while the discrimination of low-motion static classes such as standing, sitting, and lying degrades substantially. To address this issue, we propose a gravity-aware hierarchical routing head as a lightweight post-alignment adaptation built on top of an already aligned model, rather than a new large-scale pretraining framework. The method uses the per-channel mean and std from the Chronos tokenizer state to extract statistical cues related to posture and gravity direction, and adaptively combines a static expert and a full expert through soft routing, together with a load-balancing loss for stable training. On the MHealth dataset, this design significantly improves macro-F1 with minimal parameter overhead, and the gains are concentrated mainly on static classes while preserving strong performance on dynamic activities. As a first arXiv disclosure, the current paper reports results on a single dataset only, with the goal of highlighting the core method and laying the groundwork for broader evaluation in future work.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="349e429be1b8" data-article-url="https://arxiv.org/abs/2606.04023" data-article-title="CodegenBench: LLM はアーキテクチャ全体で効率的なコードを記述できますか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04023" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04023" target="_blank" rel="noopener">CodegenBench: LLM はアーキテクチャ全体で効率的なコードを記述できますか?</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、汎用プログラミングや GPU アクセラレーション環境 (PyTorch、CUDA など) のコード生成タスクで広範囲に評価されてきましたが、多様なアーキテクチャにわたる CPU 指向のハイパフォーマンス コンピューティング (HPC) における LLM の機能はまだ十分に解明されていません。このギャップを埋めるために、x86_64、Sunway、Kunpeng の 3 つの異なるハードウェア プラットフォームにわたる効率的な並列コードの生成を評価するように設計された包括的なベンチマーク スイートである CodegenBench を紹介します。私たちのベンチマークは、基本的なベースラインを確立する 106 個の標準基本線形代数サブプログラム (BLAS) ルーチンと、独自のスーパーコンピューティング アーキテクチャ (LeetSunway および LeetKunpeng) のそれぞれに適合した 20 個の特殊な計算カーネルで構成されています。私たちの広範な評価により、最先端の LLM は x86_64 のようなユビキタス アーキテクチャ向けに最適化されたコードを生成できる一方で、公開ドキュメントやトレーニング データが限られたドメイン固有のアーキテクチャでは大幅なパフォーマンスの低下を示し、クロスプラットフォームの一般化における重大な制限が浮き彫りになったことが明らかになりました。さらに、実装の長さやタスクの複雑さなど、コードの品質に影響を与える要因を分析したところ、現在の LLM は、簡潔なコード スニペットを必要とする中程度に難しい問題に対して最も効果的であることが示されています。私たちは、LLM 主導の高性能コード生成における将来の研究を促進するために、データセットと自動評価インフラストラクチャをオープンソースにしています。リソースは https://anonymous.4open.science/r/CodegenBench-EDE1/ および https://anonymous.4open.science/r/CodegenBenchDataset-2551 で利用できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CodegenBench: Can LLMs Write Efficient Code Across Architectures?</p>
        <p class="orig-summary">While large language models (LLMs) have been extensively evaluated on code generation tasks for general-purpose programming and GPU-accelerated environments (e.g., PyTorch, CUDA), their capabilities in CPU-oriented high-performance computing (HPC) across diverse architectures remain underexplored. To bridge this gap, we introduce CodegenBench, a comprehensive benchmark suite designed to evaluate the generation of efficient parallel code across three distinct hardware platforms: x86_64, Sunway, and Kunpeng. Our benchmark comprises 106 standard Basic Linear Algebra Subprograms (BLAS) routines establishing a fundamental baseline, alongside 20 specialized computational kernels adapted for each of the unique supercomputing architectures (LeetSunway and LeetKunpeng). Our extensive evaluation reveals that while state-of-the-art LLMs can generate optimized code for ubiquitous architectures like x86_64, they exhibit significant performance degradation on domain-specific architectures with limited public documentation and training data, highlighting critical limitations in cross-platform generalization. Furthermore, our analysis of factors influencing code quality such as implementation length and task complexity indicates that current LLMs are most effective for moderately difficult problems requiring concise code snippets. We open-source our dataset and automated evaluation infrastructure to facilitate future research in LLM-driven high-performance code generation. The resources are available at https://anonymous.4open.science/r/CodegenBench-EDE1/ and https://anonymous.4open.science/r/CodegenBenchDataset-2551.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="810007fd6a19" data-article-url="https://arxiv.org/abs/2606.04025" data-article-title="ソフトウェア 4.0 のバイオミメティック アーキテクチャ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04025" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04025" target="_blank" rel="noopener">ソフトウェア 4.0 のバイオミメティック アーキテクチャ</a></h3>
      <p class="summary">主流のプログラミング パラダイムは、単一の人間の心がローカル マシンに命令を下すという過去の時代に最適化された実行モデルを継承しており、現代のシステムには歴史的なパス依存性という重荷が残されています。多次元のコネクショニスト知性をホストすることを強制されると、この脆弱なアセンブリ モデルは、確率論的および象徴的なインピーダンスの重大な不一致の重みで壊れてしまいます。最新の Software 3.x フレームワークは、ますます複雑化する外部ハーネスに大規模言語モデル (LLM) を収容することで不一致を補おうとしますが、この螺旋を描くアーキテクチャの複雑さは、静的コード アセンブリの維持コストを増大させるだけです。結果ではなく原因に対処するために、この論文ではソフトウェア 4.0、つまり人間の知能、ニューラル AI、およびネイティブに反射する記号基質のオートポイエーシス ヘテラルキーを紹介します。このパラダイムの下では、ソフトウェアは、解析される不活性なコーパスから、それ自体の構造的完全性をネイティブに検証、変更、進化させる自己調節代謝ネットワークに変換されます。このアーキテクチャを実現するプログラミング言語およびプラットフォームである Recognitive を紹介します。構造検証の負担を決定論的基板にオフロードすることにより、優れた推論時間スケーリング体制が解放されます。つまり、コネクショニスト計算が、構造制約を確率的にシミュレートするという破滅的な計算コストと財務コストではなく、完全に深い意味論的探索と仮説の横断に変換されます。従来の「ソフトウェア ファクトリー」の考え方を超えて、コネクショニストの意図を根付かせ、インテリジェンスの時代に完全に到達するために必要な理論的基礎を概説します。これは基本的なビジョンに関する文書です。型システムと操作セマンティクスの経験的評価と正式な仕様は、今後の作業の主題です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Biomimetic Architecture of Software 4.0</p>
        <p class="orig-summary">Dominant programming paradigms inherit an execution model optimised for a bygone era of a single human mind instructing a local machine, leaving contemporary systems burdened with historical path dependencies. When forced to host multi-dimensional, connectionist intelligence, this brittle assembly model fractures under the weight of a profound probabilistic-symbolic impedance mismatch. While contemporary Software 3.x frameworks attempt to patch the mismatch by encasing large language models (LLMs) in increasingly complicated external harnesses, this spiralling architectural complexity only compounds the carrying cost of static code assembly. To address the cause rather than the effects, this paper introduces Software 4.0 -- an autopoietic heterarchy of human intelligence, neural AI, and natively reflective symbolic substrate. Under this paradigm, software is transformed from an inert corpus to be parsed into a self-regulating metabolic network that natively verifies, modifies, and evolves its own structural integrity. We present Recognitive, the programming language and platform that materialises this architecture. By offloading the burden of structural verification to a deterministic substrate, it unlocks a superior inference-time scaling regime -- one where connectionist compute translates entirely into deep semantic exploration and hypothesis traversal rather than the ruinous computational and financial cost of simulating structural constraints probabilistically. Moving beyond the legacy &#x27;Software Factory&#x27; mindset, we outline the theoretical foundations required to ground connectionist intent and arrive fully in the intelligence age. This is a foundational vision paper; empirical evaluation and formal specification of the type system and operational semantics are the subject of future work.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3efe37356b21" data-article-url="https://arxiv.org/abs/2606.04027" data-article-title="MaskForge: 脱獄拡散のための構造認識型適応型攻撃 大規模言語モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04027" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04027" target="_blank" rel="noopener">MaskForge: 脱獄拡散のための構造認識型適応型攻撃 大規模言語モデル</a></h3>
      <p class="summary">拡散大規模言語モデル (dLLM) は、双方向コンテキストの下で部分的にマスクされたシーケンスを繰り返しノイズ除去することでテキストを生成し、自己回帰 LLM とは異なる安全面を公開します。マスク トークンはネイティブ入力であり、トークンは位置ではなく信頼度によってコミットされるため、監視対象のプレフィックスの埋め込みや外部を通じて有害なコンテンツが誘発される可能性があります。既存のジェイルブレイクは、このネイティブの埋め込み機能を見逃しているか、構造的な適応や蓄積された攻撃経験がほとんどなく、目標全体に均一に適用される多様性の低いマスクを含むテンプレートに依存しています。私たちは、増大する構造パターンのライブラリに対する最適化された検索として dLLM レッドチームをキャストする、完全にブラックボックスの適応型攻撃である MaskForge を提案します。 MaskForge は、成功した試行を再利用可能なスキーマに抽象化し、UCB バンディットで目標と互換性のあるパターンを選択し、現在のライブラリが失敗した場合にスコアラーに基づくフォールバックを呼び出します。成功した試行はパターン ライブラリに抽出され、目標全体にわたって経験を蓄積できるようになります。 5 つの公開 dLLM と 3 つのベンチマーク全体で、MaskForge は 79.3% の平均攻撃成功率を達成しており、最も強力な競合 dLLM ベースラインと比べて相対的に 17.6% 向上しています。成熟したパターン ライブラリは、更新なしで AdvBench にさらに転送され、88.2% の攻撃成功率と、最も強力な競合ベースラインと比較して 67% の相対的な改善を達成しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MaskForge: Structure-Aware Adaptive Attacks for Jailbreaking Diffusion Large Language Models</p>
        <p class="orig-summary">Diffusion large language models (dLLMs) generate text by iteratively denoising partially masked sequences under bidirectional context, exposing a safety surface distinct from autoregressive LLMs. Because mask tokens are native inputs and tokens are committed by confidence rather than position, harmful content can be induced through infilling and outside the monitored prefix. Existing jailbreaks either miss this native infill capability or rely on low-diversity mask-bearing templates applied uniformly across goals, with little structural adaptation or accumulated attack experience. We propose MaskForge, a fully black-box adaptive attack that casts dLLM red-teaming as optimized search over a growing library of structural patterns. MaskForge abstracts successful attempts into reusable schemas, selects goal-compatible patterns with a UCB bandit, and invokes a scorer-guided fallback when the current library fails. Successful attempts are distilled back into the pattern library, enabling experience to accumulate across goals. Across five public dLLMs and three benchmarks, MaskForge achieves an average attack success rate of 79.3%, a 17.6% relative improvement over the strongest competing dLLM baseline. The matured pattern library further transfers to AdvBench without any updates, achieving a 88.2% attack success rate and a 67% relative improvement over the strongest competing baseline.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dcd3215d3a79" data-article-url="https://arxiv.org/abs/2606.04029" data-article-title="立場: 導入された強化学習は継続的であるべきです" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04029" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04029" target="_blank" rel="noopener">立場: 導入された強化学習は継続的であるべきです</a></h3>
      <p class="summary">強化学習 (RL) はますます注目を集めており、実世界のユースケースで採用されています。これらのシステムのほとんどは、訓練してから修正するというパラダイムに従っており、訓練されたエージェントは、パフォーマンスが低下して再訓練が必要になるまで、世界と対話しながら学習しません。この意見書では、最適化ができないにもかかわらず評価報酬シグナルを受け取るエージェントをデプロイすることは、本質的に継続的な RL 問題であると主張します。私たちは、終わりのない学習を必要とする展開後の非定常性の 4 つの原因を特定し、最適に展開されたエージェントが適応をやめない理由を強調します。私たちは現実世界での継続的な RL の成功例を分析し、現在のトレーニングして修正するパラダイムから脱却するための利点と対策をコミュニティに提示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Position: Deployed Reinforcement Learning should be Continual</p>
        <p class="orig-summary">Reinforcement Learning (RL) has received increasing attention and adoption in real-world use cases. Most of these systems follow a train-then-fix paradigm, where trained agents do not learn while interacting with the world until performance degrades and retraining becomes necessary. In this position paper, we argue that deploying an agent that is incapable of optimality, but receives an evaluative reward signal, is inherently a continual RL problem. We identify four sources of non-stationarity after deployment that necessitate never-ending learning, and highlight why the best deployed agents never stop adapting. We analyze successful examples of continual RL in the real world, and present the community with the advantages and measures to move away from the current train-then-fix paradigm.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb2e11670630" data-article-url="https://arxiv.org/abs/2606.04032" data-article-title="トランスフォーマーには 3 つの投影が必要ですか? QKV バリアントの体系的な研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04032" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04032" target="_blank" rel="noopener">トランスフォーマーには 3 つの投影が必要ですか? QKV バリアントの体系的な研究</a></h3>
      <p class="summary">トランスフォーマーは、クエリ、キー、値 (QKV) アテンションの定式化が中心的な役割を果たし、さまざまな AI タスクの標準ソリューションとなっています。しかし、これら 3 つの予測の個々の寄与と、一部を省略した場合の影響については、依然として十分に理解されていません。 3 つの射影共有制約を系統的に評価します。a) Q-K=V (共有キーと値)、b) Q=K-V (共有クエリキー)、c) Q=K=V (単一射影)。最後の 2 つのバリアントは、対称的なアテンション マップを生成します。これに対処するために、2D 位置エンコーディングによる非対称の注意も調査します。合成タスク、ビジョン (MNIST、CIFAR、TinyImageNet、異常)、言語モデリング (10B トークン上の 300M および 1.2B パラメーター モデル) にわたる実験を通じて、当社のトランスフォーマーは QKV トランスフォーマーと同等か、場合によってはそれよりも優れたパフォーマンスを発揮することがわかりました。言語モデリングでは、Q-K=V 射影共有により、わずか 3.1% のパープレキシティ低下で 50% の KV キャッシュ削減が達成されます。重要なのは、射影共有はヘッド共有 (GQA/MQA) を補完するものです。Q-K=V と GQA-4 を組み合わせると 87.5% のキャッシュ削減が得られ、Q-K=V + MQA では 96.9% が達成され、実用的なオンデバイス推論が可能になります。キーと値は同様の表現空間を占有することができ、注意は低ランク領域で動作するため、Q-K=V は品質を維持しますが、Q=K-V は注意の方向性を壊すことを示します。私たちの結果は、投影共有を、直接的で定量化可能な推論メモリの利点を備えた注意力の結びつきの未解明な例として体系的に特徴付けており、特にエッジ展開に価値があります。コードは https://github.com/anusamadan02/Do-Transformers-Need-3-Projections で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Do Transformers Need Three Projections? Systematic Study of QKV Variants</p>
        <p class="orig-summary">Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c33571ef1c51" data-article-url="https://arxiv.org/abs/2606.04035" data-article-title="予測できない安全性: ドメイン依存のコンプライアンスとオープンウェイト LLM の透明性ギャップ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/copilot/" data-entity="copilot">Copilot</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04035" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04035" target="_blank" rel="noopener">予測できない安全性: ドメイン依存のコンプライアンスとオープンウェイト LLM の透明性ギャップ</a></h3>
      <p class="summary">我々は、オープンウェイト LLM におけるドメイン依存の安全行動の体系的な研究を紹介します。7 つの倫理ドメインにわたる 7 つの標準化された実験で、デュアルジャッジ検証による 4,200 件のインタラクションで 5 つのモデル (12B ～ 70B) をテストしました。二重条件の方法論を使用し、各シナリオを分析フレーム (危害の特定) と運用フレーム (危害の実行を支援) の両方でテストしたところ、コンプライアンス率は 14.7% (人身売買) から 85.7% (監視設計) まで変化しており、重複しないクラスター ブートストラップの 95% CI では 71 パーセント ポイントの範囲であることがわかりました。信頼できる展開には予測可能な安全動作が必要ですが、コンプライアンスは状況に大きく依存していることがわかりました。同じモデル (Mistral Nemo 12B) はリクエストの 100% で監視設計を提供しますが、トラフィックの支援は 26.7% のみです。この予測不可能性は、導入担当者にとって不透明です。技術的なフレーミング バイパスでは、拒否しきい値が変化したという外部からの信号なしに、エンジニアリング上の問題として再構成された有害な要求が安全トレーニングを無効にします。ドメイン内の異質性は 84.4pp に達しており、ドメイン レベルでも安全動作を予測できないことを意味します。 GitHub Copilot CLI デプロイ済み製品サーフェスを介してアクセスされた 5 つのフロンティア クローズド モデル (GPT-4.1/5.2、Claude Haiku/Sonnet/Opus 4.x、n=4,163 回答) での複製では、同じドメイン階層化が再現され、絶対レベルで減衰されていますが形状は同一であり、2 つの低コード化ドメイン (科学詐欺、監視) が再び最も寛容です。これらの結果は、現在の安全メカニズムには、信頼できる AI の導入に必要な透明性と一貫性が欠けていることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Unpredictable Safety: Domain-Dependent Compliance and the Transparency Gap in Open-Weight LLMs</p>
        <p class="orig-summary">We present a systematic study of domain-dependent safety behavior in open-weight LLMs: 7 standardized experiments across 7 ethical domains, testing 5 models (12B--70B) in 4,200 interactions with dual-judge validation. Using a dual-condition methodology, each scenario tested in both an analytical framing (identify the harm) and an operational framing (help commit the harm), we find compliance rates vary from 14.7% (human trafficking) to 85.7% (surveillance design), a 71-percentage-point span with non-overlapping cluster-bootstrapped 95% CIs. Trustworthy deployment requires predictable safety behavior, yet we find compliance is highly context-dependent: the same model (Mistral Nemo 12B) provides surveillance designs in 100% of requests but assists with trafficking in only 26.7%. This unpredictability is opaque to deployers: the technical framing bypass, where harmful requests reframed as engineering problems override safety training without any external signal that refusal thresholds have shifted. Within-domain heterogeneity reaches 84.4pp, meaning safety behavior cannot be predicted even at the domain level. A replication on five frontier closed models (GPT-4.1/5.2, Claude Haiku/Sonnet/Opus 4.x; n=4,163 responses) accessed via the GitHub Copilot CLI deployed-product surface reproduces the same domain stratification, attenuated in absolute level but identical in shape, with the two low-codification domains (science fraud, surveillance) again the most permissive. These results show that current safety mechanisms lack the transparency and consistency required for trustworthy AI deployment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e67d86b40eff" data-article-url="https://arxiv.org/abs/2606.04039" data-article-title="静的な事前確率を超えて: 大規模なアリのコロニー最適化のための動的ニューラル ガイダンス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04039" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04039" target="_blank" rel="noopener">静的な事前確率を超えて: 大規模なアリのコロニー最適化のための動的ニューラル ガイダンス</a></h3>
      <p class="summary">神経誘導型アリコロニー最適化 (ACO) は、トレーニングと推論の根本的な不整合に悩まされています。ポリシーは通常、静的な事前分布 (ヒートマップなど) を生成するようにトレーニングされますが、反復的な長期にわたる検索プロセスをガイドするために展開されます。本稿では、フェロモン分布と既存のソリューションを定期的に観察することで動的神経誘導を実現する新しいフレームワークである DyNACO を紹介します。 DyNACO を大規模に扱いやすくするために、私たちはこのポリシーを摂動ベースの ACO バックエンドと、有効性と安定したクレジット割り当てを共同で保証する範囲制限付きの改良メカニズムと組み合わせます。 TSP では、DyNACO は 100,000 ノード インスタンスにスケールし、ニューラル ベースラインを上回るパフォーマンスを示し、多くの場合、ガイドなしソルバーと比較して総実行時間を短縮します。キャパシティを意識したバックエンドを介して DyNACO を CVRP に拡張し、1% 未満のニューラル オーバーヘッドでガイドなしのベースラインを一貫して改善します。さらに、モデルの一般化機能を検証し、動的ガイダンスが静的事前ガイダンスよりも優れている理由を解明する詳細な分析を提供します。私たちの研究は、学習誘導型の最適化におけるニューラル トレーニングと反復検索ダイナミクスを調整する必要性を強調しています。コードは https://github.com/shoraaa/DyNACO で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond Static Priors: Dynamic Neural Guidance for Large-Scale Ant Colony Optimization</p>
        <p class="orig-summary">Neural-guided Ant Colony Optimization (ACO) suffers from a fundamental training-inference misalignment: policies are typically trained to generate static priors (e.g., heatmaps), yet deployed to guide iterative, long-horizon search processes. In this paper, we present DyNACO, a novel framework that achieves dynamic neural guidance by periodically observing the pheromone distribution and the incumbent solution. To make DyNACO tractable at scale, we pair the policy with a perturbation-based ACO backend and a scope-restricted refinement mechanism that jointly ensure efficacy and stable credit assignment. On TSP, DyNACO scales to 100,000-node instances and outperforms neural baselines while often reducing total runtime compared to the unguided solver. We extend DyNACO to CVRP via a capacity-aware backend, consistently improving the unguided baseline with less than 1% neural overhead. We further provide in-depth analysis validating the model&#x27;s generalization capabilities and elucidating why dynamic guidance outperforms static priors. Our work underscores the necessity of aligning neural training with iterative search dynamics in learning-guided optimization. The code is available at https://github.com/shoraaa/DyNACO.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="41b2ada03bd8" data-article-url="https://arxiv.org/abs/2606.04040" data-article-title="EEGから音楽への再構成のためのチャネル指向の設計" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04040" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04040" target="_blank" rel="noopener">EEGから音楽への再構成のためのチャネル指向の設計</a></h3>
      <p class="summary">ブレイン コンピューター インターフェイスは、神経信号から自然な刺激を解読することを目的としていますが、これまでの進歩のほとんどは視覚と言語に焦点を当てています。この記事では、信号が弱く、分散しており、ノイズやチャネル変動の影響を非常に受けやすい、より挑戦的ですがあまり研究されていない設定である脳波から音楽への再構成について研究します。私たちの中心的な発見は、初期のチャネルミキシングが弱いが識別可能なEEG信号を破壊するということです。これに対処するために、3 つの主要なコンポーネントを備えたチャネル指向の設計を提案します。具体的には、チャネルごとのトークン化は、各電極を明示的なトークンとして扱い、空間的に局所化された神経証拠を保持します。チャネルごとのマルチビュー自己蒸留は、時間的クロップとランダムなチャネル サブセット全体で一貫性を強制して、ロバストで分散された表現を学習します。また、チャネルごとのデータ拡張では、構造化チャネル ドロップアウトを導入して、ノイズ、アーティファクト、電極の欠落に対する不変性を改善します。これらのコンポーネントを組み合わせることで、弱いながらも有益な信号がチャネル間で保存され、セマンティックな音楽表現空間への安定した調整が可能になります。このチャネル指向の設計を、EEG から音楽への再構成のためのエンコーディング、アライメント、デコーディングのパイプライン内に統合します。理論的には、チャネルレベルの構造を保存することがアライメントの改善につながる場合を特徴付けます。経験的に、さまざまな最先端のベースラインと比較し、一貫した大幅なパフォーマンスの向上を実証しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Channel-Oriented Design for EEG-to-Music Reconstruction</p>
        <p class="orig-summary">Brain-computer interfaces aim to decode naturalistic stimuli from neural signals, yet most progress to date has focused on vision and language. In this article, we study a more challenging but far less explored setting, EEG-to-music reconstruction, where signals are weak, distributed, and highly susceptible to noise and channel variability. Our central finding is that early channel mixing destroys weak but discriminative EEG signals. To address this, we propose a channel-oriented design with three key components. Specifically, channel-wise tokenization treats each electrode as an explicit token to retain spatially localized neural evidence, channel-wise multi-view self-distillation enforces consistency across temporal crops and random channel subsets to learn robust and distributed representations, and channel-wise data augmentation introduces structured channel dropout to improve invariance to noise, artifacts, and missing electrodes. Together, these components preserve weak yet informative signals across channels and enable stable alignment to a semantic music representation space. We integrate this channel-oriented design within an encoding-alignment-decoding pipeline for EEG-to-music reconstruction. Theoretically, we characterize when preserving channel-level structure leads to improved alignment. Empirically, we compare with a range of state-of-the-art baselines and demonstrate consistent and significant performance gains.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0590b1000ce5" data-article-url="https://arxiv.org/abs/2606.04045" data-article-title="教師あり学習におけるベイズ十分表現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04045" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04045" target="_blank" rel="noopener">教師あり学習におけるベイズ十分表現</a></h3>
      <p class="summary">表現学習は、予測に関連する入力内の情報を保存するものとしてよく説明されます。この研究では、固定された教師あり決定問題に対する関連性が何を意味するかを問います。予測ヘッドがそれを使用してベイズ最適アクション ルールを実装できる場合、その表現は結合分布と損失に対して十分なベイズであると定義されます。これにより、ターゲット情報が損失に依存するようになります。ほぼ確実に一意のベイズ アクションの場合、関連するオブジェクトはベイズ商であり、同じベイズ最適アクションを必要とする入力を識別します。この商を洗練する場合は表現で十分であり、情報的に同等である場合はベイズ最小表現で十分です。このフレームワークは自然に特性の導出につながります。ゼロ 1 損失にはベイズ クラスが必要で、二乗損失には条件付き平均が必要です。ブライアー損失にはバイナリ予測の条件付き確率が必要です。また、対数損失または厳密に適切なスコアリングによって予測分布が決まります。制御された有限実験、学習されたニューラル ボトルネック実験、および実データの iNaturalist 分類学的洗練実験は、十分性、最小限性、および保持される不要な情報の区別を示します。固定教師付き問題の場合、分布と損失によってベイズ アクションが決まり、ベイズ アクションによって商が決まり、商によってベイズ最適予測に必要な最小限の情報が決まります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Bayes-Sufficient Representations in Supervised Learning</p>
        <p class="orig-summary">Representation learning is often described as preserving the information in an input that is relevant for prediction. This work asks what relevance means for a fixed supervised decision problem. A representation is defined to be Bayes-sufficient for a joint distribution and loss if some prediction head can use it to implement a Bayes-optimal action rule. This makes the target information loss-dependent. In the almost-surely unique Bayes-action case, the relevant object is a Bayes quotient, which identifies inputs that require the same Bayes-optimal action. A representation is sufficient when it refines this quotient, and Bayes-minimal when it is informationally equivalent to it. The framework connects naturally to property elicitation: zero-one loss requires the Bayes class, squared loss the conditional mean, Brier loss the conditional probability in binary prediction, and log loss or strictly proper scoring rules the predictive distribution. Controlled finite experiments, learned neural bottleneck experiments, and a real-data iNaturalist taxonomic refinement experiment illustrate the distinction between sufficiency, minimality, and retained non-required information. For a fixed supervised problem, the distribution and the loss determine the Bayes action, the Bayes action determines the quotient, and the quotient determines the minimal information required for Bayes-optimal prediction.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="53c375e8a07d" data-article-url="https://arxiv.org/abs/2606.04046" data-article-title="現場に飛び込む: フォーカス プランの生成を通じて、視覚と言語の意思決定における知覚のボトルネックを打破する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04046" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04046" target="_blank" rel="noopener">現場に飛び込む: フォーカス プランの生成を通じて、視覚と言語の意思決定における知覚のボトルネックを打破する</a></h3>
      <p class="summary">ロボット操作やナビゲーションなどの身体化された視覚言語による意思決定タスクでは、視覚言語モデルおよび視覚言語アクション モデル (VLM および VLA) は、さまざまな利点を持つ強力なツールです。VLM は長期計画に優れ、VLA は事後制御に優れています。ただし、モデルのパフォーマンスは、同じ知覚のボトルネックによって制限されます。モデルがタスクに関連するオブジェクトと気を散らすものとを区別できないために幻覚が発生します。原則として、無関係なものを除外しながら、正確に識別して重要なオブジェクトに焦点を当てることが、この制限を打ち破る鍵となります。簡単な解決策は、重要なオブジェクトに直接注目するというワンステップの焦点です。ただし、効果的に焦点を合わせるには本質的にシーンを深く理解する必要があるため、このアプローチは効果的ではないことがわかります。この目的を達成するために、我々は、VLM の長期計画能力を活​​用した、粗いから細かいまでのフォーカス プラン生成方法である SceneDiver を提案します。この方法では、最初に全体的なシーン グラフを構築して初期理解を確立し、次に認識、理解、分析の反復サイクルを通じてタスクをより単純なサブ問題に徐々に分解します。反応的な制御を可能にするために、意図的なフォーカス機能を VLA に抽出するための軽量アダプターも設計しました。標準の組み込み AI ベンチマークでの評価により、私たちの方法は、高速実行を必要とするタスクの計算効率を維持しながら、VLM と VLA の両方で幻視を大幅に軽減することが確認されています。コードとデータは https://future-item.github.io/SceneDiver でリリースされています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Dive into the Scene: Breaking the Perceptual Bottleneck in Vision-Language Decision Making via Focus Plan Generation</p>
        <p class="orig-summary">In embodied vision-language decision making tasks such as robotic manipulation and navigation, Vision-Language and Vision-Language-Action Models (VLMs &amp; VLAs) are powerful tools with different benefits: VLMs are better at long-term planning, while VLAs are better at reactive control. However, their performance is limited by the same perceptual bottleneck: visual hallucinations arise due to the models&#x27; inability to distinguish task-relevant objects from distractors. In principle, accurate identification and focus on critical objects while filtering out irrelevant ones is the key to break this limitation. A straightforward solution is one-step focus: directly attending to essential objects. However, this approach proves ineffective because effective focus inherently requires deep scene understanding. To this end, we propose SceneDiver, a coarse-to-fine focus plan generation method for VLMs leveraging their long-term planning abilities, that first constructs a holistic scene graph to establish initial comprehension, then progressively decomposes the task into simpler sub-problems through an iterative cycle of recognition, understanding, and analysis. To enable reactive control, we also design a lightweight adapter for distilling the deliberate focus ability into VLAs. Evaluations on standard embodied AI benchmarks confirm that our method substantially reduces visual hallucinations for both VLMs and VLAs, while preserving computational efficiency in tasks requiring fast execution. Our code and data are released at: https://future-item.github.io/SceneDiver.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8597e00dee35" data-article-url="https://arxiv.org/abs/2606.04048" data-article-title="ゲートデルタネットワークの大規模な機能学習のロックを解除する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04048" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04048" target="_blank" rel="noopener">ゲートデルタネットワークの大規模な機能学習のロックを解除する</a></h3>
      <p class="summary">大規模言語モデルのトレーニングとスケーリングには膨大な計算リソースが必要であり、効率的な二次二次アーキテクチャと原則に基づいたハイパーパラメータ調整方法の両方が動機付けられます。 Maximal Update Parametrization ($\mu$P) により、標準の Transformer のゼロショット ハイパーパラメータ転送が可能になりましたが、線形モデル、特に構造化された状態遷移や複雑なアーキテクチャを持つモデルへの拡張は、ほとんど未開発のままです。フォワード パス、ゲート メカニズム、およびリカレント ステート ダイナミクスを通じて座標サイズの推定値を厳密に伝播することにより、ゲート デルタ ネットワークのスケーリング ルールを導き出します。言語モデルの事前トレーニングに関する実験により、私たちの構成では AdamW と SGD の両方のモデル幅にわたって安定した学習率の移行が可能である一方、標準のパラメータ化では移行できないことが確認され、分析の正確さと実用性が検証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Unlocking Feature Learning in Gated Delta Networks at Scale</p>
        <p class="orig-summary">Training and scaling Large Language Models demand enormous computational resources, motivating both efficient sub-quadratic architectures and principled hyperparameter tuning methods. While the Maximal Update Parametrization ($\mu$P) has enabled zero-shot hyperparameter transfer for standard Transformers, its extension to linear models, particularly those with structured state transitions and complicated architectures, remains largely unexplored. By rigorously propagating coordinate-size estimates through the forward pass, gating mechanisms, and recurrent state dynamics, we derive the scaling rules for Gated Delta Network. Experiments on language-model pre-training confirm that our configurations enable stable learning-rate transfer across model widths under both AdamW and SGD, whereas standard parametrization fails to transfer, validating the correctness and practical utility of our analysis.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="41effdaf4b09" data-article-url="https://arxiv.org/abs/2606.04050" data-article-title="LiftQuant: 次元リフティングと投影による連続ビット幅 LLM" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04050" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04050" target="_blank" rel="noopener">LiftQuant: 次元リフティングと投影による連続ビット幅 LLM</a></h3>
      <p class="summary">既存の量子化手法は基本的に、厳格な整数ベースのビット幅 (例: 2、3 ビット) によって制限されており、その結果、大規模言語モデルを特定のメモリ バジェットに最適に適合させることができない「デプロイメント ギャップ」が生じます。このギャップを埋めるために、真のパレート最適デプロイメントのための継続的なビット幅制御を可能にする新しいフレームワークである LiftQuant を紹介します。中心となるイノベーションは、「リフト ゼン プロジェクト」メカニズムです。高次元の「リフトされた」空間から単純な 1 ビット格子を投影することで、低次元の重みベクトルを近似します。重要なことに、有効なビット幅は、元の次元に対するリフト次元の比率によって単純に決定され、次元が柔軟な構造パラメータであるため、ビット幅を準連続的に調整できます。この投影は、構造化されているが不均一なコードブックを生成し、ベクトル量子化 (VQ) の表現力を捉えます。 VQ、LiftQuant のデコード パスは線形変換と 1 ビットの均一量子化器のみに依存しており、ハードウェアに優しい性質を維持しています。LiftQuant を使用すると、70B LLM を 24GB GPU に正確に適合させることができ、そのパフォーマンスは同じデバイスに搭載されている最先端の 2 ビット モデルを大幅に上回ります。 https://github.com/Heliulu/LiftQuant。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection</p>
        <p class="orig-summary">Existing quantization methods are fundamentally limited by rigid, integer-based bit-widths (e.g., 2, 3-bit), resulting in a ``deployment gap&quot; where Large Language Models cannot be optimally fitted to specific memory budgets. To bridge this gap, we introduce LiftQuant, a novel framework that enables continuous bit-width control for true Pareto-optimal deployment. The core innovation is a ``lift-then-project&quot; mechanism which approximates low-dimensional weight vectors by projecting a simple 1-bit lattice from a higher-dimensional ``lifted&quot; space. Crucially, the effective bit-width is determined simply by the ratio of the lifted dimension to the original dimension, which allows the bit-width to be tuned quasi-continuous as the dimension is a flexible structural parameter. This projection generates a structured yet non-uniform codebook, capturing the expressive power of Vector Quantization (VQ). While beneficial over VQ, LiftQuant&#x27;s decoding path relies solely on linear transformations and 1-bit uniform quantizers, retaining hardware-friendly nature. This flexibility is transformative: LiftQuant enables a 70B LLM to be compressed to 2.4 bits to precisely fit a 24GB GPU, where its performance significantly surpasses state-of-the-art 2-bit models fitted on the same device. Our code and ckpt is available at https://github.com/Heliulu/LiftQuant.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b9bac898189a" data-article-url="https://arxiv.org/abs/2606.04051" data-article-title="RUBAS: エージェントの安全のためのルーブリックベースの強化学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04051" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04051" target="_blank" rel="noopener">RUBAS: エージェントの安全のためのルーブリックベースの強化学習</a></h3>
      <p class="summary">LLM がツール対応エージェントに進化すると、単純なテキスト生成ではなく現実世界の実行に関連した新しいクラスの安全性の課題が生じます。既存の調整方法は、粗い拒否信号や静的な監視に依存することが多く、さまざまなエージェントのリスクにわたって安全性と有用なツールの実行のバランスをとることが困難です。エージェントの安全性のためのルーブリックベースの強化学習フレームワークである RUBAS を紹介します。 RUBAS は、エージェントの動作をツール使用の安全性、引数の安全性、応答の安全性、有用性の 4 つの次元に分解します。これらの構造化されたルーブリックは、エージェントの完全な軌跡にわたってきめ細かく解釈可能な報酬を提供し、タスクの完了を維持しながら安全なツールの使用を最適化する強化学習を可能にします。複数のエージェントの安全性ベンチマークとモデルにわたる広範な実験により、RUBAS が標準的なアライメントベースラインよりも安全性を向上させ、ツールに基づく幻覚を軽減し、競争力のある実用性を維持することが示されています。私たちの結果は、多次元ルーブリック報酬が、安全性が重要なツール使用環境において LLM エージェントを調整するための効果的なトレーニング信号を提供することを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">RUBAS: Rubric-Based Reinforcement Learning for Agent Safety</p>
        <p class="orig-summary">The evolution of LLMs into tool-enabled agents creates a new class of safety challenges associated with real-world execution rather than simple text generation. Existing alignment methods often rely on coarse refusal signals or static supervision, making it difficult to balance safety with useful tool execution across diverse agentic risks. We introduce RUBAS, a rubric-based reinforcement learning framework for agent safety. RUBAS decomposes agent behavior into four dimensions: tool-use safety, argument safety, response safety, and helpfulness. These structured rubrics provide fine-grained and interpretable rewards over complete agent trajectories, enabling reinforcement learning to optimize safe tool use while preserving task completion. Extensive experiments across multiple agent safety benchmarks and models show that RUBAS improves safety over standard alignment baselines, reduces tool-grounded hallucinations, and maintains competitive utility. Our results suggest that multi-dimensional rubric rewards provide an effective training signal for aligning LLM agents in safety-critical tool-use settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9d229afd1054" data-article-url="https://arxiv.org/abs/2606.04053" data-article-title="ブールタスク代数におけるタスク構成の目標設定の特徴付け" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04053" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04053" target="_blank" rel="noopener">ブールタスク代数におけるタスク構成の目標設定の特徴付け</a></h3>
      <p class="summary">ブール タスク代数 (BTA) は、目標達成タスクにブール演算を装備することにより、強化学習におけるゼロショット タスク構成のための原則的なフレームワークを提供します。構造的な仮定を再考し、最適な拡張 Q 値関数の空間における崩壊を定式化します。決定論的 MDP では、そのような関数はすべて普遍的で空のタスクによって完全に決定されます。これにより、元の BTA 定式化で提案された基本タスクの対数セットが冗長になります。この観察に基づいて、目標セットに対して論理演算を実行し、普遍的および空の値関数からスライスを選択することによって合成された値関数を再構築する、目標セットベースの合成方法を導入します。これにより、ポリシーのパフォーマンスを維持しながら、標準 BTA の学習コストが削減され、BTA とスキル マシンの両方の作成時間が短縮されます。表形式、視覚的、関数近似、および連続制御の各ドメインにわたる実験では、追加の基本タスクを学習してもパフォーマンスが向上しないことが示されています。最後に、確率的設定を研究し、この崩壊が成り立つ必要はないこと、つまり、最適な構成には、目標の数において指数関数的に多くの政策を考慮する必要がある可能性があることを示す反例を提供します。コードは https://github.com/EduardoTerres/bta_paper で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Goal-Set Characterization of Task Composition in the Boolean Task Algebra</p>
        <p class="orig-summary">The Boolean Task Algebra (BTA) provides a principled framework for zero-shot task composition in reinforcement learning by equipping goal-reaching tasks with Boolean operations. We revisit its structural assumptions and formalize a collapse in the space of optimal extended Q-value functions: in deterministic MDPs, every such function is fully determined by the universal and empty tasks. This makes the logarithmic set of base tasks proposed in the original BTA formulation redundant. Building on this observation, we introduce a goal-set-based composition method that performs logical operations on goal sets and reconstructs composed value functions by selecting slices from the universal and empty value functions. This reduces learning costs for standard BTA and reduces composition time for both BTA and Skill Machines, while preserving policy performance. Experiments across tabular, visual, function-approximation, and continuous-control domains show that learning additional base tasks does not yield better performance. Finally, we study the stochastic setting and provide a counterexample showing that this collapse need not hold, that is, optimal composition may require accounting for exponentially many policies in the number of goals. Code is available at https://github.com/EduardoTerres/bta_paper.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="96b0a7a94b52" data-article-url="https://arxiv.org/abs/2606.04057" data-article-title="目に見えない宝くじ: LLM コード生成におけるアルゴリズムの選択を微妙な手がかりがどのように左右するか" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04057" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04057" target="_blank" rel="noopener">目に見えない宝くじ: LLM コード生成におけるアルゴリズムの選択を微妙な手がかりがどのように左右するか</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、多くの場合、複数の有効なアルゴリズム ソリューションを含むタスク向けに、実質的な運用コードを生成するようになりました。タスク仕様外の文脈上の単語やメタデータを意味する付随的なプロンプト キューは、すべての出力が同じテストに合格した場合でも、モデルが選択するアルゴリズムを制御できます。即時感度は、出力品質を向上させるツールとしてよく研究されています。ここで、出力ポリシーとは、固定の正確性の下でのアルゴリズムの選択を意味します。私たちは、アルゴリズムステアリングをアルゴリズムファミリー分布におけるキュー誘発のシフトとして定義し、11のタスク、19のキュータイプ（18のチャネルと、タイポグラフィーと句読点を変更しながら意味を保持するメモ化の意味対表面のアブレーション）、および15のモデル構成にわたって46,535の制御された実験を実行しました。我々は、レート制限などの応用タスクを含む、キューのセマンティクスとほぼ一致する、アルゴリズム ファミリの分布における大きく系統的な変化 (最大 100 pp) を発見しました。アルゴリズムの直接命名は、私たちがテストした最も信頼性の高い軽減策です。したがって、偶然のコンテキストによって、パフォーマンス、セキュリティ、および保守性をめぐる「目に見えない宝くじ」が作成されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Invisible Lottery: How Subtle Cues Steer Algorithm Choice in LLM Code Generation</p>
        <p class="orig-summary">Large language models (LLMs) now generate substantial production code, often for tasks with multiple valid algorithmic solutions. Incidental prompt cues, meaning contextual words or metadata outside the task specification, can steer which algorithm the model selects, even when all outputs pass the same tests. Prompt sensitivity is well studied as a tool to improve output quality. Here, output policy means algorithm choice under fixed correctness. We define algorithm steering as cue-induced shifts in algorithm-family distributions and run 46,535 controlled experiments across 11 tasks, 19 cue types (18 channels plus a memoization semantic-vs-surface ablation that preserves meaning while changing typography and punctuation), and 15 model configurations. We find large, systematic shifts in algorithm-family distributions (up to 100 pp), largely consistent with cue semantics, including in applied tasks such as rate limiting. Direct algorithm naming is the most reliable mitigation we tested. Accidental context therefore creates an &quot;invisible lottery&quot; over performance, security, and maintainability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b6ef3978109b" data-article-url="https://arxiv.org/abs/2606.04058" data-article-title="ミュオンのスペクトルスケーリングの法則" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04058" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04058" target="_blank" rel="noopener">ミュオンのスペクトルスケーリングの法則</a></h3>
      <p class="summary">直交正規化更新ルールは、大規模な言語モデルをトレーニングするためのオプティマイザーの主要な選択肢として急速に普及しており、最近のオープンソースの最先端モデルでは Muon が採用されています。これらの更新を扱いやすくするために、Muon は Newton-Schulz (NS) 反復を使用して正規直交化を実行します。 NS は近似値にすぎないため、小さな特異値を持つ方向は直交正規化できません。 Muon では、NS は各ステップで運動量行列に適用されますが、これらの運動量行列の特異値スペクトルがトレーニング中にどのように動作するか、またはその動作がモデル サイズに応じてどのように変化するかについてはほとんどわかっていません。我々は、この問題に関する最初の体系的な研究を紹介します。 77M から 2.8B パラメーターの範囲のモデルで層全体の運動量バッファーの特異値分位数を追跡すると、一貫した状況が観察されます。短いバーンインの後、分位数は層のタイプとモデル サイズによって決定される値で安定します。これらの安定化値は、層に依存する指数を備えた、モデル サイズにおける非常にきれいなべき乗則に従います。中深度から後期までの層は、モデル サイズ $M$ (約 $M^{-0.25}$) で非常に穏やかにスケーリングするため、学術規模で使用される標準の 5 ステップ NS 構成は、より大きなスケールでも引き続き直交正規化します。ただし、後期層の一部はより積極的にスケールし ($M^{-0.96}$ まで)、より多くの NS 反復またはより適切に調整された係数を使用しない限り、フロンティア スケールで NS 失敗領域に陥ります。 NS の反復は大規模になると計算コストが高くなります。私たちの法律は、実務者に、重要な方向を直交正規化する最小の NS 構成を選択するための原則に基づいたレイヤー認識のレシピを提供します。つまり、更新の品質を犠牲にすることなく不必要な計算を回避します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Spectral Scaling Laws of Muon</p>
        <p class="orig-summary">Orthonormalized update rules have rapidly become a leading choice of optimizer for training large language models, with recent open-source state-of-the-art models adopting Muon. To keep these updates tractable, Muon performs the orthonormalization with the Newton--Schulz (NS) iteration. Since NS is only approximate, directions with small singular values fail to be orthonormalized. In Muon, NS is applied to the momentum matrix at every step, yet little is known about how the singular value spectrum of these momentum matrices behaves during training, or how that behavior changes with model size. We present the first systematic study of this question. Tracking singular value quantiles of the momentum buffer across layers in models ranging from 77M to 2.8B parameters, we observe a consistent picture: after a short burn-in, the quantiles stabilize at a value determined by the layer type and model size. These stabilization values follow remarkably clean power laws in model size, with layer-dependent exponents. Layers up to mid-late depth scale very mildly with model size $M$ (around $M^{-0.25}$), so the standard 5-step NS configuration used at academic scale will continue to orthonormalize them at much larger scales. Some of the late layers, however, scale much more aggressively (up to $M^{-0.96}$) and will fall into the NS failure regime at frontier scale unless one uses more NS iterations or better-tuned coefficients. NS iterations are computationally expensive at scale; our laws give practitioners a principled, layer-aware recipe for choosing the minimum NS configuration that still orthonormalizes the directions that matter -- avoiding unnecessary computation without sacrificing update quality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="71f6567dee99" data-article-url="https://arxiv.org/abs/2606.04063" data-article-title="アーキテクチャと量子化の選択を組み合わせて最適化する LLM 圧縮" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04063" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04063" target="_blank" rel="noopener">アーキテクチャと量子化の選択を組み合わせて最適化する LLM 圧縮</a></h3>
      <p class="summary">大規模言語モデル (LLM) のデプロイは、大量のメモリと計算要件があるため、困難です。一部の方法では、小規模または極小の言語モデルを最初から開発することでこの問題に対処しますが、これらのアプローチでは広範な GPU トレーニングが必要です。エッジデバイス用に事前トレーニングされた LLM を圧縮することは、魅力的な代替手段を提供します。プルーニングと量子化を超えて、ニューラル アーキテクチャ検索 (NAS) は効果的な圧縮を可能にしますが、従来の NAS アプローチでは多くの場合、検索スペースが制限され、アーキテクチャが量子化から分離されていました。私たちは、空間全体を探索し、LLM の線形層の混合精度量子化と並行してアーキテクチャ構成を共同で最適化する微分可能な NAS フレームワークを導入します。実験では、精度とレイテンシの優れたトレードオフが実証されています。当社のモデルは、同等の精度で逐次 NAS を経て量子化するベースラインよりも最大 1.4 倍高速な推論、または同等のレイテンシで 7 つの推論タスク全体で最大 6% 高い平均精度を達成します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LLM Compression with Jointly Optimizing Architectural and Quantization choices</p>
        <p class="orig-summary">Deploying large language models (LLMs) is challenging due to their significant memory and computational requirements. While some methods address this by developing small or tiny language models from scratch, these approaches demand extensive GPU training. Compressing pre-trained LLMs for edge devices offers a compelling alternative. Beyond pruning and quantization, Neural Architecture Search (NAS) enables effective compression, yet prior NAS approaches often limit the search space and decouple architecture from quantization. We introduce a differentiable NAS framework that explores the entire space and jointly optimizes architectural configurations alongside mixed-precision quantization for linear layers of LLMs. Experiments demonstrate superior accuracy-latency trade-offs: our models achieve up to 1.4x faster inference than sequential NAS-then-quantization baselines at comparable accuracy, or up to 6% higher average accuracy across seven reasoning tasks at equivalent latency.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b8b9fc75ddf5" data-article-url="https://arxiv.org/abs/2606.04067" data-article-title="知っておくべきこと: プライバシーを意識した LLM 委任のためのコンテキスト整合性に基づいたクエリ書き換え" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04067" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04067" target="_blank" rel="noopener">知っておくべきこと: プライバシーを意識した LLM 委任のためのコンテキスト整合性に基づいたクエリ書き換え</a></h3>
      <p class="summary">LLM が日常のワークフローにますます組み込まれるようになるにつれて、クラウドでホストされる LLM に送信されるユーザー クエリでは、タスクに必須のコンテンツとタスクに必須ではない機密情報の開示が日常的に混在していますが、タイプベースの PII 秘匿化はコンテキストに依存せず、2 つの問題が生じる可能性があります。それは、型指定されていない機密コンテキストの開示の過剰と、回答を含むスパンの削除の過剰です。コンテキストの整合性の下で、プライバシーを保持するクエリの書き換えを再検討します。スパンは、タスクに必要な場合にのみ転送されるべきです。 DelegateCI-Bench は、プライバシーを意識した委任向けの初のタスクベースのコンテキスト整合性ベンチマークであり、11 のタスクと 20 のタスク タイプにわたる高品質の合成データ、WildChat ベースの実際のユーザー クエリ、および高密度の機密情報を含む医療課題セットを組み合わせた 3,167 個のサンプルで構成されています。このベンチマークに基づいて、必須および非必須の機密スパンを検証可能な最適化信号に変換する CI ガイド付き強化学習フレームワークを提案し、不必要な機密情報の開示を抑制しながらタスクの重要な情報を保持するようにクエリ リライターをトレーニングします。実験の結果、私たちの学習済みリライターはプライバシーとユーティリティの最適なトレードオフを達成し、デバイス上のベースラインに対して最大 +10.1 の平均ユーティリティを達成することがわかりました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Need to Know: Contextual-Integrity-Grounded Query Rewriting for Privacy-Conscious LLM Delegation</p>
        <p class="orig-summary">As LLMs become increasingly woven into everyday workflows, user queries sent to cloud hosted LLMs routinely mix task-essential content with task non-essential sensitive disclosures, yet type based PII redaction is context agnostic and may raise two issues: over disclosing untyped sensitive context and over removing answer bearing spans. We recast privacy preserving query rewriting under Contextual Integrity: a span should be forwarded only if it is necessary for the task. We introduce DelegateCI-Bench, the first task based Contextual Integrity benchmark for privacy-conscious delegation, comprising 3,167 samples that combine high quality synthetic data spanning 11 tasks and 20 task types, WildChat based real user queries, and a medical challenge set with dense sensitive information. Building on this benchmark, we propose a CI-guided reinforcement learning framework that converts essential and non-essential sensitive spans into verifiable optimization signals, and train a query rewriter to preserve task critical information while suppressing unnecessary sensitive disclosure. Experiments show that our learned rewriter achieves the best privacy-utility tradeoff, achieving up to +10.1 average utility over on-device baselines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a21e3e957c28" data-article-url="https://arxiv.org/abs/2606.04073" data-article-title="TPA-AD: ベアリング時系列異常検出のための 2 段階の擬似異常ガイド方式" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04073" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04073" target="_blank" rel="noopener">TPA-AD: ベアリング時系列異常検出のための 2 段階の擬似異常ガイド方式</a></h3>
      <p class="summary">本稿では、正常なサンプルのみが利用可能な設定の下での車軸軸受時系列異常検出（時系列異常検出、TSAD）のための二段階の擬似異常ガイド型異常検出手法（\textbf{T}wo-stage \textbf{P}seudo \textbf{A}nomaly-guided \textbf{A}nomaly \textbf{D}etection, \textbf{TPA-AD}）を提案する。トレーニング。この方法では、まず、再構成モデ​​ルと特徴ごとのターゲット誤差制御を使用して、正常境界付近に疑似異常ウィンドウを生成します。次に、通常ウィンドウと擬似異常ウィンドウ間の対比学習を通じて異常に敏感な表現を学習し、最後に k 近傍 (KNN) を使用してウィンドウ レベルとポイント レベルの異常スコアを生成します。既知の故障カテゴリ、実際の異常事前確率、またはランダムな異常注入に依存する既存の方法と比較して、TPA-AD は境界近傍に擬似異常を構築することで正常境界の分離可能性を向上させ、混合変数シナリオで連続特徴と離散特徴を共同で処理できます。主な実験はベアリングの故障検出データセットと劣化プロセス データセットで行われ、さらに $13$ の公開 TSAD データセットで探索的な拡張が行われます。結果は、提案された手法が比較的安定した異常応答を生成し、劣化の進行に敏感であり、公開 TSAD ベンチマークおよび実際の高速列車関連の方位データにある程度の広範な適用可能性を実証していることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TPA-AD: A Two-Stage Pseudo Anomaly-Guided Method for Bearing Time-Series Anomaly Detection</p>
        <p class="orig-summary">This paper proposes a two-stage pseudo anomaly-guided anomaly detection method (\textbf{T}wo-stage \textbf{P}seudo \textbf{A}nomaly-guided \textbf{A}nomaly \textbf{D}etection, \textbf{TPA-AD}) for axle-box bearing time-series anomaly detection (time series anomaly detection, TSAD) under the setting where only normal samples are available for training. The method first generates pseudo-anomalous windows near the normal boundary using a reconstruction model and per-feature target-error control. It then learns anomaly-sensitive representations through contrastive learning between normal and pseudo-anomalous windows, and finally produces window-level and point-level anomaly scores using k-nearest neighbors (KNN). Compared with existing methods that rely on known fault categories, real anomaly priors, or random anomaly injection, TPA-AD improves the separability of the normal boundary by constructing pseudo-anomalies in boundary neighborhoods and can jointly handle continuous and discrete features in mixed-variable scenarios. The main experiments are conducted on bearing fault detection datasets and degradation-process datasets, with an additional exploratory extension on $13$ public TSAD datasets. The results show that the proposed method yields relatively stable anomaly responses, is sensitive to degradation evolution, and demonstrates a certain degree of broader applicability on public TSAD benchmarks and real high-speed-train-related bearing data.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="84709127e52e" data-article-url="https://arxiv.org/abs/2606.04074" data-article-title="適応パッチ適用は時系列予測よりも難しい" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04074" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04074" target="_blank" rel="noopener">適応パッチ適用は時系列予測よりも難しい</a></h3>
      <p class="summary">アダプティブ パッチは、時系列トランスフォーマーに対する最近の説得力のある提案です。シーケンスが局所的に情報を提供すると思われる場所に、より細かいパッチを割り当てます。この文書では、どのような条件下でコンテンツ適応型パッチ適用オペレータが調整された均一パッチ適用オペレータよりも優れたパフォーマンスを発揮する必要があるかを検討します。局所的な異質性だけでは十分ではありません。点単位の損失予測では、複雑に見える領域が自動的に、より細かいパッチによって損失が軽減される領域になるわけではありません。予算に基づいたビットレート割り当てとしてパッチをモデル化し、よく調整された均一ベースラインを超えるために動的パッチ ルールが満たさなければならない明示的なしきい値を導出し、ローカル (二次代数) とグローバル (モデルの仮定に基づく強い凸性境界) の両方で達成可能な改善を制限します。 2 つの構造的な結果が続きます。結合制約がなければ、スカラーの局所的な複雑さは、共通の損失状況の下で不均一な最適値を生成できません。バックボーンがその表現を意識した最適値にトレーニングされると、アライメント ゲインは適切に調整された均一なパッ​​チ サイズ付近で崩壊します。これらの予測をテストするために、バックボーン、データ、トレーニング プロトコルを固定したまま、各適応メカニズムを均一なパッ​​チサイズのスイープに置き換えて、3 つの代表的なアーキテクチャに対して制御された分離スタディを実行します。標準的な長期予測ベンチマークでは、検証で選択された均一なベースラインは、動的ベースラインと競合しており、設定ごとの効果はゼロ近くに集中しており、結果がデータセットごとに集計されると一貫した方向性の利点はありません。私たちが観察している大きな利益は、メソッドとデータセットに固有のものです。したがって、適応型パッチ適用は、調整された均一なベースラインに対して評価する必要があります。その値は、安価で信頼性の高いルーティング信号が、より細かいパッチが実際に予測損失を削減する場所を特定できるかどうかによって決まります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Adaptive Patching Is Harder Than It Looks For Time-Series Forecasting</p>
        <p class="orig-summary">Adaptive patching is a recent and compelling proposal for time-series Transformers: allocate finer patches where the sequence looks locally informative. This paper asks under what conditions a content-adaptive patching operator should outperform a tuned uniform one. Local heterogeneity alone is not enough: under pointwise forecasting losses, a complex-looking region is not automatically one where finer patching reduces the loss. We model patching as a budgeted bitrate allocation and derive an explicit threshold that a dynamic patching rule must satisfy to beat a well-tuned uniform baseline, then bound the achievable improvement both locally (a quadratic surrogate) and globally (a strong-convexity bound under the model&#x27;s assumptions). Two structural results follow: without a coupling constraint, scalar local complexity cannot produce a non-uniform optimum under a common loss landscape; and once the backbone is trained to its representation-aware optimum, the alignment gain collapses around a well-tuned uniform patch size. To test these predictions, we run a controlled isolation study on three representative architectures, replacing each adaptive mechanism with a uniform patch-size sweep while keeping the backbone, data, and training protocol fixed. On standard long-horizon forecasting benchmarks, the validation-selected uniform baseline is competitive with the dynamic counterpart, with per-setting effects concentrated near zero and no consistent directional advantage once results are aggregated by dataset. The larger gains we do observe are method- and dataset-specific. Adaptive patching should therefore be evaluated against a tuned uniform baseline; its value depends on whether a cheap and reliable routing signal can identify where finer patches actually reduce forecasting loss.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0146478be4e0" data-article-url="https://arxiv.org/abs/2606.04075" data-article-title="大規模な言語モデルが報酬と社会をハックする" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04075" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04075" target="_blank" rel="noopener">大規模な言語モデルが報酬と社会をハックする</a></h3>
      <p class="summary">強化学習 (RL) はトレーニング後のパラダイムの主流となっており、大規模言語モデル (LLM) が報酬から学習できるようになります。私たちは、社会規制が報酬関数と構造的に似ていることを観察しています。それらは測定可能な結果、しきい値、例外を定義しますが、多くの場合、制度上の意図は部分的にしか指定されません。私たちは、RL トレーニング プロセスがこれらのギャップを悪用する可能性があると仮説を立て、RL 中に報酬関数をハッキングするというモデルのよく知られた傾向が、社会ハッキングと呼ばれるより重大な失敗モード、つまり社会が運営されているルールの抜け穴を発見するモードにスケールアップできるかどうかを尋ねます。この現象を研究するために、72 の社会環境のサンドボックスである SocioHack を導入しました。その結果、これらの環境内で報酬ハッキングが自然に発生し、規制の抜け穴の発見につながることがわかりました。モデルは社会ルールをハッキングし、規制の意図を打ち破りながら技術的に準拠した戦略を生成する方法を学習します。現在の LLM セーフガードは限定的な緩和策しか提供しません。したがって、モデルのトレーニングのために実際のフィードバックを収集することには細心の注意が必要であり、実社会で LLM を安全に反復するための次世代のポストトレーニング パラダイムが必要です。=</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Large Language Models Hack Rewards, and Society</p>
        <p class="orig-summary">Reinforcement learning (RL) has become a dominant post-training paradigm, enabling large language models (LLMs) to learn from rewards. We observe that societal regulations are structurally similar to reward functions. They define measurable outcomes, thresholds, and exceptions, while often leaving institutional intent only partially specified. We hypothesise that the RL training process may exploit these gaps and therefore ask whether models&#x27; well-known tendency to hack reward functions during RL can scale into a more consequential failure mode named societal hacking: discovering loopholes in the rules society runs on. To study this phenomenon, we introduce SocioHack, a sandbox of 72 societal environments, and find that within these environments, reward hacking naturally emerges and leads to regulatory loophole discovery. Models learn to hack the social rules and generate strategies that remain technically compliant while defeating regulatory intent, and current LLM safeguards provide only limited mitigation. Therefore, collecting in-the-wild feedback for model training requires greater caution, and we need a next-generation post-training paradigm for safely iterating LLMs in real society.=</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e8db32c04d26" data-article-url="https://arxiv.org/abs/2606.04095" data-article-title="POLARIS: 小さなモデルが長い物語を書けるように導く" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04095" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04095" target="_blank" rel="noopener">POLARIS: 小さなモデルが長い物語を書けるように導く</a></h3>
      <p class="summary">小規模なオープンウェイト モデルは、長編のクリエイティブ ライティングに苦労します。特にフロンティア モデルと比較した場合、生成されるストーリーが要求された長さに大幅に満たないか、長さが増加するにつれて品質が大幅に低下します。我々は、2 つの重要な要素を備えた低コンピューティングの GRPO レシピである POLARIS (審査員としての LLM 報酬とストーリーライティングのためのアンカー参照注入によるポリシーの最適化) を紹介します。1 つはオンライン報酬として構造化されたストーリー品質ルーブリックを持つフロンティア LLM 審査員、もう 1 つは教師が強制的に人間が書いたストーリーが各 GRPO グループ内で高報酬のアンカーとして機能する人間参照注入 (HRI) です。 100 の短編小説アンソロジーと 4 つの A100 GPU から派生した約 1.4K のプロンプト ストーリー ペアのデータセットを使用して、トレーニング レシピを Qwen3.5-9B に適用することにより、POLARIS-9B が得られます。配布内および配布外のプロンプトとルーブリックにわたる 5 つのベンチマークにわたって、POLARIS-9B は、長さの指示により厳密に従いながら、はるかに大きなオープンウェイト モデルと競合します。人間による盲検評価により、POLARIS-9B がベースの Qwen3.5-9B よりも好まれ、Qwen3.5-27B と同等であることが確認されました。 POLARIS-9B は、最大 4k ワードまでのストーリーのみをトレーニングしているにもかかわらず、トレーニング長の最大 3 倍のストーリーを要求するプロンプトの品質を維持します。これは、ほとんどのオープンウェイト モデルが品質、長さの遵守、またはその両方において大幅に低下する状況です。より広範に、私たちの結果は、長さの一般化がクリエイティブライティングモデルにとって意味のあるストレステストであり、他の点では近いモデルを区別するための有用なレンズであることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">POLARIS: Guiding Small Models to Write Long Stories</p>
        <p class="orig-summary">Small open-weight models struggle at long-form creative writing: their generated stories either fall far short of the requested length, or their quality significantly degrades as length increases, especially when compared to frontier models. We present POLARIS (Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting), a lower-compute GRPO recipe with two key ingredients: a frontier LLM judge with a structured Story Quality rubric as the online reward, and human-reference injection (HRI), where a teacher-forced human-written story serves as a high-reward anchor within each GRPO group. By applying our training recipe to Qwen3.5-9B, using a dataset of approximately 1.4K prompt-story pairs derived from 100 short-story anthologies and 4 A100 GPUs, we obtain POLARIS-9B. Across five benchmarks spanning in-distribution and out-of-distribution prompts and rubrics, POLARIS-9B is competitive with much larger open-weight models while following length instructions more closely. A blinded human evaluation confirms that POLARIS-9B is preferred to the base Qwen3.5-9B and on par with Qwen3.5-27B. Despite training only on stories up to 4k words, POLARIS-9B preserves quality on prompts requesting stories up to 3 times the training length, a regime where most open-weight models degrade substantially in quality, length adherence, or both. More broadly, our results suggest that length generalization is a meaningful stress test for creative-writing models and a useful lens for distinguishing otherwise close models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="645b92f74a13" data-article-url="https://arxiv.org/abs/2606.04103" data-article-title="微分可能聴覚ループ (DAL): ハイパーパーソナライズされた補聴器のための ML フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04103" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04103" target="_blank" rel="noopener">微分可能聴覚ループ (DAL): ハイパーパーソナライズされた補聴器のための ML フレームワーク</a></h3>
      <p class="summary">従来の補聴器は、感度の低下を管理するために周波数に依存する固定の増幅と圧縮に依存しており、複数の話者がいる状況（「カクテルパーティー」問題）など、複雑な環境では十分な聴取サポートを提供できないことがよくあります。難聴の根本的な符号化機能障害により包括的に対処するために、パーソナライズされた補聴器の設計とフィッティングのための新しいオープンソース フレームワークである Differentiable Auditory Loop (DAL) を導入します。 DAL の最初の実装には、人間の蝸牛機能の微分可能なモデルである CARFAC が組み込まれており、これを JAX に移植して、障害のある聴覚神経活動パターンを正常な聴覚基準と一致させるためにディープ ニューラル ネットワークを最適化します。必要とされるきめ細かい分光時間信号処理を備えた補聴器を構築するために、波形間の完全畳み込み UNet ジェネレーターである SEANet を採用しています。正常な聴覚に適合した CARFAC モデルの出力と、各被験者の個々の聴覚障害に適合する CARFAC モデルの出力を比較することで、ネットワークを微調整します。比較は、それぞれの CARFAC 神経活動パターン (NAP) 出力と安定化聴覚画像 (SAI) から導出された損失関数を使用して行われ、後者は聴覚神経出力における位相非感受性の時間構造を捕捉する 2D 表現を提供します。 SEANet モデルは、勾配降下法を通じて、入力のノイズを除去することと、障害のある CARFAC モデルによってモデル化された難聴を補償することの両方を学習します。神経表現と信号忠実度の測定基準全体で、DAL に最適化された SEANet モデルは、テストされたマスター補聴器 (MHA) のベースラインを上回りました。 DAL フレームワークは、モデルベースの機械学習駆動の補聴器信号処理のパーソナライゼーションへの実用的な道を提供します。次のステップには、実際の臨床試験を可能にするハードウェアの導入が含まれます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Differentiable Auditory Loop (DAL): An ML Framework for Hyper-Personalized Hearing Aids</p>
        <p class="orig-summary">Conventional hearing aids rely on fixed, frequency-dependent amplification and compression to manage reduced sensitivity, which often fails to provide sufficient listening support in complex environments, such as situations with multiple speakers (the ``cocktail party&#x27;&#x27; problem). To more comprehensively address the underlying encoding dysfunctions of hearing loss, we introduce the Differentiable Auditory Loop (DAL), a new open-source framework for personalized hearing aid design and fitting. Our first implementation of DAL incorporates CARFAC, a differentiable model of human cochlear function, which we ported to JAX, to optimize a deep neural network to match impaired auditory neural activity patterns with a normal-hearing reference. To build a hearing aid with the fine-grained spectro-temporal signal processing required, we adopt SEANet, a waveform-to-waveform fully convolutional UNet generator. We fine-tune the network by comparing the outputs of a CARFAC model fitted to normal hearing with that of a CARFAC model fitted to match each subject&#x27;s individual hearing impairment. The comparison is done using loss functions derived from the respective CARFAC neural activity pattern (NAP) outputs and stabilized auditory images (SAIs), the latter providing a 2D representation that captures phase-insensitive temporal structure in the auditory nerve output. Through gradient descent, the SEANet model learns to both denoise the input and compensate for the hearing loss modelled by the impaired CARFAC model. Across neural-representation and signal-fidelity metrics, the DAL-optimized SEANet model outperformed the tested master hearing aid (MHA) baselines. The DAL framework provides a practical path toward model-based, machine-learning-driven personalization of hearing aid signal processing. Next steps include hardware deployment to enable real-world clinical testing.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="85c83c92fea8" data-article-url="https://arxiv.org/abs/2606.04104" data-article-title="証拠を運ぶエージェント アクション: 異種エージェント システムに対するモデルに依存しないランタイム ガバナンス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04104" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04104" target="_blank" rel="noopener">証拠を運ぶエージェント アクション: 異種エージェント システムに対するモデルに依存しないランタイム ガバナンス</a></h3>
      <p class="summary">エージェント システムは、ローカル コーディング ツール、フレームワーク SDK、マネージド エージェント プラットフォーム、API ゲートウェイ、オブザーバーのみの統合など、非常に異なる制御ポイントを備えたランタイムを通じて実行されます。したがって、データを外部に公開するなどの高リスクのアクションは、あるランタイムではシェル コマンドとして、別のランタイムではツール呼び出しとして、そして 3 番目のランタイムではホストされたセッションの移行として現れる可能性があります。このため、ガバナンスの基本的な質問に一貫して答えることが困難になります。つまり、どのようなアクションが、誰の権限の下で、どのような承認セマンティクスに基づいて、実行後にどのような証拠によって承認されたのかということです。このペーパーでは、ベンダー ネイティブのセッション レコードではなくアクション証明書を中心としたランタイム中立のガバナンス モデルである Proof-Carrying Agent Actions (PCAA) について説明します。 PCAA は、アクション前の許容性、アクションのオープン、仮定のキャプチャ、承認、結果のクローズという 5 つのチェックポイントを中心にコントロールを組織します。これらのチェックポイントは、ポータブルなアクション エンベロープ、実行時および承認のレシート、および再生可能なプルーフにバインドされます。このモデルは 2 つの実用的な方法で拡張されています。証明書は外部性を認識しており、宛先の可視性やアカウントの来歴などの境界事実を伝えます。もう 1 つは、承認は、単一のレビュー済みまたは未レビューのビットではなく、明示的な強制力クラスによって記述されます。私たちは、異種エージェント コントロール プレーンでの参照実装と開示制限のある評価プロトコルを通じてモデルを研究します。 4 つのランタイム ファミリにわたる 24 個の実行可能シードから 96 個のトレースに拡張された保護されたベンチマークでは、PCAA はルートの品質を維持しながら、アブレーション下で個別の障害モードを明らかにします。この論文は、証明書を保持するアクションに関するランタイム ガバナンスのシステム定式化と、その定式化がベンダー固有のコントロール サーフェスに崩壊することなくランタイム チャーンの下で移植性を維持できる方法についての実装に基づいた説明に貢献します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Proof-Carrying Agent Actions: Model-Agnostic Runtime Governance for Heterogeneous Agent Systems</p>
        <p class="orig-summary">Agent systems execute through runtimes with very different control points: local coding tools, framework SDKs, managed agent platforms, API gateways, and observer-only integrations. A high-risk action such as publishing data externally may therefore appear as a shell command in one runtime, a tool call in another, and a hosted session transition in a third. This makes it difficult to answer a basic governance question consistently: what action was authorized, under whose authority, with what approval semantics, and with what evidence after execution? This paper presents Proof-Carrying Agent Actions (PCAA), a runtime-neutral governance model centered on an action certificate rather than on a vendor-native session record. PCAA organizes control around five checkpoints: pre-action admissibility, action open, assumption capture, approval, and outcome closure. It binds these checkpoints to a portable action envelope, runtime and approval receipts, and replay-ready proof. The model is extended in two practical ways: the certificate is externality-aware, carrying boundary facts such as destination visibility and account provenance, and approval is described by explicit enforceability classes rather than by a single reviewed or unreviewed bit. We study the model through a reference implementation in a heterogeneous agent control plane and a disclosure-bounded evaluation protocol. On a protected benchmark expanded from 24 executable seeds to 96 traces across four runtime families, PCAA preserves route quality while exposing distinct failure modes under ablation. The paper contributes a systems formulation of runtime governance around certificate-bearing actions and an implementation-grounded account of how that formulation can remain portable under runtime churn without collapsing into vendor-specific control surfaces.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c7c0ecaedd6" data-article-url="https://arxiv.org/abs/2606.04106" data-article-title="マシンインテリジェンスの Ph(ysical)AI 層の構築" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04106" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04106" target="_blank" rel="noopener">マシンインテリジェンスの Ph(ysical)AI 層の構築</a></h3>
      <p class="summary">基礎モデルは、多様なデータに対する大規模なトレーニングを通じて一般化を実現しますが、ペアになったトレーニング データなしで真に目に見えないドメインへの転送には制限があります。私たちは、束縛されていない統計的相関を学習するのではなく、信号理論の原理 (フーリエ分解、エネルギー保存、対称性) をエンコードする原理駆動型の基礎モデルを提案します。私たちは、ドメインの違いは基礎物理学ではなく、時間、周波数、大きさ、または位相における学習可能な変換にあると仮説を立てます。これらの原則を組み込んだ、共同設計されたアーキテクチャと損失を備えた無線周波数 (RF) データのみをトレーニングすることで、RF データから学習したフリーズ表現のみを使用してオーディオ、画像、テキスト、ビデオへのクロスモーダル転送を実現し、ターゲット ドメインでのエンコーダーの微調整を必要としません。当社の 199 万パラメータのフローズン エンコーダは、リニア プロービングによる 15 の多様なタスクにわたって平均精度 77.7% (トップ 3 の 91.9%) を達成します。系統的な変動はあります。物理的に接地されたタスク (話者認識、地震学、RF フィンガープリンティング) では 84.5 %、セマンティック タスク (音楽ジャンル、言語認識) では 70.0% です。これは、原則主導型アプローチとスケール主導型アプローチが補完的な道を提供することを明らかにしています。物理原則は効率的なクロスモーダル転送を可能にし、同時に物理的理解と意味論的理解の間の境界を自然に確立します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Building The Ph(ysical)AI Layer Of Machine Intelligence</p>
        <p class="orig-summary">Foundation models achieve generalization through massive-scale training on diverse data, but have limitations with transfer to truly unseen domains without paired training data. We propose principle-driven foundation models that encode signal-theoretic principles (Fourier decomposition, energy conservation, symmetry) rather than learn untethered statistical correlations. We hypothesize that domains differ not in fundamental physics, but in learnable transformations in time, frequency, magnitude, or phase. Training exclusively on radio-frequency (RF) data with co-designed architecture and losses incorporating these principles, we achieve cross-modal transfer to audio, images, text, and video using only frozen representations learned from RF data, requiring no fine-tuning of the encoder on target domains. Our 1.99M parameter frozen encoder achieves 77.7% average accuracy (91.9% top-3) across 15 diverse tasks via linear probing, with systematic variation: 84.5 on physically-grounded tasks (speaker recognition, seismology, RF fingerprinting) versus 70.0% on semantic tasks (music genre, language recognition). This reveals that principle-driven and scale-driven approaches offer complementary paths: physical principles enable efficient cross-modal transfer while naturally establishing the boundary between physical and semantic understanding.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d646bc679a6f" data-article-url="https://arxiv.org/abs/2606.04108" data-article-title="SymTRELLIS: 3D 生成のための対称性強化ボクセル潜在" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04108" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04108" target="_blank" rel="noopener">SymTRELLIS: 3D 生成のための対称性強化ボクセル潜在</a></h3>
      <p class="summary">シングルビュー 3D 生成モデルは、優れた視覚的品質を実現していますが、構造的または機能的要件を満たすように設計されておらず、実際には不十分なことがよくあります。対称性もそのような要件の 1 つです。対称性に違反すると、たとえそれが微妙な場合でも、モデルが物理的に使用できなくなる可能性があります。 SymTRELLIS は、基礎となる VAE やフロー モデルを再トレーニングすることなく、TRELLIS.2 のフローベース 3D 生成中に任意の有限点群対称 (回転、鏡映、多面体) を強制する手法です。私たちの重要なアイデアは、一般的な非対称 3D データでトレーニングされた軽量の空間変換潜在マッパーとして実装された、ボクセル潜在に対する学習済み線形演算子として空間変換の潜在空間アクションを近似することです。生成時に、各 ODE ステップですべての対称に相当する変換にわたって予測流速を平均することによって対称性を強制します。このプロセスを速度対称化と呼びます。対称仕様は、初期の TRELLIS.2 生成から自動的に推定することも、ユーザーが指定することもでき、入力画像が示唆するものを超えた意図的な折り操作が可能になります。 2 ～ 20 回の回転と多面体対称グループにわたる 266 個の厳密に対称なオブジェクトの厳選されたベンチマークでは、SymTRELLIS は、ベース モデルと同等の再構築精度を維持しながら、TRELLIS.2、Hunyuan3D-2.1、および TripoSG と比較してすべての対称誤差メトリクスを大幅に削減します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SymTRELLIS: Symmetry-Enforced Voxel Latents for 3D Generation</p>
        <p class="orig-summary">Single-view 3D generative models have achieved impressive visual quality, yet they are not designed to satisfy structural or functional requirements, and in practice, often fall short. Symmetry is one such requirement: violations, even subtle ones, on symmetry can render a model physically unusable. We present SymTRELLIS, a method that enforces arbitrary finite point group symmetries (rotational, reflectional, and polyhedral) during the flow-based 3D generation of TRELLIS.2, without retraining the underlying VAE or flow model. Our key idea is to approximate the latent-space action of spatial transformations as a learned linear operator on voxel latents, implemented as a lightweight spatial-transform latent mapper trained on generic, non-symmetric 3D data. At generation time, we enforce symmetry by averaging predicted flow velocities across all symmetry-equivalent transformations at each ODE step, a process we call velocity symmetrization. The symmetry specification can be estimated automatically from an initial TRELLIS.2 generation or supplied by the user, enabling deliberate fold manipulation beyond what the input image suggests. On a curated benchmark of 266 strictly symmetric objects spanning 2- to 20-fold rotations and polyhedral symmetry groups, SymTRELLIS substantially reduces all symmetry error metrics compared to TRELLIS.2, Hunyuan3D-2.1, and TripoSG, while maintaining reconstruction accuracy comparable to the base model.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="528ded50b4bc" data-article-url="https://arxiv.org/abs/2606.04111" data-article-title="AgenticDiffusion: ビジョンベースの UAV ナビゲーションのための Agentic Diffusion ベースの経路計画" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04111" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04111" target="_blank" rel="noopener">AgenticDiffusion: ビジョンベースの UAV ナビゲーションのための Agentic Diffusion ベースの経路計画</a></h3>
      <p class="summary">屋内 UAV ナビゲーションには、限られた視野の観察下での効率的な探索、シーンの理解、信頼性の高い軌道の実行が必要です。既存のビジョンベースのナビゲーション フレームワークは通常、単一ビューの観察に依存しており、オクルージョン、ターゲットの可視性、およびグローバル シーン構造について推論する能力が制限されています。この研究では、統合された航空ナビゲーション パイプライン内で、言語に基づく推論、オープン語彙によるターゲットのグラウンディング、視覚ベースの拡散計画、および NMPC を調整するマルチビュー UAV ナビゲーション フレームワークである AgenticDiffusion を提案します。自然言語による指示と、同期した一人称視点 (FPV) および上面視点の観察を考慮して、フレームワークはナビゲーションに最も有益な視点を決定し、軌道の実行前にミッション計画を生成します。ターゲットは、オープンボキャブラリーグラウンディングモデルを使用して位置特定され、その後、視点固有の拡散プランナーが UAV 実行のためのナビゲーション軌道を生成します。提案されたフレームワークは、補完的な視点を使用して、繰り返しのターゲット探査を削減し、雑然とした屋内環境でのナビゲーション効率を向上させます。このフレームワークは、適応視点選択、多段階ミッション実行、長距離ナビゲーション、安全な着陸地点選択を含む 4 つの現実世界の UAV ナビゲーション シナリオで検証されました。実験結果では、40 回の実世界試験でミッション全体の成功率が 80% であることが実証され、一方、拡散計画者は軌道生成の成功率が 100% に達しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AgenticDiffusion: Agentic Diffusion-based Path Planning for Vision-Based UAV Navigation</p>
        <p class="orig-summary">Indoor UAV navigation requires efficient exploration, scene understanding, and reliable trajectory execution under limited field-of-view observations. Existing vision-based navigation frameworks typically rely on single-view observations, limiting their ability to reason about occlusions, target visibility, and global scene structure. In this work, we propose AgenticDiffusion, a multi-view UAV navigation framework that coordinates language-guided reasoning, open-vocabulary target grounding, vision-based diffusion planning, and NMPC within a unified aerial navigation pipeline. Given a natural language instruction and synchronized first-person-view (FPV) and top-view observations, the framework determines the most informative viewpoint for navigation and generates a mission plan prior to trajectory execution. The targets are localized using an open-vocabulary grounding model, after which viewpoint-specific diffusion planners generate navigation trajectories for UAV execution. Using complementary viewpoints, the proposed framework reduces repeated target exploration and improves navigation efficiency in cluttered indoor environments. The framework was validated in four real-world UAV navigation scenarios involving adaptive viewpoint selection, multi-stage mission execution, long-horizon navigation, and safe landing-site selection. The experimental results demonstrated an overall mission success rate of 80% in 40 real-world trials, while the diffusion planners achieved a trajectory generation success rate of 100%.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="17c811b4949a" data-article-url="https://arxiv.org/abs/2606.04115" data-article-title="dMX: 低精度浮動小数点フォーマットの微分可能な混合精度代入" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04115" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04115" target="_blank" rel="noopener">dMX: 低精度浮動小数点フォーマットの微分可能な混合精度代入</a></h3>
      <p class="summary">大規模言語モデル (LLM) を低精度の浮動小数点表現に量子化することは、効率的な展開の中心となりますが、単一のビット幅をすべてのレイヤーに均一に適用することは、パフォーマンスと精度の両方の点で最適とは言えません。この研究では、学習可能な浮動小数点ビット幅割り当てのための微分可能な混合精度量子化フレームワークである dMX を紹介します。私たちは、オープン コンピューティング プロジェクト (OCP) 標準によって定義されたデータ型のマイクロスケーリング浮動小数点 (MXFP) ファミリへの応用を研究します。レイヤごとのビット幅の割り当ては、各レイヤの浮動小数点形式がスカラー パラメータによってパラメータ化され、多変量設計空間を単一の学習可能なオフセットに折りたたむ連続最適化問題として定式化されます。トレーニング中、このオフセットは連続値をとり、離散量子化形式間の突然の振動を回避します。温度ベースのアニーリング スケジュールにより、学習されたオフセットが段階的に離散化され、トレーニング動作と推論動作の間で突然移行することなく、最終的な構成がハードウェア互換の MXFP 形式にマッピングされることが保証されます。ターゲットを意識した正則化用語は、平均ビット幅をユーザー指定の予算に向けて導き、推論コストの大まかな代理として機能し、モデルの品質と展開効率のバランスをとります。私たちは Llama、Qwen3、SmolLM2 などのさまざまな LLM ファミリで実験を実行し、WikiText-2 での複雑性と 4 つのゼロショット推論ベンチマークでの精度を評価しました。これらの設定全体にわたって、dMX は一貫してパレート支配モデルを生成し、カルバック ライブラー (KL) 発散ベースのレイヤー選択ヒューリスティックを改善し、モデルの品質と平均ビット幅の間のトレードオフを効率的にナビゲートします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">dMX: Differentiable Mixed-Precision Assignment for Low-Precision Floating-Point Formats</p>
        <p class="orig-summary">Quantizing large language models (LLMs) to low-precision floating-point representations is central to efficient deployment, yet applying a single bit-width uniformly across all layers is sub-optimal in terms of both performance and accuracy. This work introduces dMX, a differentiable mixed-precision quantization framework for learnable floating-point bit-width assignment. We study its application for the microscaling floating-point (MXFP) family of data types defined by the Open Compute Project (OCP) standard. The per-layer bit-width assignment is formulated as a continuous optimization problem in which each layer&#x27;s floating-point format format is parameterized by a scalar parameter, folding the multi-variate design space into a single learnable offset. During training this offset takes continuous values, avoiding sudden oscillations between discrete quantization formats. A temperature-based annealing schedule progressively discretizes the learned offsets, ensuring that the final configuration maps to hardware-compatible MXFP formats without abrupt transitions between training and inference behavior. A target-aware regularization term steers the average bit-width toward a user-specified budget, serving as a coarse-grained proxy for inference cost and balancing model quality against deployment efficiency. We performed experiments on different families of LLM, such as Llama, Qwen3, and SmolLM2, evaluating perplexity on WikiText-2 and accuracy on four zero-shot reasoning benchmarks. Across these settings, dMX consistently yields Pareto-dominating models and improves over Kullback-Leibler (KL) divergence-based layer-selection heuristics, efficiently navigating trade-offs between model quality and average bit-width.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4d7525f479e2" data-article-url="https://arxiv.org/abs/2606.04120" data-article-title="SaliMory: 会話エージェントの認知記憶を調整する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04120" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04120" target="_blank" rel="noopener">SaliMory: 会話エージェントの認知記憶を調整する</a></h3>
      <p class="summary">生涯の伴侶として機能する会話エージェントは、すべての対話にわたって永続的な記憶を維持する必要があります。ただし、生の取得でコンテキスト ウィンドウを単純に拡張すると推論の品質が低下し、標準の強化学習による記憶エージェントのトレーニングでは、多段階パイプラインで深刻なクレジット割り当てのボトルネックが発生します。これを解決するために、単一言語モデルをトレーニングして、ユーザーの事実、好み、作業記憶にまたがる認知的に構造化された記憶を管理するフレームワークである SALIMORY を紹介します。 SALIMORY は、階層的な段階ごとのプロセス報酬と報酬分解された対照的洗練を導入することにより、個別の記憶操作 (選択的フィルタリング、統合、およびキュー主導のリコール) をエンドツーエンドで個別に監視します。 SALIMORY はメモリに起因する障害を 3 分の 1 に削減し、エンドツーエンドの精度で最先端のものを 10% 以上上回り、Good Personalization 率を 2 倍以上に高めます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SaliMory: Orchestrating Cognitive Memory for Conversational Agents</p>
        <p class="orig-summary">Conversational agents that serve as lifelong companions must maintain persistent memory across all interactions. However, simply expanding context windows with raw retrieval degrades reasoning quality, while training memory agents via standard reinforcement learning creates a severe credit assignment bottleneck in a multi-stage pipeline. To solve this, we introduce SALIMORY, a framework that trains a single language model to manage a cognitively-structured memory-spanning user facts, preferences, and working memory. By introducing a hierarchical stage-wise process reward and reward-decomposed contrastive refinement, SALIMORY provides isolated supervision for distinct memory operations (selective filtering, consolidation, and cue-driven recall) end-to-end. SALIMORY cuts memory-attributed failures by one-third, outperforms the state-of-the-art by over 10% in end-to-end accuracy, and more than doubles the Good Personalization rate.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c8e9733af44d" data-article-url="https://arxiv.org/abs/2606.04123" data-article-title="大規模言語モデルによる適応軌道最適化のためのセマンティック制約合成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04123" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04123" target="_blank" rel="noopener">大規模言語モデルによる適応軌道最適化のためのセマンティック制約合成</a></h3>
      <p class="summary">軌道の最適化は、宇宙探査において安全で信頼性の高い自律運用を可能にするための重要なコンポーネントです。宇宙ミッションの頻度、複雑さ、範囲が増加するにつれて、ミッションの目的と運用上の制約を正確に反映する、数学的に適切な軌道最適化問題を迅速に定式化する必要性が高まっています。ただし、ミッションの意図を軌道最適化のための扱いやすい分析公式に変換するには、かなりの専門知識が必要です。この論文では、大規模言語モデル (LLM) を活用して、ミッションの要件と制約の自然言語記述を実行可能な軌道最適化コードと対応する数学的定式化に変換するフレームワークを紹介します。宇宙船ランデブーシナリオでの実験では、意味論的なミッション要件から凸軌道最適化問題を再調整する際の高い成功率が実証されています。最終的に、この研究は、高レベルの意図と形式的な最適化モデルを橋渡しする LLM の可能性を強調し、宇宙船のより柔軟で効率的な軌道設計を可能にします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Semantic Constraint Synthesis for Adaptive Trajectory Optimization via Large Language Models</p>
        <p class="orig-summary">Trajectory optimization is a critical component for enabling safe and reliable autonomous operations in space exploration. As space missions increase in frequency, complexity, and scope, there is a growing need to rapidly formulate mathematically sound trajectory optimization problems that accurately reflect mission objectives and operational constraints. However, translating mission intent into tractable analytical formulations for trajectory optimization requires substantial domain expertise. This paper presents a framework that leverages large language models (LLMs) to translate natural language descriptions of mission requirements and constraints into executable trajectory optimization code and corresponding mathematical formulations. Experiments in spacecraft rendezvous scenarios demonstrate a high success rate in reconditioning a convex trajectory optimization problem from semantic mission requirements. Ultimately, this work highlights the potential of LLMs to bridge high-level intent and formal optimization models, enabling more flexible and efficient trajectory design of spacecraft.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="43aec04d58c2" data-article-url="https://arxiv.org/abs/2606.04126" data-article-title="HighTide: エージェントが厳選したオープンソース VLSI ベンチマーク スイート" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04126" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04126" target="_blank" rel="noopener">HighTide: エージェントが厳選したオープンソース VLSI ベンチマーク スイート</a></h3>
      <p class="summary">進化する AI 支援ベンチマーク スイートである HighTide を紹介します。具体的には、(i) 複数の設計言語とテクノロジ ノードにまたがる多様なオープンソース スイート、(ii) リモート キャッシュを備えた Bazel ベースの増分 RTL から GDS へのコンパイル、(iii) スイート全体の調整理論的根拠の長期記憶として機能する設計ごとの意思決定ログに裏付けられた、設計ライフサイクル、フロー最適化、ツール リファレンス、メタ メンテナンスをカバーする 12 のエージェント スキルによる AI 支援の設計キュレーション、および(iv) 安定リリース用の RTL コンパイル検証を備えたインフラストラクチャ。このスイートは一般公開されており、オープンソースのハードウェア エコシステムとともに成長するように設計されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">HighTide: An Agent-Curated Open-Source VLSI Benchmark Suite</p>
        <p class="orig-summary">We introduce HighTide, an evolving AI-assisted benchmark suite. Specifically, the contributions are: (i) a diverse open-source suite spanning multiple design languages and technology nodes, (ii) Bazel-based incremental RTL-to-GDS compilation with remote caching, (iii) AI-assisted design curation through twelve agent skills covering the design lifecycle, flow optimization, tool reference, and meta-maintenance, backed by per-design decision logs that serve as long-term memory of tuning rationale across the suite, and (iv) an infrastructure with RTL compilation verification for stable releases. The suite is publicly available and designed to grow with the open-source hardware ecosystem.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="af30cc9340e2" data-article-url="https://arxiv.org/abs/2606.04141" data-article-title="Caught in the Act(ivation): LLM エージェントによる資格情報漏洩の事前出力およびマルチターン検出に向けて" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04141" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04141" target="_blank" rel="noopener">Caught in the Act(ivation): LLM エージェントによる資格情報漏洩の事前出力およびマルチターン検出に向けて</a></h3>
      <p class="summary">LLM エージェントは多くの場合、機密認証情報を信頼できない取得コンテンツと同じコンテキスト ウィンドウに配置し、認証情報の漏洩を誘発する間接的なプロンプト インジェクションの直接パスを作成します。私たちは、3 つの相補的な防御を通じてこの障害モードを研究します。まず、出力トークンが発行される前に、アクティベーション プローブが資格情報へのアクセスを検出できるかどうかを尋ねます。次に、形式固有の文字モデルからハニートークンを構築し、分割等角予測で検出を調整します。 3 番目に、複数ターンにわたる漏洩を累積的な情報フロー問題として扱い、会話ターン全体での推定漏洩予算を追跡します。オープンウェイト モデルの制御された実験では、アクティベーション機能により、ホールドアウト エンコーディング変換下を含め、無害なプロンプトと認証情報を求めるプロンプトが高精度で分離されます。小規模な合成マルチターン スイートでは、累積アカウンティングにより、ターンごとの検出器が見逃した攻撃が検出されます。これらの結果は暫定的なものです。マルチターン ベンチマークは社内で小規模なものであり、アクティブ化方法にはホワイト ボックス アクセスが必要であり、情報推定ツールは正式な上限ではなく実用的なシグナルを提供します。それでも、この結果は、資格情報の漏洩防御には、テキストレベルの出力フィルターのみに依存するのではなく、出力前の監視、調整されたカナリア検出、および一時的な漏洩アカウンティングを組み合わせる必要があることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Caught in the Act(ivation): Toward Pre-Output and Multi-Turn Detection of Credential Exfiltration by LLM Agents</p>
        <p class="orig-summary">LLM agents often place sensitive credentials in the same context window as untrusted retrieved content, creating a direct path for indirect prompt injection to induce credential exfiltration. We study this failure mode through three complementary defenses. First, we ask whether activation probes can detect credential access before output tokens are emitted. Second, we construct honeytokens from format-specific character models and calibrate detection with split conformal prediction. Third, we treat multi-turn exfiltration as a cumulative information-flow problem and track an estimated leakage budget across conversation turns. In controlled experiments on open-weight models, activation features separate benign and credential-seeking prompts with high accuracy, including under held-out encoding transformations. In a small synthetic multi-turn suite, cumulative accounting detects attacks that per-turn detectors miss. These results are preliminary: the multi-turn benchmark is in-house and small, the activation method requires white-box access, and the information estimator provides a practical signal rather than a formal upper bound. Still, the results suggest that credential-exfiltration defenses should combine pre-output monitoring, calibrated canary detection, and temporal leakage accounting rather than relying only on text-level output filters.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="84262002238f" data-article-url="https://arxiv.org/abs/2606.04143" data-article-title="短期洪水予測のための物理学に基づいた機械学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04143" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04143" target="_blank" rel="noopener">短期洪水予測のための物理学に基づいた機械学習</a></h3>
      <p class="summary">正確な洪水予測は、災害リスクを軽減し、コミュニティを保護するために不可欠です。ただし、純粋にデータ駆動型の機械学習モデルは、データが不足している環境では苦労することが多く、基本的な水文学原則に違反する可能性があります。標準の Long Short-Term Memory (LSTM) ネットワークは、特に極端な気象条件を推定する場合に、物理的に矛盾した予測を生成する可能性があります。これらの制限に対処するために、私たちは、水文学的な知識を LSTM モデルの損失関数に直接組み込む、物理情報に基づく機械学習 (PIML) フレームワークを提案します。具体的には、トレンド アライメント制約により、降水量と流量の傾向間の方向性の不一致にペナルティが課され、複雑な流体力学方程式を必要とせずにモデルの堅牢性が向上します。この正則化により、トレーニング データが限られている場合でも、物理的に妥当な水路図の動作をモデルが学習できるようになり、洪水のピーク時の信頼性が向上します。実験結果は、提案された物理情報モデルがデータ不足の設定において標準の LSTM ベースラインを上回り、利用可能なデータのわずか 5% でトレーニングされた場合にナッシュ・サトクリフ効率 (NSE) が 0.20 から 0.23 に増加することを示しています。シミュレーションされた極端な気候シナリオでの追加のストレス テストでは、ベースライン モデルが不安定な挙動を示すのに対し、物理学に基づいたモデルは方向の一貫性と物理的妥当性を維持していることが実証されました。データが限られているため、極端なピークの大きさを正確に予測することは依然として困難ですが、提案されたアプローチは、純粋にデータ駆動型のモデルによくある非物理的な変動を大幅に軽減します。これらの発見は、単純な物理的制約によって、リアルタイム洪水予測のための深層学習モデルの信頼性が大幅に向上し、計測されていない盆地や進化する気候条件に対する実用的なソリューションを提供できることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Physics-Informed Machine Learning for Short-Term Flood Prediction</p>
        <p class="orig-summary">Accurate flood forecasting is essential for mitigating disaster risks and protecting communities. However, purely data-driven machine learning models often struggle in data-scarce environments and may violate fundamental hydrological principles. Standard Long Short-Term Memory (LSTM) networks can generate physically inconsistent predictions, particularly when extrapolating to extreme weather conditions. To address these limitations, we propose a Physics-Informed Machine Learning (PIML) framework that incorporates hydrological knowledge directly into the loss function of an LSTM model. Specifically, a Trend Alignment constraint penalizes directional inconsistencies between precipitation and discharge trends, improving model robustness without requiring complex hydrodynamic equations. This regularization encourages the model to learn physically plausible hydrograph behavior, even with limited training data, while enhancing reliability during peak flood events. Experimental results show that the proposed physics-informed model outperforms a standard LSTM baseline in data-scarce settings, increasing the Nash-Sutcliffe Efficiency (NSE) from 0.20 to 0.23 when trained on only 5% of the available data. Additional stress tests under simulated extreme climate scenarios demonstrate that the baseline model exhibits unstable behavior, whereas the physics-informed model maintains directional consistency and physical plausibility. Although accurately predicting extreme peak magnitudes remains challenging with limited data, the proposed approach substantially reduces unphysical fluctuations common in purely data-driven models. These findings demonstrate that simple physical constraints can significantly improve the reliability of deep learning models for real-time flood forecasting, offering a practical solution for ungauged basins and evolving climate conditions.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c53bf0c6498e" data-article-url="https://arxiv.org/abs/2606.04145" data-article-title="EvalStop: ワールド フィードバックを使用して、マルチテナント RLHF プラットフォームにおける報酬の過剰最適化を検出および修正する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04145" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04145" target="_blank" rel="noopener">EvalStop: ワールド フィードバックを使用して、マルチテナント RLHF プラットフォームにおける報酬の過剰最適化を検出および修正する</a></h3>
      <p class="summary">Cloud LLM 微調整プラットフォームは RLHF ワークロードにますます対応しており、学習された報酬モデルが人間の品質の代用として最適化されています。 Gao らのように(2023) は、このプロキシは、報酬の過剰最適化として知られる現象である持続的な最適化圧力の下で、世界のフィードバック (下流の評価指標) から乖離することを示しました。既存のプラットフォーム スケジューラはこの相違を無視しています。非千里眼スケジューラは品質信号なしで JCT を最適化し、SLAQ スタイルの品質認識スケジューラはトレーニング損失 (ハッキングによって単調に低下する弱いプロキシ) を使用し、古典的なジョブごとの早期停止では人間による監視が必要であり、共有 GPU を解放しません。私たちは、evalStop を提案します。これは、k 回連続して eval スコアが低下したときにジョブを終了し、GPU を解放し、最適なチェックポイントを保持し、任意のベース スケジューラに委任する、コンポーザブルなスケジューリング プリミティブです。私たちは、スケジューラレベルの早期停止を検出問題としてフレーム化し、RLHF ワークロードが報酬ハッキングと構造的に健全な実行を混合し、スケジューラから隠蔽されたグランドトゥルースラベルを使用した離散イベントシミュレータでそれを評価します。 RLHF の負荷が高いワークロード (RLHF 80%、GPU 64 基) では、EvalStop は精度 98% / リコール 99% / FPR 1.5% を達成し、SRTF-Est と比較して JCT を 9% 改善し、無駄なコンピューティングを 22% 削減します (p&lt;0.05)。些細な固定進捗と損失プラトーの競合他社は、健全な RLHF で 65% の FPR を被るか、真のハッキング ケースの半分以上を見逃すかのどちらかです。ゲインはテストされたすべてのベース スケジューラにわたって構成され (9 ～ 25% の JCT)、検出品質は評価ノイズ (ノイズ std &lt;= 0.05 で少なくとも 91% の精度) およびハッキングのベース レート (20 ～ 80% のハッキング部分で少なくとも 89% の精度) の下で安定しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">EvalStop: Using World Feedback to Detect and Correct Reward Overoptimization in Multi-Tenant RLHF Platforms</p>
        <p class="orig-summary">Cloud LLM fine-tuning platforms increasingly serve RLHF workloads, where a learned reward model is optimized as a proxy for human quality. As Gao et al. (2023) showed, this proxy diverges from world feedback (downstream eval metrics) under sustained optimization pressure, a phenomenon known as reward overoptimization. Existing platform schedulers ignore this divergence: non-clairvoyant schedulers optimize JCT without any quality signal, SLAQ-style quality-aware schedulers use training loss (a weaker proxy that drops monotonically through hacking), and classical per-job early stopping requires human monitoring and does not free shared GPUs. We propose EvalStop, a composable scheduling primitive that terminates jobs on k consecutive eval-score declines, releases GPUs, preserves the best checkpoint, and delegates to any base scheduler. We frame scheduler-level early stopping as a detection problem and evaluate it in a discrete-event simulator whose RLHF workload mixes reward-hacking and structurally healthy runs, with ground-truth labels hidden from schedulers. On RLHF-heavy workloads (80% RLHF, 64 GPUs), EvalStop achieves precision 98% / recall 99% / FPR 1.5% while improving JCT by 9% and cutting wasted compute by 22% over SRTF-Est (p&lt;0.05). Trivial fixed-progress and loss-plateau competitors either incur 65% FPR on healthy RLHF or miss over half of true hacking cases. Gains compose across every base scheduler tested (9-25% JCT) and detection quality stays stable under eval noise (precision at least 91% at noise std &lt;= 0.05) and hacking base rate (precision at least 89% across 20-80% hacking fractions).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="102cb45420d5" data-article-url="https://arxiv.org/abs/2606.04164" data-article-title="ADAPTOOD: 分布外 ECG 時系列モデルの不確実性を考慮した微調整" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04164" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04164" target="_blank" rel="noopener">ADAPTOOD: 分布外 ECG 時系列モデルの不確実性を考慮した微調整</a></h3>
      <p class="summary">トレーニングに使用されるデータ サンプルは、微調整や展開中に発生するデータ サンプルとは異なることが多く、ML モデルは有望ですが、注釈付きの小さなデータセットしか利用できない場合、そのパフォーマンスは依然として限定的です。さまざまなセンサー、母集団、アプリケーション設定によって引き起こされる分布の変化では、パフォーマンスが低下することがよくあります。事前トレーニングは役立ちますが、現実世界の設定ではモデルが分布外 (OOD) データに頻繁に遭遇し、堅牢性の低下につながります。既存の適応手法は通常、固定的な分布シフトを想定しており、複数の種類や重大度が発生した場合に困難を伴います。特に、彼らはシフトの重大性を見落としており、たとえば、慣れ親しんだ大規模なデータセットへの適応を、新しいタスクを伴う小規模なデータセットへの適応と同じように扱うため、一般化が制限されます。これに対処するために、データの不確実性を活用して分布シフトの深刻度を定量化し、時系列の微調整をガイドする新しいフレームワークである ADAPTOOD を提案します。この不確実性は、ターゲット展開分布からのサンプルがトレーニング前の分布からどれだけ強く逸脱しているかを測定し、OOD 重大度の直接的なシグナルを提供します。私たちのフレームワークは、この不確実性を低ランクのモデルの更新と適応型ハイパーパラメーターの最適化と組み合わせて、適応を改善します。 ADAPTOOD は、OOD タスクにおいて既存の方法よりも最大 7% 高い精度と 12.9% 高い精度を達成し、分布シフトの重大度が増加しても強力なパフォーマンスを維持することを示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ADAPTOOD: Uncertainty-Aware Fine-Tuning for Out-of-Distribution ECG Time Series Models</p>
        <p class="orig-summary">Data samples used for training often differ from those encountered during fine-tuning and deployment, and while ML models show promise, their performance remains limited when only small annotated datasets are available. Performance often degrades under distribution shifts caused by diverse sensors, populations, and application settings. Although pre-training helps, models frequently encounter out-of-distribution (OOD) data in real-world settings, leading to reduced robustness. Existing adaptation methods usually assume fixed distribution shifts and struggle when multiple types or severities occur. In particular, they overlook shift severity, for example treating adaptation to a large familiar dataset the same as adaptation to a small dataset with a new task, which limits generalisation. To address this, we propose ADAPTOOD, a novel framework that leverages data uncertainty to quantify distribution shift severity and guide fine-tuning for time series. This uncertainty measures how strongly samples from the target deployment distribution deviate from the pre-training distribution, providing a direct signal of OOD severity. Our framework combines this uncertainty with low-rank model updates and adaptive hyperparameter optimisation to improve adaptation. We show that ADAPTOOD achieves up to 7% higher accuracy and 12.9% higher precision than existing methods in OOD tasks, maintaining strong performance as distribution shift severity increases.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="74884beaa02b" data-article-url="https://arxiv.org/abs/2606.04167" data-article-title="ニューロンを使用しないスマートな交通 -- 表形式の強化学習による公平な地下鉄ネットワークの拡張" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04167" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04167" target="_blank" rel="noopener">ニューロンを使用しないスマートな交通 -- 表形式の強化学習による公平な地下鉄ネットワークの拡張</a></h3>
      <p class="summary">私たちは、交通需要を満たすために地下鉄システムを拡張することに焦点を当てた交通ネットワーク設計問題 (TNDP) のサブセットである地下鉄ネットワーク拡張問題 (MNEP) に取り組みます。従来の方法は、検索スペースを削減するために専門家が定義した制約を必要とする、正確でヒューリスティックなアプローチに依存しています。最近、複雑な逐次意思決定プロセスにおける有効性により、深層強化学習 (Deep RL) が登場しましたが、依然として計算コストと環境コストが高く、解釈するには追加のエンジニアリングが必要です。 MNEP 問題は、Deep RL 手法を必要としないほど十分に小さいことを示します。 MNEP を非マルコフ報酬決定プロセス (NMRDP) として再定式化し、表形式の RL を使用して、大幅に少ないトレーニング エピソードで同様のパフォーマンスを達成し、さらに優れた解釈可能性を提供します。さらに、報酬関数に社会的公平性の基準を組み込み、効率と公平性に重点を置き、手法の多用途性を強調しています。西安とアムステルダムの現実世界の設定で評価された私たちの方法は、Deep RL との競争力を維持しながら、総エピソード数を平均 18 分の 1、総二酸化炭素排出量を 12 分の 1 削減します。このアプローチは、他の組み合わせ最適化問題への潜在的なアプリケーションを備えた、複製可能、モジュール式、解釈可能な、リソース効率の高いソリューションを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Smart Transportation Without Neurons -- Fair Metro Network Expansion with Tabular Reinforcement Learning</p>
        <p class="orig-summary">We tackle the Metro Network Expansion Problem (MNEP), a subset of the Transport Network Design Problem (TNDP), which focuses on expanding metro systems to satisfy travel demand. Traditional methods rely on exact and heuristic approaches that require expert-defined constraints to reduce the search space. Recently, deep reinforcement learning (Deep RL) has emerged due to its effectiveness in complex sequential decision-making processes-it remains, however, computationally expensive, environmentally costly, and requires additional engineering to interpret. We show that MNEP problems are small enough to not require Deep RL methods. Reformulating the MNEP as a Non-Markovian Rewards Decision Process (NMRDP), we use tabular RL to achieve similar performance with significantly fewer training episodes, additionally offering greater interpretability. Additionally, we incorporate social equity criteria into the reward functions, focusing on efficiency and fairness, highlighting the versatility of our method. Evaluated in real-world settings-Xi&#x27;an and Amsterdam-our method reduces total episodes by a factor of 18 and total carbon emissions by a factor of 12 on average, while remaining competitive with Deep RL. This approach offers a replicable, modular, interpretable, and resource-efficient solution with potential applications to other combinatorial optimization problems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ac5d8a52ca3" data-article-url="https://arxiv.org/abs/2606.04171" data-article-title="MimeLens: バイナリ フラグメントの位置に依存しないコンテンツ タイプの検出" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04171" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04171" target="_blank" rel="noopener">MimeLens: バイナリ フラグメントの位置に依存しないコンテンツ タイプの検出</a></h3>
      <p class="summary">ファイル タイプの分類は、マルウェアのトリアージ、フォレンジック カービング、パケット インスペクション、ストレージ インデックス作成などの多くのワークフローの基礎となります。 Google の Magika などの学習型システムは、既知のオフセットでのファイル全体へのアクセスを前提としているため、単一パケットのペイロード、ヘッダーのない彫刻されたフラグメント、ランダムなディスク ブロック、またはチャンク アップロードなど、これらのタスクの多くが実際に生成する入力を中断します。 MimeLens は、標準コンテキストおよびショートコンテキストのバリアントで、各ファイル内の均一にランダムなオフセットでサンプリングされたウィンドウからのバイナリ コンテンツで事前トレーニングされた小さな BERT スタイル エンコーダ ファミリであり、特権的なファイル先頭位置はありません。バイト チャンクはファイル内のどこからでも入ります。ヘッダーも固定サイズも必要ありません。 libmagic の 125 の MIME ラベルの 1 つが出力されます。完全なファイルのクリーンヘッドでは、MimeLens は、libmagic ラベル付きデータで +10.7 pp のトップ 1 で Magika v1.1 を上回り、単一のミッドストリーム UDP パケットから、ランダムなミッドファイル ディスク ブロック上で libmagic と Magika の 2 倍以上の正確さで、Magicka ができない場所を分類し続けます。コストは遅延です。MimeLens は、消費者向け GPU やバッチでは同等ですが、CPU 上では Magika よりもサンプルごとにおよそ 1 ～ 2 桁遅く実行されます。トレーニングされたすべてのチェックポイントは、Hugging Face (mjbommar/mimelens-001-*) でリリースされます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MimeLens: Position-Agnostic Content-Type Detection for Binary Fragments</p>
        <p class="orig-summary">File-type classification underlies many workflows like malware triage, forensic carving, packet inspection, and storage indexing. Learned systems such as Google&#x27;s Magika assume whole-file access at a known offset, so they break on the inputs many of these tasks actually produce, like a single packet payload, a header-less carved fragment, a random disk block, or a chunked upload. We introduce MimeLens, a family of small BERT-style encoders pretrained on binary content from windows sampled at a uniformly random offset within each file, with no privileged head-of-file position, in standard- and short-context variants. A byte chunk goes in from anywhere in a file, no header needed and no fixed size; out comes one of libmagic&#x27;s 125 MIME labels. On the clean head of complete files, MimeLens beats Magika v1.1 by +10.7 pp top-1 on libmagic-labeled data, and it keeps classifying where Magika cannot: from a single mid-stream UDP packet, and more than twice as accurately as libmagic and Magika on random mid-file disk blocks. The cost is latency: MimeLens runs roughly one to two orders of magnitude slower per sample on CPU than Magika, though it matches on consumer GPUs or in batch. All trained checkpoints are released on Hugging Face (mjbommar/mimelens-001-*).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="066c0ae160f3" data-article-url="https://arxiv.org/abs/2606.04177" data-article-title="ドメインとモデルにわたる AI 生成テキスト検出における言語的特徴の系統的分析" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04177" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04177" target="_blank" rel="noopener">ドメインとモデルにわたる AI 生成テキスト検出における言語的特徴の系統的分析</a></h3>
      <p class="summary">解釈可能な言語特徴は、特に専門家でないユーザーにとって、特定のテキストが機械生成のように見える理由を説明するための有望なアプローチを提供します。ただし、LLM で生成されたテキストを特徴が確実に示しているという既存の調査結果は、特徴セット、モデル、テキスト ドメイン全体で断片化されたままです。このギャップに対処するために、AI が生成したテキストを特徴付けるための言語信号の堅牢性を評価する大規模な実証研究を実施します。私たちの分析では、クロスモデルおよびクロスドメイン一般化設定の下で、27 の LLM と 10 のテキスト ドメインからの出力にわたる 284 の解釈可能な言語特徴をカバーしています。言語的特徴のみに基づく分類器が、AI によって生成されたテキストと人間が書いたテキストを確実に区別できることを示します。ただし、これまでに提案された指標の多くは、語彙の豊富さの尺度を除いて、コンテキストに強く依存することが証明されており、モデル ファミリとテキスト ドメイン全体にわたって堅牢なシグナルのままです。これらの結果は、どの言語信号がコンテキスト全体で一般化するかを示し、AI 生成言語のより信頼性が高く解釈可能な分析の基盤を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models</p>
        <p class="orig-summary">Interpretable linguistic features offer a promising approach for explaining why a given text appears machine-generated, particularly for non-expert users. However, existing findings on which features reliably indicate LLM-generated text remain fragmented across feature sets, models, and text domains. To address this gap, we conduct a large-scale empirical study assessing the robustness of linguistic signals for characterizing AI-generated text. Our analysis covers 284 interpretable linguistic features across outputs from 27 LLMs and ten text domains under cross-model and cross-domain generalization settings. We show that classifiers based solely on linguistic features can reliably distinguish AI-generated from human-written text. However, many previously proposed indicators prove strongly context-dependent, with the exception of measures of lexical richness, which remain robust signals across model families and text domains. These results demonstrate which linguistic signals generalize across contexts and provide a foundation for more reliable, interpretable analyses of AI-generated language.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="30f35bf3b203" data-article-url="https://arxiv.org/abs/2606.04182" data-article-title="強化学習における正確なアンラーニング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04182" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04182" target="_blank" rel="noopener">強化学習における正確なアンラーニング</a></h3>
      <p class="summary">私たちは強化学習における \emph{正確なアンラーニング} の問題を定式化します。その目的は、削除リクエストに応じてユーザーのデータを削除できる効率的なフレームワークを設計することです。つまり、アンラーニング後のオンライン学習者の出力は、削除されたユーザーが学習者と対話しなかった場合に生成される出力と \emph{区別できません}。 $\rho &gt;0$ の場合、 $\rho$-TV 安定で、期待される計算コストがゼロから再学習する計算コストの $\rho \sqrt{\ln T}$ の一部にすぎない正確な非学習手順をサポートする強化学習 (RL) アルゴリズムが存在することを示します。我々は、表形式マルコフ決定プロセス（MDP）用の $\rho$-TV-stable RL アルゴリズムを構築します。これは $\mathcal{O}(H^2 \sqrt{SAT} + H^3 S^2 A + {H^{2.5} S^2 A}/{\rho})$ のリグレス限界を達成します。ここで、$S、A、H$、$T$ は状態数、アクション数、エピソード ホライズンを示します。とエピソード数がそれぞれ異なります。また、$\rho$-TV-stable RL アルゴリズムに対して $\Omega(H\sqrt{\!SAT}\! +\! {SAH}/{\rho})$ の下限も確立し、アルゴリズムがほぼミニマックス最適であることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Exact Unlearning in Reinforcement Learning</p>
        <p class="orig-summary">We formulate the problem of \emph{exact unlearning} in reinforcement learning, where the goal is to design an efficient framework that enables the removal of any user&#x27;s data upon deletion request, i.e., the online learner&#x27;s output after unlearning is \emph{indistinguishable} from what would have been produced had the deleted user never interacted with the learner. For any $\rho &gt;0$, we show that there exists a reinforcement learning (RL) algorithm that is $\rho$-TV-stable and supports an exact unlearning procedure whose expected computational cost is only a $\rho \sqrt{\ln T}$ fraction of the computational cost of retraining from scratch. We construct such a $\rho$-TV-stable RL algorithm for tabular Markov decision processes (MDPs), which achieves a regret bound of $\mathcal{O}(H^2 \sqrt{SAT} + H^3 S^2 A + {H^{2.5} S^2 A}/{\rho})$, where $S, A, H$, and $T$ denote the number of states, the number of actions, the episode horizon, and the number of episodes, respectively. We also establish a lower bound of $\Omega(H\sqrt{\!SAT}\! +\! {SAH}/{\rho})$ for $\rho$-TV-stable RL algorithms, showing that our algorithm is nearly minimax optimal.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fdfe0515fba6" data-article-url="https://arxiv.org/abs/2606.04188" data-article-title="2つのアドバンテージフィールド" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04188" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04188" target="_blank" rel="noopener">2つのアドバンテージフィールド</a></h3>
      <p class="summary">オフラインの目標条件付き強化学習では、長期的な到達可能性の推定とローカル アクションの比較の両方が必要です。デュアル目標表現は、グローバルな目標の到達可能性を取得する値フィールドを提供しますが、特定の状態でどのアクションが優先されるべきかを直接指定するものではありません。我々は、双線形二重値モデルをローカルアドバンテージ信号に変えるポリシー抽出手法であるデュアルアドバンテージフィールドを提案します。双線形双対パラメータ化では、目標の埋め込みは状態表現に対する値フィールドの勾配です。 DAF は、アクションによって引き起こされる割り引かれたフィーチャの変位を予測し、この変位と目標の方向との整合性によってアクションをスコア化するアクション効果モデルを学習します。実現可能なケースでは、このスコアは目標条件付きベルマンアドバンテージに等しく、標準的なローカル政策改善保証が得られます。 OGBench の移動、操作、パズルのタスクでは、DAF は集計 RLiable メトリクスを改善し、局所的に正しいアクションが最終目標に向かう直接的な動きとは異なる設定で強力にパフォーマンスを発揮します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Dual Advantage Fields</p>
        <p class="orig-summary">Offline goal-conditioned reinforcement learning requires both long-horizon reachability estimates and local action comparisons. Dual goal representations provide value fields that capture global goal reachability, but they do not directly specify which action should be preferred at a given state. We propose Dual Advantage Fields, a policy-extraction method that turns a bilinear dual value model into a local advantage signal. Under bilinear dual parameterization, the goal embedding is the gradient of the value field with respect to the state representation. DAF learns an action-effect model that predicts the discounted feature displacement induced by an action and scores actions by the alignment between this displacement and the goal direction. In the realizable case, this score equals the goal-conditioned Bellman advantage, yielding a standard local policy-improvement guarantee. On OGBench locomotion, manipulation, and puzzle tasks, DAF improves aggregate RLiable metrics and performs strongly in settings where locally correct actions differ from direct movement toward the final goal.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6594841403e" data-article-url="https://arxiv.org/abs/2606.04191" data-article-title="CTF4Science Lorenz Challenge のメトリクスを意識したハイブリッド予測" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04191" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04191" target="_blank" rel="noopener">CTF4Science Lorenz Challenge のメトリクスを意識したハイブリッド予測</a></h3>
      <p class="summary">CTF4Science Lorenz チャレンジに対するアプローチについて説明します。このベンチマークは、9 つ​​のタスク ペアにわたって、短期予測、長時間分布マッチング、軌道再構築を組み合わせたベンチマークです。重要な発見は、単一のモデル ファミリがすべての指標を支配していないということです。代わりに、各計量ファミリーに異なる予測子を割り当てる計量認識ハイブリッド システムを構築しました。(1) 全軌道再構築のための合成事前トレーニング済みデノイザー、(2) 最初の 20 予測ステップに対するローレンツ ODE フィッティングと軌道シューティング、(3) 長時間評価のための合成ローレンツ ライブラリを使用したヒストグラム テール置換。このシステム ファミリからの代表的な成熟した投稿は、公開リーダーボードで 83.83551 のスコアを獲得し、同じアイデアの小規模なフォローアップ スタックは 83.85529 に達しました。私たちがよりクリーンな中間システムに焦点を当てるのは、このシステムが完全なメソッドを捕捉しつつ、再現と分析が容易な一方で、最終的な提出は同じバックボーンの保守的な拡張として理解できるためです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Metric-Aware Hybrid Forecasting for the CTF4Science Lorenz Challenge</p>
        <p class="orig-summary">We describe our approach to the CTF4Science Lorenz challenge, a benchmark that mixes short-horizon forecasting, long-time distribution matching, and trajectory reconstruction across nine task pairs. The key discovery is that no single model family dominated all metrics. Instead, we built a metric-aware hybrid system that assigned a different predictor to each metric family: (1) synthetic-pretrained denoisers for full-trajectory reconstruction, (2) Lorenz ODE fitting and trajectory shooting for the first 20 forecast steps, and (3) histogram-tail substitution using synthetic Lorenz libraries for long-time evaluation. A representative mature submission from this system family scored 83.83551 on the public leaderboard, and a small follow-up stack of the same ideas reached 83.85529. We focus on the cleaner intermediate system because it captures the full method while remaining simple enough to reproduce and analyze, while the final submission can be understood as a conservative extension of the same backbone.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f13ae6e78a9e" data-article-url="https://arxiv.org/abs/2606.04193" data-article-title="公証されたエージェント: AI エージェントのアクションに対する受信者が証明した機密受領書" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04193" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04193" target="_blank" rel="noopener">公証されたエージェント: AI エージェントのアクションに対する受信者が証明した機密受領書</a></h3>
      <p class="summary">現在の AI エージェントの可観測性は構造的に危険にさらされています。アクティビティ ログを生成するエンティティは、アクティビティが記録されるエンティティと同じです。侵害されたエージェントまたはバグのあるエージェントは、自身のトレースを省略、変更、または捏造する可能性があり、エージェントを実行するオペレータには改ざんを検出する独自の方法がありません。私たちは、信頼境界を反転することでこれを解決するプロトコルのクラスを提案します。エージェントの呼び出しを受信するサービスは、独自のキーを使用して観察した内容の受信に署名し、エージェントの所有者に対して受信を暗号化し、それを公開の透明性ログに公開します。所有者は、エージェントやそのオペレーターを信頼せずに、改ざん証拠の証跡を再構築します。このクラスを Sello としてインスタンス化します。これは、現在のシステムには存在しない 4 つのプロパティを組み合わせたプロトコルです。(P1) 受信者側の署名、(P2) JWS 経由で認可トークンにバインドされた所有者公開鍵への HPKE 暗号化、(P3) 証人署名付きマークル ログへの公開、(P4) トークン参照による所有者側の検出です。私たちはプロトコルを説明し、エージェントとそのオペレーターを制御する敵対者の下でそのセキュリティを分析し、暗号操作のマイクロベンチマークを提示し、隣接する受信プロトコル作業 (Signet、AgentROA、Agent Passport System、draft-farley-acta、SCITT) の中に Sello を位置づけます。抑制攻撃、サービスの共謀、採用インセンティブの問題などの既知の制限について説明します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Notarized Agents: Receiver-Attested Confidential Receipts for AI Agent Actions</p>
        <p class="orig-summary">Current AI agent observability is structurally compromised: the entity producing the activity log is the same entity whose activity is being logged. A compromised or buggy agent can omit, alter, or fabricate its own traces, and the operator running the agent has no independent way to detect tampering. We propose a class of protocols that resolves this by inverting the trust boundary: the service that receives an agent&#x27;s call signs a receipt of what it observed using its own key, encrypts the receipt to the agent&#x27;s owner, and publishes it to a public transparency log. The owner reconstructs a tamper-evident trail without trusting the agent or its operator. We instantiate the class as Sello, a protocol combining four properties absent in any current system: (P1) receiver-side signing, (P2) HPKE encryption to an owner public key bound to the authorization token via JWS, (P3) publication to a witness-cosigned Merkle log, and (P4) owner-side discovery by token reference. We describe the protocol, analyze its security under an adversary that controls the agent and its operator, present microbenchmarks of the cryptographic operations, and situate Sello among adjacent receipt-protocol work (Signet, AgentROA, Agent Passport System, draft-farley-acta, SCITT). We discuss known limitations including the suppression attack, service collusion, and the adoption-incentive problem.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fb8b8dcb7f84" data-article-url="https://arxiv.org/abs/2606.04205" data-article-title="DetectZoo: テキスト、オーディオ、画像モダリティにわたる AI 生成コンテンツ検出のための統合ツールキット" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04205" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04205" target="_blank" rel="noopener">DetectZoo: テキスト、オーディオ、画像モダリティにわたる AI 生成コンテンツ検出のための統合ツールキット</a></h3>
      <p class="summary">生成モデルの人気と能力の高まりにより、人間が生成したコンテンツと機械が生成したコンテンツの区別がなくなり、テキスト、画像、音声にわたる検出に関する一連の研究が増えています。入手可能な検出器のほとんどは商用ソフトウェアであるか、オープンソースの場合は特注の前処理、評価プロトコル、評価メトリクスを備えた互換性のないコードベースが付属しているため、その採用、公正な比較、再現が非常に困難になっています。この重大なギャップに対処するために、テキスト、オーディオ、画像モダリティにわたる AI 生成コンテンツ検出のための統一インターフェイスを提供するように設計された、この種初の拡張可能なツールキットである DetectZoo を導入します。 DetectZoo は、データの取り込みと前処理からモデルの評価に至るまで、完全な経験的パイプラインを標準化し、最先端の検出器を体系的にベンチマークするための一貫したフレームワークを研究者に提供します。多様な公開データセットとベースライン検出アルゴリズムを単一の統一 API に統合することで、当社のツールキットは厳密で再現可能な評価を容易にします。 DetectZoo は、61 の検出器のリファレンス実装、22 のベンチマーク データセット用のネイティブ ローダー、および共通のインターフェイスを通じて複数のメトリクスを報告する標準化された評価パイプラインを提供します。各検出器は自己完結型ですが、同じインターフェイスからアクセスでき、事前トレーニングされた重みを自動的にキャッシュし、元の公開結果を再現します。 DetectZoo は、マルチモーダル AI フォレンジックの参入障壁を下げ、研究者がドメイン間のパフォーマンスのギャップを特定できるようにし、堅牢で汎用性のある検出技術の開発を加速します。オープンソース リポジトリと包括的なドキュメントは https://github.com/sadjadeb/DetectZoo で公開されており、パッケージは pip install detectzoo 経由でインストールできます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities</p>
        <p class="orig-summary">The growing popularity and capacity of generative models have eroded the distinction between human and machine-generated content, motivating a growing body of work on detection across text, images, and audio. Most available detectors are either commercial software or, if open-source, come with incompatible codebases with bespoke preprocessing, evaluation protocols, and evaluation metrics, which make their adoption, fair comparison, and reproduction quite difficult. To address this critical gap, we introduce DetectZoo, a first-of-its-kind, extensible toolkit designed to provide a unified interface for AI-generated content detection across text, audio, and image modalities. DetectZoo standardizes the complete empirical pipeline, from data ingestion and preprocessing to model assessment, offering researchers a cohesive framework to benchmark state-of-the-art detectors systematically. By integrating diverse public datasets and baseline detection algorithms under a single, unified API, our toolkit facilitates rigorous and reproducible evaluation. DetectZoo provides reference implementations of 61 detectors, native loaders for 22 benchmark datasets, and a standardized evaluation pipeline that reports multiple metrics through a common interface. Each detector is self-contained yet accessible through the same interface, automatically caches pretrained weights, and reproduces the original published results. DetectZoo lowers the barrier to entry for multi-modal AI forensics, enabling researchers to identify performance gaps across domains and accelerating the development of robust, generalizable detection techniques. The open-source repository and comprehensive documentation are publicly available at https://github.com/sadjadeb/DetectZoo, and the package can be installed via pip install detectzoo.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="15fbb49d0bed" data-article-url="https://arxiv.org/abs/2606.04226" data-article-title="PerceptTwin: 反復 LLM 計画と検証のためのセマンティック シーンの再構築" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04226" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04226" target="_blank" rel="noopener">PerceptTwin: 反復 LLM 計画と検証のためのセマンティック シーンの再構築</a></h3>
      <p class="summary">シミュレーション環境は、ロボット ポリシーの学習と計画の検証と検証の両方に役立ちます。従来、シミュレーションを作成するプロセスは面倒なものでした。ロボットが動作する個々の環境に合わせてオーダーメイドのシミュレーション環境を作成することは、まったく不可能でした。この研究では、ロボットの認識スタックによって生成されたセマンティック シーン表現から直接インタラクティブ シミュレーションを構築する完全自動パイプラインである PerceptTwin を紹介します。 PerceptTwin は、オープン語彙オブジェクト マップと 3D アセット生成、アフォーダンス予測、および常識的な条件チェックを組み合わせます。これらのインタラクティブなシミュレーションを使用すると、ロボット ハードウェアで実行される前に計画を検証し、改良することができます。 AI 調整の文献から借用して、計画の正確さと人間の好みとの調整を検証する LLM ジャッジも紹介します。実験では、PerceptTwin のフィードバックにより、LLM プランナーが計画を改良し、安全性を強化し、有害なブラックボックス プロンプト攻撃に抵抗できることが示されています。私たちの一連のタスクでは、PerceptTwin により、GPT5、GPT5Mini、および GPT5Nano プランナーの計画の成功率が平均約 39% 向上しました。さらに、PerceptTwin は、スキルの前提条件が満たされていないために失敗した計画について、人間による計画の検証を平均で最大 18% 改善します。私たちの結果は、より安全で信頼性の高いロボット計画の基盤として、ロボットの知覚からのオープンボキャブラリーシーンシミュレーションの可能性を実証しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PerceptTwin: Semantic Scene Reconstruction for Iterative LLM Planning and Verification</p>
        <p class="orig-summary">Simulation environments are useful for both robot policy learning and planning verification and validation. Traditionally, the process of creating a simulation was onerous. Creating a bespoke simulation environment for each individual environment that a robot would operate in was simply infeasible. In this work, we introduce PerceptTwin, a fully automatic pipeline that constructs interactive simulations directly from semantic scene representations produced by a robot&#x27;s perception stack. PerceptTwin combines open-vocabulary object maps with 3D asset generation, affordance prediction, and commonsense condition checking. These interactive simulations can be used to validate and refine plans before they are executed on the robot hardware. Borrowing from the AI alignment literature, we also introduce an LLM judge that verifies plan correctness and alignment with human preferences. Experiments show that PerceptTwin feedback allows LLM planners to refine plans, enhance safety, and resist harmful black-box prompting attacks. In our suite of tasks, PerceptTwin improves plan success by an average of approximately 39% for GPT5, GPT5Mini, and GPT5Nano planners. Additionally, PerceptTwin also improves human plan verification by up to 18% on average for plans that fail due to unfilled skill preconditions. Our results demonstrate the potential of open-vocabulary scene simulation from robot perception as a foundation for safer, more reliable robot planning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="582fdde4b27c" data-article-url="https://arxiv.org/abs/2606.04227" data-article-title="細胞複合体における増分層コホモロジー: 境界のあるローカル ジオメトリでの O(1)-in-n 遅延編集処理" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04227" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04227" target="_blank" rel="noopener">細胞複合体における増分層コホモロジー: 境界のあるローカル ジオメトリでの O(1)-in-n 遅延編集処理</a></h3>
      <p class="summary">我々は、有限次元の細胞層を備えた動的に進化する1次元細胞複合体上の最初の層コホモロジー $H^1(X; \mathcal{F})$ を増分的に維持するためのアルゴリズムフレームワークを提案します。共有境界行列の因数分解による $H^1$ の古典的な計算には $O(n^3)$ の時間が必要です。 $m$ の編集のストリームによって複雑さが進化すると、各編集後の完全な再計算には $O(mn^3)$ のコストがかかります。有界のローカル ジオメトリの仮定 (有界セル サイズ $v_{\max}$、有界ストーク寸法 $d$、有界神経次数 $D$) の下では、各編集 (頂点挿入、エッジ挿入、制限マップ更新) は、ローカル共有境界ブロックの有界セットにのみ影響します。したがって、このアルゴリズムは、複素数の合計サイズ $n$ に対して ($n$ から独立した定数として扱われるローカル ジオメトリ パラメーター $v_{\max}$、$d$、および $D$ のコスト多項式を使用して) 遅延ストリーミング編集を $O(1)$ 時間で処理し、ローカル固有ソルブと Mayer-Vietoris グローバル アセンブリを同期ポイント (フラッシュ) まで遅らせます。同期時に、維持される状態は、分割された層モデルの対応するバッチ アセンブリと一致します。すべてのバッチ検証された実行でゼロの測定ドリフトが観察されました ($V = 10^6$ による)。また、セル分解のための償却 $O(|E|)$ ストリーミング構造を与え、分割されていない非自明な層 ($d \geq 2$、非同一性制限マップ) が同じ局所性を認めないと主張する敵対的代数 RAM バリアについて議論します。最大 $5 \times 10^6$ の頂点と $1.7 \times 10^7$ のストリーミング編集を使用した Barabasi-Albert グラフの実験では、編集ごとの遅延更新レイテンシーの中央値が 35 $\mu$s (フラッシュを除く) であることがわかりました。クエリ時間 (同期時のグローバル アセンブリ) は、実装されたフルトラバーサル パスのフラッシュごとに $O(n)$ です。正確な同期コストは別途報告されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Incremental Sheaf Cohomology on Cellular Complexes: O(1)-in-n Lazy Edit Processing under Bounded Local Geometry</p>
        <p class="orig-summary">We present an algorithmic framework for incremental maintenance of first sheaf cohomology $H^1(X; \mathcal{F})$ on dynamically evolving 1-dimensional cellular complexes equipped with finite-dimensional cellular sheaves. The classical computation of $H^1$ via factorization of the coboundary matrix requires $O(n^3)$ time; when the complex evolves with a stream of $m$ edits, full recomputation after each edit costs $O(mn^3)$. Under a bounded local geometry assumption -- bounded cell size $v_{\max}$, bounded stalk dimension $d$, and bounded nerve degree $D$ -- each edit (vertex insertion, edge insertion, restriction map update) affects only a bounded set of local coboundary blocks. The algorithm therefore processes lazy streaming edits in $O(1)$ time with respect to the total complex size $n$ (with cost polynomial in the local geometry parameters $v_{\max}$, $d$, and $D$, which are treated as constants independent of $n$), deferring local eigensolves and Mayer-Vietoris global assembly to synchronization points (Flush). At synchronization, the maintained state agrees with the corresponding batch assembly of the partitioned sheaf model; we observe zero measured drift in all batch-verified runs (through $V = 10^6$). We also give an amortized $O(|E|)$ streaming construction for the cellular decomposition and discuss an adversarial algebraic-RAM barrier arguing that unpartitioned non-trivial sheaves ($d \geq 2$, non-identity restriction maps) do not admit the same locality. Experiments on Barabasi-Albert graphs with up to $5 \times 10^6$ vertices and $1.7 \times 10^7$ streaming edits show 35 $\mu$s median lazy per-edit update latency (excluding flush); query time (global assembly at synchronization) is $O(n)$ per flush in the implemented full-traversal path. Exact synchronization costs are reported separately.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="718f84d28788" data-article-url="https://arxiv.org/abs/2606.04231" data-article-title="MM-BizRAG: 汎用エンタープライズ Q&amp;A 向けのマルチモーダル検索拡張生成の再考" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04231" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04231" target="_blank" rel="noopener">MM-BizRAG: 汎用エンタープライズ Q&amp;A 向けのマルチモーダル検索拡張生成の再考</a></h3>
      <p class="summary">マルチモーダル検索拡張生成 (MM-RAG) の最近の進歩は、最小限の解析に移行し、検索埋め込みの生成と回答の生成にはページレベルの画像に依存しています。この傾向は効率的ではありますが、複雑な企業ドキュメント内の豊富で構造化された情報の明示的な処理を無視することが多く、その代わりに、そのような構造を暗黙的に捕捉する事前トレーニング済みの埋め込みまたはビジョン言語モデルに依存します。この作業では、より直接的なアプローチを採用しています。MM-BizRAG は、方向固有の取り込みパイプラインを通じてドキュメントを動的にルーティングするドキュメント構造認識分割を介してドキュメント構造をプロアクティブに抽出および表現し、垂直方向に構造化されたドキュメント (レポートなど) には明示的なレイアウト認識解析を適用し、水平方向に構造化されたドキュメント (スライド デッキなど) には全体的なページ レベルの表現を適用します。プレースホルダーベースの位置調整を備えた統合された LLM 駆動のアーティファクト変換パイプラインにより、自然な読み取り順序が維持される一方、推論時のマルチモーダル アセンブリにより検索表現が生成コンテキストから切り離され、微調整を必要とせずに、より豊富で根拠のある回答が可能になります。大規模で異種混合のエンタープライズ データセットと 2 つの公開ベンチマーク (SlideVQA および FinRAGBench-V) での実験を通じて、MM-BizRAG は常に最先端のビジョン中心のベースラインを最大 32% ポイント上回るパフォーマンスを示し、特にレポート スタイルのレイアウトで大幅な向上を実現しました。さらに、人間によるより強力な調整を実現しながら、RAGChecker のコストを半減する、きめ細かい生成呼び出しのためのシングルコール LLM ジャッジ メトリクスである FastRAGEval を導入します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MM-BizRAG: Rethinking Multimodal Retrieval-Augmented Generation for General Purpose Enterprise Q&amp;A</p>
        <p class="orig-summary">Recent advances in multimodal retrieval-augmented generation (MM-RAG) have shifted toward minimal parsing, relying on page-level images for producing retriever embeddings and for answer generation. While efficient, this trend often neglects explicit handling of the rich, structured information in complex enterprise documents, instead depending on pre-trained embeddings or vision-language models to implicitly capture such structure. In this work, we take a more direct approach: MM-BizRAG proactively extracts and represents document structure via a document structure-aware split that dynamically routes documents through orientation-specific ingestion pipelines, applying explicit layout-aware parsing for vertically structured documents (e.g., reports) and holistic page-level representations for horizontally structured documents (e.g., slide decks). A unified LLM-driven artifact transformation pipeline with placeholder-based positional alignment preserves natural reading order, while inference-time multimodal assembly decouples retrieval representations from generation context, enabling richer, more grounded answers without any finetuning requirement. Through experiments on a large, heterogeneous enterprise dataset and two public benchmarks (SlideVQA and FinRAGBench-V), MM-BizRAG consistently outperforms state-of-the-art vision-centric baselines by up to 32% points, with especially strong gains on report-style layouts. Furthermore, we introduce FastRAGEval, a single-call LLM Judge metric for fine-grained generative recall that halves RAGChecker&#x27;s cost while achieving stronger human alignment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="37e7ed0fe85c" data-article-url="https://arxiv.org/abs/2606.04236" data-article-title="高速拡散言語モデルのデコードをサポートするトークンの公開" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04236" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04236" target="_blank" rel="noopener">高速拡散言語モデルのデコードをサポートするトークンの公開</a></h3>
      <p class="summary">離散拡散言語モデルは、複数のマスクされた位置を並行して更新することでテキストを効率的に生成できますが、この並行性により品質と遅延のトレードオフが生じます。積極的なデコードでは相互に依存するトークンのコミットが早すぎる可能性がありますが、保守的なデコードでは多くのノイズ除去手順が必要になります。既存の方法では、信頼性または依存性の基準を使用して、どのトークンを公開しても安全であるかを判断することで、この緊張に対処しています。ただし、安全でないコミットを回避しても、残りのマスクされたシーケンスのデコードが容易になるとは限りません。不確実なトークンがマスクされたトークンに依存し、ノイズ除去ステップのボトルネックになる可能性があるためです。私たちは、拡散言語モデルの既存の並列デコード戦略の上に追加できる、トレーニング不要のモジュールである AXON を提案します。 AXON は、ベース デコーダを置き換えるのではなく、残りの不確実なマスクされたトークンを監視し、現在の状態が追加のコンテキストが必要であることを示唆する場合にのみ介入します。次に、どのトークンを公開するのが最も安全であるかという基準を、どの信頼できる公開が後のノイズ除去を最もよくサポートするかという基準に変更します。 AXON は、注意、不確実性、および信頼性のシグナルを使用して、不確実な位置が注目するアンカー、つまり不確実な位置が注目する自信のあるマスクされたトークンを選択します。複数の拡散言語モデルにわたる推論とコード生成のベンチマークに関する実験では、AXON が既存の並列デコーダーの品質と遅延のトレードオフを改善し、多くの場合、精度を維持または向上させながら関数評価の数を削減することが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Supportive Token Revealing for Fast Diffusion Language Model Decoding</p>
        <p class="orig-summary">Discrete diffusion language models can generate text efficiently by updating multiple masked positions in parallel, but this parallelism introduces a quality-latency trade-off. Aggressive decoding may commit mutually dependent tokens too early, while conservative decoding requires many denoising steps. Existing methods address this tension by deciding which tokens are safe to reveal using confidence or dependency criteria. However, avoiding unsafe commits does not necessarily make the remaining masked sequence easy to decode, since uncertain tokens may depend on masked tokens, creating a bottleneck for denoising steps. We propose AXON, a training-free module that can be added on top of existing parallel decoding strategies for diffusion language models. Rather than replacing the base decoder, AXON monitors the remaining uncertain masked tokens and intervenes only when their current state suggests that additional context is needed. It then shifts the criterion from which tokens are safest to reveal to which confident reveals would best support later denoising. AXON selects anchors, confident masked tokens that uncertain positions attend to, using attention, uncertainty, and confidence signals. Experiments on reasoning and code-generation benchmarks across multiple diffusion language models show that AXON improves the quality-latency trade-off of existing parallel decoders, often reducing the number of function evaluations while maintaining or improving accuracy.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="26d1c70b6461" data-article-url="https://arxiv.org/abs/2606.04238" data-article-title="積極的な量子化のための Recover-LoRA: 合成データの知識蒸留による低ランク適応による 2 ビット言語モデルの精度の回復" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04238" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04238" target="_blank" rel="noopener">積極的な量子化のための Recover-LoRA: 合成データの知識蒸留による低ランク適応による 2 ビット言語モデルの精度の回復</a></h3>
      <p class="summary">2 ビット精度への積極的な重み量子化により、大規模言語モデル (LLM) 推論のスループットとメモリが大幅に向上しますが、通常は精度が大幅に低下します。これらの利点は、メモリ容量と帯域幅が主な制約となるエッジおよびオンデバイスの展開に特に関係します。この研究では、Recover-LoRA (もともと一般的なモデル重み破損のために開発された軽量でデータフリーの精度回復手法) を、超低ビット量子化の設定まで拡張します。我々は、MLP のゲートおよびアップ投影層のみが 2 ビット (W2) に量子化され、他のすべての線形層は高精度のままであり、混合精度の GateUp 構成を生成する、選択的な混合精度戦略を提案します。 3 つのモデル ファミリ (4B ～ 20B) と 2 つのハードウェア プラットフォームにわたるルーフライン分析を通じて、W4/W2-GateUp 導入 (4 ビット ベースと 2 ビット ゲート/アップ) が、量子化誤差を予測可能なレイヤーのサブセットに限定しながら、モデルとコンテキストの長さに応じて均一な W4 と比較して 7.5 ～ 23.3% の TPS 向上を実現することを実証します。次に、Recover-LoRA (合成データを使用したロジット蒸留を介して量子化レイヤーで低ランクのアダプターをトレーニング) を適用し、ゲートおよび上位レイヤーの 2 ビット量子化によって失われた精度を回復します。 Qwen3-4B のケーススタディでは、Recover-LoRA は 10,000 個の合成トレーニング サンプルのみを使用し、ラベル付きデータを使用せず、12 ベンチマーク中 9 で 80 ～ 95\% の精度回復を達成しました。さらに、蒸留ベースの回収において合成データが厳選されたラベル付きデータと同等のパフォーマンスを発揮すること、および回収が配布外の評価タスクに一般化されることを実証します。私たちの結果は、Recover-LoRA が、展開設定で積極的な重み圧縮のための実用的な量子化後の精度回復ツールであることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Recover-LoRA for Aggressive Quantization: Reclaiming Accuracy in 2-Bit Language Models via Low-Rank Adaptation with Knowledge Distillation on Synthetic Data</p>
        <p class="orig-summary">Aggressive weight quantization to 2-bit precision offers substantial throughput and memory gains for large language model (LLM) inference, but typically incurs severe accuracy degradation. These gains are particularly relevant for edge and on-device deployment, where memory capacity and bandwidth are primary constraints. In this work, we extend Recover-LoRA -- a lightweight, data-free accuracy recovery method originally developed for general model weight corruption -- to the setting of ultra-low-bit quantization. We propose a selective mixed-precision strategy in which only gate and up projection layers of the MLP are quantized to 2-bit (W2), while all other linear layers remain at higher precision, yielding a mixed-precision GateUp configuration. We demonstrate via roofline analysis across three model families (4B--20B) and two hardware platforms that a W4/W2-GateUp deployment (4-bit base with 2-bit gate/up) delivers 7.5--23.3\% TPS improvement over uniform W4 depending on model and context length, while confining quantization error to a predictable subset of layers. We then apply Recover-LoRA -- training low-rank adapters on the quantized layers via logit distillation with synthetic data -- to recover accuracy lost from 2-bit quantization of the gate and up layers. In a case study on Qwen3-4B, Recover-LoRA achieves 80--95\% accuracy recovery on 9 of 12 benchmarks, using only 10k synthetic training samples and no labeled data. We further demonstrate that synthetic data performs comparably to curated labeled data for distillation-based recovery, and that recovery generalizes to out-of-distribution evaluation tasks. Our results present Recover-LoRA as a practical post-quantization accuracy recovery tool for aggressive weight compression in deployment settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cffbfb86876f" data-article-url="https://arxiv.org/abs/2606.04240" data-article-title="EReL@MIR 2025 マルチモーダル文書検索チャレンジの概要 (トラック 1)" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04240" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04240" target="_blank" rel="noopener">EReL@MIR 2025 マルチモーダル文書検索チャレンジの概要 (トラック 1)</a></h3>
      <p class="summary">マルチモーダルな検索拡張生成には、視覚的に豊富なドキュメント、つまりテキストと図、表、グラフが挟まれたページの検索が不可欠ですが、ほとんどの検索ツールは依然としてビジュアル チャネルを破棄しています。 Web Conference 2025 と同時開催される第 1 回 EReL@MIR ワークショップの MIR チャレンジの Track~1 である \emph{マルチモーダル文書検索チャレンジ} では、参加者に 2 つの相補的な体制を処理する \emph{単一} 検索システムを構築するよう求めます。テキストクエリ (MMDocIR) からの長い文書内のクローズドセット文書ページの検索と、画像からの Wikipedia スタイルの一節のオープンドメイン検索です。または画像とテキストのクエリ (M2KR)。システムは、2 つのタスクにわたる平均 Recall@$\{1,3,5\}$ のマクロ平均によってランク付けされます。このチャレンジには、22 チームから 455 人の参加者と 586 件の応募が集まりました。このレポートでは、課題の設計、データセット、評価プロトコルについて説明します。最終順位を報告します。そして優勝した3チームのシステムを分析します。 3 つはすべて、CLIP スタイルのエンコーダーではなく、Qwen2-VL ファミリのデコーダーベースの Multimodal-LLM エンベッダーに基づいて構築されており、主に、微調整されたアンサンブル、強力なビジョン言語リランカーによるトレーニング不要のマルチルート フュージョン、またはゼロショット レイト インタラクションを通じてトップに到達するかどうかが異なります。トレーニング不要のシステムは、微調整された勝者の $0.1$ ポイント以内に終了しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Overview of the EReL@MIR 2025 Multimodal Document Retrieval Challenge (Track 1)</p>
        <p class="orig-summary">Retrieval over visually-rich documents, pages that interleave text with figures, tables, and charts, is essential for multimodal retrieval-augmented generation, yet most retrievers still discard the visual channel. The \emph{Multimodal Document Retrieval Challenge}, Track~1 of the MIR Challenge at the first EReL@MIR workshop, co-located with The Web Conference 2025, asks participants to build a \emph{single} retrieval system that handles two complementary regimes: closed-set document page retrieval within long documents from a text query (MMDocIR), and open-domain retrieval of Wikipedia-style passages from an image or image-plus-text query (M2KR). Systems are ranked by the macro-average of mean Recall@$\{1,3,5\}$ over the two tasks. The challenge drew 455 entrants and 586 submissions across 22 teams. This report describes the challenge design, datasets, and evaluation protocol; reports the final standings; and analyses the three winning teams&#x27; systems. All three build on decoder-based Multimodal-LLM embedders from the Qwen2-VL family rather than on CLIP-style encoders, and differ chiefly in whether they reach the top through fine-tuned ensembles, training-free multi-route fusion with a strong vision-language re-ranker, or zero-shot late interaction. The training-free system finished within $0.1$ point of the fine-tuned winner.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9072005a7f8e" data-article-url="https://arxiv.org/abs/2606.04262" data-article-title="もう一度服用してもいいですか? OTC 投薬 QA における時間的不確実性の下での LLM の意思決定の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04262" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04262" target="_blank" rel="noopener">もう一度服用してもいいですか? OTC 投薬 QA における時間的不確実性の下での LLM の意思決定の評価</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、ユーザーが市販薬 (OTC) を安全にもう 1 回服用できるかどうかなど、日常の健康に関する質問にますます使用されています。しかし、この一般的な安全関連の設定は、既存の医療 QA 評価では依然として十分に検討されていません。そこでは、正しい回答には、投与タイミングの追跡、24 時間のローリング摂取量の計算、製品ラベルの制約への準拠、および不完全な薬歴の処理が必要です。成人のアセトアミノフェンとイブプロフェンの使用に焦点を当てた、厳選された 81 の OTC 投与シナリオの焦点を絞ったベンチマークである DOSEBENCH を、手動で注釈が付けられたゴールド参照とともに紹介します。決定の正確さ、一貫性、説明の検証可能性、失敗の種類、信頼性に関連する信号のメトリクスを使用して、繰り返し実行される 4 つの LLM を評価し、1,620 個のモデル応答が得られます。私たちの結果は、モデルがローリングウィンドウ推論や曖昧さに敏感なケースに頻繁に苦戦すること、そして安定した応答や自信を持って見える応答が依然として投与制約に違反する可能性があることを示しています。これらの発見は、OTC 投与 QA が、医療 QA における時間的推論、制約追従、および安全関連の不確実性の処理を評価するための、狭いながらも実用的なテストベッドを提供することを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Can I Take Another Dose? Evaluating LLM Decision-Making Under Temporal Uncertainty in OTC Dosing QA</p>
        <p class="orig-summary">Large language models (LLMs) are increasingly used for everyday health questions, including whether a user can safely take another dose of an over-the-counter (OTC) medication. Yet this common safety-relevant setting remains underexplored in existing medical QA evaluations, where correct answers require tracking dose timing, computing rolling 24-hour intake, following product-label constraints, and handling incomplete medication histories. We introduce DOSEBENCH, a focused benchmark of 81 curated OTC dosing scenarios focused on adult acetaminophen and ibuprofen use, with manually annotated gold references. We evaluate four LLMs across repeated runs using metrics for decision correctness, consistency, explanation verifiability, failure types, and confidence-related signals, resulting in 1,620 model responses. Our results show that models frequently struggle with rolling-window reasoning and ambiguity-sensitive cases and that stable or confident-looking responses can still violate dosing constraints. These findings suggest that OTC dosing QA provides a narrow yet practical testbed for evaluating temporal reasoning, constraint following, and safety-relevant uncertainty handling in medical QA.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cee92abba191" data-article-url="https://arxiv.org/abs/2606.04269" data-article-title="インスタントフォールド: 変形可能なオブジェクト操作のためのコンテキスト内模倣学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04269" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04269" target="_blank" rel="noopener">インスタントフォールド: 変形可能なオブジェクト操作のためのコンテキスト内模倣学習</a></h3>
      <p class="summary">変形可能オブジェクト操作 (DOM) は、複数の有効な操作モードとの長期にわたるトポロジー変化の相互作用を通じて進化する、部分的に観察可能な高次元の状態のため、困難を伴います。 DOM のコンテキスト内模倣学習フレームワークである Instant-Fold を紹介します。単一の人間によるデモンストレーションが与えられると、私たちのポリシーは、勾配の更新を必要とせずに、空間的な実行や順序付けのバリエーションを含む、さまざまな操作モードをデモンストレーションから直接推論して実行します。私たちのアプローチでは、まず時間対比事前トレーニングによって変形を意識した視覚表現を学習し、その後、デモンストレーションを条件としたフローマッチングトランスフォーマーポリシーによって、意図した操作モードを実行するためのアクションを予測します。完全にシミュレーションでトレーニングされた Instant-Fold は、さまざまな折り畳みモードを一般化し、追加のデータ収集や微調整を行わずにゼロショットを現実世界の設定に移行します。ビデオは https://instant-fold.github.io でご覧いただけます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Instant-Fold: In-Context Imitation Learning for Deformable Object Manipulation</p>
        <p class="orig-summary">Deformable object manipulation (DOM) is challenging due to high-dimensional, partially observable states that evolve through long-horizon, topology-changing interactions with multiple valid manipulation modes. We introduce Instant-Fold, an in-context imitation learning framework for DOM. Given a single human demonstration, our policy infers and executes diverse manipulation modes directly from the demonstration, including variations in spatial execution and ordering, without requiring gradient updates. Our approach first learns deformation-aware visual representations via temporal contrastive pretraining, after which a flow-matching transformer policy conditioned on the demonstration predicts actions to execute the intended manipulation mode. Trained entirely in simulation, Instant-Fold generalizes across diverse folding modes and transfers zero-shot to real-world settings without additional data collection or finetuning. Videos are available at https://instant-fold.github.io.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8a6fc2e475fb" data-article-url="https://arxiv.org/abs/2606.04271" data-article-title="StandardE2E: エンドツーエンドの自動運転データセットのための統合フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04271" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04271" target="_blank" rel="noopener">StandardE2E: エンドツーエンドの自動運転データセットのための統合フレームワーク</a></h3>
      <p class="summary">自動運転は、モジュール式の認識・予測・計画スタックから、センサー入力を車両制御に直接マッピングするエンドツーエンド (E2E) モデルに移行しており、多くの場合、3D 検出、動き予測、HD マップ認識などの補助タスクによって正規化されています。進歩は、センサーが豊富な運転データセットの急速に成長するエコシステムによって推進されていますが、それぞれが独自のファイル形式、API、座標規則、モダリティ カバレッジを提供しているため、データセット間の実験やデータセットごとの基本的な前処理さえもプロジェクトごとに再実装する必要があります。 E2E 駆動データセット上に単一の統一インターフェイスを提供するフレームワークである StandardE2E を紹介します。 StandardE2E (i) 1 つの共有データ スキーマの下でデータセットごとの前処理を標準化します。 (ii) 複数のデータセットを単一の PyTorch DataLoader に結合して、データセット間の事前トレーニング、補助タスクの監視、シナリオ レベルのフィルタリングを行います。 (iii) 生のフレームから正規スキーマへの単一のデータセットごとのマッピングへの新しいデータセットの追加を減らし、ダウンストリーム パイプライン全体を変更しないままにします。このフレームワークは、Waymo End-to-End、Waymo Perception、Argoverse 2 Sensor、Argoverse 2 LiDAR、NAVSIM (OpenScene-v1.1)、および WayveScenes101 の 6 つのデータセットをすぐにサポートしており、オープンソースの standard-e2e Python パッケージとしてリリースされており、https://github.com/stepankonev/StandardE2E で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">StandardE2E: A Unified Framework for End-to-End Autonomous Driving Datasets</p>
        <p class="orig-summary">Autonomous driving has shifted from modular perception-prediction-planning stacks toward end-to-end (E2E) models that map sensor inputs directly to vehicle control, often regularized by auxiliary tasks such as 3D detection, motion forecasting, and HD-map perception. Progress is driven by a fast-growing ecosystem of sensor-rich driving datasets, yet each ships its own file formats, APIs, coordinate conventions, and modality coverage, leaving cross-dataset experimentation and even basic per-dataset preprocessing to be re-implemented per project. We present StandardE2E, a framework that provides a single unified interface over E2E driving datasets. StandardE2E (i) standardizes per-dataset preprocessing under one shared data schema; (ii) combines multiple datasets in a single PyTorch DataLoader for cross-dataset pretraining, auxiliary-task supervision, and scenario-level filtering; and (iii) reduces adding a new dataset to a single per-dataset mapping from raw frames to the canonical schema, leaving the entire downstream pipeline unchanged. The framework supports six datasets out of the box: Waymo End-to-End, Waymo Perception, Argoverse 2 Sensor, Argoverse 2 LiDAR, NAVSIM (OpenScene-v1.1), and WayveScenes101, and is released as the open-source standard-e2e Python package, available at https://github.com/stepankonev/StandardE2E.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4104ba242f79" data-article-url="https://arxiv.org/abs/2606.04275" data-article-title="ティックからフローへ: 連続環境における神経強化学習のダイナミクス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04275" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04275" target="_blank" rel="noopener">ティックからフローへ: 連続環境における神経強化学習のダイナミクス</a></h3>
      <p class="summary">我々は、確率的制御からの洞察を利用して問題を連続時間の確率的プロセスとしてモデル化することにより、連続環境における深層強化学習 (RL) のための新しい理論的枠組みを提示します。以前の研究に基づいて、探索と確率的遷移の両方を組み込んだアクター-クリティカル アルゴリズムの実行可能なモデルを紹介します。単一隠れ層ニューラル ネットワークの場合、環境の状態が 2 つの時間スケールのプロセス (環境時間と勾配時間) として定式化できることを示します。この定式化の中で、環境の状態と累積割引収益の推定値を表す時間依存の確率変数が、2 層ネットワークの無限幅制限における勾配ステップ上でどのように変化するかを特徴付けます。確率微分方程式の理論を使用して、連続 RL で初めて、消滅するほど小さい学習率の下で、各勾配ステップでの状態分布の微小な変化を記述する方程式を導出します。全体として、私たちの研究は、オーバーパラメータ化されたニューラルアクタークリティカルアルゴリズムを研究するための新しいノンパラメトリック定式化を提供します。おもちゃの連続制御タスクを使用して、理論的結果を経験的に裏付けます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments</p>
        <p class="orig-summary">We present a novel theoretical framework for deep reinforcement learning (RL) in continuous environments by modeling the problem as a continuous-time stochastic process, drawing on insights from stochastic control. Building on previous work, we introduce a viable model of actor-critic algorithm that incorporates both exploration and stochastic transitions. For single-hidden-layer neural networks, we show that the state of the environment can be formulated as a two time scale process: the environment time and the gradient time. Within this formulation, we characterize how the time-dependent random variables that represent the environment&#x27;s state and estimate of the cumulative discounted return evolve over gradient steps in the infinite width limit of two-layer networks. Using the theory of stochastic differential equations, we derive, for the first time in continuous RL, an equation describing the infinitesimal change in the state distribution at each gradient step, under a vanishingly small learning rate. Overall, our work provides a novel nonparametric formulation for studying overparametrized neural actor-critic algorithms. We empirically corroborate our theoretical result using a toy continuous control task.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9c262d524663" data-article-url="https://arxiv.org/abs/2606.04280" data-article-title="損失だけでは不十分: 対照表現学習におけるサンプリング条件と帰納的バイアス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04280" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04280" target="_blank" rel="noopener">損失だけでは不十分: 対照表現学習におけるサンプリング条件と帰納的バイアス</a></h3>
      <p class="summary">対照学習は、自己教師あり表現学習の主要なパラダイムとなっていますが、意味のある潜在幾何学を回復する条件はまだ完全には理解されていません。我々は、等尺性潜在回復に必要なポジティブペアサンプリングのサポート要件である多様性条件を形式化する測度理論フレームワークを開発します。標準のフルサポート フォン ミーゼス フィッシャー設定は多様性条件の満足を意味し、その結果、グローバルなコントラスト損失ミニマイザーは直交変換までの潜在ジオメトリを回復する一方、制限付き条件により非直交マップが厳密に低い漸近コントラスト損失を達成できることを示します。理論的な修正として、サポート修正された Information Noise Contrastive Estimation (InfoNCE) バリアントを導入します。この修正により、直交潜在空間回復が実現可能になりますが、一意に選択されるわけではありません。合成ベンチマークの実験は識別可能性の予測を検証し、CIFAR-10 の実験は、サンプリングの多様性が制限されている場合にはアーキテクチャの誘導バイアスがより重要になるという定性的予測と一致しています。まとめると、私たちの結果は、サンプリングメカニズムとエンコーダの誘導バイアスが対照表現学習においてどのように相互作用するかを明らかにします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Loss Is Not Enough: Sampling Conditions and Inductive Bias in Contrastive Representation Learning</p>
        <p class="orig-summary">Contrastive learning has become a leading paradigm for self-supervised representation learning, yet the conditions under which it recovers meaningful latent geometry remain incompletely understood. We develop a measure-theoretic framework formalizing the diversity condition, a support requirement on positive-pair sampling that is necessary for isometric latent recovery. We show that the standard full-support von Mises-Fisher setting implies the satisfaction of the diversity condition and as a consequence global contrastive loss minimizers recover latent geometry up to orthogonal transformation, while restricted conditionals can make non-orthogonal maps attain strictly lower asymptotic contrastive loss. We introduce a support-corrected Information Noise Contrastive Estimation (InfoNCE) variant as a theoretical fix: this correction makes orthogonal latent space recovery achievable but does not uniquely select it. Experiments on synthetic benchmarks validate the identifiability predictions, and CIFAR-10 experiments are consistent with the qualitative prediction that architectural inductive bias becomes more important when sampling diversity is limited. Together, our results clarify how sampling mechanisms and encoder inductive bias interact in contrastive representation learning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="548003b2e2b8" data-article-url="https://arxiv.org/abs/2606.04284" data-article-title="専門家の混合がまばらな報酬モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04284" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04284" target="_blank" rel="noopener">専門家の混合がまばらな報酬モデル</a></h3>
      <p class="summary">プリファレンス モデリングは、ヒューマン フィードバックからの強化学習 (RLHF) において中心的な役割を果たし、大規模言語モデル (LLM) を人間の価値観に合わせることを可能にします。しかし、既存のアプローチのほとんどは普遍的な報酬関数を前提としており、人間の好みの多様性と異質性を無視しています。追加のアノテーションコストをかけずにこの制限に対処するために、最近の研究では、バイナリデータから複数のプリファレンスコンポーネントを学習し、それらを組み合わせて個々のプリファレンスをモデル化することが提案されています。それにも関わらず、これらのコンポーネントは、一貫性のある解きほぐされたパターンをキャプチャできないことが多く、解釈可能性やパーソナライゼーションの有効性が制限されます。この研究では、バイナリ嗜好データのトレーニング中に疎なルーティングと専門家の多様性を促進する疎な専門家混合 (MoE) 報酬モデルを提案します。制御された実験と実際の実験を通じて、まばらな MoE は解釈可能なルーティング パターンと専門の専門家を学習します。また、テスト時のパーソナライゼーションも改善され、適応後のエキスパートの重みの変化により、モデルがパーソナライズされた好みにどのように適応するかを分析するための定性的なレンズが提供されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Sparse Mixture-of-Experts Reward Models Learn Interpretable and Specialized Experts for Personalized Preference Modeling</p>
        <p class="orig-summary">Preference modeling plays a central role in reinforcement learning from human feedback (RLHF), enabling large language models (LLMs) to align with human values. However, most existing approaches assume a universal reward function, neglecting the diversity and heterogeneity of human preferences. To address this limitation without additional annotation costs, recent work has proposed learning multiple preference components from binary data and combining them to model individual preferences. Nevertheless, these components often fail to capture coherent and disentangled patterns, limiting their interpretability and effectiveness for personalization. In this work, we propose a sparse Mixture-of-Experts (MoE) reward model that encourages sparse routing and expert diversity during training on binary preference data. Across controlled and real-world experiments, sparse MoE learns interpretable routing patterns and specialized experts. It also improves test-time personalization, and post-adaptation shifts in expert weights provide a qualitative lens for analyzing how the model adapts to personalized preferences.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c86cebb332f" data-article-url="https://arxiv.org/abs/2606.04287" data-article-title="軽量構造誘導型自己回帰モデルによる新しいグラフ生成のスケーリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04287" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04287" target="_blank" rel="noopener">軽量構造誘導型自己回帰モデルによる新しいグラフ生成のスケーリング</a></h3>
      <p class="summary">現実的で多様なグラフを生成することは、分子発見、回路設計、サイバーセキュリティなどの分野で応用される機械学習における重要な問題です。ただし、現在のグラフ生成モデルは、スケーラビリティと新規性によって制限されたままです。拡散ベースの手法では、多くの場合、コストのかかる完全隣接演算と長いノイズ除去チェーンが必要ですが、多くの自己回帰モデルやハイブリッド モデルは少なくとも 2 次の複雑さを持っています。さらに、これらのモデルは、トレーニング グラフを超えて一般化するのではなく、トレーニング グラフを模倣することがよくあります。これらの問題に対処するために、軽量の自己回帰フレームワークを提案します。構造に基づくトポロジカル順序付けを使用して、グラフを規則的なエッジ シーケンスにシリアル化し、対数線形に近い生成を可能にします。また、探索指向の拡張と反復改良を組み合わせた 2 フェーズのトレーニング戦略を使用して、過剰適合を軽減し、制御された新規性を促進します。分子ベンチマークと非分子ベンチマークの実験では、私たちのアプローチが高い妥当性と独自性を維持しながら新規性を向上させることが示されています。このフレームワークは、LSTM と Mamba スタイルの因果シーケンス バックボーンの両方もサポートしており、大容量メモリ アクセラレータにより、一般的な GPU の制限を超える長いグラフ シーケンス実験が可能になります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Scaling Novel Graph Generation via Lightweight Structure-Guided Autoregressive Models</p>
        <p class="orig-summary">Generating realistic and diverse graphs is a key problem in machine learning, with applications in molecular discovery, circuit design, cybersecurity, and beyond. However, current graph generative models remain limited by scalability and novelty. Diffusion-based methods often require costly full-adjacency operations and long denoising chains, while many autoregressive and hybrid models have at least quadratic complexity. In addition, these models often imitate training graphs rather than generalize beyond them. We propose a lightweight autoregressive framework to address these issues. It uses a structure-guided topological ordering to serialize graphs into regular edge sequences, enabling near log-linear generation, and a two-phase training strategy that combines exploration-oriented augmentation with iterative refinement to reduce overfitting and promote controlled novelty. Experiments on molecular and non-molecular benchmarks show that our approach improves novelty while preserving high validity and uniqueness. The framework also supports both LSTM and Mamba-style causal sequence backbones, with large-memory accelerators enabling longer graph-sequence experiments beyond typical GPU limits.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="114f81752488" data-article-url="https://arxiv.org/abs/2606.04298" data-article-title="コンテキストにおけるエニーキャストのパフォーマンス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04298" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04298" target="_blank" rel="noopener">コンテキストにおけるエニーキャストのパフォーマンス</a></h3>
      <p class="summary">IP エニーキャストにより、サービスは多くの物理サイトから 1 つのアドレスをアドバタイズし、BGP に各クライアントをサイトにマッピングさせることができます。これは、DNS ルート サーバー システム、パブリック リゾルバー、および一部のコンテンツ配信ネットワークの中心ですが、同じルーティング メカニズムがアプリケーション間で非常に異なる結果をもたらします。このペーパーでは、2 つの設定でのエニーキャスト レイテンシを比較します。ルート DNS では、再帰的キャッシュにより多くのユーザーと長い存続時間値にわたるルート サーバーの遅延が償却されます。もう 1 つは、ラウンド トリップが追加されるたびに、ページ読み込み、ビデオ開始、または API レイテンシに直接影響を与える可能性がある CDN です。総合すると、ルート DNS エニーキャストは、ユーザーに見える遅延が限られているにもかかわらず、大幅なパスのインフレを示す可能性があるのに対し、CDN エニーキャストでは、インフレを小さく抑えるために、ピアリング、ルート ポリシー、キャッチメント スコープ、および測定フィードバックのアクティブなエンジニアリングが必要であることがわかりました。この論文は、レイテンシの比較モデル、再現可能な測定設計、およびレジリエンス主導のエニーキャスト目標をレイテンシ主導の目標から分離する最適化フレームワークに貢献します。中心的な結論は実用的です。オペレーターはルート DNS と CDN エニーキャストを同じ目的関数で最適化すべきではありません。ルート DNS の場合、堅牢性、到達可能性、およびキャッシュ動作が重要です。 CDN サービスの場合、テール レイテンシ、集水域の正確性、およびポリシー制御が支配的です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Anycast Performance in Context</p>
        <p class="orig-summary">IP anycast lets a service advertise one address from many physical sites, leaving BGP to map each client to a site. It is central to the DNS root server system, public resolvers, and some content delivery networks, yet the same routing mechanism has very different consequences across applications. This paper compares anycast latency in two settings: root DNS, where recursive caching amortizes root-server delay over many users and long time-to-live values, and CDNs, where each additional round trip can directly affect page-load, video-start, or API latency. The synthesis finds that root DNS anycast can exhibit substantial path inflation while still producing limited user-visible delay, whereas CDN anycast requires active engineering of peering, route policy, catchment scope, and measurement feedback to keep inflation small. The paper contributes a comparative latency model, a reproducible measurement design, and an optimization framework that separates resilience-driven anycast objectives from latency-driven objectives. The central conclusion is practical: operators should not optimize root DNS and CDN anycast with the same objective function. For root DNS, robustness, reachability, and cache behavior dominate; for CDN services, tail latency, catchment correctness, and policy control dominate.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="66649930ce83" data-article-url="https://arxiv.org/abs/2606.04320" data-article-title="OpenRFM: リレーショナル インコンテキスト学習の分析" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04320" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04320" target="_blank" rel="noopener">OpenRFM: リレーショナル インコンテキスト学習の分析</a></h3>
      <p class="summary">リレーショナル基盤モデル (RFM) は、リレーショナル データベースが与えられた場合に、リレーショナル インコンテキスト学習 (ICL) を介して 1 回のフォワード パスで予測を返す単一の事前トレーニング済み予測子を約束します。しかし、オープン RFM と商用 RFM の間には大きなギャップがあり、このギャップの原因は体系的に理解されていません。代表的なフレームワークである Relational Transformer (RT) を 2 つの観点から分析します。モデル側: RT が関係レベルの ICL を実行することを示し、カーネル回帰ビューは、ラベルセルのカバレッジがまばらで過小決定回帰が生じる場合に失敗することを示します。データ側: RT の事前トレーニング ソースを除去したところ、既存の合成のみの事前トレーニングと分散内事前トレーニングが、同じアーキテクチャを異なるレジーム (遅延学習と特徴学習) に駆動していることがわかりました。このギャップを精査すると、欠けている成分がラベル生成プロセスに潜在するサポート識別可能な関係性であることが明らかになります。これら 2 つの診断は、(1) リレーショナル バックボーンと、リレーショナル レベルのラベル不足を克服するために事前トレーニングされた表形式の基盤モデルから抽出されたバッチ レベルの ICL レイヤーを組み合わせたデュアルステージ ICL アーキテクチャ、および (2) プロトタイプ ベースの正則化で強化された、同種性を認識した合成と継続的な実データの事前トレーニングの混合物に変換されます。これらの選択肢により、OpenRFM が定義されます。OpenRFM は、平均タスク パフォーマンスを RT バックボーンよりも約 30% 向上させ、大規模な評価タスク セットで商用モデル KumoRFMv1 を上回る、シンプルかつ効果的な RFM です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">OpenRFM: Dissecting Relational In-Context Learning</p>
        <p class="orig-summary">Relational Foundation Models (RFMs) promise a single pre-trained predictor that, given any relational database, returns predictions in one forward pass via relational in-context learning (ICL). Yet a substantial gap separates open RFMs from their commercial counterparts, and the origin of this gap has not been systematically understood. We dissect a representative framework, the Relational Transformer (RT), from two perspectives. Model side: we show that RT performs relation-level ICL, and a kernel regression view shows it fails when sparse label-cell coverage yields an underdetermined regression. Data side: we ablate RT&#x27;s pre-training source and find that existing synthetic-only pre-training and in-distribution pre-training drive the same architecture into different regimes, lazy vs. feature-learning. Probing this gap reveals that the missing ingredient is a support-identifiable relational latent in the label-generation process. These two diagnoses translate into (1) a dual-stage ICL architecture that combines the relational backbone with a batch-level ICL layer lifted from a pre-trained tabular foundation model to overcome relation-level label scarcity, and (2) a homophily-aware synthetic plus continual real-data pre-training mixture, augmented with a prototype-based regularization. These choices define OpenRFM, a simple yet effective RFM that improves average task performance by approximately 30% over the RT backbone and surpasses the commercial model KumoRFMv1 on a large set of evaluation tasks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3116f928dba3" data-article-url="https://arxiv.org/abs/2606.04326" data-article-title="何が重要かを測定する: コンセプトのボトルネック モデルの総合ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04326" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04326" target="_blank" rel="noopener">何が重要かを測定する: コンセプトのボトルネック モデルの総合ベンチマーク</a></h3>
      <p class="summary">概念ボトルネック モデルは、入力で検出された高レベルの概念からの結果を予測します。概念は解釈可能性から利益を得る簡単な方法を提供しますが、概念ラベルを含むデータセットはほとんどありません。これにより、どの問題がこれらのモデルに適しているかを判断したり、モデルのパフォーマンスを促進する要因や失敗につながる要因を特定したり、どのアルゴリズムが良好にパフォーマンスするかを明らかにしたりする研究者の能力が制限されます。このペーパーでは、コンセプトのボトルネック モデルの合成ベンチマークを開発します。その 2 つの主なユースケースに焦点を当てます。1 つはモデルが人間によるより良い意思決定を支援する意思決定支援、もう 1 つはモデルが監視なしでルーチン タスクを処理する自動化です。私たちのベンチマークは、データ モダリティ、コンセプトの選択、アノテーションの品質、完全性など、パフォーマンスに影響を与えるプロパティを制御しながら、ラベル付きデータセットを生成できます。ベンチマークを使用して、概念ボトルネック モデルの代表的なクラスを評価する方法を示します。私たちのデモンストレーションでは、ベンチマークがどのように障害モードを診断し、フォローアップ テストをガイドできるかを示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Measuring What Matters: Synthetic Benchmarks for Concept Bottleneck Models</p>
        <p class="orig-summary">Concept bottleneck models predict outcomes from high-level concepts detected in inputs. Although concepts provide a simple way to reap benefits from interpretability, very few datasets include concept labels. This limits researchers&#x27; ability to determine which problems are suitable for these models, isolate the factors that drive their performance or lead to failures, or uncover which algorithms perform well. In this paper, we develop synthetic benchmarks for concept-bottleneck models, focusing on their two main use cases: decision support, in which models assist humans in making better decisions, and automation, in which models handle routine tasks without supervision. Our benchmarks can generate labeled datasets while controlling for properties that affect performance, including data modality, concept choice, annotation quality, and completeness. We demonstrate how the benchmarks can be used to evaluate representative classes of concept bottleneck models. Our demonstrations show how the benchmarks can diagnose failure modes and guide follow-up testing.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d1156f72b8a5" data-article-url="https://arxiv.org/abs/2606.04327" data-article-title="2 層ニューラル ネットワークの静止プラトーの幾何学的特徴付け" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04327" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04327" target="_blank" rel="noopener">2 層ニューラル ネットワークの静止プラトーの幾何学的特徴付け</a></h3>
      <p class="summary">滑らかな活性化関数を備えた 2 層ニューラル ネットワークの損失ランドスケープで生じる定常プラトーの幾何学的構造を調査します。私たちは、隠れたニューロンを複製すると、より広いネットワーク内にアフィン セットの静止点が生成される「ニューロン分割」という現象に焦点を当てます。これらの台地上のすべての静止点を包括的に分類し、どのような条件下でそれらが極小点または鞍点を構成するかを判断します。私たちの特性評価は、「内部ヘッセ行列」と呼ぶニューロンごとの曲率オブジェクトに依存します。私たちの分析により、内部ヘッセ行列の明確性と分割係数の選択が共同してプラトーの局所的な幾何学形状を決定することが明らかになりました。極小値を「分割」すると、局所極小値と鞍部の混合、または穏やかな仮定の下で特定された具体的な確実な鞍部領域を含むすべての鞍部のプラトーが得られることを示します。対照的に、鞍点を分割すると、常に鞍点のプラトーが生成されます。私たちの結果は、以前のランドスケープ解析を統合および拡張し、モデル拡張がいつどのように静止点の性質を保存または変更するかを解明します。これらの発見は、ニューラル ネットワークにおける幅の拡張と再パラメータ化の影響についての新しい幾何学的洞察を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Geometric Characterization of the Stationary Plateau for Two-Layer Neural Networks</p>
        <p class="orig-summary">We investigate the geometric structure of stationary plateaus that arise in the loss landscape of two-layer neural networks with smooth activation functions. We focus on the phenomenon of &quot;neuron splitting&quot; where duplicating a hidden neuron yields an affine set of stationary points in a wider network. We provide a comprehensive classification of all stationary points on these plateaus, determining under what conditions they constitute local minima or saddle points. Our characterization hinges on a per-neuron curvature object we term the &quot;inner Hessian&quot; matrix. Our analysis reveals that the definiteness of the inner Hessian and the choice of splitting coefficients jointly dictate the local geometry of the plateau. We show that &quot;splitting&quot; a local minimum can yield either a mixture of local minima and saddles or an all-saddle plateau, with a concrete sure-saddle region identified under mild assumptions. In contrast, splitting a saddle point always produces a plateau of saddle points. Our results unify and extend prior landscape analyses, elucidating when and how model expansion preserves or alters the nature of stationary points. These findings offer new geometric insights into the effects of width expansion and reparameterization in neural networks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="adf58678e5f2" data-article-url="https://arxiv.org/abs/2606.04328" data-article-title="即時決定トランスフォーマーを使用したワイヤレス ネットワークの一般化可能なマルチタスク学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04328" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04328" target="_blank" rel="noopener">即時決定トランスフォーマーを使用したワイヤレス ネットワークの一般化可能なマルチタスク学習</a></h3>
      <p class="summary">将来のワイヤレス ネットワークでは、非常に異質な環境と動的なタスク構成への迅速な適応が求められており、従来のルールベースで最適化主導の無線リソース管理 (RRM) から人工知能 (AI) 主導の RRM への移行が必要です。 AI 主導のアプローチは、複雑な非線形関係を学習し、多様なネットワーク条件全体に一般化して、リアルタイムでスケーラブルな自律的な意思決定を可能にします。 RRM 技術の中でも、多地点協調（CoMP）送信はセル間干渉を軽減し、セルエッジのパフォーマンスを向上させるために極めて重要であり、それによって高密度展開における体験品質（QoE）が向上します。ただし、最適なマルチセルの選択は、動的なトラフィックとチャネル条件の下で、考えられる多くのサービングセルの組み合わせを共同で最適化する必要があるため、依然として複雑な組み合わせの課題です。成功にもかかわらず、近接ポリシー最適化 (PPO) などの従来の深層強化学習 (DRL) 手法は、サンプル効率が低く、汎化が限られており、状態空間とアクション空間が変化した場合に再学習にコストがかかるという問題があります。これらのボトルネックに対処するために、多様なネットワーク構成にわたって学習し、シーケンス モデリング問題としてマルチセルの選択を再定式化できる、Prompt Decision Transformer (PromptDT) ベースのマルチタスク学習フレームワークを提案します。 PromptDT は、オフライン トラジェクトリとタスク固有のプロンプトを活用することで、さまざまな基地局やユーザー機器の数、スケジューラ ポリシーなど、さまざまなネットワーク構成にわたってスケーラブルな学習を可能にします。実験結果は、PromptDT がベースラインと比較してマルチタスク設定で QoE を最大 49% 向上させ、モデルの容量に合わせてパフォーマンスがプラスに拡張することを示しています。さらに、PromptDT は目に見えないタスクを効果的に一般化し、再トレーニングや微調整を行わずに、新しいネットワーク構成への堅牢な少数ショットの適応を実現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Generalizable Multi-Task Learning for Wireless Networks Using Prompt Decision Transformers</p>
        <p class="orig-summary">Future wireless networks demand rapid adaptation to highly heterogeneous environments and dynamic task configurations, necessitating a shift from conventional rule-based and optimization-driven radio resource management (RRM) toward artificial intelligence (AI)-driven RRM. AI-driven approaches can learn complex nonlinear relationships, generalize across diverse network conditions and enable real-time, scalable and autonomous decision-making. Among RRM techniques, coordinated multipoint (CoMP) transmission is pivotal for mitigating inter-cell interference and enhancing cell-edge performance, thereby improving quality of experience (QoE) in dense deployments. However, optimal multi-cell selection remains a complex combinatorial challenge as it requires jointly optimizing over many possible serving-cell combinations under dynamic traffic and channel conditions. Despite their success, conventional deep reinforcement learning (DRL) methods such as proximal policy optimization (PPO) suffer from poor sample efficiency, limited generalization, and costly retraining when state and action spaces change. To address these bottlenecks, we propose a Prompt Decision Transformer (PromptDT) based multi-task learning framework capable of learning across diverse network configurations and reformulating multi-cell selection as a sequence modeling problem. By leveraging offline trajectories and task-specific prompts, PromptDT enables scalable learning across diverse network configurations, including varying base stations and user equipment counts, and scheduler policies. Experimental results demonstrate that PromptDT improves QoE by up to 49% in multi-task settings compared to baselines, with performance scaling positively alongside model capacity. Moreover, PromptDT generalizes effectively to unseen tasks, achieving robust few-shot adaptation to new network configurations without retraining or fine-tuning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a6fc80be7ff7" data-article-url="https://arxiv.org/abs/2606.04329" data-article-title="信頼できない入力から信頼できるメモリへ: LLM エージェントにおけるメモリポイズニング攻撃の系統的研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04329" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04329" target="_blank" rel="noopener">信頼できない入力から信頼できるメモリへ: LLM エージェントにおけるメモリポイズニング攻撃の系統的研究</a></h3>
      <p class="summary">メモリは AI エージェントの中核コンポーネントであり、AI エージェントがインタラクションを通じて知識を蓄積し、パフォーマンスを向上させることができます。ただし、永続メモリにはメモリ ポイズニングのリスクが伴います。メモリ ポイズニングの場合、敵対的な 1 回のメモリ書き込みがエージェントの動作に長期的な影響を与える可能性があります。我々は、LLM ベースのエージェントにおけるメモリポイズニングの体系的な研究を紹介します。 4 つのメモリ書き込みチャネルと、これらのチャネルを悪用可能にするモデル機能、システム プロンプト設計、およびエージェント システム アーキテクチャにおける 9 つの構造的脆弱性を特定しました。これらの脆弱性に基づいて、メモリポイズニング攻撃の 6 つのクラスの分類を作成します。さらに、メモリポイズニング攻撃を評価するためのベンチマークである MPBench を設計し、より積極的にメモリの書き込みと取得を行うように設計されたエージェントが悪用されやすいことを示します。また、既存のプロンプト インジェクション防御ではメモリ ポイズニング攻撃をカバーできないことも示します。私たちの調査結果は、AI エージェントに対するメモリ ポイズニング攻撃を理解し、軽減するための基盤を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Untrusted Input to Trusted Memory: A Systematic Study of Memory Poisoning Attacks in LLM Agents</p>
        <p class="orig-summary">Memory is a core component of AI agents, enabling them to accumulate knowledge across interactions and improve performance. However, persistent memory introduces the risk of memory poisoning, where a single adversarial memory write can exert long-term influence over agent behavior. We present a systematic study of memory poisoning in LLM-based agents. We identify four memory write channels and nine structural vulnerabilities in model capabilities, system prompt design, and agent system architecture that make these channels exploitable. Based on these vulnerabilities, we develop a taxonomy of six classes of memory poisoning attacks. Furthermore, we design MPBench -- a benchmark for evaluating memory poisoning attacks, and show that agents designed to write and retrieve memory more aggressively are more exploitable. We also show that existing prompt injection defenses fail to cover memory poisoning attacks. Our findings provide a foundation for understanding and mitigating memory poisoning attacks against AI agents.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c772aec42164" data-article-url="https://arxiv.org/abs/2606.04342" data-article-title="期待と現実: 条件付き不確実性の下での MSE 最適予測のコスト" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04342" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04342" target="_blank" rel="noopener">期待と現実: 条件付き不確実性の下での MSE 最適予測のコスト</a></h3>
      <p class="summary">マルチステップ時系列予測 (MSF) は通常、平均二乗誤差 (MSE) などの点単位の誤差メトリクスを使用して評価され、暗黙的に条件付き平均を十分な目標として扱います。条件付きの不確実性の下ではこれが誤解を招く可能性があり、条件付きの期待が長期的には典型的な実現値を代表しなくなる可能性があることを示します。我々は、条件付き不確実性ギャップを通じてこの効果を形式化し、このギャップがゼロ以外の場合は常に、MSE を最小化し、現実化した先物の限界分布と一致させることができる決定論的予測子は存在しないことを証明します。これにより、MSF 評価における点精度と限界現実性との間の基本的なモデルに依存しないトレードオフが確立されます。制御された確率力学システムと 9 つの現実世界の予測ベンチマークを使用して、結果として得られる精度、つまりリアリズム フロンティアと \textbf{MSE のみのモデル選択の実際的なコストを定量化} を経験的に特徴付けます。予測期間が進むにつれて条件の不確実性が増大するにつれて、達成可能なセットは顕著なパレート フロントに拡大し、MSE に最適ではあるが分散が不十分な予測子を、現実的な限界変動と精度を引き換えにする手法から分離します。 \textbf{ベンチマーク全体で、MSE の小さな緩和 ($\boldsymbol{\le 5\%}$) が限界現実主義で不釣り合いな利益をもたらすことが頻繁にあり、一部のデータセットでは $\mathbf{17.3\%}$ の中央値改善と $\mathbf{30\%}$ を超える利益が得られることがわかりました。} さらに、一般的な予測戦略が体系的にこのフロンティアのさまざまな領域を占めることを示します。複数出力の予測子は精度が最適な極限付近に集中しますが、再帰的戦略とサンプルベースの推論は限界現実主義を支持します。これらの結果を総合すると、長期予測における MSE ベースの評価の構造的欠陥モードと、避けられない精度、つまり現実性のトレードオフのナビゲーションとしてのリキャスト戦略と推論の選択が明らかになります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Expectations vs. Realities: The Cost of MSE-Optimal Forecasting Under Conditional Uncertainty</p>
        <p class="orig-summary">Multi-step time series forecasting (MSF) is commonly evaluated using point-wise error metrics such as mean squared error (MSE), implicitly treating the conditional mean as a sufficient target. We show that this can be misleading under conditional uncertainty, where the conditional expectation becomes unrepresentative of typical realized values at longer horizons. We formalize this effect through a conditional uncertainty gap and prove that whenever this gap is nonzero, no deterministic predictor can simultaneously minimize MSE and match the marginal distribution of realized futures. This establishes a fundamental, model-agnostic trade-off between point accuracy and marginal realism in MSF evaluation. Using controlled stochastic dynamical systems and nine real-world forecasting benchmarks, we empirically characterize the resulting accuracy--realism frontier and \textbf{quantify the practical cost of MSE-only model selection}. As conditional uncertainty increases with forecast horizon, the attainable set expands into a pronounced Pareto front, separating MSE-optimal but under-dispersed predictors from methods that trade accuracy for realistic marginal variability. \textbf{Across benchmarks, we find that small relaxations in MSE ($\boldsymbol{\le 5\%}$) frequently unlock disproportionate gains in marginal realism, with median improvements of $\mathbf{17.3\%}$ and gains exceeding $\mathbf{30\%}$ in some datasets.} We further show that common forecasting strategies systematically occupy different regions of this frontier: direct multi-output predictors concentrate near the accuracy-optimal extreme, while recursive strategies and sample-based inference favors marginal realism. Together, these results expose a structural failure mode of MSE-based evaluation in long-horizon forecasting and recast strategy and inference selection as navigation of an unavoidable accuracy--realism trade-off.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="00132bfa99db" data-article-url="https://arxiv.org/abs/2606.04345" data-article-title="HYolo: ハイパーグラフ学習を使用したインテリジェントな IoT ベースの物体検出システム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04345" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04345" target="_blank" rel="noopener">HYolo: ハイパーグラフ学習を使用したインテリジェントな IoT ベースの物体検出システム</a></h3>
      <p class="summary">このペーパーでは、ハイパーグラフ学習を YOLO アーキテクチャに統合する、インテリジェントな IoT ベースのオブジェクト検出フレームワークである HYolo について説明します。従来の YOLO ベースの物体検出モデルは、主にペアごとの特徴の相互作用を捕捉しており、物体とコンテキスト特徴間の複雑な高次の関係をモデル化できない場合があります。この制限に対処するために、HYolo にはハイパーグラフ学習が組み込まれており、より豊富なコンテキスト依存関係を取得し、オブジェクト表現を改善します。 COCO データセットの実験評価では、ベースライン YOLO モデルと比較してパフォーマンスが大幅に向上していることが実証されています。提案されたアプローチは、全体的な検出精度と堅牢性を向上させながら、mAP@50 で約 12% の改善を達成します。 HYolo は、高次の特徴関係をモデル化することにより、IoT ベースの環境においてコンテキストの理解が向上し、より信頼性の高い物体検出パフォーマンスを提供します。この結果は、ハイパーグラフ学習を物体検出パイプラインに統合することが、インテリジェントでコンテキスト認識型の IoT ビジョン システムに有望な方向性をもたらすことを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">HYolo: An Intelligent IoT-Based Object Detection System Using Hypergraph Learning</p>
        <p class="orig-summary">This paper presents HYolo, an intelligent IoT-based object detection framework that integrates hypergraph learning into the YOLO architecture. Traditional YOLO-based object detection models primarily capture pairwise feature interactions and may fail to model complex high-order relationships among objects and contextual features. To address this limitation, HYolo incorporates hypergraph learning to capture richer contextual dependencies and improve object representation. Experimental evaluation on the COCO dataset demonstrates significant performance improvements over baseline YOLO models. The proposed approach achieves approximately 12% improvement in mAP@50 while enhancing overall detection accuracy and robustness. By modeling high-order feature relationships, HYolo provides improved contextual understanding and more reliable object detection performance in IoT-based environments. The results indicate that integrating hypergraph learning into object detection pipelines offers a promising direction for intelligent and context-aware IoT vision systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e27132dcebe4" data-article-url="https://arxiv.org/abs/2606.04349" data-article-title="MorphoQuant: オムニモーダル大規模言語モデル向けのモダリティを意識した量子化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04349" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04349" target="_blank" rel="noopener">MorphoQuant: オムニモーダル大規模言語モデル向けのモダリティを意識した量子化</a></h3>
      <p class="summary">従来のポストトレーニング量子化 (PTQ) 手法は、極端な分布の不均一性とモダリティ間の異種の外れ値パターンにより、4 ビットのオムニモーダル大規模言語モデル (OLLM) に苦戦します。これに対処するために、クロスモーダル形態を保存し、外れ値の損失を軽減するように設計されたモダリティ認識 PTQ フレームワークである MorphoQuant を提案します。具体的には、ロングテールの外れ値をチャネルごとのバイアスに選択的に吸収する、Distribution-Aware Bias Compensation (DABC) を導入します。このメカニズムは、密なインライアの高精度の離散化を維持しながら外れ値の大きさを保護し、それによって多様なモード分布にわたって正確な離散化を維持します。これを補完するために、量子化グリッドとバイアス マスクを同時に最適化し、モダリティ全体でのきめ細かい調整を保証する形態指向量子化関数最適化 (MDQFO) を提案します。 MMMU や Video-MME などのベンチマークにわたる Qwen2.5-Omni の広範な評価により、私たちのアプローチの優位性が実証されています。特に、当社の W4A4 モデルは ScienceQA で 76.63% を達成し、SOTA W4A4 メソッドを大幅に上回り、驚くべきことに W4A16 ベースラインを上回っています。これは、当社のフレームワークの並外れた精度と効率のトレードオフを十分に示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MorphoQuant: Modality-Aware Quantization for Omni-modal Large Language Models</p>
        <p class="orig-summary">Conventional Post-Training Quantization (PTQ) methods struggle with 4-bit Omni-modal Large Language Models (OLLMs) due to the extreme distribution heterogeneity and disparate outlier patterns across modalities. To address this, we propose MorphoQuant, a modality-aware PTQ framework engineered to preserve cross-modal morphology and mitigate outlier loss. Specifically, we introduce Distribution-Aware Bias Compensation (DABC), which selectively absorbs long-tailed outliers into channel-wise biases. This mechanism safeguards outlier magnitudes while maintaining high-precision discretization for dense inliers, thereby preserving accurate discretization across diverse modal distribution. Complementing this, we propose Morphology-Directed Quantization Function Optimization (MDQFO) to co-optimize the quantization grid with the bias mask, ensuring fine-grained alignment across modalities. Extensive evaluations on Qwen2.5-Omni across benchmarks like MMMU and Video-MME demonstrate our approach&#x27;s superiority. Notably, our W4A4 model achieves 76.63% on ScienceQA, significantly outperforming SOTA W4A4 methods and surprisingly surpassing the W4A16 baseline, which fully demonstrates the exceptional accuracy-efficiency trade-off of our framework.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f8cd4e6e9475" data-article-url="https://arxiv.org/abs/2606.04365" data-article-title="CT ボリュームからの多粒度 3D 腎臓病変の特徴付け" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04365" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04365" target="_blank" rel="noopener">CT ボリュームからの多粒度 3D 腎臓病変の特徴付け</a></h3>
      <p class="summary">放射線医学のレポートでは、腎臓病変を種類、サイズ、増強、減弱別に説明していますが、既存の 3D 手法では、患者または臓器レベルでしか予測できません。腎臓の CT 特性評価を病変セットごとの予測タスクとして再定式化します。1 つのモデルが腎臓ごとに可変数の病変を出力し、それぞれが 4 つの臨床的属性を持ちます。私たちは、ある学術医療センターの 788 人の患者からの 2,619 の CT ボリュームを厳選し、多粒度の側面および病変ごとのラベルを付け、ゼロショット外部検証に KiTS23 (489 ケース) を使用しました。私たちは、サイズ距離ハンガリー語マッチングと、スロットごとの出力をサイドレベルの目標に集約する階層損失を備えた DETR スタイルのアーキテクチャである \textbf{LesionDETR} を提案します。 4 つの入力表現と 6 つのエンコーダー初期化において、設計上の 2 つの選択肢が支配的です。入力チャネルとしてのセグメンテーション マスクと、同一ドメイン腹部事前トレーニング (SuPreM) です。一般的な大規模コーパスの事前トレーニングは、ランダムな初期化と何ら変わりません。 LesionDETR は、UF-Health では両側側レベルの異常 AUC $0.799 \pm 0.009$、KiTS23 では $0.817 \pm 0.072$ に達します。カウント条件付きバリアントは、嚢胞性病変では病変あたりの mAP $0.190 \pm 0.083$ に達します。まれな固形病変 AP はノイズ フロアに留まり、次のボトルネックとしてアーキテクチャではなく対象を絞ったデータ収集が指摘されています。このフレームワークは、下流の構造化レポート生成のための検証済みの病変ごとの予測を生成します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Multi-Granularity 3D Kidney Lesion Characterization from CT Volumes</p>
        <p class="orig-summary">Radiology reports describe kidney lesions by type, size, enhancement, and attenuation, yet existing 3D methods predict only at the patient or organ level. We reformulate kidney CT characterization as a per-lesion set-prediction task: one model emits a variable number of lesions per kidney, each with four clinical attributes. We curated 2,619 CT volumes from 788 patients at one academic medical center, with multi-granularity side- and per-lesion labels, and used KiTS23 (489 cases) for zero-shot external validation. We propose \textbf{LesionDETR}, a DETR-style architecture with size-distance Hungarian matching and a hierarchical loss that aggregates per-slot outputs to side-level objectives. Across four input representations and six encoder initializations, two design choices dominate: a segmentation mask as an input channel, and same-domain abdominal pretraining (SuPreM); generic large-corpus pretraining is no better than random initialization. LesionDETR reaches bilateral side-level abnormality AUC $0.799 \pm 0.009$ on UF-Health and $0.817 \pm 0.072$ on KiTS23. A count-conditioned variant reaches per-lesion mAP $0.190 \pm 0.083$ on cystic lesions; rare solid-lesion AP stays at the noise floor, pointing to targeted data collection, not architecture, as the next bottleneck. The framework yields verified per-lesion predictions for downstream structured report generation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="11627b76bb11" data-article-url="https://arxiv.org/abs/2606.04373" data-article-title="分離された情報領域の選択的結合: ビジョントランスフォーマーのデータフリー量子化のためのマスクされた注意の調整" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04373" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04373" target="_blank" rel="noopener">分離された情報領域の選択的結合: ビジョントランスフォーマーのデータフリー量子化のためのマスクされた注意の調整</a></h3>
      <p class="summary">データフリー量子化 (DFQ) は、実際のデータにアクセスせずにサンプルを合成することで、データ セキュリティの問題に対処します。古典的な畳み込み演算と比較した自己注意メカニズムの優位性により、ビジョン トランスフォーマー (ViT) の文脈でますます注目を集めています。ただし、ViT 用の以前の DFQ 技術では、合成サンプルと量子化モデル Q によって予期される入力分布の間の分布の不一致が発生し、次善のパフォーマンスが得られることがよくありました。この論文では、MaskAQ と呼ばれる ViT のデータフリー量子化のための新しいマスク アテンション アラインメント アプローチを提案します。これにより、次のことが明らかになります。1) セルフ アテンション メカニズムのセマンティクスは、主に情報領域と呼ばれるパッチのまばらなサブセットに局在化されている。 2) 情報領域は、合成サンプルと Q の出力の間の相互情報を支配します。これらの目的のために、合成サンプルのパッチ類似性に差分エントロピー最大値を組み込んで、ノイズの多い背景から有益な領域を分離します。さまざまな Q と組み合わせるために、マスクされたアテンション アラインメント目標を介して完全精度モデルを Q と位置合わせするように情報領域が選択され、高品質の合成サンプルが得られます。さらに、定期的なサンプル リフレッシュ戦略により、トレーニング プロセス全体を通じて Q の進化する状態に継続的に適応し、合成サンプルとの望ましい相互情報を保存する能力が MaskAQ に与えられます。広範な実験により、複数のバックボーンとダウンストリーム タスクにわたる最先端のアプローチに対する MaskAQ の利点が検証されています。私たちのコードは https://github.com/hfutqian/MaskAQ で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Selective Coupling of Decoupled Informative Regions: Masked Attention Alignment for Data-Free Quantization of Vision Transformers</p>
        <p class="orig-summary">Data-Free Quantization (DFQ) addresses data security concerns by synthesizing samples, without accessing real data. It has garnered increasing attention in the context of Vision Transformers (ViTs), owing to the superiority of the self-attention mechanism compared to classical convolutional operation. However, previous DFQ arts for ViTs often suffer from a distribution mismatch between synthetic samples and input distribution expected by quantized models Q, resulting in the suboptimal performance. In this paper, we propose a novel Masked Attention Alignment approach for Data-Free Quantization of ViTs, named MaskAQ, revealing that: 1) the semantics in the self-attention mechanism is predominantly localized to a sparse subset of patches, called informative regions; 2) the informative regions dominate the mutual information between synthetic samples and Q&#x27;s outputs. To these ends, we incorporate differential entropy maximum over patch similarity of synthetic samples, to decouple informative regions from noisy background. To couple with varied Q, the informative regions are selected to align full-precision models with Q via a masked attention alignment objective, thus yielding high-quality synthetic samples. Furthermore, a periodic sample refreshing strategy comes up to endow MaskAQ with the capacity to continually adapt to the evolving state of Q throughout the training process, to preserve desirable mutual information with synthetic samples. Extensive experiments verify the merits of MaskAQ over state-of-the-art approaches across multiple backbones and downstream tasks. Our code is available at https://github.com/hfutqian/MaskAQ.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="36b49569326b" data-article-url="https://arxiv.org/abs/2606.04374" data-article-title="DSIRM: 電子商取引関連性モデリングのためのクエリブリッジされた離散セマンティック識別子の学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04374" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04374" target="_blank" rel="noopener">DSIRM: 電子商取引関連性モデリングのためのクエリブリッジされた離散セマンティック識別子の学習</a></h3>
      <p class="summary">電子商取引の検索関連性に対する継続的な埋め込みが急速に進歩しているにもかかわらず、長年の未解決の問題は、きめの細かい属性の区別を把握することが難しいことです。離散セマンティック識別子 (SID) は有望な代替手段として広く採用されていますが、既存の SID 生成方法は教師なし量子化に大きく依存しています。現実的なシナリオでは、明示的な監視がないため、どの項目が SID を共有するかを決定することがより困難になることが多く、その結果、クエリ依存のランキング機能が制限されます。教師なし SID の問題に対処するために、離散関連性機能を明示的にモデル化し、離散セマンティック識別子関連性モデル (DSIRM) を開発することを提案します。具体的には、アイテム側でクエリブリッジの対比量子化アプローチを提案し、クエリとアイテムの相互作用監視を残差量子化に注入して、関連性を意識したセマンティックパーティションを積極的に学習します。一方、クエリ側で生成 LLM を調査し、テキストから項目 SID を明示的に予測し、末尾クエリと意図の曖昧さを解決します。クエリとアイテムの SID 間の階層的なプレフィックス マッチングにより、密な信号を完全に補完する識別機能が得られます。 Tmall の生産データに関する広範な実験結果は、私たちが提案したアプローチがより良い結果を達成し、オフライン AUC を +1.54% 改善したことを示しています。効率的なハイブリッド アーキテクチャを介して導入され、大幅なオンライン リフト (+0.13\% UCTR、+0.25\% UCTCVR) を達成し、その巨大な産業価値を証明しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DSIRM: Learning Query-Bridged Discrete Semantic Identifiers for E-commerce Relevance Modeling</p>
        <p class="orig-summary">Despite rapid progress of continuous embeddings for e-commerce search relevance, a long-standing open problem is the difficulty in capturing fine-grained attribute distinctions. While discrete Semantic Identifiers (SIDs) have been widely adopted as a promising alternative, existing SID generation methods rely heavily on unsupervised quantization. In realistic scenarios, the lack of explicit supervision often makes it more difficult to dictate which items should share an SID, resulting in limited capability for query-dependent ranking. To address the issue of unsupervised SIDs, we propose to explicitly model discrete relevance features and develop a Discrete Semantic Identifier Relevance Model (DSIRM). Specifically, we present a query-bridged contrastive quantization approach on the item side, injecting query-item interaction supervision into Residual Quantization to actively learn relevance-aware semantic partitions. On the other hand, we explore generative LLMs on the query side to explicitly predict item SIDs from text, resolving tail queries and intent ambiguity. Hierarchical prefix matching between query and item SIDs yields discriminative features that perfectly complement dense signals. Extensive experimental results on Tmall&#x27;s production data show that our proposed approach has achieved better results, improving offline AUC by +1.54\%. Deployed via an efficient hybrid architecture, it achieves significant online lifts (+0.13\% UCTR, +0.25\% UCTCVR), proving its massive industrial value.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4e1c4f199ac2" data-article-url="https://arxiv.org/abs/2606.04381" data-article-title="記号から幾何へ: 大規模な言語モデルで空間推論を可能にする" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04381" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04381" target="_blank" rel="noopener">記号から幾何へ: 大規模な言語モデルで空間推論を可能にする</a></h3>
      <p class="summary">最近の大規模言語モデル (LLM) は、空間推論能力を示すことが多いようです。ただし、この機能は主に \emph{象徴的} なものであり、空間に関する真の \emph{幾何学的} 推論ではなく、空間言語によるパターン マッチングから生じています。 LLM は離散トークンで動作するため、連続空間表現、明示的な幾何学的計算、および構造化空間演算子のネイティブ サポートが不足しています。この制限に対処するために、\emph{空間言語モデル (SLM)} を導入しました。これは位置情報を第一級のモダリティとして扱い、モデルの推論プロセス内で幾何学的空間推論を可能にする初のマルチモーダル LLM です。 SLM は、空間関係のテキスト記述ではなく、学習された空間表現に直接作用します。効果的なトレーニングをサポートするために、空間表現、アトミックな幾何学的操作、自然言語命令を調整する \emph{空間命令データセット} を構築します。さらに、\emph{SpatialEval} という名前の新しいベンチマークを提案します。これは、属性、距離、トポロジー、および相対位置タスクにわたる空間推論を評価するように設計されています。広範な実験により、SLM は、プロンプト エンジニアリングやテキスト抽象化による記号推論に依存する既存の LLM ベースのアプローチよりも大幅に優れていることが示されており、堅牢な空間推論のために幾何学的空間表現を統合する利点が実証されています。命令データセット、評価ベンチマーク、モデル トレーニング コード、モデルのチェックポイントは、\hyperlink{https://github.com/chuchen2017/SLM}{https://github.com/chuchen2017/SLM} にあります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Symbolic to Geometric: Enabling Spatial Reasoning in Large Language Models</p>
        <p class="orig-summary">Recent large language models (LLMs) often appear to exhibit spatial reasoning ability; however, this capability is largely \emph{symbolic}, arising from pattern matching over spatial language rather than true \emph{geometric} reasoning over space. Because LLMs operate on discrete tokens, they lack native support for continuous spatial representations, explicit geometric computation, and structured spatial operators. To address this limitation, we introduce the \emph{Spatial Language Model (SLM)}, the first multimodal LLM that treats location information as a first-class modality and enables geometric spatial reasoning within the model&#x27;s inference process. SLM directly operates on learned spatial representations rather than textual descriptions of spatial relations. To support effective training, we construct a \emph{Spatial Instruction Dataset} that aligns spatial representations, atomic geometric operations, and natural language instructions. We further propose a new benchmark named \emph{SpatialEval}, which is designed to evaluate spatial reasoning across attributes, distance, topology, and relative-position tasks. Extensive experiments show that SLM significantly outperforms existing LLM-based approaches that rely on symbolic reasoning via prompt engineering or textual abstraction, demonstrating the benefits of integrating geometric spatial representations for robust spatial reasoning. Our instruction dataset, evaluation benchmark, model training codes, and models&#x27; checkpoints can be found at: \hyperlink{https://github.com/chuchen2017/SLM}{https://github.com/chuchen2017/SLM}.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dd5c737f457d" data-article-url="https://arxiv.org/abs/2606.04382" data-article-title="LCSHBench: 米国議会図書館件名見出し割り当てのための、多言語で合意に基づいたベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-regulation">規制/政策</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04382" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04382" target="_blank" rel="noopener">LCSHBench: 米国議会図書館件名見出し割り当てのための、多言語で合意に基づいたベンチマーク</a></h3>
      <p class="summary">自動主題目録作成では、制御された語彙見出しが書誌レコードに割り当てられますが、LCSH には標準の公開ベンチマークがありません。 LCSHBench を紹介します。オープンライセンスのハーバード大学、コロンビア大学、プリンストン大学のカタログから 15 言語で 22,346 冊の本を紹介します。記録は、少なくとも 2 つの独立目録作成機関が LCSH を割り当てた場合にのみ入力されます。私たちはカタログごとの来歴と結合および全員一致の回答ビューをリリースします。 3 つの図書館すべてでカタログ化されている 465,187 作品の一致調査では、なぜこのデザインが重要であるかを示しています。図書館は通常、基礎となるトピックについては一致しています (93.3% が概念レベルの見出しを共有) が、正確な表現が異なることがよくあります (39.4% が同一の見出しセットを持っています)。したがって、LCSHBench は、オープン語彙の生成と完全な語彙の検索にわたって、言語と見出しの種類ごとに分類されたセットとランクのメトリクスを使用して、完全一致と概念一致の両方をスコアリングします。最初のデモンストレーションとして、300M オンデバイス エンベッダーの低ランク微調整により、言語を超えた検索が向上し、開発正確な再現率 @ 200 (0.659 対 0.623) で 3,072 次元のホスト型エンベッダーを上回りました。言語パネルは、ゲインが一様ではないことを示しており、ホールドアウトテストとエンドツーエンドの確認は今後の作業として残っています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LCSHBench: A Multilingual, Consensus-Grounded Benchmark for Library of Congress Subject Heading Assignment</p>
        <p class="orig-summary">Automated subject cataloging assigns controlledvocabulary headings to bibliographic records, but LCSH has no standard public benchmark. We introduce LCSHBench: 22,346 books in 15 languages from the openly licensed Harvard, Columbia, and Princeton catalogs. Records enter only when at least two independent cataloging agencies assigned LCSH; we release per-catalog provenance plus union and unanimous answer views. A concordance study of 465,187 works cataloged by all three libraries shows why this design matters: libraries usually agree on the underlying topic (93.3% share a concept-level heading) but often differ in exact expression (39.4% have identical heading sets). LCSHBench therefore scores both exact and concept matches, with set and rank metrics broken down by language and heading type, across open-vocabulary generation and full-vocabulary retrieval. As a first demonstration, a low-rank fine-tune of a 300M on-device embedder improves cross-lingual retrieval and beats a 3,072-dimensional hosted embedder on development exact recall@200 (0.659 vs 0.623). The language panel shows the gain is not uniform, and held-out-test and end-to-end confirmation remain future work.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d531a61aeeb0" data-article-url="https://arxiv.org/abs/2606.04387" data-article-title="LLM ベースの階層的優先順位付けによる営業リードのスコアリングの再考" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04387" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04387" target="_blank" rel="noopener">LLM ベースの階層的優先順位付けによる営業リードのスコアリングの再考</a></h3>
      <p class="summary">一か八かの分野 (自動車、不動産など) でのセールスリードの変換は、長期にわたる意思決定サイクルと多段階の目標到達プロセスにより、電子商取引の推奨とは根本的に異なります。従来のリード スコアリング方法のルールベースのスコアカード、機械学習、またはポイントごとの CTR モデルは、監督の希薄さ、非構造化 CRM ログのセマンティック ギャップ、相対的なリードの優先度を把握できないなどの深刻な課題に直面しています。大規模言語モデル (LLM) は顧客との対話の優れた意味的理解を提供しますが、汎用 LLM はリードのランキングには適していません。比較可能なスコアではなくテキストを生成し、セールス ファネルの階層的な優先順位との整合性が欠けています。セールスリードスコアリングのための LLM ベースの識別フレームワークを導入します。これは、構造化された CRM 機能と非構造化された顧客インタラクションの共同モデリングをサポートします。このフレームワークに加えて、HPRO (階層的嗜好ランキング最適化) を提案します。これは、階層的な嗜好ランキングの目標によってセールス リードのスコアリングを強化します。 HPRO は、マージンを意識した Bradley-Terry 定式化を採用して、まばらなバイナリ ラベルを高密度でファネルを意識したプリファレンス ペアに変換し、ポイント単位とペア単位の両方の監視を活用したリード スコアリングを可能にします。大手NEVブランドからの大規模データを用いた実験では、最先端の分類（AUC 0.8161）とランキングパフォーマンス（トップランクのリード間で精度+39.7%）が実証されました。 132 日間のオンライン A/B テストにより、販売量が 9.5% 増加したことが検証され、現実世界の商業的影響が確認されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Rethinking Sales Lead Scoring with LLM-based Hierarchical Preference Ranking</p>
        <p class="orig-summary">Sales lead conversion in high-stakes domains (e.g., automotive, real estate) differs fundamentally from e-commerce recommendation due to prolonged decision cycles and multi-stage funnels. Traditional lead scoring methods rule-based scorecards, machine learning, or pointwise CTR models face severe challenges: sparse supervision, a semantic gap in unstructured CRM logs, and inability to capture relative lead priority. While Large Language Models(LLMs) offer superior semantic understanding of customer interactions, general-purpose LLMs are ill-suited for lead ranking: they generate text rather than comparable scores, and lack alignment with the hierarchical priorities of sales funnels. We introduce an LLM-based discriminative framework for sales lead scoring, which supports joint modeling of structured CRM features and unstructured customer interactions. On top of this framework, we propose HPRO (Hierarchical Preference Ranking Optimization), which augments sales lead scoring with a hierarchical preference ranking objective. HPRO employs a margin-aware Bradley-Terry formulation to transform sparse binary labels into dense, funnel-aware preference pairs, enabling lead scoring to leverage both pointwise and pairwise supervision. Experiments on large-scale data from a leading NEV brand demonstrate state-of-the-art classification (AUC 0.8161) and ranking performance (+39.7% precision among top-ranked leads). A 132-day online A/B test validates 9.5% sales volume uplift, confirming real-world commercial impact.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bc20ffd92203" data-article-url="https://arxiv.org/abs/2606.04388" data-article-title="TITAN-FedAnil+: リソースに制約のあるインテリジェント企業向けの信頼ベースの適応ブロックチェーン連合学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04388" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04388" target="_blank" rel="noopener">TITAN-FedAnil+: リソースに制約のあるインテリジェント企業向けの信頼ベースの適応ブロックチェーン連合学習</a></h3>
      <p class="summary">Federated Learning (FL) は、データのプライバシーを維持しながら協調的なインテリジェンスを実現するための効果的なパラダイムとして登場しました。ただし、非 IID 配布や分散型セキュリティの脅威から生じるデータの異質性は、特にリソースに制約のあるエンタープライズ環境において依然として重大な課題となっています。このペーパーでは、インテリジェント企業におけるブロックチェーン対応のフェデレーテッド ラーニングのためのトラストベースのアダプティブ ネットワークである TITAN-FedAnil+ について説明します。提案されたフレームワークでは、アフィニティ伝播ベースの適応型クラスター化アグリゲーションを導入し、攻撃者の数に関する事前の知識を必要とせずに悪意のある更新を特定してフィルタリングします。さらに、GPU で高速化されたベクトル化が計算効率を向上させるために採用され、署名付き状態ジャンプ メカニズムにより軽量のブロックチェーン再同期が可能になります。実験結果では、ベースライン フレームワークと比較して、制約のある 8 GB エッジ デバイス上で 50 回の通信ラウンドにわたって最大 81% の節約を達成し、メモリ オーバーヘッドが大幅に削減されることが実証されました。結果は、TITAN-FedAnil+ が、インテリジェントなエンタープライズ環境におけるセキュアなフェデレーテッド ラーニング展開の堅牢性、スケーラビリティ、およびリソース効率を効果的に向上させることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TITAN-FedAnil+: Trust-Based Adaptive Blockchain Federated Learning for Resource-Constrained Intelligent Enterprises</p>
        <p class="orig-summary">Federated Learning (FL) has emerged as an effective paradigm for collaborative intelligence while preserving data privacy. However, data heterogeneity arising from non-IID distributions and decentralized security threats remain significant challenges, particularly in resource-constrained enterprise environments. This paper presents TITAN-FedAnil+, a Trust-Based Adaptive Network for blockchain-enabled federated learning in intelligent enterprises. The proposed framework introduces affinity propagation-based adaptive clustered aggregation to identify and filter malicious updates without requiring prior knowledge of the number of attackers. In addition, GPU-accelerated vectorization is employed to improve computational efficiency, while a signed state jump mechanism enables lightweight blockchain resynchronization. Experimental results demonstrate substantial reductions in memory overhead, achieving up to 81% savings across 50 communication rounds on constrained 8 GB edge devices compared with the baseline framework. The results indicate that TITAN-FedAnil+ effectively improves robustness, scalability, and resource efficiency for secure federated learning deployments in intelligent enterprise environments.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec7d43dfdf67" data-article-url="https://arxiv.org/abs/2606.04405" data-article-title="スケール不変変成器におけるグロッキングの低ランク減衰: スペクトル幾何学的な視点" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04405" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04405" target="_blank" rel="noopener">スケール不変変成器におけるグロッキングの低ランク減衰: スペクトル幾何学的な視点</a></h3>
      <p class="summary">最新の Transformer アーキテクチャでは、RMSNorm や Query-Key Normalization などの正規化メカニズムが頻繁に採用されており、モデルの一部が重みの大きさに関してほぼスケール不変になります。この領域では、標準のフロベニウス ノルム重み減衰は純粋に重み空間の半径方向に沿って作用し、正規化層によって表される関数を直接単純化することはできません。私たちは、このレンズを通して小さなアルゴリズムタスクのグロッキングを研究し、核ノルムに似たスペクトル正則化装置 \emph{Low-Rank Decay} (LRD) を提案します。その部分勾配 (極因子 $UV^\top$ -- はスケール不変設定でも接線成分を保持します)。この区別には、具体的な動的結果があります。モデルがトレーニング セットを記憶し、タスク勾配が消滅した後、L2 減衰は重みスペクトルを再形成できなくなりますが、LRD は $\ell_1$ のような方法で特異値を圧縮し続けます。モジュラー算術タスクでは、LRD がクエリ/キー行列で急速な実効ランクの崩壊を引き起こし、遅延汎化 (グロッキング) が発生するデータ部分の境界を拡大することがわかりました。我々はさらに、低ランク地層付近の核ノルム準微分値の「針から扇へ」の拡張を通じてスペクトル幾何学的解釈を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Low-Rank Decay for Grokking in Scale-Invariant Transformers: A Spectral-Geometric View</p>
        <p class="orig-summary">Modern Transformer architectures frequently employ normalization mechanisms such as RMSNorm and Query-Key Normalization, making parts of the model approximately scale-invariant with respect to weight magnitudes. In this regime, standard Frobenius-norm weight decay acts purely along the radial direction of the weight space and cannot directly simplify the function represented by the normalized layer. We study grokking in small algorithmic tasks through this lens and propose \emph{Low-Rank Decay} (LRD), a nuclear-norm-like spectral regularizer whose subgradient -- the polar factor $UV^\top$ -- retains a tangential component even in the scale-invariant setting. This distinction has a concrete dynamical consequence: after the model memorizes the training set and task gradients vanish, L2 decay can no longer reshape the weight spectrum, whereas LRD continues to compress singular values in an $\ell_1$-like fashion. On modular arithmetic tasks, we find that LRD induces rapid effective-rank collapse in Query/Key matrices and expands the data-fraction boundary at which delayed generalization (grokking) occurs. We further provide a spectral-geometric interpretation through the ``needle-to-fan&#x27;&#x27; expansion of the nuclear-norm subdifferential near low-rank strata.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="602afd922860" data-article-url="https://arxiv.org/abs/2606.04408" data-article-title="微分進化と勾配降下最適化によるアンサンブル潜在因子モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04408" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04408" target="_blank" rel="noopener">微分進化と勾配降下最適化によるアンサンブル潜在因子モデル</a></h3>
      <p class="summary">高次元かつ不完全 (HDI) データは、現実世界のビッグ データの多くのシナリオで広く普及しています。潜在因子モデルは、一般的な表現学習アプローチとして機能し、そのようなデータから有益な潜在因子を明らかにすることができます。それにもかかわらず、既存の潜在因子モデルのほとんどは、最適化のために勾配降下法のみに依存しているため、特に異種の HDI データを扱う場合、不十分で偏った表現につながる可能性があります。したがって、この研究では、次の 2 つの設計による、差分進化と勾配降下最適化によるアンサンブル潜在因子モデル (ELFM-DEGDO) を提案します。1) 2 つの多様な潜在因子モデルは、それぞれ差分進化と勾配降下最適化によって独立してモデル化され、2) 2 つの多様な潜在因子モデルは、カスタマイズされた自己適応重み付けメカニズムを介して結合され、それぞれの強みを効果的に融合します。両方の最適化パラダイムの相補的な利点を活用することで、ELFM-DEGDO は、HDI データに対してより包括的で偏りの少ない表現を生成できます。 3 つの HDI データセットをテストして、ELFM-DEGDO が関連するいくつかの潜在因子モデルよりも一貫して優れたパフォーマンスを発揮することを示しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">An Ensembled Latent Factor Model via Differential Evolution and Gradient Descent Optimization</p>
        <p class="orig-summary">High-dimensional and incomplete (HDI) data are prevalent in many real-world big data scenarios. Latent factor models serve as a common representation learning approach, capable of uncovering informative latent factors from such data. Nevertheless, most existing latent factor models rely solely on gradient descent for optimization, which may lead to insufficient and biased representations, particularly when dealing with heterogeneous HDI data. Thus, this study proposes an Ensembled Latent Factor Model via Differential Evolution and Gradient Descent Optimization (ELFM-DEGDO) with two-fold designed: 1) two diverse latent factor models are independently modeled via differential evolution and gradient descent optimization, respectively, and 2) the two diverse latent factor models are combined via a customized self-adaptive weighting mechanism to effectively fuse their strengths. By leveraging the complementary advantages of both optimization paradigms, ELFM-DEGDO is able to produce more comprehensive and less biased representations for HDI data. Three HDI datasets are tested to show that ELFM-DEGDO consistently performs better than related several latent factor models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a7e7f0f6d41" data-article-url="https://arxiv.org/abs/2606.04409" data-article-title="視覚的一般化におけるデータスケール、モデルの複雑さ、入力モダリティの実証的研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04409" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04409" target="_blank" rel="noopener">視覚的一般化におけるデータスケール、モデルの複雑さ、入力モダリティの実証的研究</a></h3>
      <p class="summary">最新のディープ ニューラル ネットワークは通常、大きなパラメーター スケールと非線形の階層構造を備えており、コンピューター ビジョンで優れたパフォーマンスを達成しています。ただし、汎化パフォーマンスの原因は、従来の統計学習理論を使用して説明するのが依然として困難です。視覚的な一般化に影響を与える可能性のある要因の中で、データ スケール、モデルの複雑さ、入力モダリティは、基本的かつ制御可能な変数です。この研究では、これら 3 つの要因がモデルの汎化パフォーマンスにどのように影響するかを実証的に分析します。具体的には、予備実験で 1 次元の非線形関数を構築し、トレーニング サンプルの数と多項式の次数を変更して、データ スケールとモデルの複雑さがモデルのパフォーマンスに及ぼす影響を観察します。主な実験では、異なるトレーニング データ スケール、モデル アーキテクチャ、入力モダリティの下で、CIFAR-10 と CIFAR-100 のモデルのパフォーマンスを比較します。実験結果は、トレーニング データのスケールを増やすと汎化パフォーマンスが一貫して向上する一方、モデルの複雑さが変化しても安定したゲインが得られないことを示しています。さらに、色情報を削除するとモデルのパフォーマンスが低下する一方、グラデーション、エッジ、ウェーブレットなどの明示的な事前の機能は、異なるモデル アーキテクチャ間で一貫性のない影響を及ぼします。全体として、この研究は、データ スケール、モデルの複雑さ、入力モダリティ、および視覚的汎化パフォーマンスの間の関係の実証的分析を提供します。コードと実験のログは、https://github.com/zlyd-CV/DeepLearning-Empirical-Studies で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">An Empirical Study of Data Scale, Model Complexity, and Input Modalities in Visual Generalization</p>
        <p class="orig-summary">Modern deep neural networks usually have large parameter scales and nonlinear hierarchical structures, and they have achieved strong performance in computer vision. However, the source of their generalization performance remains difficult to explain using traditional statistical learning theory. Among the factors that may affect visual generalization, data scale, model complexity, and input modalities are fundamental and controllable variables. This study empirically analyzes how these three factors influence model generalization performance. Specifically, in a preliminary experiment, we construct a one-dimensional nonlinear function and vary the number of training samples and the polynomial degree to observe the effects of data scale and model complexity on model performance. In the main experiments, we compare model performance on CIFAR-10 and CIFAR-100 under different training data scales, model architectures, and input modalities. The experimental results show that increasing the training data scale consistently improves generalization performance, whereas changes in model complexity do not provide stable gains. In addition, removing color information degrades model performance, while explicit prior features such as gradients, edges, and wavelets have inconsistent effects across different model architectures. Overall, this study provides an empirical analysis of the relationships among data scale, model complexity, input modalities, and visual generalization performance. Code and experimental logs are available at: https://github.com/zlyd-CV/DeepLearning-Empirical-Studies.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8b0b0793a9f1" data-article-url="https://arxiv.org/abs/2606.04419" data-article-title="L-TGVN: パーソナライズされた高速 MRI のための縦方向事前分布の活用" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04419" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04419" target="_blank" rel="noopener">L-TGVN: パーソナライズされた高速 MRI のための縦方向事前分布の活用</a></h3>
      <p class="summary">MRI は電離放射線を使用せずに優れた軟組織コントラストを提供しますが、取得時間が長いため患者の不快感が増大すると同時に、検査コストが上昇し、スキャナのスループットが制限されます。スキャン時間を短縮するための一般的なアプローチは、取得する測定値を少なくすることです。これにより、不適切な線形逆問題が発生します。したがって、診断品質の画像を回復するには、測定データ以外の事前知識を組み込む必要があります。追跡検査では、患者の最新の以前のスキャンにより、非常に有益な被験者固有のコンテキストが提供されますが、実際の使用は、時間的変化（病状の進行を含む）、スキャン間のずれ、取得間のプロトコルのドリフトによって複雑になります。この研究では、大幅にアンダーサンプリングされた測定値から現在のスキャンを再構築するための副次情報として以前のスキャンを活用する、縦方向の信頼誘導変分ネットワークである L-TGVN を紹介します。重要なことは、L-TGVN は、以前のスキャンの影響が取得された測定値と一致するように制限することです。既存の多くの縦方向再構成方法とは異なり、以前のスキャンと現在のスキャンの間の明示的な事前位置合わせを必要としません。さらに、訪問ごとの取得プロトコルの違い（シーケンスパラメータの変更など）にも対応します。私たちは、事前ガイド法や縦方向事前分布を使用しない方法など、一致した容量のベースラインに対して L-TGVN を評価し、困難な加速において微細構造のより良好な保存とともに、標準的な定量的指標の一貫した改善を観察しました。ソース コードは github.com/sodicksonlab/L-TGVN で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">L-TGVN: Leveraging Longitudinal Priors for Personalized Rapid MRI</p>
        <p class="orig-summary">MRI provides excellent soft-tissue contrast without ionizing radiation, but long acquisition times increase patient discomfort while also raising exam costs and limiting scanner throughput. A common approach to reduce scan time is to acquire fewer measurements, which yields an ill-posed linear inverse problem; recovering diagnostic-quality images therefore requires incorporating prior knowledge beyond the measured data. In follow-up exams, the most recent prior scan of a patient can provide a highly informative subject-specific context, but practical use is complicated by temporal changes (including pathology progression), misalignment between scans, and protocol drift across acquisitions. In this work, we introduce L-TGVN, a Longitudinal Trust-Guided Variational Network that leverages prior scans as side information to reconstruct the current scan from heavily undersampled measurements. Crucially, L-TGVN constrains the influence of prior scans to be consistent with the acquired measurements. Unlike many existing longitudinal reconstruction methods, it does not require explicit pre-registration between prior and current scans. It further accommodates differences in acquisition protocols across visits (e.g., changes in sequence parameters). We evaluate L-TGVN against matched-capacity baselines, including prior-guided methods and methods that do not use longitudinal priors, and observe consistent improvements in standard quantitative metrics together with better preservation of fine structures at challenging accelerations. Source code is available at github.com/sodicksonlab/L-TGVN.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b679220f5538" data-article-url="https://arxiv.org/abs/2606.04425" data-article-title="即時注射が忘れられなかったらどうなるでしょうか?エージェントシステムでのクロスセッションストアドプロンプトインジェクションの探索" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04425" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04425" target="_blank" rel="noopener">即時注射が忘れられなかったらどうなるでしょうか?エージェントシステムでのクロスセッションストアドプロンプトインジェクションの探索</a></h3>
      <p class="summary">最新のエージェント システムは、LLM をセッション限定のアシスタントからステートフル システムに変換します。ステートフル システムは、メモリ、ファイル システム、ツール、およびその他の長期間存続するコンテキスト アーティファクトを通じて、セッション間で共有世界状態を永続化および進化させます。この変化により、プロンプト インジェクションの攻撃対象領域が根本的に拡大します。しかし、プロンプト インジェクションに関するこれまでの研究は主に単一セッション内のモデル レベルの脅威に焦点を当てており、セッション間の永続的なシステム状態がエージェント システムのシステム レベルのリスクをどのように根本的に変化させるかを見落としていました。 Web システムのストアド クロスサイト スクリプティングにヒントを得て、クロスセッション ストアド プロンプト インジェクションを導入しました。これにより、成功したインジェクションはエージェント システム状態内で持続し、元の攻撃者による対話が終了した後も長期間にわたって将来の実行に静かに影響を与えることができます。この脅威を体系的に研究するために、ストアド プロンプト インジェクションを形式化し、敵対的なコンテンツがどのようにセッション間で持続し、エージェント システムに影響を与えるかの分類を開発します。さらに、ストアド プロンプト インジェクションのリスクを評価するためのベンチマークとサンドボックス ツールキットを開発し、さまざまなモデル、攻撃目標、永続化チャネルにわたる攻撃の成功の定量的分析を可能にします。私たちの調査結果は、永続化により、プロンプト インジェクションが一時的なモデル レベルの脅威から、エージェントの実行状態に組み込まれた長期にわたるシステム レベルの脆弱性に変化することが強調されています。私たちは、この取り組みがこの新たな脅威に対する幅広い注目を集め、コミュニティがエージェント システムの存続によって生じるシステム リスクを体系的に調査して軽減するよう促すことを願っています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">What If Prompt Injection Never Left? Exploring Cross-Session Stored Prompt Injection in Agentic Systems</p>
        <p class="orig-summary">Modern agentic systems transform LLMs from session-bounded assistants into stateful systems that persist and evolve shared world state across sessions through memories, filesystems, tools, and other long-lived contextual artifacts. This shift fundamentally expands the attack surface of prompt injection. However, prior works on prompt injection have largely focused on model-level threats within a single session, overlooking how cross-session persistent system state fundamentally changes the system-level risk of agentic systems. Inspired by stored cross-site scripting in web systems, we introduce cross-session stored prompt injection, where a successful injection can persist within agentic system state and silently influence future executions long after the original attacker interaction has ended. To systematically study this threat, we formalize stored prompt injection and develop a taxonomy of how adversarial content persists and affects agentic systems across sessions. We further develop a benchmark and sandbox toolkit to evaluate the risks of stored prompt injection, enabling quantitative analysis of attack success across different models, attack goals, and persistence channels. Our findings highlight that persistence transforms prompt injection from an ephemeral model-level threat into a long-lived system-level vulnerability embedded within agent execution state. We hope this work draws broader attention to this emerging threat and motivates the community to systematically study and mitigate system risks arising from persistence in agentic systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ef45e9f46f31" data-article-url="https://arxiv.org/abs/2606.04438" data-article-title="LoopMoE: 言語モデリングの専門家混合による反復計算の統合" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04438" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04438" target="_blank" rel="noopener">LoopMoE: 言語モデリングの専門家混合による反復計算の統合</a></h3>
      <p class="summary">専門家混合 (MoE) およびループ アーキテクチャは、パラメーター容量と有効深さという 2 つの直交軸に沿ってモデルをスケールします。ただし、主流のループ アーキテクチャは、パラメーター数とトークンごとの FLOP を結合する高密度のバックボーンに依存しているため、一致した予算の下での反復計算の影響を分離することができません。この目的を達成するために、2 つの設計を通じてスパース ルーティングと反復的な重み共有計算を統合するループ MoE 言語モデルである LoopMoE を紹介します。 1 つ目は IterAdaLN で、反復インデックスとトークンごとの隠れ状態を組み合わせて条件付けされた変調信号を介して重み共有対称性を解決します。 2 つ目は、適切に調整された非ループ参照のアテンション対 FFN アクティブ パラメータの比率を回復する容量バランシング戦略です。これらの設計を組み合わせることで、同一の合計パラメーター、トークンごとの FLOP、およびアクティブなサブレイヤー比の下で、バニラ MoE に対するループ MoE の厳密に制御された最初の直接評価が可能になります。 3B スケールでは、LoopMoE は 9 つの下流ベンチマークのうち 8 つで Vanilla MoE を上回り、平均改善率は 1 ポイントを超えています。 9B スケールでは、LoopMoE が引き続き同等の Vanilla MoE を上回り、アーキテクチャ上の利点がより大きなスケールでも持続することを示しています。私たちの研究は、スパース性と再帰性の制御された統合を確立し、ループ言語モデルの有望な方向性を示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LoopMoE: Unifying Iterative Computation with Mixture-of-Experts for Language Modeling</p>
        <p class="orig-summary">Mixture-of-Experts (MoE) and looped architectures scale models along two orthogonal axes, namely parameter capacity and effective depth. However, mainstream looped architectures rely on dense backbones that couple parameter count with per-token FLOPs, which makes it impossible to isolate the effect of iterative computation under matched budgets. To this end, we present LoopMoE, a looped MoE language model that integrates sparse routing with iterative weight-shared computation through two designs. The first is IterAdaLN, which resolves weight-sharing symmetry via a modulation signal jointly conditioned on the iteration index and the per-token hidden state. The second is a capacity-balancing strategy that recovers the attention-to-FFN active parameter ratio of well-tuned non-looped references. Together, these designs enable the first strictly controlled, head-to-head evaluation of a looped MoE against a Vanilla MoE under identical total parameters, per-token FLOPs, and active sublayer ratios. At the 3B scale, LoopMoE outperforms the Vanilla MoE on 8 of 9 downstream benchmarks with an average improvement exceeding 1 point. At the 9B scale, LoopMoE continues to outperform the matched Vanilla MoE, indicating that the architectural gain persists at larger scale. Our work establishes a controlled synthesis of sparsity and recurrence, and suggests a promising direction for looped language models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bdab3ece89d4" data-article-url="https://arxiv.org/abs/2606.04442" data-article-title="MemoryDocDataSet: 共同会話記憶と長い文書推論のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04442" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04442" target="_blank" rel="noopener">MemoryDocDataSet: 共同会話記憶と長い文書推論のベンチマーク</a></h3>
      <p class="summary">AI システムでは、複数セッションの会話履歴のナビゲートと、長い文書内の深い読解の実行という 2 つの要求の厳しい機能を組み合わせる必要がますます高まっています。しかし、両方を同時に評価する既存のベンチマークはありません。 50 のマイクロワールドと 1,000 の QA ペアの合成ベンチマークである MemoryDocDataSet を紹介します。各インスタンスは 3 ～ 5 人のペルソナ、数か月にわたるアクティビティにわたる時間イベント グラフ、3 ～ 5 の実際の長い文書 (それぞれ Caselaw Access Project から調達された 20,000 ～ 50,000 のトークン)、それらの文書に基づくマルチセッションの会話、および 5 つの推論カテゴリにわたる 20 の質問と回答のペアで構成されます。特徴的な機能はハイブリッド ソース タグです。質問では、システムが最初に会話履歴をナビゲートして関連する文書を特定し、次にその文書内から回答を抽出する必要があります。ハイブリッド質問はデータセットの 75.1% を占めます。データセットの品質は、LLM を判定として使用するプロンプト感度自己一貫性分析によって特徴付けられ、50 のミクロ世界すべてで中央値のコーエンの $\kappa = 0.634$ が得られます。トランケートされたコンテキスト、ロングコンテキスト LLM、検索拡張世代 (RAG)、およびメモリ システムにわたる 6 つのベースライン構成を評価します。最良のベースライン (RAG-両方) は、F1 全体で 0.358、ハイブリッドで 0.342 を達成します。文書のみの検索 (RAG-Doc) は、文書のみの質問で 0.453 を達成したにもかかわらず、ハイブリッドでは 0.267 に落ち込んでいます。これは、共同検索の明らかなギャップを示しており、これが会話の記憶と長い文書のナビゲーションを統合するアーキテクチャを動機づけています。データセット、生成パイプライン、およびすべてのベースライン実装をリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MemoryDocDataSet: A Benchmark for Joint Conversational Memory and Long Document Reasoning</p>
        <p class="orig-summary">AI systems increasingly need to combine two demanding capabilities: navigating multi-session conversation history and performing deep reading comprehension within long documents. Yet no existing benchmark evaluates both simultaneously. We introduce MemoryDocDataSet, a synthetic benchmark of 50 micro-worlds and 1,000 QA pairs in which each instance comprises 3-5 personas, a temporal event graph spanning months of activity, 3-5 real long documents (20,000-50,000 tokens each sourced from the Caselaw Access Project), multi-session conversations grounded on those documents, and 20 question-answer pairs across five reasoning categories. The defining feature is the Hybrid source tag: questions requiring a system to first navigate conversation history to identify which document is relevant, then extract the answer from within that document. Hybrid questions account for 75.1% of the dataset. Dataset quality is characterised through a prompt-sensitivity self-consistency analysis using LLM-as-judge, yielding a median Cohen&#x27;s $\kappa = 0.634$ across all 50 micro-worlds. We evaluate six baseline configurations spanning truncated context, long-context LLMs, retrieval-augmented generation (RAG), and memory systems. The best baseline (RAG-Both) achieves 0.358 overall F1 and 0.342 on Hybrid. Document-only retrieval (RAG-Doc) collapses to 0.267 on Hybrid despite achieving 0.453 on Doc-only questions, demonstrating a clear joint-retrieval gap that motivates architectures unifying conversational memory with long-document navigation. We release the dataset, generation pipeline, and all baseline implementations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9073837fcf8c" data-article-url="https://arxiv.org/abs/2606.04445" data-article-title="RowNet: 表形式回帰のためのメモリ トランスフォーマー" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04445" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04445" target="_blank" rel="noopener">RowNet: 表形式回帰のためのメモリ トランスフォーマー</a></h3>
      <p class="summary">不動産評価は構造化回帰問題であり、価格は異種の特徴タイプ、まばらな地域効果、非線形相互作用、および比較可能な不動産の実際的なロジックによって支配されます。標準的な多層パーセプトロンは各行を孤立ベクトルとして扱い、局所性、スケール感度、およびカテゴリカルマッチングを監視のみから学習する必要があります。勾配ブースト デシジョン ツリーは強力な表形式のベースラインを提供しますが、その特徴中心の分割メカニズムは、類似した履歴観測の取得を明示的にモデル化しません。この論文では、不動産の平方メートルあたりの価格を予測するための検索ベースのニューラル アーキテクチャである RowNet について説明します。 RowNet は、ラベル付きプロパティのメモリ バンクに対するペアごとの類似性機能を通じてクエリ プロパティを表します。最初の検索層は、特徴のみの類似性から大まかなターゲットを推定します。 2 番目の層は、ターゲット一貫性機能を使用してメモリ比較を強化し、複数の学習されたアテンション ヘッドを使用して相補的な比較可能なセットを取得します。最後の専門家混合モジュールは、学習されたゲーティング、残差補正、エントロピー正則化、ヘッドダイバーシティ正則化を組み合わせて予測を生成します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">RowNet: A Memory Transformer for Tabular Regression</p>
        <p class="orig-summary">Real estate valuation is a structured regression problem in which prices are governed by heterogeneous feature types, sparse regional effects, nonlinear interactions, and the practical logic of comparable properties. Standard multilayer perceptrons treat each row as an isolated vector and must learn locality, scale sensitivity, and categorical matching from supervision alone. Gradient-boosted decision trees provide strong tabular baselines, but their feature-centric splitting mechanism does not explicitly model the retrieval of similar historical observations. This paper presents RowNet, a retrieval-based neural architecture for real estate price-per-square-meter prediction. RowNet represents a query property through pairwise similarity features against a memory bank of labeled properties. A first retrieval layer estimates a coarse target from feature-only similarities. A second layer augments the memory comparison with target-consistency features and uses multiple learned attention heads to retrieve complementary comparable sets. A final mixture-of-experts module combines learned gating, residual correction, entropy regularization, and head-diversity regularization to produce the prediction.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4435940b227" data-article-url="https://arxiv.org/abs/2606.04459" data-article-title="トークンランキングは偽造不可能な言語モデル署名です" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04459" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04459" target="_blank" rel="noopener">トークンランキングは偽造不可能な言語モデル署名です</a></h3>
      <p class="summary">言語モデルのパラメータは、ロジット出力に（各モデルに）一意の幾何学的制約を課すことが知られており、これはモデルを識別する署名として機能しますが、API がロジットを配布するときにモデルの最終層パラメータも漏洩します。私たちは、トークンのランキング (確率値ではなく、確率による順序付け) を公開する、より制限的な API を調査し、ランキングも署名を構成することを発見しました。すべてのモデルは、十分な規模の $k$ に対して実行可能な上位 $k$ ランキングの独自のセットを持っています。さらに、同じ実行可能なランキングのセットを持つモデルを見つけることは NP 困難であるため、ランキング署名は最初に知られている (多項式的に) 偽造不可能な署名です。セキュリティの面では、ロジットと同様に、トークンのランキングがすでにモデルの最終層をほぼ盗むのに十分であることがわかりました。ただし、近似が粗すぎて署名を偽造できず、API を十分に小さい $k$ の上位 $k$ トークンに制限することで効果的に対抗できます。モデル署名を提示するために必要な $k$ は一般に、盗用を防ぐために必要な $k$ よりも小さいため、API はモデル パラメーターを漏らすことなく偽造不可能な署名を提示することが可能です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Token Rankings are Unforgeable Language Model Signatures</p>
        <p class="orig-summary">Language model parameters are known to impose unique (to each model) geometric constraints on their logit outputs, which serves as a signature that identifies the model, but also leaks the model&#x27;s final layer parameters when an API distributes logits. We investigate more restrictive APIs that expose token rankings (i.e., their ordering by probability, but not the probability values) and find that rankings also constitute a signature: every model has a unique set of feasible top-$k$ rankings for sufficiently large $k$. Furthermore, the ranking signature is the first known (polynomially) unforgeable signature, since finding a model with the same set of feasible rankings is NP-hard. On the security front, we find that token rankings are already sufficient to approximately steal the final layer of the model, similar to logits, though the approximation is too coarse to forge the signature, and can be effectively countered by restricting the API to top-$k$ tokens with sufficiently small $k$. Since the top-$k$ required to present the model signature is generally smaller than the $k$ required to prevent stealing, it is possible for an API to present an unforgeable signature without leaking model parameters.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f3d3a110132b" data-article-url="https://arxiv.org/abs/2606.04460" data-article-title="Cyber​​Gym-E2E: AI エージェントのエンドツーエンドのサイバーセキュリティ機能のためのスケーラブルな現実世界のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04460" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04460" target="_blank" rel="noopener">Cyber​​Gym-E2E: AI エージェントのエンドツーエンドのサイバーセキュリティ機能のためのスケーラブルな現実世界のベンチマーク</a></h3>
      <p class="summary">AI は、ソフトウェアの脆弱性を自律的に検出、分析、修復できるシステムを可能にすることで、サイバーセキュリティを変革する可能性を秘めています。しかし、AI システムの既存のサイバーセキュリティ評価は規模や範囲が限られており、現実世界のソフトウェアの脆弱性の発見と修復のエンドツーエンドのライフサイクルを捉えることができません。このギャップに対処するために、私たちは、脆弱性の発見、PoC 生成、パッチ生成のライフサイクル全体にわたって AI エージェントの能力を包括的に評価する、大規模かつ現実的なエンドツーエンドのサイバーセキュリティ ベンチマークである Cyber​​Gym-E2E を提案します。 Cyber​​Gym-E2E は、オープンソースの脆弱性データを現実的な評価環境に変換するための自動化されたエージェント強化パイプラインを構築するため、包括的でスケーラブルです。現在、ベンチマークは、139 の異なるオープンソース プロジェクトにわたる 920 件の実際の脆弱性で構成されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CyberGym-E2E: Scalable Real-World Benchmark for AI Agents&#x27; End-to-End Cybersecurity Capabilities</p>
        <p class="orig-summary">AI has the potential to transform cybersecurity by enabling systems that can autonomously detect, analyze, and remediate software vulnerabilities. However, existing cybersecurity evaluations of AI systems are limited in scale or scope, and fail to capture the end-to-end lifecycle of real-world software vulnerability discovery and remediation. To address this gap, we propose CyberGym-E2E, a large-scale and realistic end-to-end cybersecurity benchmark that comprehensively evaluates AI agents&#x27; abilities across the full lifecycle of vulnerability discovery, PoC generation, and patch generation. CyberGym-E2E is comprehensive and scalable, as we build an automated, agent-enhanced pipeline for transforming open-source vulnerability data into realistic evaluation environments. Currently, the benchmark consists of 920 real-world vulnerabilities across 139 different open-source projects.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="077e8f03d6dc" data-article-url="https://arxiv.org/abs/2606.04465" data-article-title="SePO: システム プロンプト最適化のための自己進化型プロンプト エージェント" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04465" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04465" target="_blank" rel="noopener">SePO: システム プロンプト最適化のための自己進化型プロンプト エージェント</a></h3>
      <p class="summary">システム プロンプトの最適化により、基礎となるモデルを変更することなくエージェントの動作が改善され、人間が判読できる、モデルに依存しない命令が生成されます。既存の方法では、タスク エージェントのシステム プロンプトを改良するプロンプト エージェントを構築しますが、プロンプト エージェント独自のシステム プロンプトは手動で設計および修正されたままになります。我々は、プロンプト エージェント自身のシステム プロンプトをタスク エージェントのシステム プロンプトと並んで最適化ターゲットとして扱う自己進化型プロンプト最適化 (SePO) を提案します。 SePO は自己参照設計を採用しています。単一のプロンプト エージェントは、候補プロンプトのアーカイブを踏み台として維持するオープンエンドの進化的探索の下で、タスク エージェントのシステム プロンプトとそれ自身のプロンプトの両方を改善します。トレーニングは 2 つの段階で進行します。事前トレーニングではマルチタスク プール上でプロンプト エージェントを進化させ、その後、微調整によってそれをターゲット タスクに適用します。数学 (AIME&#x27;25)、抽象推論 (ARC-AGI-1)、大学院レベルの科学 (GPQA)、コード生成 (MBPP)、および論理パズル (数独) にわたる 5 つのベンチマークにわたって、SePO は一貫して Manual-CoT、TextGrad、および MetaSPO を上回り、Manual-CoT と比較して平均精度が 4.49 ポイント向上しました。事前トレーニングによるプロンプト最適化スキルは、タスクごとのプロンプトを記憶するのではなく、事前トレーニング混合物を超えたタスクにも一般化されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SePO: Self-Evolving Prompt Agent for System Prompt Optimization</p>
        <p class="orig-summary">System prompt optimization improves agent behavior without modifying the underlying model, yielding human-readable, model-agnostic instructions. Existing methods build a prompt agent that refines task agents&#x27; system prompts, yet leave the prompt agent&#x27;s own system prompt hand-engineered and fixed. We propose Self-Evolving Prompt Optimization (SePO), which treats the prompt agent&#x27;s own system prompt as an optimization target alongside task agents&#x27; system prompts. SePO adopts a self-referential design. A single prompt agent improves both task agents&#x27; system prompts and its own under an open-ended evolutionary search that maintains an archive of candidate prompts as stepping stones. Training proceeds in two stages: pre-training evolves the prompt agent on a multi-task pool, and fine-tuning then applies it to a target task. Across five benchmarks spanning math (AIME&#x27;25), abstract reasoning (ARC-AGI-1), graduate-level science (GPQA), code generation (MBPP), and logic puzzles (Sudoku), SePO consistently outperforms Manual-CoT, TextGrad, and MetaSPO, improving the average accuracy by 4.49 points compared to Manual-CoT. The prompt optimization skill from pre-training also generalizes to tasks beyond the pre-training mixture, rather than memorizing per-task prompts.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c7c78d4db8a0" data-article-url="https://arxiv.org/abs/2606.04468" data-article-title="ParetoPilot: Infer-Perturb-Guide 拡散によるゼロサロゲートオフライン多目的最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04468" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04468" target="_blank" rel="noopener">ParetoPilot: Infer-Perturb-Guide 拡散によるゼロサロゲートオフライン多目的最適化</a></h3>
      <p class="summary">オフライン多目的最適化 (オフライン MOO) は、高価な環境との相互作用を行わずに、静的データセットに基づいた新しいパレート最適設計を発見することを目的としています。最近の生成手法は顕著な成功を収めていますが、主に外部サロゲート モデルに依存しています。この依存関係により、重大な計算オーバーヘッドが生じ、欺瞞的な評価に悩まされ、主流の生成モデルを条件付きで共同トレーニングするという一般的なパラダイムから逸脱します。これらのボトルネックに対処するために、オフライン MOO 用の新しいゼロ代理拡散フレームワークである ParetoPilot を提案します。 ParetoPilot は、事前トレーニングされた拡散モデルに本質的に組み込まれている条件付き事前確率を最大限に活用します。このフレームワークの核心として、Infer-Perturb-Guide (IPG) エンジンが導入されており、このエンジンは逆生成プロセスの無条件ノイズ除去ステップ内にシームレスにインターリーブされます。まず、条件付きおよび無条件のノイズ予測を照合することで、瞬間的な目標方向を暗黙的に推測します。次に、厳密な収束のために平行な重力場と相互多様性のためにエッジを意識した斥力を数学的に直交化し、動的にアニールされた摂動ベクトルを作成します。最後に、この摂動されたターゲットは、標準の分類子なしガイダンス (CFG) を介して生成プロセスをシームレスに制御します。 51 のタスクにわたる広範な実験により、ParetoPilot が 14 の最先端のサロゲートベースおよび逆生成ベースラインよりも優れたパフォーマンスを発揮することが実証されました。補助的なプロキシ トレーニングを排除することで、当社のアプローチはデータのプライバシーを保護しながら、ハイパーボリュームの改善と堅牢なパレート フロント カバレッジを実現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ParetoPilot: Zero-Surrogate Offline Multi-Objective Optimization via Infer-Perturb-Guide Diffusion</p>
        <p class="orig-summary">Offline multi-objective optimization (Offline MOO) aims to discover novel Pareto-optimal designs based on static datasets without expensive environment interactions. While recent generative methods have achieved notable success, they predominantly rely on external surrogate models. This dependency introduces significant computational overhead, suffers from deceptive evaluations, and deviates from the prevailing paradigm of jointly training mainstream generative models with conditions. To address these bottlenecks, we propose ParetoPilot, a novel zero-surrogate diffusion framework for offline MOO. ParetoPilot fully leverages the conditional priors inherently embedded within pre-trained diffusion models. At its core, the framework introduces the Infer-Perturb-Guide (IPG) engine, which is seamlessly interleaved within the unconditional denoising steps of the reverse generation process. First, it implicitly infers the instantaneous objective direction by matching conditional and unconditional noise predictions. Next, it mathematically orthogonalizes a parallel gravity field for strict convergence and an edgeness-aware repulsive force for mutual diversity, creating a dynamically annealed perturbation vector. Finally, this perturbed target seamlessly steers the generation process via standard Classifier-Free Guidance (CFG). Extensive experiments across 51 tasks demonstrate that ParetoPilot outperforms 14 state-of-the-art surrogate-based and inverse generative baselines. By eliminating auxiliary proxy training, our approach preserves data privacy while achieving hypervolume improvement and robust Pareto front coverage.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e003729ed0c7" data-article-url="https://arxiv.org/abs/2606.04469" data-article-title="公平でパフォーマンスの高い顔認識のための適応キャリブレーション" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04469" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04469" target="_blank" rel="noopener">公平でパフォーマンスの高い顔認識のための適応キャリブレーション</a></h3>
      <p class="summary">正規化された埋め込み間のコサイン類似性を適切に校正された確率にマッピングする、顔認識のための新しい校正戦略である適応校正 (AC) を紹介します。ローカル コンテキストをキャリブレーションに組み込むことにより、アダプティブ キャリブレーションはコサイン類似度の基本的な不一致を修正します。これにより、同じ距離が、異なる埋め込み領域の異なる一致確率に対応することができます。私たちのアプローチは、全体的なパフォーマンスの両方を向上させ、人口統計メタデータを必要とせずに、より公平なキャリブレーションを実現します。私たちのアプローチは、さまざまな事前トレーニング済みモデルと標準ベンチマークにわたって、精度と公平性の両方の指標において既存の手法よりも一貫して優れています。 AC は、人口統計グループの注釈を必要とせず、全体的なパフォーマンスを向上させながら、公平な顔認識のための実用的なソリューションを提供します。既存のアプローチとは異なり、私たちの方法は、一部のグループのパフォーマンスの低下を犠牲にして公平性が実現される「平準化」を回避する、継続的な地域固有のキャリブレーションを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Adaptive Calibration for Fair and Performant Facial Recognition</p>
        <p class="orig-summary">We introduce Adaptive Calibration (AC), a novel calibration strategy for facial recognition that maps cosine similarity between normalized embeddings to well-calibrated probabilities. By incorporating local context into calibration, Adaptive Calibration corrects for a fundamental mismatch in cosine similarity, whereby the same distance can correspond to different match probabilities in different embedding regions. Our approach improves both overall performance and results in a fairer calibration without requiring demographic metadata. Our approach consistently dominates existing methods both on accuracy and fairness metrics across a variety of pretrained models and standard benchmarks. AC provides a practical solution for equitable facial recognition, without requiring demographic group annotations, and while improving overall performance. Unlike existing approaches, our method provides continuous, region-specific calibration that avoids &quot;leveling down&quot; where fairness comes at the cost of degraded performance for some groups.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d5062b94ed3a" data-article-url="https://arxiv.org/abs/2606.04473" data-article-title="ChessMimic: オンライン ブリッツ チェスの人間の動き、時計、結果を予測するための定格ごとのトランスフォーマー モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04473" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04473" target="_blank" rel="noopener">ChessMimic: オンライン ブリッツ チェスの人間の動き、時計、結果を予測するための定格ごとのトランスフォーマー モデル</a></h3>
      <p class="summary">ChessMimic は、位置、最近の移動履歴、プレイヤーの評価、およびクロック状態に基づいて、移動、思考時間、および結果の予測を行う 3 つの小さなエンコーダー専用トランスフォーマーからなるシステムです。 100-Elo 評価バンドごとに各モデルの個別のインスタンスを適合させ、パラメーターの効率を犠牲にしてスキルごとのキャリブレーションをより鮮明にします。 1 か月にわたって開催された Lichess Rated Blitz ゲームのスライスでは、ChessMimic の人手の予測精度は、すべての Elo バンドで Maia-2 を上回りました。 Maia-3 と比較すると、9M パラメーター モデルの精度は、幾何学的な注意バイアスの追加の複雑さを伴わずに、Maia-3-5M と Maia-3-23M の間に位置します。動きの一致モデルに加えて、位置だけでなく、プレイヤーの評価、時間制御、残りのクロック時間も条件とするゲーム結果モデルもトレーニングします。結果モデルは、サンプル中 0.78 の AUC を達成し、Maia-2 だけでなく、素材、評価、およびクロック時間に基づくロジスティック回帰を上回りました。最後に、人間の思考時間を予測する時計モデルをトレーニングします。クロック モデルは、ALLIE スタイルのフィルター (ALLIE が報告した r = 0.70 に対してピアソン r = 0.41、スピアマン rho = 0.50、MAE 4.10 秒) の下で、使用可能だが SOTA ではないプライごとの思考時間信号を提供し、残留ギャップはバケット マージナル キャリブレーションではなく位置ごとのバケットのシャープネスに集中しています。公開デモは 1e4.ai にあり、コード、バンドごとの重み、および C++ データ フィルター パイプライン コードを GitHub でリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ChessMimic: Per-Rating Transformer Models for Human Move, Clock, and Outcome Prediction in Online Blitz Chess</p>
        <p class="orig-summary">We present ChessMimic, a system of three small encoder-only transformers - for move, thinking-time, and outcome prediction - conditioned on the position, recent move history, player rating, and clock state. We fit a separate instance of each model per 100-Elo rating band, trading parameter efficiency for sharper per-skill calibration. On a held-out month-wide slice of Lichess Rated Blitz games ChessMimic&#x27;s human move prediction accuracy outperforms Maia-2 in every Elo band. Compared to Maia-3, our 9M parameter model&#x27;s accuracy sits between Maia-3-5M and Maia-3-23M without the additional complexity of Geometric Attention Bias. In addition to the move matching model, we also train a game outcome model that conditions not only on the position, but also player ratings, time control, and remaining clock times. The outcome model achieves an AUC of 0.78 out of sample, beating Maia-2 as well as logistic regressions based on material, ratings, and clock time. Finally, we train a clock model that predicts human thinking times. The clock model provides a usable but non-SOTA per-ply think-time signal under ALLIE-style filters (Pearson r = 0.41, Spearman rho = 0.50, MAE 4.10 s, against ALLIE&#x27;s reported r = 0.70), with the residual gap concentrated in per-position bucket sharpness rather than bucket-marginal calibration. A public demo is at 1e4.ai and we release code, per-band weights, and the C++ data-filter pipeline code in GitHub.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3d8dd49e2c05" data-article-url="https://arxiv.org/abs/2606.04479" data-article-title="ビジュアルテキスト生成における推論の忠実度の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04479" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04479" target="_blank" rel="noopener">ビジュアルテキスト生成における推論の忠実度の評価</a></h3>
      <p class="summary">最近の Text-to-Image (T2I) モデルは、画像内で非常に読みやすく、適切に構造化されたテキストをレンダリングできるため、ドキュメント生成やスライド生成などのアプリケーションが可能になります。しかし、複雑な解決策をレンダリングされたテキストを通じて直接表現しなければならない場合に、そのようなシステムが推論能力を忠実に保持しているのか、それとも単に表面レベルのパターンを模倣しているだけなのかは不明のままです。モデルは完全な推論プロセスを画像として表現する必要があるビジュアル テキスト生成における推論の忠実度を評価することで、この問題を調査します。私たちの評価には、長いテキストのレンダリング、事実知識の調査、文脈の理解、および複数ステップの推論が含まれます。これらの設定全体にわたって、現在の T2I モデルでは、レンダリングされたテキストが視覚的に明確に見える場合でも、セマンティック エラー、論理的矛盾、不正確な中間ステップが頻繁に発生することがわかりました。これらの失敗は、同じタスクに対するテキストのみのモデルの強力な推論パフォーマンスとは対照的です。私たちの調査結果は、ビジュアルテキスト生成と手続き型推論の間に大きなギャップがあることを明らかにし、より信頼性の高いビジュアルテキスト推論を動機付けています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Evaluating Reasoning Fidelity in Visual Text Generation</p>
        <p class="orig-summary">Recent text-to-image (T2I) models can render highly legible and well-structured text within images, enabling applications including document generation and slide generation. However, it remains unclear whether such systems faithfully preserve reasoning ability when complex solutions must be expressed directly through rendered text, or whether they merely imitate surface-level patterns. We investigate this question by evaluating reasoning fidelity in visual text generation, where models must express complete reasoning processes as images. Our evaluation includes long text rendering, factual knowledge probing, context understanding, and multi-step reasoning. Across these settings, we find that current T2I models frequently produce semantic errors, logical inconsistencies, and incorrect intermediate steps, even when the rendered text appears visually clear. These failures contrast with the strong reasoning performance of text-only models on the same tasks. Our findings reveal a substantial gap between visual text generation and procedural reasoning, motivating more reliable visual text reasoning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e62a9266fc33" data-article-url="https://arxiv.org/abs/2606.04493" data-article-title="SFMambaNet: 対応プルーニングのためのスペクトル周波数拡張選択的状態空間モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04493" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04493" target="_blank" rel="noopener">SFMambaNet: 対応プルーニングのためのスペクトル周波数拡張選択的状態空間モデル</a></h3>
      <p class="summary">対応関係の枝刈りは、対応関係の初期セットからインライアを特定することを目的としています。既存のグラフ ニューラル ネットワーク (GNN) ベースの手法のほとんどは、粗いユークリッド座標からマッピングされた幾何学的特徴に依存しているため、インライアによって示される微妙な幾何学的一貫性を捕捉するのが困難です。 Mamba ベースの手法は、グローバルな受容野と長いシーケンスのモデリング機能を備えていますが、隠れた状態空間内に実質的に矛盾した特徴が蓄積される傾向があり、内値と外れ値を区別することが困難になります。この論文では、周波数領域の知覚をこのタスクに初めて統合し、新しいスペクトル周波数拡張 Mamba ベースの 2 ビュー対応枝刈りネットワークである SFMambaNet を提案します。私たちの方法は 2 つのコンポーネントで連携して構成されています。まず、ローカル スペクトル幾何学アテンション (LSGA) ブロックを設計します。 LSGA は、スペクトル位置エンコーディングをローカル グラフ インタラクションに組み込み、マルチスケール Mamba 処理を導入して、微妙な幾何学的一貫性の捕捉を強化し、ローカル フィーチャの識別性を向上させます。これに基づいて、Spectral-Integrated Global Mamba (SIGM) ブロックを設計します。 SIGM は状態空間内に周波数ゲート メカニズムを埋め込み、LSGA によって提供される周波数情報を利用して、隠れ状態内の高周波ノイズの蓄積を明示的に抑制し、一貫性のない特徴の伝播を軽減します。これにより、インライアとアウトライアの分離性が強化され、ほぼ線形の複雑さで堅牢なグローバル コンテキスト モデリング機能が実現されます。広範な実験により、SFMambaNet がいくつかの困難なタスクにおいて現在の最先端の方法よりも優れたパフォーマンスを発揮することが実証されました。コードは https://github.com/Kirito14IT/SFMambaNet で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SFMambaNet: Spectral-Frequency Enhanced Selective State Space Model for Correspondence Pruning</p>
        <p class="orig-summary">Correspondence pruning aims to identify inliers from an initial set of correspondences. Most existing Graph Neural Network (GNN)-based methods rely on geometric features mapped from coarse Euclidean coordinates, which struggle to capture the subtle geometric consistencies presented by inliers. While Mamba-based methods possess global receptive fields and long sequence modeling capabilities, they tend to accumulate substantial inconsistent features within the hidden state space, making it difficult to distinguish inliers from outliers. In this paper, we integrate frequency domain perception into this task for the first time and propose SFMambaNet, a novel Spectral-Frequency enhanced Mamba-based two-view correspondence pruning network. Our method is collaboratively composed of two components: First, we design a Local Spectral-Geometric Attention (LSGA) block. LSGA incorporates spectral positional encoding into local graph interactions and introduces multi-scale Mamba processing to enhance the capture of subtle geometric consistencies and improve local feature discriminability. Building upon this, we design a Spectral-Integrated Global Mamba (SIGM) block. SIGM embeds a frequency gating mechanism within the state space, utilizing the frequency information provided by LSGA to explicitly suppress high-frequency noise accumulation within hidden states and mitigate the propagation of inconsistent features. This enhances inlier-outlier separability and achieves robust global context modeling capabilities with nearly linear complexity. Extensive experiments demonstrate that SFMambaNet outperforms current state-of-the-art methods on several challenging tasks. The code is available at https://github.com/Kirito14IT/SFMambaNet.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="93dadda3548d" data-article-url="https://arxiv.org/abs/2606.04503" data-article-title="暗闇でのスマートな選択: メタ認知ピボットのトレースによる推論のための効率的な RLVR に向けて" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04503" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04503" target="_blank" rel="noopener">暗闇でのスマートな選択: メタ認知ピボットのトレースによる推論のための効率的な RLVR に向けて</a></h3>
      <p class="summary">検証可能な報酬を伴う強化学習 (RLVR) は大規模推論モデル (LRM) を大幅に進化させましたが、完全にアノテーションが付けられた巨大なデータセットでのタイムリーなトレーニングが必要です。この目的を達成するために、データ効率の高い RLVR 手法が 2 つの観点から広く研究されています。(i) データ選択手法は、ほぼ完全なデータのパフォーマンスをもたらす「ゴールデン」サンプルの小さなサブセットを特定しますが、それらはラベル付きデータの既存のプールに依存します。 (ii) 教師なし RLVR メソッドは、大規模なラベルなしデータに対して独自の内部監視信号を使用してモデルをトレーニングしますが、最適なパフォーマンスを示しません。したがって、事前の監督なしで、トレーニングに最も有益でアノテーションに値するラベルのないサンプルを選択することを目的とした、RLVR の「暗闇でのピック」設定を調査します。体系的な分析を通じて、スマート ピックは適切に調整された不確実性推定量に依存し、適応トレーニング体制のためのデータの戦略的な分割を可能にすることを実証します。この洞察に基づいて、私たちは、注意のダイナミクスを活用して推論中のメタ認知ピボットを追跡する 3 方向のデータ トリアージ フレームワークである PivotTrace を提案します。 PivotTrace は、ピボット密度を通じて不確実性を正確に定量化することで、自動化されたデータ ルーティングを実現し、アノテーションとトレーニングの効率の両方を相乗的に最大化します。経験的に、Pivo​​tTrace は、注釈付きサンプルがわずか 29.3% で、収束が 2.75 高速で完全監視 LRM を上回っています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Smart Picks in the Dark: Towards Efficient RLVR for Reasoning via Tracing Metacognitive Pivots</p>
        <p class="orig-summary">Reinforcement learning with verifiable rewards (RLVR) has greatly advanced large reasoning models (LRMs), but it requires timely training on a huge fully-annotated dataset. To this end, data-efficient RLVR methods have been widely studied from two perspectives: (i) data selection methods identify a small subset of &quot;golden&quot; samples that yield near-full-data performance, but they rely on a pre-existing pool of labeled data. (ii) unsupervised RLVR methods train the model using its own internal supervision signals on large-scale unlabeled data, yet they exhibit suboptimal performance. Accordingly, we investigate the &quot;pick in the dark&quot; setup for RLVR, which aims to select, without prior supervision, unlabeled samples that are most beneficial for training and worthy of annotation. Through systematic analysis, we demonstrate that smart picks hinge on a well-calibrated uncertainty estimator to enable strategic partitioning of data for adaptive training regimes. Building on this insight, we propose PivotTrace, a three-way data triage framework that leverages attention dynamics to trace metacognitive pivots during reasoning. By precisely quantifying uncertainty through pivot density, PivotTrace achieves automated data routing to synergistically maximize both annotation and training efficiency. Empirically, PivotTrace surpasses the fully supervised LRM with only 29.3% annotated samples and 2.75 faster convergence.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0dba22b7259d" data-article-url="https://arxiv.org/abs/2606.04507" data-article-title="共同生成と評価による自己進化する深層研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04507" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04507" target="_blank" rel="noopener">共同生成と評価による自己進化する深層研究</a></h3>
      <p class="summary">大規模言語モデル (LLM) は日常のアプリケーションでますます採用されるようになり、詳細な研究が特に重要な機能として際立っています。従来の質問応答 (QA) タスクとは異なり、詳細な調査レポートの生成には決定的な根拠が欠けているため、報酬設計が本質的に検証不可能になり、効果的な強化学習が制限されます。既存のアプローチでは、LLM-as-a-judge およびクエリ依存の評価ルーブリックを使用してこの課題を軽減していますが、依然として静的な評価器に依存しているため、ソルバーの向上に応じて標準を適応させることができず、最適化圧力が不十分になり、最終的に飽和状態になってしまいます。私たちは、\textbf{s}elf 進化型 \textbf{co} 進化型トレーニング フレームワークで、深い \textbf{re} 検索の評価と生成 (SCORE) を使用してこの制限に対処します。これは、共有パラメータ学習プロセスにおいて評価器とソルバーを緊密に結合します。生成と評価を独立したモジュールとして扱うのではなく、それらの本質的なつながりを活用して、単一の共有パラメーター モデル内で共同の改善を可能にします。このプロセスを制限するために、ソルバーのパフォーマンスに基づいて評価環境を動的に制御するメタハーネスを導入し、有効な評価次元と十分に深い評価者の検索を促進します。ディープリサーチベンチマークに関する広範な実験により、レポート生成の品質が一貫して向上していることが実証されており、評価と生成を共進化させることが、オープンエンドのリサーチエージェントをトレーニングするための有望な方向性であることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Self-Evolving Deep Research via Joint Generation and Evaluation</p>
        <p class="orig-summary">Large Language Models (LLMs) have become increasingly adopted in daily applications, with deep research standing out as a particularly important capability. Unlike traditional question-answering (QA) tasks, deep research report generation lacks definitive ground-truth, making reward design inherently unverifiable and limiting effective reinforcement learning. Existing approaches mitigate this challenge with LLM-as-a-judge and query-dependent evaluation rubrics, but they still rely on static evaluators that cannot adapt their standards as the solver improves, leading to insufficient and eventually saturated optimization pressure. We address this limitation with a \textbf{s}elf-evolving \textbf{co}-evolutionary training framework for deep \textbf{re}search evaluation and generation (SCORE), which tightly couples an evaluator and a solver in a shared-parameter learning process. Rather than treating generation and evaluation as isolated modules, we leverage their intrinsic connection to enable joint improvement within a single shared-parameter model. To restrict this process, we introduce a meta-harness, which dynamically controls the evaluation environment based on solver performance, encouraging valid evaluation dimensions and sufficiently deep evaluator search. Extensive experiments on deep research benchmarks demonstrate consistent improvement in report generation quality, showing that co-evolving evaluation and generation is a promising direction for training open-ended research agents.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2632531b870" data-article-url="https://arxiv.org/abs/2606.04516" data-article-title="GeoMin: 幾何分布モデリングによるデータ効率の高い半教師あり RLVR" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04516" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04516" target="_blank" rel="noopener">GeoMin: 幾何分布モデリングによるデータ効率の高い半教師あり RLVR</a></h3>
      <p class="summary">検証可能な報酬を伴う強化学習 (RLVR) は LLM 推論を大幅に進歩させますが、ジレンマに直面しています。標準的な教師ありスケーリングは高いアノテーション コストによって抑制される一方、教師なしの代替案は深刻なモデル崩壊に悩まされます。最近の半教師あり RLVR 手法は、小さなラベル付きセットを使用してラベルなしデータをガイドすることでこの問題に対処し、トレーニングの有効性とアノテーション コストの間で有望なトレードオフを実現しています。ただし、粗いパフォーマンスのヒューリスティックに依存するため、データ効率の深刻なボトルネックに悩まされており、貴重なインスタンスの大部分が十分に活用されていません。この目的を達成するために、ラベル付きデータのグローバルな特徴分布をモデル化して正しいロールアウトと間違ったロールアウトの間の構造的不一致を解読する GeoMin を提案します。これにより、自己報酬信号の信頼性を評価し、ラベルなしデータの可能性を完全に引き出すための堅牢な事前検証を確立します。経験的に、GeoMin は最も強力なベースラインを +4.1% 上回るパフォーマンスを示し、注釈が 10% しかない完全教師モデルをも上回り、顕著なデータ効率を示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GeoMin: Data-Efficient Semi-Supervised RLVR via Geometric Distribution Modeling</p>
        <p class="orig-summary">Reinforcement learning with verifiable rewards (RLVR) significantly advances LLM reasoning, yet it faces a dilemma: standard supervised scaling is throttled by high annotation costs, while unsupervised alternatives suffer from severe model collapse. Recent semi-supervised RLVR methods address this by using a small labeled set to guide unlabeled data, achieving a promising trade-off between training efficacy and annotation cost. However, they suffer from a severe data-efficiency bottleneck due to the reliance on coarse performance heuristics, leaving a vast majority of valuable instances underutilized. To this end, we propose GeoMin, which models global feature distributions on labeled data to decode the structural discrepancy between correct and incorrect rollouts, thereby establishing a robust prior to assess the reliability of self-reward signals and fully unleash the potential of unlabeled data. Empirically, GeoMin outperforms the strongest baselines by +4.1% and even surpasses fully supervised models with only 10% of the annotations, demonstrating remarkable data efficiency.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="421594baf20b" data-article-url="https://arxiv.org/abs/2606.04517" data-article-title="トラフィックをツリーのように扱う: 暗号化トラフィック分析のための意味を保持する階層グラフベースのエキスパート フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04517" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04517" target="_blank" rel="noopener">トラフィックをツリーのように扱う: 暗号化トラフィック分析のための意味を保持する階層グラフベースのエキスパート フレームワーク</a></h3>
      <p class="summary">グラフベースの深層学習手法は、さまざまな粒度にわたる潜在的な相関関係を利用するために、暗号化されたトラフィック分析で広く採用されています。ただし、複雑な前処理パイプラインと洗練されたモデル構造は多くの場合、優れたパフォーマンスを実現しますが、表現学習中に固有のプロトコル セマンティクスが不明瞭になる可能性があります。さらに、プロトコル仕様によって定義され、手動トラフィック分析で日常的に利用されるプロトコル層とそれに対応するフィールドの階層構造は、既存の学習フレームワークでは依然として十分に調査されていません。この論文では、暗号化トラフィック分析のための意味を保持する階層グラフベースのエキスパート フレームワークである Protocol Tree Graph Attending with Mixture of Experts (PTGAMoE) を提案します。フィールドベースのグラフ構築と専門家委員会の設計により、PTGAMoE は特定のフィールドとプロトコルに対するモデルの好みを定量化できます。厳格なデータ漏洩のない設定の下での代表的なベンチマーク データセットに関する広範な実験結果は、PTGAMoE が最先端 (SOTA) モデルよりも大幅に優れていることを示しています。さらに、セマンティック保存設計は、暗号化トラフィック分類タスクにおけるモデルの意思決定ロジックを反映して、プロトコル レベルの機能の重要性と専門家レベルの貢献について解釈可能な洞察を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Treat Traffic Like Trees: A Semantic-Preserving Hierarchical Graph-Based Expert Framework for Encrypted Traffic Analysis</p>
        <p class="orig-summary">Graph-based deep learning methods have been widely employed in encrypted traffic analysis to exploit latent correlations across different granularities. However, while complex preprocessing pipelines and sophisticated model structures often achieve strong performance, they may obscure inherent protocol semantics during representation learning. Moreover, the hierarchical structure of protocol layers and their corresponding fields, defined by protocol specifications and routinely utilized in manual traffic analysis, remains underexplored in existing learning frameworks. In this paper, we propose Protocol Tree Graph Attention with Mixture of Experts (PTGAMoE), a semantic-preserving hierarchical graph-based expert framework for encrypted traffic analysis. The field-based graph construction and expert committee design enable PTGAMoE to quantify the model&#x27;s preferences for specific fields and protocols. Extensive experimental results on representative benchmark datasets under strict no-data-leakage settings demonstrate that PTGAMoE significantly outperforms state-of-the-art (SOTA) models. Furthermore, the semantic-preserving design provides interpretable insights into protocol-level feature importance and expert-level contributions, reflecting the model&#x27;s decision-making logic in encrypted traffic classification tasks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79c94fcf9b06" data-article-url="https://arxiv.org/abs/2606.04522" data-article-title="ANN 検索: 重要なことを思い出してください" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04522" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04522" target="_blank" rel="noopener">ANN 検索: 重要なことを思い出してください</a></h3>
      <p class="summary">近似最近傍 (ANN) 検索は、分類から検索拡張生成に至るまで、情報検索および最新の機械学習タスクにおいて中核的なプリミティブとなっています。コミュニティは、主に特定の Recall@k (取得される真の完全近傍の割合) でのスループットに基づいて ANN アルゴリズムを評価および調整します。私たちは、ANN 検索で本当に重要なのは、取得された結果の品質であり、真の kNN セットとの重複ではないと主張します。 Recall@k を使用して検索品質を評価すると、不必要な計算オーバーヘッドが発生することを示し、それを逆近似比である 1/Ratio@k に置き換えることを検討します。 1/Ratio@k は、取得された近傍と真の近傍の距離の差を評価します。これは判定不要、ハイパーパラメータ不要で、標準の ANN ベンチマーク入力のみから計算可能です。私たちは、広範な固有の次元にわたる多様なデータセットにわたって最先端の ANN アルゴリズムのベンチマークを行い、効率、下流の分類、検索拡張生成にわたって 2 つの指標を包括的に評価します。効率の軸では、1/Ratio@k の最適化は、Recall@k よりも大幅に低い計算コストで運用品質のしきい値に達します。下流タスクでは、Recall@k が大幅に低下した場合でも、パフォーマンス指標 (ラベル精度、意味的類似性、BERTScore、LLM グレードの品質) は非常に安定しています。一方、逆近似比はこの安定性を厳密に反映しており、Recall@k よりもはるかに優れた真の有用性を追跡します。結局のところ、Recall@k は近似の実際のコストを誇張していますが、1/Ratio@k は実際の ANN 品質に対してより正確で導入可能なプロキシを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ANN Search: Recall What Matters</p>
        <p class="orig-summary">Approximate nearest neighbor (ANN) search has become a core primitive in information retrieval and modern machine learning tasks, from classification to retrieval-augmented generation. The community evaluates and tunes ANN algorithms primarily on their throughput at a given Recall@k, the fraction of true exact neighbors retrieved. We argue that what really matters in ANN search is the quality of the retrieved results and not their overlap with the true kNN set. We show that using Recall@k to assess retrieval quality forces unnecessary computational overhead and investigate replacing it by 1/Ratio@k, the inverse approximation ratio. 1/Ratio@k evaluates the differences between the distances of the retrieved and true neighbors. It is judge-free, hyperparameter-free, and computable from standard ANN benchmark inputs alone. We benchmark state-of-the-art ANN algorithms across diverse datasets spanning a wide range of intrinsic dimensionalities, evaluating the two metrics comprehensively across efficiency, downstream classification, and retrieval-augmented generation. On the efficiency axis, optimizing for 1/Ratio@k reaches operational quality thresholds at a substantially lower computational cost than Recall@k. In downstream tasks, performance indicators (label precision, semantic similarity, BERTScore, and LLM-graded quality) remain highly stable even when Recall@k drops significantly. The inverse approximation ratio, on the other hand, closely mirrors this stability, tracking true utility much better than Recall@k. Ultimately, while Recall@k overstates the true cost of approximation, 1/Ratio@k offers a more accurate, deployable proxy for actual ANN quality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c74fab430896" data-article-url="https://arxiv.org/abs/2606.04528" data-article-title="SAR 少数ショットクラスの増分学習のための光学誘導神経崩壊" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04528" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04528" target="_blank" rel="noopener">SAR 少数ショットクラスの増分学習のための光学誘導神経崩壊</a></h3>
      <p class="summary">合成開口レーダー画像における少数ショット クラス増分学習 (FSCIL) には、深刻なデータ不足と SAR 固有の変動性により、特有の課題が生じます。特に、SAR における強い方位感度は、大きなクラス内変動とクラス間の混乱を引き起こし、FSCIL の逐次更新はさらに、以前に学習したクラスの壊滅的な忘却につながります。ニューラルコラプスからインスピレーションを得て、我々は光誘導型SAR FSCILフレームワークを提案します。このフレームワークは、データ豊富な光ATRデータセットから直交特徴部分空間を導出し、それらをSAR特徴学習をガイドするための幾何学的事前分布として使用します。 SAR の特徴は、主角制約を介してこれらの直交部分空間に投影され、識別構造を光学ドメインから SAR ドメインに効果的に転送します。具体的には、私たちの射影損失と凍結シンプレックス ETF ジオメトリで最適化された分類器損失は、大きなクラス間角度を維持しながらクラス平均の周囲に特徴を集中させることによって共同して神経崩壊を引き起こします。このアプローチを、ベース トレーニング セッションと 7 つの増分セッションに編成された 24 のターゲット クラスを含む光 ATR データセットと SAR ATR データセットで構成されるベンチマークで評価します。 NCFSCIL などの最近の FSCIL 手法と比較して、私たちの手法は最高の最終精度と、最終パフォーマンスとパフォーマンス低下の間の好ましいトレードオフを実現します。さらに、ニューラル崩壊メトリクスは、クラス内のコンパクト性とクラス間の分離性の向上を示しており、学習された特徴が理想的なシンプレックス ETF ジオメトリにより近似していることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Optical-Guided Neural Collapse for SAR Few-Shot Class Incremental Learning</p>
        <p class="orig-summary">Few-shot class-incremental learning (FSCIL) in synthetic aperture radar imagery presents unique challenges due to severe data scarcity and SAR-specific variability. In particular, strong azimuth sensitivity in SAR induces large intra-class variation and inter-class confusion, and FSCIL sequential updates further lead to catastrophic forgetting of previously learned classes. Inspired by neural collapse, we propose an optical-guided SAR FSCIL framework, which derives orthogonal feature subspaces from a data-rich optical ATR dataset and uses them as geometric priors to guide SAR feature learning. SAR features are projected onto these orthogonal subspaces via principal angle constraints, effectively transferring discriminative structure from the optical to the SAR domain. Specifically, our projection loss and the classifier loss optimized with a frozen simplex-ETF geometry jointly induce neural collapse by concentrating features around class means while maintaining large inter-class angles. We evaluate the approach on a benchmark comprising an optical ATR dataset and a SAR ATR dataset with 24 target classes, organized into a base training session and seven incremental sessions. Compared with recent FSCIL methods including NCFSCIL and so on, our method achieves the highest final accuracy and a favorable trade-off between final performance and performance degradation. Moreover, neural collapse metrics show improved intra-class compactness and inter-class separability, indicating that the learned features more closely approximate the ideal simplex-ETF geometry.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="49ca1a64f5f9" data-article-url="https://arxiv.org/abs/2606.04535" data-article-title="拡散大規模言語モデルにおける形式に制約された生成のための動的埋め込みアンカー" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04535" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04535" target="_blank" rel="noopener">拡散大規模言語モデルにおける形式に制約された生成のための動的埋め込みアンカー</a></h3>
      <p class="summary">拡散大規模言語モデル (dLLM) は、双方向の注意と並列生成を提供し、グローバル コンテキストを活用して、解析可能な JSON や推論テンプレートなどの形式に制約のあるタスクを自然にサポートできるようにします。単純な固定アンカーはそのような制約を強制できますが、多くの場合、厳密なスパンを課すため、推論が切り詰められたり、コンテンツが冗長になったりします。これを克服するために、反復埋め込みの前にエンドアンカーの位置を動的に推定して生成長を調整する、トレーニング不要の方法である動的埋め込みアンカー (DIA) を提案します。この柔軟なメカニズムにより、構造の正確さと意味の一貫性が確保され、固定スパン方式の非効率性が回避されます。推論ベンチマークの実験では、DIA がフォーマットへの準拠性と回答精度を大幅に向上させ、GSM8K と MATH で大幅なゼロショット ゲインを達成することが実証されました。これらの結果は、DIA が信頼性の高い、構造を意識した生成に向けた強力な経路として確立されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Dynamic Infilling Anchors for Format-Constrained Generation in Diffusion Large Language Models</p>
        <p class="orig-summary">Diffusion large language models (dLLMs) offer bidirectional attention and parallel generation, enabling them to exploit global context and naturally support format-constrained tasks like parseable JSON or reasoning templates. While straightforward fixed anchors can enforce such constraints, they often impose rigid spans, leading to truncated reasoning or redundant content. To overcome this, we propose Dynamic Infilling Anchors (DIA), a training-free method that dynamically estimates end-anchor positions to adjust generation length before iterative infilling. This flexible mechanism ensures structural correctness and semantic coherence, avoiding the inefficiencies of fixed-span methods. Experiments on reasoning benchmarks demonstrate that DIA substantially improves format compliance and answer accuracy, achieving significant zero-shot gains on GSM8K and MATH. These results establish DIA as a robust pathway toward reliable, structure-aware generation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="12c2514b05ad" data-article-url="https://arxiv.org/abs/2606.04555" data-article-title="エージェントの記憶にとって時間的順序は重要: 長期エージェントのセグメント ツリー" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04555" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04555" target="_blank" rel="noopener">エージェントの記憶にとって時間的順序は重要: 長期エージェントのセグメント ツリー</a></h3>
      <p class="summary">長期的な会話型エージェントは、進化するイベント、タスク、目標を通じてユーザーと対話する必要があります。このような歴史は本来一時的なものですが、多くの既存の記憶システムは主にトピックの類似性によって情報を整理しており、イベントが発生する順序を無視している可能性があります。発話全体にわたって時間的に順序付けられたセグメント ツリーとして会話履歴を表すメモリ アーキテクチャであるセグメント ツリー メモリ (SegTreeMem) を導入します。 SegTreeMem は、オンラインの右端フロンティア更新ルールを通じて新しい発話を段階的に挿入し、階層的なメモリ セグメントを形成しながら時系列順を維持します。取得の場合、SegTreeMem はツリーを通じて関連性スコアを伝播し、ローカルな意味論的な一致と階層的な時間コンテキストを組み合わせます。 SegTreeMem は、3 つの長期メモリ ベンチマークと 2 つの LLM バックボーンにわたって、フラット検索、グラフ構造メモリ、およびツリー構造メモリ ベースラインよりも回答品質を向上させます。追加の時間順序順列分析では、パフォーマンスの向上が記憶構築中の時間順序の維持に依存することが示され、時間順序がエージェント記憶の重要な構造であるという主張が裏付けられています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Temporal Order Matters for Agentic Memory: Segment Trees for Long-Horizon Agents</p>
        <p class="orig-summary">Long-horizon conversational agents need to interact with users through evolving events, tasks, and goals. Such histories are naturally temporal, yet many existing memory systems organize information primarily by topical similarity and may ignore the order in which events occur. We introduce Segment Tree Memory, or SegTreeMem, a memory architecture that represents conversation history as a temporally ordered Segment Tree over utterances. SegTreeMem incrementally inserts new utterances through an online rightmost-frontier update rule, preserving chronological order while forming hierarchical memory segments. For retrieval, SegTreeMem propagates relevance scores through the tree to combine local semantic matching with hierarchical temporal context. Across three long-horizon memory benchmarks and two LLM backbones, SegTreeMem improves answer quality over flat retrieval, graph-structured memory, and tree-structured memory baselines. Additional temporal-order permutation analysis shows that the performance gain depends on preserving temporal order during memory construction, supporting the claim that temporal order is a key structure for agentic memory.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a12c33826a9d" data-article-url="https://arxiv.org/abs/2606.04560" data-article-title="GRPO 向けのロールアウト レベルのアドバンテージ優先エクスペリエンス リプレイ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04560" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04560" target="_blank" rel="noopener">GRPO 向けのロールアウト レベルのアドバンテージ優先エクスペリエンス リプレイ</a></h3>
      <p class="summary">GRPO を使用した検証可能な報酬からの強化学習は、トレーニング後の推論 LLM の標準的なアプローチです。サンプルの効率が悪いままです。各ロールアウトは 1 つのグラデーション更新に使用され、その後破棄されます。 LLM ポリシーが勾配ステップごとに急速に変化するため、単純な再生はこの設定にはあまり適していません。したがって、保存されたロールアウトは古くなり、トレーニングが不安定になる可能性があります。グループ全体ではなく個々のロールアウトを保存およびサンプリングする、GRPO のロールアウト レベルのリプレイ バッファーを提案します。バッファーは、age eviction を通じて古い状態を制限します。 tau_max トレーニング ステップよりも古いロールアウトは削除されます。バッファには、フレッシュアンカー構成を介してポリシー上のデータも保存されます。各バッチは、ポリシーに基づいた最新のロールアウトを保持し、バッファから個別に描画されたリプレイ ロールアウトを連結します。ロールアウトごとのアドバンテージの大きさによってリプレイに優先順位を付け、アドバンテージが大きい個々のロールアウトをリサイクルします。 5 つの数学ベンチマークにおける 3 つの Qwen3-Base スケール全体で、私たちの手法は GRPO および単純な再生ベースラインを上回りました。ゲインはどのスケールでも正であり、モデルのサイズに応じて増加します。最大の利益は 4B の 5 つのベンチマーク平均で +4.35 pp です。精度とトークン効率を組み合わせて測定する AES メトリクスの下では、GRPO に対する効率マージンは、+0.579 で 4B と再び最大になります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Rollout-Level Advantage-Prioritized Experience Replay for GRPO</p>
        <p class="orig-summary">Reinforcement learning from verifiable rewards with GRPO is a standard approach for post-training reasoning LLMs. It remains sample inefficient. Each rollout is used for a single gradient update and then discarded. Naive replay is not well suited in this setting because LLM policies drift quickly per gradient step. Stored rollouts therefore become stale and can destabilize training. We propose a rollout-level replay buffer for GRPO that stores and samples individual rollouts rather than whole groups. The buffer bounds staleness through age eviction. Any rollout older than tau_max training steps is removed. The buffer also preserves on-policy data via fresh-anchored composition. Each batch keeps its fresh on-policy rollouts and then concatenates replay rollouts drawn separately from the buffer. We prioritize replay by per-rollout advantage magnitude and recycle individual rollouts whose advantages are large. Across three Qwen3-Base scales on five math benchmarks, our method outperforms GRPO and naive replay baselines. Gains are positive at every scale and grow with model size. The largest gain is +4.35 pp on the five-benchmark average at 4B. Under an AES metric that jointly measures accuracy and token efficiency, the efficiency margin over GRPO is again largest at 4B, at +0.579.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="93e6834e9764" data-article-url="https://arxiv.org/abs/2606.04581" data-article-title="マルチ SPIN: エッジでの協調トークン生成のためのマルチアクセス投機推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04581" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04581" target="_blank" rel="noopener">マルチ SPIN: エッジでの協調トークン生成のためのマルチアクセス投機推論</a></h3>
      <p class="summary">投機的推論 (SPIN) は、もともと大規模言語モデル (LLM) を高速化するための効率的なアーキテクチャとして開発されました。この研究では、マルチユーザー エッジ システムでの協調的なトークン生成を可能にする分散展開を提案します。その利点は、リソースに制約のあるデバイスとサーバーの間で計算負荷のバランスを効果的にとれることです。マルチアクセス SPIN (Multi-SPIN) と呼ばれる結果として得られるアーキテクチャは、オンデバイスの小型言語モデルを利用して候補トークン ドラフトを生成およびアップロードする一方、エッジ サーバーは LLM を操作してそれらを並列バッチで検証します。ユーザーの計算能力と通信能力に深刻な不均一性があることを考慮すると、ドラフト長はノードレベルの計算負荷とマルチアクセス待ち時間に影響を与える重要な制御変数として浮上し、それによって合計トークンのグッドプットを支配します。したがって、周波数分割多元接続を考慮して、合計トークン グッドプットを最大化するための、ドラフト長制御と帯域幅割り当ての共同最適化であるマルチアクセス ドラフト制御の問題を調査します。ここでは 2 つのケースを検討します。(1) サーバー側のバッチ処理を容易にするためにユーザー間で均一なドラフト長を使用する場合と、(2) グッドプットを強化するための新しい次元を導入するために異種のドラフト長を使用する場合です。分解手法を開発することで、これらの複雑な最適化を扱いやすい部分問題に縮小し、閉じた形式で効率的な喫水制御アルゴリズムを導出できるようにします。私たちの分析によると、最適な帯域幅の割り当ては、同種の場合にはバッチ同期要件により弱い計算能力と通信能力を持つユーザーを補うのに対し、異種の場合はそのような要件を緩和することでユーザーの受け入れ率を高めることができます。さまざまなタスクにわたって Llama-2 と Qwen3.5 モデルのペアを使用した実験では、Multi-SPIN が異質性を問わないベースラインと比較してグッドプットを最大 88% 向上させることが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Multi-SPIN: Multi-Access Speculative Inference for Cooperative Token Generation at the Edge</p>
        <p class="orig-summary">Speculative inference (SPIN) was originally developed as an efficient architecture to accelerate Large Language Models (LLMs). In this work, we propose its distributed deployment to enable cooperative token generation in a multiuser edge system; its advantage is to effectively balance computational loads between resource-constrained devices and servers. The resulting architecture, termed Multi-access SPIN (Multi-SPIN), utilizes on-device small language models to generate and upload candidate token drafts, while an edge server operates the LLM to verify them in parallel batches. Given the severe heterogeneity in users&#x27; computation and communication capabilities, the draft length emerges as a critical control variable that influences node-level computation loads and multi-access latency, thereby governing the sum token goodput. Consequently, considering frequency-division multiple access, we investigate the problem of multi-access draft control, a joint optimization of draft-length control and bandwidth allocation to maximize sum token goodput. We examine two cases: (1) homogeneous draft lengths across users to facilitate server-side batching, and (2) heterogeneous draft lengths to introduce a new dimension for goodput enhancement. By developing decomposition methods, we reduce these complex optimizations into tractable sub-problems, which allow efficient draft control algorithms to be derived in closed form. Our analysis shows that the optimal bandwidth allocation compensates users with weaker computation-and-communication capabilities in the homogeneous case due to the batching synchronization requirements, whereas its heterogeneous-case counterpart rewards users with higher acceptance rates by relaxing such requirements. Experiments using Llama-2 and Qwen3.5 model pairs across diverse tasks demonstrate that Multi-SPIN improves goodput by up to 88% over heterogeneity-agnostic baselines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="35af905920f9" data-article-url="https://arxiv.org/abs/2606.04592" data-article-title="合成パーソナリティ: LLM は社会経済的マイクロデータを使用して個々の回答者をどの程度うまく模倣できるか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04592" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04592" target="_blank" rel="noopener">合成パーソナリティ: LLM は社会経済的マイクロデータを使用して個々の回答者をどの程度うまく模倣できるか?</a></h3>
      <p class="summary">LLM ベースのデジタル ツインは、市場調査の拡張と加速を約束しますが、公開されているデジタル ツインのほとんどは、人口統計に関するいくつかの質問に基づいて条件付けされた大まかなペルソナ ボットか、目的のために収集されたアンケートやインタビュー記録に基づいて構築された詳細な個人レベルのツインのいずれかです。どちらの設定も、マーケティング実践に運用上最も関連性の高い事例、つまり企業が CRM システム、ロイヤリティ プログラム、および反復調査を通じてすでに蓄積している既存の異種パネル データから詳細な個別の双子を構築することについては話していません。私たちは、ドイツ社会経済パネル (SOEP) から詳細な個人レベルの双子を構築し、3 つのオープンウェイト LLM、正規化されたシャノン エントロピーによってランク付けされた 5 つの累積情報深さ、2 つの埋め込み手法、および 2 つの推論モードをカバーする $3 \times 5 \times 2 \times 2$ 構築方法グリッド全体で評価し、500 人の参加者と 183 の保留された質問に対する 210 万を超える双子の回答をスコアリングしました。ツインの品質は情報の深さに応じて向上しますが、エントロピー四分位 75 パーセントを超えると収益が減少します。エントロピー四分位は、最もパフォーマンスの高い 100 パーセントのセルと比較したコスト効率の高いパレート点として機能します。埋め込みをナラティブなペルソナの概要から過去の応答の生の対話履歴に切り替えると、100% の深さですべてのモデルごとの推論セルのホールドアウト精度が向上します。一方、明示的思考モードでは精度を変えることなく順位相関が向上します。 SOEP ホールドアウト評価セットでは、最良セル精度は 78.8% に達し、Fisher-$z$ 相関は $r = 0.590$ に達します。この調査結果は、ツインベースの市場調査がもはやデータ設計によって制御されているのではなく、アイテムのボリューム、モデルの選択、およびこの論文でマッピングされている建設レベルの少数の決定によって制御されていることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Synthetic Personalities: How Well Can LLMs Mimic Individual Respondents Using Socio-Economic Microdata?</p>
        <p class="orig-summary">LLM-based digital twins promise to scale and accelerate market research, but most published twins are either coarse persona bots conditioned on a few demographic questions or detailed individual-level twins built on purpose-collected surveys and interview transcripts. Neither setup speaks to the operationally most relevant case for marketing practice: building detailed individual twins from the pre-existing heterogeneous panel data that firms already accumulate through CRM systems, loyalty programs, and repeat surveys. We construct detailed individual-level twins from the German Socio-Economic Panel (SOEP) and evaluate them across a $3 \times 5 \times 2 \times 2$ construction-method grid that covers three open-weights LLMs, five cumulative information depths ranked by normalized Shannon entropy, two embedding methods, and two reasoning modes, scoring over 2.1 million twin responses on 500 participants and 183 held-out questions. Twin quality rises with information depth but with diminishing returns past the 75 percent entropy quartile, which acts as a cost-efficient Pareto point relative to the best-performing 100 percent cells. Switching the embedding from a narrative persona summary to a raw dialog history of past responses raises hold-out accuracy in every model-by-reasoning cell at the 100 percent depth, while an explicit thinking mode raises rank-order correlation without moving accuracy. Best-cell accuracy reaches 78.8 percent and Fisher-$z$ correlation reaches $r = 0.590$ on the SOEP held-out evaluation set. The findings suggest that twin-based market research is no longer gated by data design, but by item volume, model selection, and a small set of construction-level decisions that this paper now maps.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="59c9add8e9d7" data-article-url="https://arxiv.org/abs/2606.04594" data-article-title="Ekka: LLM 推論におけるサイレント エラーの自動診断" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04594" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04594" target="_blank" rel="noopener">Ekka: LLM 推論におけるサイレント エラーの自動診断</a></h3>
      <p class="summary">LLM サービス フレームワークは、複雑なソフトウェア スタックと膨大な数の最適化によって急速に進化しています。急速な開発プロセスでは、明示的なエラー信号がないまま出力品質が静かに低下するサイレント エラーが発生する可能性があります。高レベルの症状と低レベルの根本原因の間には意味上の大きなギャップがあるため、サイレント エラーの診断は難しいことで知られています。意味的に正しい参照実装の存在を活用することで、サイレント エラーの診断を差分デバッグ問題として効果的に組み立てることができることがわかりました。私たちは、ターゲット フレームワークと参照フレームワークの間の中間実行状態を体系的に調整して比較することにより、根本原因を特定する自動診断システム Ekka を提案します。一般的なサービス提供フレームワークから実際のサイレント エラーのベンチマークを構築しました。Ekka は、pass@1 診断精度が 80%、pass@5 診断精度が 88% で、最先端のシステムを上回るパフォーマンスを示しました。 Ekka は、サービス提供フレームワークからの 4 つの新しいサイレント エラーも診断します。これらはすべて開発者によって確認されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Ekka: Automated Diagnosis of Silent Errors in LLM Inference</p>
        <p class="orig-summary">LLM serving frameworks are quickly evolving with a complex software stack and a vast number of optimizations. The rapid development process can introduce silent errors where output quality silently degrades without any explicit error signals. Diagnosing silent errors is notoriously difficult due to the substantial semantic gap between the high-level symptoms and the low-level root causes. We observe that diagnosis of silent errors can be effectively framed as a differential debugging problem by leveraging the existence of semantically correct reference implementations. We propose Ekka, an automated diagnosis system that identifies root causes by systematically aligning and comparing intermediate execution states between a target and a reference framework. We constructed a benchmark of real-world silent errors from popular serving frameworks, where Ekka shows 80% pass@1 diagnosis accuracy and 88% pass@5 diagnosis accuracy, outperforming state-of-the-art systems. Ekka also diagnoses 4 new silent errors from serving frameworks, all of which have been confirmed by the developers.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="88338e771780" data-article-url="https://arxiv.org/abs/2606.04620" data-article-title="QuBLAST: ブロックレベルの圧縮アプローチとアクティベーション スケーリング戦略を使用して大規模な言語モデルを量子化するためのフレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04620" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04620" target="_blank" rel="noopener">QuBLAST: ブロックレベルの圧縮アプローチとアクティベーション スケーリング戦略を使用して大規模な言語モデルを量子化するためのフレームワーク</a></h3>
      <p class="summary">LLM は、NLP タスクを解決するための最先端のアルゴリズムになりました。ただし、これらは通常、膨大な計算コストとメモリコストがかかるため、組み込みシステムへの導入が困難になります。これに向けて、最先端の方法では通常、ネットワークのアテンション ブロック全体で均一なポストトレーニング量子化 (PTQ) が採用されており、そのため、同じネットワーク内で異なる量子化レベルを適用する可能性を見落としています。また、アクティベーションの異常値による悪影響を軽減するために複雑な操作を採用しているため、高い計算オーバーヘッドが発生します。さらに、量子化を適用する際に異なる課題を引き起こす、従来とは異なるアテンション アーキテクチャ (状態空間モデルなど) を備えた新興 LLM を使用した評価については考慮されていません。これらの制限に対処するために、LLM のアクティベーション スケーリング戦略を備えたブロック レベルの圧縮アプローチを採用する新しい PTQ 手法である QuBLAST を提案します。ブロックレベルの圧縮アプローチにより、ネットワークのブロック全体で混合精度の量子化が可能になり、同時にアクティベーションスケーリング戦略によりアクティベーション異常値の悪影響が効率的に軽減されます。具体的には、QuBLAST はまず、クロスエントロピー損失分析を通じて、事前トレーニング済みモデル内のさまざまなアテンション ブロックの感度を分析します。 QuBLAST は、この感度分析を活用して、モデル内の各アテンション ブロックの重み量子化レベルを決定します。さらに、QuBLAST は各ブロックのアクティベーション スケーリング マップを採用してアクティベーション値の範囲を制御し、アクティベーション外れ値の悪影響を軽減することで、より良い量子化結果を実現します。実験結果は、QuBLAST が、WikiText-2 および WikiText-103 データセットのパープレキシティ増加 5% 以内のパフォーマンスを維持しながら、さまざまなモデル アーキテクチャ (つまり、Qwen3-8B、Llama3-8B、Mistral v0.1-8B、および Falcon H1R-7B) にわたってモデル サイズを 40% ～ 45.2% 削減することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">QuBLAST: A Framework for Quantizing Large Language Models with Block-Level Compression Approach and Activation Scaling Strategy</p>
        <p class="orig-summary">LLMs have become the state-of-the-art algorithms for solving NLP tasks. However, they typically come at huge computational and memory costs, thus making them difficult to deploy on embedded systems. Toward this, state-of-the-art methods typically employ uniform post-training quantization (PTQ) across attention blocks of the network, hence overlooking the potential of applying different quantization levels in the same network. They also employ complex operations to mitigate the negative impact of activation outliers, hence incurring high computational overheads. Moreover, they have not considered evaluation using emerging LLMs with non-conventional attention architectures (e.g., state-space models), which pose different challenges in applying quantization. To address these limitations, we propose QuBLAST, a novel PTQ methodology that employs block-level compression approach with activation scaling strategy for LLMs. Block-level compression approach enables mixed-precision quantization across blocks of the network, while activation scaling strategy efficiently mitigates the negative impact of activation outliers. Specifically, QuBLAST first analyzes the sensitivity of different attention blocks in the pre-trained model through the cross-entropy loss analysis. QuBLAST leverages this sensitivity analysis to determine the weight quantization level for each attention block in the model. Furthermore, QuBLAST employs the activation scaling map for each block to control the range of activation values and mitigate the negative impact of activation outliers, thereby enabling better quantization results. Experimental results show that, QuBLAST reduces model sizes by 40%-45.2% across different model architectures (i.e., Qwen3-8B, Llama3-8B, Mistral v0.1-8B, and Falcon H1R-7B), while maintaining the performance within 5% perplexity increase for the WikiText-2 and WikiText-103 datasets.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8995a7c99283" data-article-url="https://arxiv.org/abs/2606.04646" data-article-title="QO ベンチ: 型付きイベント タプルに対するクエリ演算子保持検索の診断" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04646" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04646" target="_blank" rel="noopener">QO ベンチ: 型付きイベント タプルに対するクエリ演算子保持検索の診断</a></h3>
      <p class="summary">ビジネス、法律、科学コーパスに関する現実世界の質問の多くは、テキストに潜在するレコードに対するデータベース スタイルのクエリの自然言語バージョンです。既存の検索拡張生成 (RAG) システムは、主にセマンティック関連性を重視して最適化されていますが、もっともらしい文章を取得しても、クエリが正しく実行されることは保証されません。型指定されたイベント タプルに対するクエリ演算子の質問応答の診断ベンチマークである QO-Bench を紹介します。このベンチマークは、18 のクエリ テンプレートにわたる 22,984 のニュース記事と 614 の企業イベントを対象とし、785 の質問で評価されました。各ゴールド アンサーは、型指定されたイベント タプルから決定論的に計算され、LLM 判定ではなく完全一致によってゴールド タプルと照合された回答を使用して、再現率によってスコア付けされます。この設計により、結合や交差などのオペレーターレベルの診断が可能になります。 RAG、ReAct RAG、GraphRAG、および情報抽出から SQL を一致した条件下で評価し、取得失敗を分離するためのロングコンテキスト オラクル上限を使用します。インデックス時の保存とクエリ時の実行という 2 軸のフレームワークによって、各パラダイムがどこで失敗するかを予測し、その結果がそれを裏付けています。システムは関連するテキストを取得しますが、オペレータが必要とする型付きの値を破棄します。デプロイ可能なパラダイムのランキングはオペレータ間で逆転し、フィルタ/プロジェクトで類似性の取得が始まり、交差とカウントで SQL への抽出が行われます。決定的な証拠が与えられたとしても、ロングコンテキストのオラクルは飽和状態には程遠いため、検索だけではなくオペレーターの実行が、より強力な応答モデルによって除去されない中心的なボトルネックとなっています。 QO-Bench は、パッセージの関連性からクエリ演算子を保持した検索へと目標を再構成します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">QO-Bench: Diagnosing Query-Operator-Preserving Retrieval over Typed Event Tuples</p>
        <p class="orig-summary">Many real-world questions over business, legal, and scientific corpora are natural-language versions of database-style queries over records latent in text. Existing retrieval-augmented generation (RAG) systems are optimized primarily for semantic relevance, but retrieving plausible passages does not guarantee correct query execution. We introduce QO-Bench, a diagnostic benchmark for query-operator question answering over typed event tuples. The benchmark covers 22,984 news articles and 614 corporate events across 18 query templates, evaluated on 785 questions. Each gold answer is deterministically computed from typed event tuples and scored by recall, with answers matched to the gold tuples by exact match rather than an LLM judge. This design enables operator-level diagnosis such as joins and intersection. We evaluate RAG, ReAct RAG, GraphRAG, and information-extraction-to-SQL under matched conditions, with a long-context oracle ceiling to isolate retrieval failure. A two-axis framework -- index-time preservation versus query-time execution -- predicts where each paradigm fails, and the results bear it out: systems retrieve relevant text but discard the typed values operators need, and the deployable paradigm ranking inverts across operators, with similarity retrieval leading on filter/project and extraction-to-SQL on intersection and counting. Even given the gold evidence, a long-context oracle stays far from saturated, so operator execution -- not retrieval alone -- is a core bottleneck that a stronger answer model does not remove. QO-Bench reframes the goal from passage relevance to query-operator-preserving retrieval.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1238167ccca2" data-article-url="https://arxiv.org/abs/2606.04656" data-article-title="オブジェクト検出におけるインスタンスレベルの事後不確実性の定量化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04656" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04656" target="_blank" rel="noopener">オブジェクト検出におけるインスタンスレベルの事後不確実性の定量化</a></h3>
      <p class="summary">物体検出は自動運転の安全上重要な要素です。安全性を確保するには、境界ボックス予測の不確実性を定量化することが不可欠です。再トレーニングを必要としない事後的な不確実性の定量化は、現実世界の導入要件と一致します。したがって、ラプラス近似を使用します。インスタンスレベルの不確実性が必要であるため、複数のバックプロパゲーションを必要とする線形推論方法は時間効率が悪く、サンプリングベースの方法は完全に事後的ではありません。我々は、インスタンスレベルおよびほぼ事後的な不確実性の定量化を提供するモンテカルロ一般化線形モデル (MC-GLM) を提案します。モンテカルロ ステップで必要なサンプルの数は一定で、出力インスタンスの数に依存しないため、並列化できます。 CenterPoint 検出器を使用した nuScenes データセットの実験により、私たちの方法の有効性が検証され、結果として生じる不確実性は良好な品質を示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Instance-Level Post Hoc Uncertainty Quantification in Object Detection</p>
        <p class="orig-summary">Object detection is a safety-critical component of autonomous driving. It is essential to quantify the uncertainty in bounding-box predictions for safety assurance. Post hoc uncertainty quantification without retraining aligns with real-world deployment requirements; therefore, we employ the Laplace approximation. Because instance-level uncertainty is needed, linearized inference methods that require multiple backpropagations are not time-efficient, and sampling-based methods are not fully post hoc. We propose Monte-Carlo generalized linearized model (MC-GLM), which provides instance-level and approximately post hoc uncertainty quantification. The number of samples required in the Monte Carlo step is constant and independent of the number of output instances, so it can be parallelized. Experiments on the nuScenes dataset with the CenterPoint detector validate the effectiveness of our method, and the resulting uncertainties exhibit good quality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6cca76e915da" data-article-url="https://arxiv.org/abs/2606.04662" data-article-title="ミュオンがアダムを上回る理由: 曲率の観点から" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04662" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04662" target="_blank" rel="noopener">ミュオンがアダムを上回る理由: 曲率の観点から</a></h3>
      <p class="summary">Muon は、大規模な言語モデルのトレーニングにおいて Adam に比べてトレーニング効率を約 2 倍向上させますが、この利点の局所的な幾何学的ソースは依然として不明です。私たちの研究は、曲率の観点からアダムに対するミュオンの優位性を解明するための第一歩を踏み出します。まず、トレーニング ランドスケープに 2 次テイラー近似を適用し、一致する検証損失で Muon が Adam よりも大きな 1 ステップ損失の減少を達成することを示します。 2 つのオプティマイザーは同等の一次ゲインを持っていますが、Muon は常に小さい二次曲率ペナルティを受けます。次に、この曲率ペナルティを二乗更新ノルムと正規化方向シャープネス (NDS) に分解します。 Muon と Adam は同等の更新ノルムを持っていることがわかり、Muon のより小さい曲率ペナルティは、更新スケールではなく、NDS の低下によって引き起こされます。第三に、トレーニング データとモデル構造が Muon の NDS の利点をどのように形成するかを研究します。不均衡を制御したZipf-Probabilistic Context-Free Grammar (PCFG)データを使用して、データの不均衡がAdamに対するMuonのNDS優位性を増幅させることを示します。さらに、層内/層間分解により、トレーニングの中期および後期段階では、ミュオンの下部 NDS は主に小さな層内曲率によって維持されることが示されています。経験的証拠を超えて、不均一な曲率と高曲率モードへの勾配整列を伴う様式化された 2 次問題を分析します。我々は、ミューオンが曲率グループ全体で更新エネルギーのバランスをとることにより、GD よりも小さな平均 NDS を達成することを証明します。曲率の​​不均一性が十分に強い場合、同じステップ数の後の局所二次損失も低くなります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Why Muon Outperforms Adam: A Curvature Perspective</p>
        <p class="orig-summary">Muon improves training efficiency over Adam in large language-model training by about two times, but the local geometric source of this advantage remains unclear. Our work takes a first step toward demystifying Muon&#x27;s superiority over Adam from a curvature perspective. First, we apply a second-order Taylor approximation to the training landscape and show that Muon achieves a larger one-step loss decrease than Adam at matched validation loss. The two optimizers have comparable first-order gains, but Muon consistently incurs a smaller second-order curvature penalty. Second, we decompose this curvature penalty into the squared update norm and Normalized Directional Sharpness (NDS). We find that Muon and Adam have comparable update norms, so Muon&#x27;s smaller curvature penalty is driven by lower NDS, not update scale. Third, we study how training data and model structure shape Muon&#x27;s NDS advantage. Using Zipf-Probabilistic Context-Free Grammar (PCFG) data with controlled imbalance, we show that data imbalance amplifies Muon&#x27;s NDS advantage over Adam. A within-/cross-layer decomposition further shows that, in the middle and late stages of training, Muon&#x27;s lower NDS is mainly sustained by smaller within-layer curvature. Beyond empirical evidence, we analyze stylized quadratic problems with heterogeneous curvature and gradient alignment toward high-curvature modes. We prove that Muon attains a smaller average NDS than GD by balancing update energy across curvature groups; when curvature heterogeneity is sufficiently strong, this also yields lower local quadratic loss after the same number of steps.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9cb478d4cba1" data-article-url="https://arxiv.org/abs/2606.04672" data-article-title="状態空間モデルを使用した連続時間動的グラフ上の長距離時空間表現の学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04672" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04672" target="_blank" rel="noopener">状態空間モデルを使用した連続時間動的グラフ上の長距離時空間表現の学習</a></h3>
      <p class="summary">連続時間ダイナミック グラフ (CTDG) は、進化するリレーショナル データのきめの細かい時間的パターンをキャプチャするためのより豊富なフレームワークを提供します。長距離の情報伝播は、表現を学習する際の重要な課題であり、長い時間的期間にわたって情報を保持および更新することが重要です。既存のアプローチでは、モデルがワンホップまたはローカルな時間的近傍を捕捉するように制限されており、マルチホップまたはグローバルな構造パターンを捕捉できません。これを軽減するために、第一原理から連続時間動的グラフ (CTDG-SSM) 用のパラメーター効率の高い状態空間モデリング フレームワークを導出します。まず、連続時間トポロジー対応高次多項式射影演算子 (CTT-HiPPO) を紹介します。これは、時間ダイナミクスとグラフ構造を共同でエンコードするための HiPPO の新しいメモリベースの再定式化です。 CTT-HiPPO からの解は、ラプラシアン行列の多項式を通じて古典的な HiPPO 解を射影することによって取得され、CTDG の等価状態空間定式化 (CTDG-SSM) を可能にするトポロジーを意識したメモリ更新が得られます。次に、モデルの実装にゼロ次ホールド アプローチを使用して、計算効率の高い離散定式化が得られます。 CTDG-SSM は、動的リンク予測、動的ノード分類、シーケンス分類のベンチマーク全体で最先端のパフォーマンスを実現します。特に、長距離時間 (LRT) および空間推論を必要とするデータセットで大幅なパフォーマンスの向上が実現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Learning Long Range Spatio-Temporal Representations over Continuous Time Dynamic Graphs with State Space Models</p>
        <p class="orig-summary">Continuous-time dynamic graphs (CTDGs) provide a richer framework to capture fine-grained temporal patterns in evolving relational data. Long-range information propagation is a key challenge while learning representations, wherein it is important to retain and update information over long temporal horizons. Existing approaches restrict models to capture one-hop or local temporal neighborhoods and fail to capture multi-hop or global structural patterns. To mitigate this, we derive a parameter-efficient state-space modeling framework for continuous-time dynamic graphs (CTDG-SSM) from first principles. We first introduce continuous-time Topology-Aware higher order polynomial projection operator (CTT-HiPPO), a novel memory-based reformulation of HiPPO to jointly encode temporal dynamics and graph structure. The solution from CTT-HiPPO is obtained by projecting the classical HiPPO solution through a polynomial of the Laplacian matrix, yielding topology-aware memory updates that admit an equivalent state-space formulation for CTDGs (CTDG-SSM). Then a computationally efficient discrete formulation is obtained using the zero-order hold approach for model implementation. Across benchmarks on dynamic link prediction, dynamic node classification, and sequence classification, CTDG-SSM achieves state-of-the-art performance. Notably, it achieves large performance gains on datasets that require long range temporal (LRT) and spatial reasoning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="419d7771b1ae" data-article-url="https://arxiv.org/abs/2606.04684" data-article-title="YOLOv8、SORT トラッキング、時間的データ補間を使用したリアルタイムの自動ナンバー プレート認識" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04684" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04684" target="_blank" rel="noopener">YOLOv8、SORT トラッキング、時間的データ補間を使用したリアルタイムの自動ナンバー プレート認識</a></h3>
      <p class="summary">ビデオ処理のリアルタイムの困難により、動的交通監視設定でのアプリケーションでの自動ナンバー プレート認識 (ALPR) の使用が大幅に制限されます。制約のない変数の高忠実度の認識。照明の急激な変化、鋭いカメラ スキャン、高い車両速度、および過酷な物理的隠蔽は、多くの場合、追跡パスがバラバラになり、光学式文字認識 (OCR) 率が低下する原因となる問題です。これらの弱点を軽減するために、この研究では、深層学習ベースの物体検出、本質的に運動学的な複数物体追跡、およびジオメトリ時間データ補間の間のスムーズな移行を含む、5 段階のエンドツーエンドのアルゴリズム パイプラインを提案しています。提案されたアーキテクチャでは、非常に強力な YOLOv8 ナノ モデルを利用して、最初の段階で車両の位置を特定し、その後、シンプル オンラインおよびリアルタイム トラッキング (SORT) アルゴリズムを使用して、フレーム間の時空間リンクを構築します。 YOLOv8 の別のより具体的な類型は、ナンバー プレート領域を検出し、位置構文検証の制限の下で、スライスされた配列を EasyOCR チェーンにチャネルします。さらに重要なのは、時間境界ボックスのオフライン補間メカニズムが開始され、断片化されたパスが再キャストされることです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Real-Time Automatic License Plate Recognition Using YOLOv8, SORT Tracking, and Temporal Data Interpolation</p>
        <p class="orig-summary">The real-time hardships of video processing seriously limit the usage of Automatic License Plate Recognition (ALPR) with application in dynamic traffic monitoring settings. High-fidelity recognition of unconstrained variables, e.g. drastic variations in illumination, acute camera scans, high vehicle speeds, and harsh physical concealment, is a problem that often leads to disjointed tracking paths and poor Optical Character Recognition (OCR) rates. In order to mitigate these weaknesses, the study proposes a 5 stage, end-to-end algorithmic pipeline, encompassing a smooth transition between deep learning based object detection, multi-object tracking which is kinematic in nature, and geometry temporal data interpolation. The suggested architecture takes advantage of a very powerful YOLOv8 nano model to localize the vehicle at the first stage and then Simple Online and Realtime Tracking (SORT) algorithm is used to build spatial-temporal links between frames. Another, more specific typology of YOLOv8 object detectors the license plate area, channeling the sliced array to an EasyOCR chain under the limitations of positional syntax verification. More importantly, an offline interpolation mechanism of temporal bounding box is initiated to recast fragmented paths.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="abf120852471" data-article-url="https://arxiv.org/abs/2606.04699" data-article-title="アルツハイマー病分類のための一般化固有値近位 SVM におけるグラフに基づく Universum 学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04699" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04699" target="_blank" rel="noopener">アルツハイマー病分類のための一般化固有値近位 SVM におけるグラフに基づく Universum 学習</a></h3>
      <p class="summary">アルツハイマー病 (AD) の早期かつ正確な検出は、タイムリーな介入と疾患管理にとって重要です。一般化固有値近位サポート ベクトル マシン (GEPSVM) とその Universum ベースのバリアントは、AD 分類において有望な結果を示しています。ただし、既存の方法では Universum サンプルを独立した点として扱い、それらの間の幾何学的関係は考慮されていません。この論文では、構造 MRI データを使用した AD と認知的正常 (CN) の分類のための 2 つのグラフガイド付き Universum 学習モデル、つまり UG-GEPSVM と IUG-GEPSVM を提案します。提案されたフレームワークでは、軽度認知障害 (MCI) の被験者が Universum データとして使用され、AD クラスと CN クラスの間の中間情報が提供されます。グラフは、ガウス類似度、最小スパニング ツリー接続、およびマルチホップ伝播を使用して Universum サンプル上に構築されます。このグラフから、MCI サンプルの幾何学的構造を捉えるラプラシアン行列が導出されます。このラプラシアンベースの正則化は、従来の独立した Universum ペナルティ項の代わりに学習プロセスに組み込まれています。 UG-GEPSVM はこの正則化を一般化固有値定式化に統合しますが、IUG-GEPSVM は標準固有値定式化を使用して数値的に安定した改良された GEPSVM フレームワークを拡張します。 5 つの異なるノイズ レベルで ICA および PCA ベースの特徴を使用した ADNI MRI データセット バリアントの実験では、提案された両方のモデルが既存の GEPSVM および Universum ベースの方法よりも一貫して優れていることが示されています。 UG-GEPSVM は、88.07% という最高の平均 AUC を達成し、ノイズ レベルが増加しても安定したパフォーマンスを維持します。統計的テストにより、観察された改善の重要性がさらに確認されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Graph-Guided Universum Learning in Generalized Eigenvalue Proximal SVMs for Alzheimer&#x27;s Disease Classification</p>
        <p class="orig-summary">Early and accurate detection of Alzheimer&#x27;s disease (AD) is important for timely intervention and disease management. Generalized Eigenvalue Proximal Support Vector Machine (GEPSVM) and its Universum-based variants have shown promising results for AD classification. However, existing methods treat Universum samples as independent points and do not consider the geometric relationships among them. This paper proposes two graph-guided Universum learning models, namely UG-GEPSVM and IUG-GEPSVM, for AD versus cognitively normal (CN) classification using structural MRI data. In the proposed framework, mild cognitive impairment (MCI) subjects are used as Universum data to provide intermediate information between AD and CN classes. A graph is constructed over the Universum samples using Gaussian similarity, Minimum Spanning Tree connectivity, and multi-hop propagation. From this graph, a Laplacian matrix is derived that captures the geometric structure of the MCI samples. This Laplacian-based regularization is incorporated into the learning process in place of the conventional independent Universum penalty term. UG-GEPSVM integrates this regularization into the generalized eigenvalue formulation, while IUG-GEPSVM extends the numerically stable improved GEPSVM framework using a standard eigenvalue formulation. Experiments on ADNI MRI dataset variants using ICA- and PCA-based features at five different noise levels show that both proposed models consistently outperform existing GEPSVM and Universum-based methods. UG-GEPSVM achieves the highest average AUC of 88.07% and maintains stable performance under increasing noise levels. Statistical tests further confirm the significance of the observed improvements.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c4c1a3b9054" data-article-url="https://arxiv.org/abs/2606.04705" data-article-title="医療画像セグメンテーション用の軽量ボックス予測子による MedSAM の強化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04705" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04705" target="_blank" rel="noopener">医療画像セグメンテーション用の軽量ボックス予測子による MedSAM の強化</a></h3>
      <p class="summary">医療画像におけるセマンティック セグメンテーションは、データ不足とモダリティ間のばらつきの高さのため、重要ではありますが、困難なタスクです。 Segment Anything Model (SAM) のような基礎モデルは有望ですが、特別な適応がなければ医療画像に苦労することがよくあります。さらに、ポイント プロンプトは、ユーザー インタラクションの最も自然な形式であるにもかかわらず、特にターゲット構造が不規則であるかコントラストが不十分な場合、信頼性の高いセグメンテーションを実現するには空間コンテキストが不十分です。この論文では、軽量の Box Predictor モジュールを MedSAM アーキテクチャに統合する強化されたセグメンテーション フレームワークを提案します。 Box Predictor は、ローカライズされた画像埋め込み機能を使用して、ユーザーの 1 回のクリックからおおよその境界ボックスを推定し、ポイント プロンプトの曖昧さを軽減する空間ガイダンスを提供すると同時に、追加パラメーターは 160 万個のみで、推論オーバーヘッドは無視できます。 Box Predictor が MedSAM に統合される前に個別にトレーニングされる 2 段階のトレーニング パイプラインを導入します。私たちの方法の一般化機能を検証するために、CT、MRI、超音波を含む異なる画像モダリティにわたる 4 つの多様なデータセット (FLARE22、BRISC、BUSI、LungSegDB) に対して広範な評価を実施します。私たちの方法は、さまざまな解剖学的構造と画像化ドメインにわたってセグメンテーションの精度と堅牢性を向上させ、Dice スコア 0.89 (BUSI)、0.93 (FLARE22)、0.88 (BRISC)、および 0.98 (LungSegDB) を達成しました。コードは https://github.com/Amirhosseinmovahedi/MedSAM-BoxPredictor で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Enhancing MedSAM with a Lightweight Box Predictor for Medical Image Segmentation</p>
        <p class="orig-summary">Semantic segmentation in medical imaging is a critical yet challenging task due to data scarcity and high variability across modalities. While foundation models like the Segment Anything Model (SAM) show promise, they often struggle with medical images without specific adaptation. Moreover, point prompts, despite being the most natural form of user interaction, provide insufficient spatial context for reliable segmentation, particularly when target structures are irregular or poorly contrasted. In this paper, we propose an enhanced segmentation framework that integrates a lightweight Box Predictor module into the MedSAM architecture. The Box Predictor estimates an approximate bounding box from a single user click using localized image embedding features, providing spatial guidance that reduces the ambiguity of point prompts, while introducing only 1.6M additional parameters and negligible inference overhead. We introduce a two-stage training pipeline where the Box Predictor is trained independently before being integrated into MedSAM. To validate the generalization capability of our method, we conduct extensive evaluations on four diverse datasets (FLARE22, BRISC, BUSI, LungSegDB) spanning distinct imaging modalities, including CT, MRI, and Ultrasound. Our method improves segmentation accuracy and robustness across varied anatomical structures and imaging domains, achieving Dice scores of 0.89 (BUSI), 0.93 (FLARE22), 0.88 (BRISC), and 0.98 (LungSegDB). Code is available at https://github.com/Amirhosseinmovahedi/MedSAM-BoxPredictor</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f9dff779020" data-article-url="https://arxiv.org/abs/2606.04708" data-article-title="VISTA: 視覚に基づいた、物理学に基づいて検証された UMI データの VLA トレーニングへの適応" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04708" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04708" target="_blank" rel="noopener">VISTA: 視覚に基づいた、物理学に基づいて検証された UMI データの VLA トレーニングへの適応</a></h3>
      <p class="summary">Universal Manipulation Interface (UMI) により、ハードウェア固有の遠隔操作を必要とせずにスケーラブルな現実世界のロボット データ収集が可能になりますが、UMI データを活用して大規模な Vision-Language-Action (VLA) モデルをトレーニングすることは依然として根本的に困難です。我々は 2 つの重大な不一致を特定しました。1 つは、深刻な放射状の歪みとローカルのグリッパー中心の視点を伴う手首に取り付けられた魚眼ビューであり、事前トレーニングされた VLM には配布されていません。また、人間が収集した軌道は、頻繁に運動学的制限に違反したり、衝突が発生したり、コントローラーの帯域幅を超えたりするため、VLA ポリシーに物理的に実行不可能なアクションが教示されます。この課題に対処するために、3 つの相乗効果のあるコンポーネントを通じてこの二重のギャップを埋めるフレームワークである VISTA を紹介します。 (i) ~UMI-VQA は、手首に装着した魚眼観察に合わせて調整された初の大規模 VQA データセットであり、補助的な視覚言語監視を通じて VLM 表現を歪んだ視覚領域に合わせます。 (ii)~体系的な物理検証パイプラインは、データ完全性の事前チェックを実行し、トレーニングに入る前に、軌道の連続性、自己衝突のリスク、および実行の忠実度について各有効な軌道にスコアを付けます。 (iii)~2 段階の共同トレーニング レシピは、UMI-VQA に基づいた視覚言語の基礎と、検証された軌道に基づいた行動予測を共同で学習します。私たちの実験では、UMI-VQA を組み込むと下流のポリシーのパフォーマンスが一貫して向上し、物理検証スコアが展開の成功を強力に予測できることが経験的に示されています。さまざまなシミュレーションや現実世界の操作タスクにおいて、VISTA は $\pi_{0.5}$、LingBot-VLA、Wall-X などの強力なベースラインを大幅に上回ります。物理検証パイプライン、UMI-VQA、検証された軌跡データ、および事前トレーニングされたモデルをコミュニティにリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training</p>
        <p class="orig-summary">Universal Manipulation Interface (UMI) enables scalable real-world robot data collection without hardware-specific teleoperation, yet leveraging UMI data to train large-scale Vision-Language-Action (VLA) models remains fundamentally challenging. We identify two critical mismatches: wrist-mounted fisheye views, with severe radial distortion and local gripper-centric perspectives, are out-of-distribution for pretrained VLMs; and human-collected trajectories frequently violate kinematic limits, incur collisions, or exceed controller bandwidth, teaching VLA policies physically infeasible actions. To address the challenges, we present VISTA, a framework that bridges this dual gap through three synergistic components. (i)~UMI-VQA, the first large-scale VQA dataset tailored to wrist-mounted fisheye observations, aligns VLM representations to the distorted visual regime via auxiliary vision-language supervision. (ii)~A systematic physical-validation pipeline performs a data-completeness pre-check and scores each valid trajectory for trajectory continuity, self-collision risk, and execution fidelity before it enters training. (iii)~A two-stage co-training recipe jointly learns vision-language grounding on UMI-VQA and action prediction on validated trajectories. Our experiments empirically show that incorporating UMI-VQA consistently improves downstream policy performance, and that physical-validation scores are strongly predictive of deployment success. On diverse simulation and real-world manipulation tasks, VISTA significantly outperforms strong baselines including $\pi_{0.5}$, LingBot-VLA, and Wall-X. We release the physical-validation pipeline, UMI-VQA, validated trajectory data, and the pre-trained model for the community.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="72fd54ca1281" data-article-url="https://arxiv.org/abs/2606.04718" data-article-title="CoRe-MoE: 歩行適応を備えた複数地形ヒューマノイド移動のための専門家の対照的な再重み付け混合" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04718" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04718" target="_blank" rel="noopener">CoRe-MoE: 歩行適応を備えた複数地形ヒューマノイド移動のための専門家の対照的な再重み付け混合</a></h3>
      <p class="summary">人間は主に、不必要に複雑な動作パターンに頼ることなく、複雑な地形を横断するために歩いたり走ったりすることに頼っています。同様に、人型ロボットは、自然で安定した移動を維持しながら、歩行と走行の間のスムーズな移行を達成する必要があります。ただし、単一のポリシー内で歩行遷移と複数の地形への適応を統合することは、勾配の干渉と、地形に依存する視覚的および動的変化によって引き起こされる分布のシフトのため、依然として困難です。専門家混合 (MoE) アーキテクチャは複数のスキルの干渉を軽減できますが、単純な共同トレーニングでは明確な専門知識が得られないことが多く、効果が制限されます。これらの課題に対処するために、私たちは地形適応から歩行生成を切り離す 2 段階の強化学習フレームワークである CoRe-MoE を提案します。第 1 段階では、スムーズな移行で自然な歩行と走行の動作を生成するための安定した移動ポリシーが学習されます。第 2 段階では、地形認識 MoE ブランチが導入され、ゲーティング ネットワークを形成するという対照的な目的でトレーニングされ、構造化された地形表現をキャプチャして専門家の専門化を促進できるようになります。最終的なアクションは、基本歩行ポリシーと地形認識ブランチの重み付けされた融合によって取得され、ポリシーが複雑な地形に適応しながら安定した移動パターンを維持できるようにします。広範なシミュレーション結果は、提案された方法が成功率、移動の安定性、および複数の地形への適応性の点でベースラインのアプローチよりも優れていることを示しています。さらに、Unitree G1 ヒューマノイド ロボットへのゼロショット展開により、当社のフレームワークの有効性が検証され、外乱下でも正確な足場の配置と動的安定性を維持しながら、階段、坂道、段差、障害物、屋外の構造化されていない地形での堅牢な歩行と走行が実現されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CoRe-MoE: Contrastive Reweighted Mixture of Experts for Multi-Terrain Humanoid Locomotion with Gait Adaptation</p>
        <p class="orig-summary">Humans primarily rely on walking and running to traverse complex terrains, without resorting to unnecessarily complex motion patterns. Similarly, humanoid robots should achieve smooth transitions between walking and running while maintaining natural and stable locomotion. However, unifying gait transition and multi-terrain adaptation within a single policy remains challenging due to gradient interference and the distribution shift induced by terrain-dependent visual and dynamic variations. Although Mixture-of-Experts (MoE) architectures can alleviate multi-skill interference, naive joint training often fails to yield clear expert specialization, limiting their effectiveness. To address these challenges, we propose CoRe-MoE, a two-stage reinforcement learning framework that decouples gait generation from terrain adaptation. In the first stage, a stable locomotion policy is learned to produce natural walking and running behaviors with smooth transitions. In the second stage, a terrain-aware MoE branch is introduced and trained with a contrastive objective to shape the gating network, enabling it to capture structured terrain representations and promote expert specialization. The final action is obtained via weighted fusion of the base gait policy and the terrain-aware branch, allowing the policy to preserve stable locomotion patterns while adapting to complex terrains. Extensive simulation results demonstrate that the proposed method outperforms baseline approaches in terms of success rate, locomotion stability, and multi-terrain adaptability. Furthermore, zero-shot deployment on a Unitree G1 humanoid robot validates the effectiveness of our framework, achieving robust walking and running across stairs, slopes, steps, obstacles, and unstructured outdoor terrains, while maintaining accurate foothold placement and dynamic stability under external disturbances.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9ad54108b804" data-article-url="https://arxiv.org/abs/2606.04735" data-article-title="トレース媒介ピーク バイアス: 深層強化学習における時間単位の割り当てと認知ヒューリスティックの橋渡し" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04735" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04735" target="_blank" rel="noopener">トレース媒介ピーク バイアス: 深層強化学習における時間単位の割り当てと認知ヒューリスティックの橋渡し</a></h3>
      <p class="summary">時間的クレジットの割り当ては、生物学的知能と人工知能の両方にとって中心的ですが、非線形関数近似との相互作用はほとんど理解されていません。私たちは、Trace-Mediated Peak Bias (TMPB) と呼ばれる深層強化学習 (RL) における系統的故障モードを特定します。中間の適格性トレースの深さでは、エージェントは、より高い累積リターンを持つ代替案よりも、高い規模の報酬「ピーク」を持つ軌道を非合理的に好みます。これは、経験が統合された有用性ではなく、最も強烈な瞬間によって判断される人間の記憶バイアスであるピークエンド ルールのメカニズムの説明を提供します。私たちは、トレースが遠位時間差誤差を固定ステップサイズの確率的勾配降下法では正規化できない「勾配ショック」に増幅し、全体的な過大評価につながるためにTMPBが出現することを示します。逆に、適応オプティマイザーは、瞬間的な正規化を通じてこの病状を軽減します。私たちの結果は、人間のような顕著性の歪みが分散システムにおけるクレジット割り当ての数学的制約から自然に現れる可能性があり、合理的な値推定には適応最適化が理論的に必要であることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Trace-Mediated Peak Bias: Bridging Temporal Credit Assignment and Cognitive Heuristics in Deep Reinforcement Learning</p>
        <p class="orig-summary">Temporal credit assignment is central to both biological and artificial intelligence, yet its interaction with non-linear function approximation is poorly understood. We identify a systematic failure mode in deep reinforcement learning (RL) termed Trace-Mediated Peak Bias (TMPB). At intermediate eligibility trace depths, agents irrationally prefer trajectories with high-magnitude reward ``peaks&#x27;&#x27; over alternatives with higher cumulative returns. This provides a mechanistic account of the Peak-End Rule: a human memory bias where experiences are judged by their most intense moments rather than integrated utility. We show that TMPB emerges because traces amplify distal Temporal Difference errors into ``gradient shocks&#x27;&#x27; that fixed-step-size Stochastic Gradient Descent cannot normalize, leading to global overestimation. Conversely, adaptive optimizers mitigate this pathology via second-moment normalization. Our results suggest that human-like saliency distortions may emerge naturally from the mathematical constraints of credit assignment in distributed systems, and that adaptive optimization is a theoretical necessity for rational value estimation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="141ac4410830" data-article-url="https://arxiv.org/abs/2606.04736" data-article-title="物理学に基づいたニューラル ネットワークのための曲率を考慮した動的精度アプローチ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04736" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04736" target="_blank" rel="noopener">物理学に基づいたニューラル ネットワークのための曲率を考慮した動的精度アプローチ</a></h3>
      <p class="summary">物理情報に基づいたニューラル ネットワーク (PINN) は、ニューラル ネットワークのトレーニングに物理法則を直接埋め込むことにより、偏微分方程式 (PDE) をシミュレーションするための有望なフレームワークとなっています。ただし、最近の研究では、PINN の最適化が数値精度に影響されることが示されています。既存の実装では、計算効率は高いが故障モードが発生しやすい単精度 (FP32) か、堅牢ではあるが非常に高価な倍精度 (FP64) が一般的に使用されています。これにより、計算効率と数値精度の間にトレードオフが生じます。予測精度を維持しながら倍精度トレーニングの計算コストを削減するために、固定実装の選択肢として扱うのではなく、トレーニング中に数値精度を適応させる曲率認識精度コントローラーを提案します。提案された方法は、メモリ制限のある BFGS (L-BFGS) オプティマイザーから得られた曲率情報を再利用して精度コントローラーを構築し、より低い精度で十分な場合は FP32 を保持し、トレーニング ダイナミクスが数値感度または精度制限された停滞を示している場合は、計算を FP64 に促進します。提案されたアプローチを、4 つの標準 PINN 故障モード ベンチマークと放射照度駆動の常微分方程式の例で評価します。提案されたアプローチをさまざまなニューラル ネットワーク アーキテクチャにわたってさらにテストします。このメソッドは、すべてのベンチマーク方程式で完全な倍精度トレーニングと比較してトレーニング時間を短縮しながら、FP64 の完全な解精度と一貫して一致するかわずかに上回っています。得られた結果は、PINN 最適化における精度の感度が位相に依存すること、および数値的に重要な段階でのみ高い精度を選択的に適用することで、予測精度を犠牲にすることなく計算コストを削減できることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Curvature-aware dynamic precision approach for physics-informed neural networks</p>
        <p class="orig-summary">Physics-informed neural networks (PINNs) have become a promising framework for simulating partial differential equations (PDEs) by embedding physical laws directly into neural network training. However, recent studies show that PINN optimisation is sensitive to numerical precision. Existing implementations commonly use either single precision (FP32), which is computationally efficient but prone to failure modes, or double precision (FP64), which is robust but substantially expensive. This creates a trade-off between computational efficiency and numerical accuracy. To reduce the computational cost of double-precision training while retaining prediction accuracy, we propose a curvature-aware precision controller that adapts numerical precision during training rather than treating it as a fixed implementation choice. The proposed method reuses curvature information derived from the limited-memory BFGS (L-BFGS) optimiser to construct a precision controller, retaining FP32 when lower precision is sufficient and promoting computation to FP64 when the training dynamics indicate numerical sensitivity or precision-limited stagnation. We evaluate the proposed approach on four canonical PINN failure-mode benchmarks and an irradiance-driven ordinary differential equation example. We further test the proposed approach across different neural network architectures. The method consistently matches or even slightly exceeds full FP64 solution accuracy while reducing training time relative to full double-precision training on all benchmark equations. The obtained results indicate that precision sensitivity in PINN optimisation is phase-dependent, and that selectively applying higher precision only during numerically critical stages can lower computational cost without sacrificing predictive accuracy.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d0407a411c82" data-article-url="https://arxiv.org/abs/2606.04739" data-article-title="Vul-RAG の再考: オープンウェイト モデルを使用した RAG ベースの脆弱性検出の再現性と再現性" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04739" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04739" target="_blank" rel="noopener">Vul-RAG の再考: オープンウェイト モデルを使用した RAG ベースの脆弱性検出の再現性と再現性</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、特に検索拡張世代 (RAG) 設定において、自動ソフトウェア脆弱性検出の強力な可能性を示しています。ただし、独自のモデルと API に依存するアプローチの場合、再現性と複製可能性はほとんど解明されていないため、報告された結果が一般化されるのか、それとも特定のモデルの選択に主に依存するのかという疑問が生じます。この研究では、高度な脆弱性知識で LLM を強化する、ソース コード脆弱性検出用の RAG ベースのフレームワークである Vul-RAG の再現性の研究を紹介します。まず、報告されたオープンウェイトベースラインモデルを使用して、完全にローカルでオープンウェイト設定で結果を再現します。次に、コードに特化した、汎用の、さまざまなパラメーター サイズの推論モデルを含む、最近のオープンウェイト LLM の多様なセットに評価を拡張します。この結果は、Vul-RAG の結果がローカル展開下で再現可能であることを裏付けていますが、多少の誤差はあります。評価されたすべてのモデルにわたって、ペアワイズ精度 (脆弱な関数とパッチ適用された関数の両方が正しく分類されたコード ペア) で約 0.30 のパフォーマンスのプラトーが観察されます。特に、このプラトーは、より最近の高度なモデルでも持続しており、モデルの容量の向上だけではパフォーマンスが大幅に向上しないことを示しています。最後に、検出の有効性、モデルの機能、モデルの規模の間の実際的な影響とトレードオフについて説明します。実装と評価のアーティファクトは、https://github.com/hs-esslingen-it-security/revisiting-Vul-RAG で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Revisiting Vul-RAG: Reproducibility and Replicability of RAG-based Vulnerability Detection with Open-Weight Models</p>
        <p class="orig-summary">Large language models (LLMs) have shown strong potential for automated software vulnerability detection, particularly in retrieval-augmented generation (RAG) settings. However, for approaches relying on proprietary models and APIs, reproducibility and replicability remain largely unexplored, raising the question of whether reported results generalize or depend primarily on specific model choices. In this work, we present a reproducibility study of Vul-RAG, a RAG-based framework for source code vulnerability detection that enhances LLMs with high-level vulnerability knowledge. We first replicate the results in a fully local and open-weights setting using the reported open-weight baseline models. We then extend the evaluation to a diverse set of recent open-weight LLMs, including code-specialized, general-purpose, and reasoning models of varying parameter sizes. The results confirm that the findings of Vul-RAG are reproducible under local deployment, but with minor deviations. Across all evaluated models, we observe a performance plateau at approximately 0.30 pairwise accuracy (code pairs for which both the vulnerable and the patched function are correctly classified). Notably, this plateau persists even for more recent and advanced models, indicating that improvements in model capacity alone do not substantially enhance performance. Finally, we discuss practical implications and trade-offs between detection effectiveness, model capabilities, and model scale. Implementation and evaluation artifacts are publicly available at https://github.com/hs-esslingen-it-security/revisiting-Vul-RAG.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a9820968dda" data-article-url="https://arxiv.org/abs/2606.04743" data-article-title="TIDE: テンプレートに基づく反復によるプロアクティブな複数の問題の発見" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04743" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04743" target="_blank" rel="noopener">TIDE: テンプレートに基づく反復によるプロアクティブな複数の問題の発見</a></h3>
      <p class="summary">エージェントは、ドキュメント、ツール、コードのアシスタントとして広く導入されています。ただし、これらは通常、明示的なユーザー要求にのみ作用し、ユーザーが気づいた問題のみを表面化します。一方、他の多くの重要な問題は、より広範なユーザー コンテキスト内で目に見えない形で共存しており、その総数は事前に不明です。私たちはこれを、文脈から複数の隠れた問題を発見するタスクとして組み立てます。その中で、共存する問題を明らかにし、裏付けとなる証拠に基づいて、具体的な行動と組み合わせる必要があります。この目的を達成するために、2 つの補完的なメカニズムを備えたテンプレート主導の反復フレームワークである TIDE を導入します。具体的には、シングルパス予測が最も顕著なケースに基づいて一般的な主張を生み出すという観察に動機づけられて、我々は反復発見を提案します。これは、すでに見つかったものに基づいて条件付けしながらラウンドごとに小さなバッチの候補を表面化し、後続のラウンドで対象範囲を拡大します。思考テンプレートは、以前に解決されたケースから抽出された再利用可能なスキーマであり、どのコンテキスト シグナルに注目し、それらをどのように接続するかを指定し、各予測を認識可能な問題クラスに固定します。 4 つのモデル バックボーンにわたって、パーソナル ワークスペースとソフトウェア リポジトリという 2 つの現実的な設定で TIDE を検証し、タスク カバレッジ、識別、解決に関して、シングルショットおよび並列マルチエージェント ベースラインを超える大幅な向上を示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TIDE: Proactive Multi-Problem Discovery via Template-Guided Iteration</p>
        <p class="orig-summary">Agents are widely deployed as assistants over documents, tools, and code. However, they typically act only on explicit user requests, which surface only the problems the user has noticed, while many other important problems coexist, hidden in plain sight, within the broader user context, with their total number unknown in advance. We frame this as the task of discovering multiple hidden problems from context, in which coexisting problems should be uncovered, grounded in supporting evidence, and paired with concrete actions. To this end, we introduce TIDE, a template-guided iterative framework with two complementary mechanisms. Specifically, motivated by the observation that single-pass prediction anchors on the most salient cases and yields generic claims, we propose iterative discovery, which surfaces a small batch of candidates per round while conditioning on what has already been found, so subsequent rounds extend coverage; and thought templates, reusable schemas distilled from previously solved cases that specify what contextual signals to attend to and how to connect them, anchoring each prediction in a recognizable problem class. We validate TIDE on two realistic settings, personal workspaces and software repositories, across four model backbones, showing substantial gains over single-shot and parallel multi-agent baselines on task coverage, identification, and resolution.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e4cfc66ea53c" data-article-url="https://arxiv.org/abs/2606.04752" data-article-title="マルチチャンネル信号トランスの入力エンコーダの実証的監査" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04752" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04752" target="_blank" rel="noopener">マルチチャンネル信号トランスの入力エンコーダの実証的監査</a></h3>
      <p class="summary">マルチチャネル スカラー信号を消費する変換器は、タイム ステップごとに $C$ 同時値を 1 つの $d_{\text{model}}$ 次元ベクトルに埋め込む必要があります。共有スカラー ベースライン、チャネルごとの線形射影、直交性正則化、非線形 MLP ステム、ブロック分割連結、チャネル独立およびトークンとしてのチャネル アーキテクチャ、投影位置エンコーディングに及ぶ 8 つの入力エンコーダを、チャネル ID を有益にするように設計された合成ベンチマークと、次のステップの負の対数尤度で測定される実データ チェックとしての ETTh1 で実証的に監査します。 (NLL)。見出しは、幅広い「最上位層」内で実質的にほぼ同等であることの 1 つです。標準のチャネルごとの線形射影 (nn.Linear(C, $d_{\text{model}}$)) は、統計的に現実的だが実質的には控えめな小さな差異まで、その層のすべての選択肢と一致します。 2 つのエンコーダが決定的に負けます。1 つは共有スカラー ベースラインであり、これは私たちが明らかにする情報理論上の理由で破綻します。もう 1 つはチャネルに依存しない PatchTST スピリット ベースラインで、両方のベンチマークでパフォーマンスを下回り、合成ベンチマークでは普遍的にオーバーフィットします。ペアテストは 2 つの小さなギャップを解決します。学習された線形層を通じて正弦波位置エンコードを投影すると、残りの部分が小さな $C$ でエッジ付けされ、直接幾何学的プローブによって位置チャネル直交化のメカニズムが示されます。非線形 MLP ステムは、テストした最大 $C$ でそれらに隣接し、より多くのトレーニング データの下でギャップは縮小します。実際的な推奨事項は、デフォルトで nn.Linear(C, $d_{\text{model}}$) を使用し、目の前のタスクに実際の理由がある場合にのみ、より複雑なものに手を伸ばすことです。この論文のすべての実験を再現するためのコードとデータは、https://github.com/OssiLehtinen/channel-encoder-audit で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">An Empirical Audit of Input Encoders for Multi-Channel Signal Transformers</p>
        <p class="orig-summary">Transformers consuming multi-channel scalar signals must embed $C$ simultaneous values into one $d_{\text{model}}$-dimensional vector per time step. We empirically audit eight input encoders -- spanning a shared-scalar baseline, per-channel linear projections, an orthogonality regulariser, a nonlinear MLP stem, block-partitioned concatenation, channel-independent and channel-as-token architectures, and a projected positional encoding -- on a synthetic benchmark designed to make channel identity informative and on ETTh1 as a real-data check, measured in next-step negative log-likelihood (NLL). The headline is one of practical near-equivalence within a wide &quot;top tier&quot;: the standard per-channel linear projection (nn.Linear(C, $d_{\text{model}}$)) matches every alternative in that tier up to small, statistically real but practically modest, differences. Two encoders lose decisively: the shared-scalar baseline, which collapses for information-theoretic reasons we make explicit, and the channel-independent PatchTST-spirit baseline, which underperforms on both benchmarks and overfits universally on the synthetic one. Paired tests resolve two small gaps: projecting the sinusoidal positional encoding through a learned linear layer edges the rest at small $C$, with a direct geometric probe showing the mechanism is positional-channel orthogonalisation; a nonlinear MLP stem edges them at the largest $C$ we test, with the gap shrinking under more training data. The practical recommendation is to use nn.Linear(C, $d_{\text{model}}$) by default and reach for something more elaborate only when the task at hand gives a real reason to do so. Code and data to reproduce every experiment in this paper are available at https://github.com/OssiLehtinen/channel-encoder-audit</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="13c5bd573e3f" data-article-url="https://arxiv.org/abs/2606.04755" data-article-title="Archi: CMS 実験におけるエージェント操作" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04755" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04755" target="_blank" rel="noopener">Archi: CMS 実験におけるエージェント操作</a></h3>
      <p class="summary">私たちは、異種データ ソースの体系的な取り込みと編成と、データ ソースを取得して推論する構成可能でプライベートで拡張可能なエージェントの展開を組み合わせた、科学コラボレーションのためのオープンソースのエンドツーエンド フレームワークである Archi を紹介します。 Archi のインスタンスは、技術オペレーターのサポート エージェントとして 2026 年 2 月から CERN の LHC での CMS 実験のコンピューティング運用チームに導入されており、文書、履歴データ、ライブ監視システムを組み合わせて検索および分析機能を提供しています。私たちはオペレーターのフィードバックと、実稼働環境での使用状況から収集された質問セットに基づいてシステムを評価し、人間のパネルと自動パネルによって採点します。このシステムは、CMS オペレーターが提起する実際のクエリを解決する運用タスクで効果的であることが証明されています。また、ローカルでホストされているオープンウェイト モデルが競争力を持って実行され、機密データの完全なプライベート管理が可能になることも観察されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Archi: Agentic Operations at the CMS Experiment</p>
        <p class="orig-summary">We present Archi, an open-source, end-to-end framework for scientific collaborations that combines the systematic ingestion and organization of heterogeneous data sources with the deployment of configurable, private, and extensible agents that retrieve and reason over them. An instance of Archi has been deployed for the Computing Operations team of the CMS experiment at CERN&#x27;s LHC since February 2026 as a support agent for technical operators, offering retrieval and analysis capabilities by combining documentation, historical data, and live monitoring systems. We evaluate the system on operator feedback and a question set collected from production usage, graded by human and automated panels. The system proves effective at operational tasks, resolving real-world queries posed by CMS operators. We also observe that locally-hosted, open-weight models perform competitively, enabling fully private management of sensitive data.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dce176a6b2ed" data-article-url="https://arxiv.org/abs/2606.04769" data-article-title="現実世界の MCP サーバーにおける記述コードの不一致: 測定、検出、およびセキュリティへの影響" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04769" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04769" target="_blank" rel="noopener">現実世界の MCP サーバーにおける記述コードの不一致: 測定、検出、およびセキュリティへの影響</a></h3>
      <p class="summary">モデル コンテキスト プロトコル (MCP) は、大規模言語モデル (LLM) が外部ツールを利用できるようにする重要な標準として登場しました。このエコシステムでは、LLM は MCP サーバーによって提供される自然言語記述に依存して、関数を選択して実行します。この相互作用は、ツールの説明がその基礎となる実装を忠実に反映していることを暗黙的に前提としていますが、この前提は実際には強制的に検証されるわけではありません。その結果、MCP の導入では、ツールの機能とセキュリティ境界に関する記述がコードの実際の動作と一致しない、記述コードの不一致 (DCI) という問題が発生する可能性があります。このペーパーでは、実際の MCP サーバーにおける DCI の包括的な研究を紹介します。私たちは問題を正式に定義し、機能の不一致や未発表の副作用に及ぶ包括的な分類法を提案します。この分類法に基づいて、私たちは、構造を認識した静的解析とダイレクト リバース アービトレーション プロンプト手法を組み合わせて、実際のコード実装に対してツールの説明を相互検証する自動化フレームワークである DCIChecker を開発しました。このフレームワークを、2,214 台の実世界の MCP サーバーから抽出された 19,200 個の記述コードのペアで構成される大規模なデータセットに適用します。私たちの測定では、DCI が広く普及しており、これらのペアの 9.93% が矛盾を示していることが明らかになりました。さらに、DCI が重大な防御の盲点を生み出し、運用上の失敗からこっそりと悪意のある動作に至るまで、さまざまなリスクを助長することを実証します。最後に、セマンティックな一貫性を強化し、新興エージェント エコシステムの信頼性を高めるための緩和戦略を提案します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Description-Code Inconsistency in Real-world MCP Servers: Measurement, Detection, and Security Implications</p>
        <p class="orig-summary">The Model Context Protocol (MCP) has emerged as a critical standard empowering Large Language Models (LLMs) to utilize external tools. In this ecosystem, LLMs rely on natural language descriptions provided by MCP servers to select and execute functions. This interaction implicitly assumes that tool descriptions faithfully reflect their underlying implementations, while this assumption is not mandatorily verified in practice. As a result, MCP deployments may suffer from a problem named Description-Code Inconsistency (DCI), where a tool&#x27;s description of its capabilities and security boundaries is not consistent with what the code actually does. In this paper, we present a comprehensive study of DCI in real-world MCP servers. We formally define the problem and propose a comprehensive taxonomy spanning functionality inconsistencies and undeclared side effects. Guided by this taxonomy, we develop DCIChecker, an automated framework that combines structure-aware static analysis with the Direct-Reverse-Arbitration prompting method to cross-validate tool descriptions against actual code implementations. We apply this framework to a large-scale dataset comprising 19,200 description-code pairs extracted from 2,214 real-world MCP servers. Our measurement reveals that DCI is widespread, with 9.93% of these pairs exhibiting inconsistencies. We further demonstrate that DCI creates a critical defense blind spot, facilitating varied risks from operational failures to stealthy malicious behaviors. Finally, we propose mitigation strategies to enforce semantic consistency and enhance the reliability of the emerging agentic ecosystem.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0295f812911d" data-article-url="https://arxiv.org/abs/2606.04772" data-article-title="脳再構築のためのシーケンシャル Mamba を使用した粗いから細かいまでの階層アーキテクチャ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04772" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04772" target="_blank" rel="noopener">脳再構築のためのシーケンシャル Mamba を使用した粗いから細かいまでの階層アーキテクチャ</a></h3>
      <p class="summary">深い視覚表現と人間の視覚システムとの関係を理解することは、計算論的神経科学における基本的な課題です。最新の視覚モデルは画像認識において優れた性能を達成していますが、人間の視覚野の階層構造との対応は未解決の問題のままです。この研究では、画像から fMRI へのエンコードのための新しい階層型 2 段階フレームワークである CHASMBrain を提案します。私たちのアーキテクチャは、デュアルストリーム Mamba 設計を活用して、視覚野の機能的組織化を動機として、グローバル セマンティック トークンとローカル空間パッチを明示的に分離して処理します。粗いものから細かいものへの戦略が採用されています。ステージ 1 では、ノイズ除去された ROI レベルのアクティベーションを予測します。一方、ステージ 2 では、Mamba-VAE を使用して、これらの粗い応答を完全なボクセル レベルの予測に洗練します。 Natural Scenes Dataset (NSD) の実験では、私たちの方法が 0.429 のピアソン相関と 0.261 の MSE を達成し、リッジ回帰や DINOv2 線形プローブを含むすべての評価されたベースラインを上回る性能を示していることが実証されています。予測性能を超えて、因果ブランチアブレーション実験は非対称の特殊化を明らかにします。パッチ ストリームは初期視覚野 (網膜部位) に特にロックされているのに対し、CLS ストリームは高次の領域に広範な意味論的コンテキストを提供します。この対応関係は、単に相関関係だけでなく因果的に成立します。さらに、被験者間の転移実験では、学習したバックボーンが被験者ごとの適応を最小限に抑えながら個人全体に一般化することが示されており、このモデルが共有された被験者に依存しない視覚表現を捉えていることが示唆されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Coarse-to-fine Hierarchical Architecture with Sequential Mamba for Brain Reconstruction</p>
        <p class="orig-summary">Understanding the relationship between deep visual representations and the human visual system is a fundamental challenge in computational neuroscience. While modern vision models achieve strong performance in image recognition, their correspondence with the hierarchical organization of the human visual cortex remains an open question. In this study, we propose CHASMBrain, a novel hierarchical two-stage framework for image-to-fMRI encoding. Our architecture leverages a dual-stream Mamba design to explicitly separate and process global semantic tokens and local spatial patches, motivated by the functional organization of the visual cortex. A coarse-to-fine strategy is employed: Stage 1 predicts denoised ROI-level activations, while Stage 2 refines these coarse responses into full voxel-level predictions using a Mamba-VAE. Experiments on the Natural Scenes Dataset (NSD) demonstrate that our method achieves a Pearson correlation of 0.429 and an MSE of 0.261, outperforming all evaluated baselines including ridge regression and DINOv2 linear probes. Beyond predictive performance, causal branch-ablation experiments reveal an asymmetric specialization: the patch stream is specifically locked to early visual cortex (retinotopic regions), while the CLS stream contributes broader semantic context to higher-order areas -- a correspondence that holds causally, not merely correlationally. Cross-subject transfer experiments further show that the learned backbone generalizes across individuals with minimal per-subject adaptation, suggesting the model captures a shared, subject-agnostic visual representation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0e61a74bb903" data-article-url="https://arxiv.org/abs/2606.04775" data-article-title="低減次数線形最適制御によるビデオ生成モデルのアクティベーションステアリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04775" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04775" target="_blank" rel="noopener">低減次数線形最適制御によるビデオ生成モデルのアクティベーションステアリング</a></h3>
      <p class="summary">大規模な Web データでトレーニングされた Text-to-Video (T2V) モデルは、望ましくないコンテンツを生成する可能性があり、視覚的な品質を犠牲にすることなく有害な出力を削減する介入を促す可能性があります。アクティベーション ステアリングは、微調整や即時フィルタリングに代わる魅力的な機構的代替手段を提供しますが、既存の T2V ステアリング方法は依然として限定的であり、通常はオーバーステアリングやコンテンツの劣化につながる可能性のある粗い非予測的な介入を適用します。このギャップを埋めるために、低侵襲 T2V ステアリングのための次数を減らした最適制御フレームワークである潜在活性化線形二次レギュレーター (LA-LQR) を提案します。 LA-LQR は、T2V 推論を動的システムとして定式化し、不必要な摂動をペナルティしながら、望ましい機能設定値に向けてアクティベーションを誘導する閉ループ フィードバック介入を計算します。高次元のビデオアクティベーションに対して最適な制御を実現可能にするために、対照的なプロンプトのペアから導出された低次元のタスク関連部分空間にアクティベーションを投影し、この潜在空間内の局所線形ダイナミクスを推定し、潜在 LQR 問題を解いてタイムステップおよびレイヤー固有のステアリング信号を取得します。潜在設定値追跡を生の活性化空間特徴制御に関連付ける理論的限界を提供し、低減された潜在ダイナミクスの忠実性を経験的に検証します。コンセプト ステアリングとビデオの安全性ベンチマークでは、LA-LQR は、プロンプトの忠実性と視覚的な品質を維持しながら、ベースラインと比較して安全でない世代を削減します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Activation Steering of Video Generation Models via Reduced-Order Linear Optimal Control</p>
        <p class="orig-summary">Text-to-video (T2V) models trained on large-scale web data can generate undesired content, motivating interventions that reduce harmful outputs without sacrificing visual quality. Activation steering offers an attractive mechanistic alternative to finetuning and prompt filtering, but existing T2V steering methods remain limited, typically applying coarse, non-anticipative interventions that can lead to oversteering and content degradation. To close this gap, we propose Latent Activation Linear-Quadratic Regulator (LA-LQR), a reduced-order optimal control framework for minimally invasive T2V steering. LA-LQR formulates T2V inference as a dynamical system and computes closed-loop feedback interventions that steer activations toward desired feature setpoints while penalizing unnecessary perturbations. To make optimal control feasible for high-dimensional video activations, we project activations onto a low-dimensional, task-relevant subspace derived from contrastive prompt pairs, estimate local linear dynamics in this latent space, and solve a latent LQR problem to obtain timestep- and layer-specific steering signals. We provide theoretical bounds relating latent setpoint tracking to raw activation-space feature control, and empirically validate the fidelity of the reduced latent dynamics. On concept steering and video safety benchmarks, LA-LQR reduces unsafe generations relative to baselines, while preserving prompt fidelity and visual quality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="db973afe2d6b" data-article-url="https://arxiv.org/abs/2606.04806" data-article-title="NoRA: 視覚的な一人称の規範的行動推論における根拠のある合理性の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04806" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04806" target="_blank" rel="noopener">NoRA: 視覚的な一人称の規範的行動推論における根拠のある合理性の評価</a></h3>
      <p class="summary">LLM とエージェント システムは社会環境にますます導入されており、安全で適切な行動には規範的能力が重要になっています。しかし、既存のアプローチは、規範的判断をテキストのみで評価するか、固定された一連の候補アクションの中から選択することに還元します。私たちはどちらも不十分だと主張します。実際には、エージェントにオプションのメニューが渡されることはありません。彼らは、目に見える事実に基づいて、検証可能な理由によって裏付けられた、合理的な行動をゼロから特定しなければなりません。 NoRA は視覚的な一人称ビデオ ベンチマークであり、モデルが次のアクションの候補を生成し、明示的な事実-理由-アクションのサポート グラフを通じてそれぞれを正当化する必要があります。このベンチマークは、HumanGold-190 および LLMSilver-1230 の分割を含む 1,420 個の注釈付きビデオ クリップで構成されています。各インスタンスは、アクションの調整、事実の根拠、およびサポートのバインディングを通じて評価され、単一の根拠のある合理性スコアに集約されます。私たちは、直接的、計画的、構造化されたプロンプト体制の下で 12 のマルチモーダル システムのベンチマークを行ったところ、現在の VLM はもっともらしいアクションと関連するシーンの事実を頻繁に回収しますが、完全な合理的なアクション スペースを構築し、選択されたアクションを正しいローカル サポートに結び付けるのに一貫して苦労していることがわかりました。 NoRA はこのギャップを測定可能にし、評価の問題を、モデルがアクションを選択できるかどうかから、適切な目に見える理由に基づいて適切なアクションを正当化できるかどうかに移します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">NoRA: Evaluating Grounded Reasonableness in Visual First-person Normative Action Reasoning</p>
        <p class="orig-summary">LLMs and agentic systems are increasingly deployed in social environments, making normative competence critical for safe and appropriate behavior. However, existing approaches either assess normative judgment in text alone or reduce it to choosing among a fixed set of candidate actions. We argue both are insufficient. In practice, agents are never handed a menu of options; they must identify a reasonable action from scratch, grounded in visible facts and supported by inspectable reasons. We introduce NoRA, a visual first-person video benchmark that requires models to generate candidate next actions and justify each through an explicit fact-reason-action support graph. The benchmark comprises 1,420 annotated video clips, including HumanGold-190 and LLMSilver-1230 splits. Each instance is evaluated through action alignment, factual grounding, and support binding, aggregated into a single grounded reasonableness score. We benchmark 12 multimodal systems under direct, deliberate, and structured prompting regimes, finding that current VLMs frequently recover plausible actions and relevant scene facts, but consistently struggle to construct the full reasonable action space and bind selected actions to the correct local support. NoRA makes this gap measurable, shifting the evaluation question from whether a model can pick an action to whether it can justify an appropriate action for the right visible reasons.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f82b56c4090e" data-article-url="https://arxiv.org/abs/2606.04812" data-article-title="おそらくほぼ安全な保証を備えたリスク認識型強化学習のシナリオ生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04812" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04812" target="_blank" rel="noopener">おそらくほぼ安全な保証を備えたリスク認識型強化学習のシナリオ生成</a></h3>
      <p class="summary">特にディープ RL を使用して学習されたポリシーは、未知の動作や安全ではない動作を引き起こす遷移の摂動の影響を受けやすいことが示される可能性があるため、安全性の保証は、現実世界への強化学習 (RL) エージェントの展開にとって重要です。ポリシー検証の方法は、安全制約に関するポリシーの軌跡をサンプリングすることによって確率的バリア証明書を構築し、それによって既知の安全な動作と未知の動作を区別することです。ポリシーが、エージェントを十分に探索されていない状態に置く遷移の不確実性または摂動の影響を受けやすい場合、これらの制約に違反する確率について厳密な上限と下限を取得することは困難になる可能性があります。これに対処するために、変分オートエンコーダー (VAE) を使用して遭遇した状態空間の分布を近似し、状態の潜在的な特性を使用して上限と下限のバリア証明書を構築し、既知の安全な動作の領域を高い信頼性で最適化します。私たちはこれを二重最適化問題として枠組み付けし、下限のバリア証明書が上限のバリア証明書よりも安全な領域のより保守的な推定を提示します。トレーニング中に 2 つの設定差内にある状態 (つまり、非ロバスト領域) をサンプリングすることにより、上限と下限を厳しくして、安全性についてより明確な確率的保証を提供することができます。私たちの研究では、設定された保証について説明し、実験的に境界の厳しさを実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Scenario Generation for Risk-Aware Reinforcement Learning with Probably Approximately Safe Guarantees</p>
        <p class="orig-summary">Guaranteeing safety is critical to the deployment of reinforcement learning (RL) agents in the real-world, especially as policies learned using deep RL may demonstrate susceptibility to transition perturbations that result in unknown or unsafe behaviour. A method of policy verification is to construct probabilistic barrier-certificates by sampling policy trajectories with respect to safety constraints, thereby demarcating known safe behaviour from unknown behaviour. Obtaining tight upper and lower bounds on the probability of violation of these constraints may be difficult if the policy is susceptible to transition uncertainty or perturbation that places the agent in insufficiently explored states. To address this, we approximate the distribution of the encountered state-space using a variational autoencoder (VAE) and construct upper and lower-bound barrier-certificates using latent characteristics of states to optimize for regions of known, safe behaviour with high confidence. We frame this in our work as a dual optimization problem where the lower-bound barrier-certificate presents a more conservative estimate of the safe region than the upper-bound barrier-certificate. Sampling states that lie within the set difference of the two during training, i.e. the non-robust region, allows us to tighten the upper and lower bounds to provide sharper probabilistic guarantees on safety. Within our study, we describe the guarantees placed and demonstrate the tightness of our bounds experimentally.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="86dca185ac4a" data-article-url="https://arxiv.org/abs/2606.04815" data-article-title="行動しながら学習: オンライン生涯学習エージェント向けのスキル強化されたテスト時間共進化フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04815" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04815" target="_blank" rel="noopener">行動しながら学習: オンライン生涯学習エージェント向けのスキル強化されたテスト時間共進化フレームワーク</a></h3>
      <p class="summary">生涯学習は、動的で対話型の環境で動作する大規模言語モデル (LLM) エージェントにとって不可欠です。しかし、長期的なタスクのための既存の生涯学習エージェントは通常、推論中の静的パラメータによる離散的なスキルや過去の経験の取得に依存しているため、人間の学習者のようにテスト時のフィードバックを継続的に内面化することができません。このギャップを埋めるために、オンライン生涯学習エージェントのための 2 段階の強化学習フレームワークであるスキル強化テスト時間共進化 (\texttt{LifeSkill}) を提案します。具体的には、複数のスキル条件付きポリシーのロールアウトの平均的な検証者の成功に応じて候補者のスキルに報酬を与えることで、スキル抽出のための直接監督の欠如に対処する検証者ガイド付きスキル学習を設計し、単にテキスト上でもっともらしいスキルではなく、タスクの解決に役立つスキルを生成するようにモデルを奨励します。さらに、オンライン スキル内部化を導入します。これは、スキル条件付きの軌道を報酬シグナルに変換することで、テスト時のインタラクション中にポリシー モデルを継続的に改善します。これにより、エージェントは推論機能をパラメータに直接内部化でき、エクスペリエンス取得によるコンテキストの肥大化を回避できます。 LifelongAgentBench の実験では、既存の生涯エージェントのベースラインと比較して、LifeSkill が平均パフォーマンスを 7 絶対ポイント向上させることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Learning While Acting: A Skill-Enhanced Test-Time Co-Evolution Framework for Online Lifelong Learning Agents</p>
        <p class="orig-summary">Lifelong learning is essential for Large Language Model (LLM) agents operating in dynamic, interactive environments. However, existing lifelong learning agents for long-horizon tasks typically depend on discrete skill or past experiences retrieval with static parameters during inference, which prevents them from continuously internalizing test-time feedback like human learners. To bridge this gap, we propose Skill-enhanced Test-Time Co-Evolution (\texttt{LifeSkill}), a two-stage reinforcement learning framework for Online Lifelong Learning Agents. Specifically, we design Verifier-Guided Skill Learning that addresses the lack of direct supervision for skill extraction by rewarding candidate skills according to the average verifier success of multiple skill-conditioned policy rollouts, encouraging the model to generate skills that are useful for solving tasks rather than merely plausible in text. Furthermore, we introduce Online Skill Internalization, which continuously improves the policy model during test-time interaction by transforming skill-conditioned trajectories into reward signals. This enables the agent to directly internalize reasoning capabilities into its parameters, avoiding the context bloat of experience retrieval. Experiments on LifelongAgentBench show that LifeSkill improves average performance by 7 absolute points by comparing with existing lifelong agent baselines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="300b6f703ca6" data-article-url="https://arxiv.org/abs/2606.04820" data-article-title="OA-CutMix：CutMixのラベルバイアスを補正する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04820" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04820" target="_blank" rel="noopener">OA-CutMix：CutMixのラベルバイアスを補正する</a></h3>
      <p class="summary">CutMix はデファクトスタンダードのミキシングオーグメンテーションとなっていますが、そのラベル割り当ては誤った仮定に基づいています。つまり、貼り付けられたパッチの領域は、ミキシングイメージに対するセマンティックな寄与を忠実に反映しています。ただし、実際には、パッチは背景領域に配置されることが多く、オブジェクトが表示されないクラスにラベルのクレジットが割り当てられます。 CutMix ラベルとセマンティック オブジェクト領域の平均不一致は $21.5\%$ です。サンプルの $17\%$ では、画像は可視オブジェクト ピクセルに寄与しませんが、ゼロ以外のラベル重みを受け取ります。我々は、エリアベースの CutMix の重みを、事前に計算されたセグメンテーション マスクから導出された重みで置き換え、各画像がミックスに寄与する可視オブジェクトの領域に比例してラベルを割り当てることで、このバイアスを修正する Object-Aware CutMix (OA-CutMix) を提案します。画像混合手順はまったく変更されていません。 4 つのアーキテクチャと 6 つのデータセットにわたる 10 以上の静的および動的ミキシング手法に対して OA-CutMix を評価します。 OA-CutMix は、すべてのタスクにわたって一貫して最高の精度を達成し、動的ミキシング手法をも上回るパフォーマンスを発揮しますが、トレーニング時間のコストはほんの数分の 1 です。小さなオブジェクトの改善が最も大きく、CutMix によるラベルのバイアスが最も大きくなります。したがって、ラベルを修正するだけで、画像混合アルゴリズムを変更する方法のパフォーマンスと同等またはそれを超えるのに十分です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">OA-CutMix: Correcting the Label Bias of CutMix</p>
        <p class="orig-summary">CutMix has become the de facto standard mixing augmentation, yet its label assignment rests on a flawed assumption: The area of the pasted patch faithfully reflects its semantic contribution to the mixed image. In practice, however, patches frequently land on background regions, assigning label credit to classes whose objects are not visible. The mean discrepancy of the CutMix label and the semantic object area is $21.5\%$. In $17\%$ of samples an image contributes zero visible object pixels yet receives nonzero label weight. We propose Object-Aware CutMix (OA-CutMix), which corrects this bias by replacing the area-based CutMix weight with one derived from precomputed segmentation masks, assigning labels in proportion to the visible object area each image contributes to the mix. The image mixing procedure is left entirely unchanged. We evaluate OA-CutMix against 10+ static and dynamic mixing methods across 4 architectures and 6 datasets. OA-CutMix consistently achieves the highest accuracy over all tasks, outperforming even dynamic mixing methods, but at a fraction of the training-time cost. Improvements are largest for small objects, where the label bias from CutMix is greatest. Thus, correcting the label is sufficient to match or exceed the performance of methods modifying the image mixing algorithm.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0fc29b5e081d" data-article-url="https://arxiv.org/abs/2606.04833" data-article-title="署名付きデュアル アテンション: 時系列予測での署名付き依存関係のキャプチャ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04833" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04833" target="_blank" rel="noopener">署名付きデュアル アテンション: 時系列予測での署名付き依存関係のキャプチャ</a></h3>
      <p class="summary">当初は自然言語処理用に開発された Transformer アーキテクチャとアテンション メカニズムは、現在では時系列予測のアプリケーションを含む幅広い深層学習モデルの中心となっています。ただし、標準的な注意メカニズムは同性愛的相互作用を暗黙的に想定しているため、時系列などの正と負の依存関係を持つデータをモデル化する機能が制限されます。この研究では、パラメータを追加せずに正と負の両方の関係パターンを捕捉する新しい注意定式化である、署名付きデュアル アテンションを導入します。相関構造にヒントを得たデュアル メッセージ パッシング スキームを活用することで、Signed Dual Attend は単一の共有ブロック内で支持情報と対照情報の両方を伝播し、追加のパラメーターなしで 2 頭のアテンションの表現力を効果的に実現します。このモジュールは既存のアーキテクチャにシームレスに統合でき、署名付きリレーショナル モデリングを必要とする特定の状況でパフォーマンスを向上させることができます。このアプローチにより、より表現力豊かでパラメーター効率の高いトランスフォーマーへの道が開かれます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Signed Dual Attention: Capturing Signed Dependencies in Time Series Forecasting</p>
        <p class="orig-summary">Initially developed for natural language processing, Transformer architectures and attention mechanisms are now central to a wide range of deep learning models, including applications in time series forecasting. A standard attention mechanism, however, implicitly assumes homophilic interactions, limiting its ability to model data with positive and negative dependencies, such as time series. In this work, we introduce the Signed Dual Attention, a novel attention formulation that captures both positive and negative relational patterns without additional parameters. By leveraging a dual message-passing scheme inspired by correlation structures, Signed Dual Attention propagates both supportive and contrastive information within a single shared block, effectively achieving the expressiveness of two head attention without additional parameters. This module can be seamlessly integrated into existing architectures and can yield performance gains in certain situations, requiring signed relational modeling. This approach opens a pathway toward more expressive and parameter-efficient transformers.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c39d8c94260a" data-article-url="https://arxiv.org/abs/2606.04850" data-article-title="不確実性を考慮したニューラル ネットワーク プロセッサのエンドツーエンドの共同設計: トレーニングとマッピングから製造まで" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04850" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04850" target="_blank" rel="noopener">不確実性を考慮したニューラル ネットワーク プロセッサのエンドツーエンドの共同設計: トレーニングとマッピングから製造まで</a></h3>
      <p class="summary">ニューラル ネットワーク プロセッサの設計は、エンドツーエンドの共同設計の問題です。ネットワーク アーキテクチャとトレーニングの予算によって、推論のワークロードが決まります。ハードウェア マッピングの決定により、チップ面積、レイテンシ、エネルギーが決まります。そしてこれらの特性が製造歩留まりと製造コストを決定します。実際には、これらの決定は個別の段階で行われ、既存の共同設計方法論は特定のアルゴリズムと密接に結合しているため、パイプライン全体を作り直さずに 1 つのコンポーネントを改善するのは困難です。この論文では、モノトーン共同設計理論に基づいた、ネットワーク トレーニング、チップ マッピング、ウェーハ レベルの製造、およびコンピューティング リソース割り当てにわたる 4 つの相互運用可能な設計ブロックで構成される統一フレームワークを紹介します。各ブロックは、機能とリソースのインターフェイスのみをシステムの残りの部分に公開するため、他の部分の構造を変更することなく、どのブロックも改良できます。中心的な貢献は不確実性の処理です。このフレームワークでは、確率的な結果を点推定値にまとめるのではなく、コスト、時間、電力と並んで明示的で最適化可能なリソースとして、成功確率の逆数である信頼度を導入しています。 3 つのケーススタディでアプローチを検証します。 1 つ目は、異種アプリケーション シナリオ全体でパレート最適実装を回復します。 2 つ目は、Confidence が事後診断ではなく、継続的に調整可能な設計ノブとして機能することを確認します。 3 番目は、単一ブロックの実装セットを改善すると、共同設計図を変更することなく、自動的にグローバル パレート フロントに伝播することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Uncertainty-Aware End-to-End Co-Design of Neural Network Processors: From Training and Mapping to Fabrication</p>
        <p class="orig-summary">Designing a neural network processor is an end-to-end co-design problem: network architecture and training budget determine the inference workload; hardware mapping decisions determine chip area, latency, and energy; and these characteristics govern fabrication yield and manufacturing cost. In practice, these decisions are made in separate stages, and existing co-design methodologies are tightly coupled to specific algorithms, making it difficult to improve one component without reworking the entire pipeline. This paper presents a unified framework, grounded in monotone co-design theory, that composes four interoperable design blocks spanning network training, chip mapping, wafer-level fabrication, and compute resource allocation. Each block exposes only a functionality-resource interface to the rest of the system, so any block can be refined without structural changes elsewhere. A central contribution is the treatment of uncertainty: rather than collapsing stochastic outcomes into point estimates, the framework introduces Confidence, the inverse of success probability, as an explicit and optimizable resource alongside cost, time, and power. Three case studies validate the approach. The first recovers Pareto-optimal implementations across heterogeneous application scenarios. The second confirms that Confidence functions as a continuously tunable design knob rather than a post-hoc diagnostic. The third demonstrates that improving a single block&#x27;s implementation set automatically propagates to the global Pareto front, without modifying the co-design diagram.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="806235e5470c" data-article-url="https://arxiv.org/abs/2606.04860" data-article-title="組み合わせ検索のための経験的に許容可能なニューラルヒューリスティックの学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04860" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04860" target="_blank" rel="noopener">組み合わせ検索のための経験的に許容可能なニューラルヒューリスティックの学習</a></h3>
      <p class="summary">ルービック キューブ、スライディング タイル パズル、ライト アウトなどの組み合わせパズルの最適な解法パスを見つけることは、依然として人工知能における古典的な課題です。 A* などのヒューリスティック検索アルゴリズムは、実際の残りのコストを決して過大評価しない許容可能なヒューリスティックを使用する場合にのみ、パスの最適性を保証します。 DeepCubeA のような深層強化学習 (RL) 手法は、ディープ ニューラル ネットワークをトレーニングして、コストを推定するヒューリスティックを近似します。ただし、標準の平均二乗誤差 (MSE) トレーニングでは定期的に過大評価が生じ、許容性に違反し、ソリューションの最適性が損なわれます。この論文では、検証調整された許容可能なニューラル ヒューリスティックを学習するための一般化可能なフレームワークを紹介します。過小評価にペナルティを与える非対称損失関数と組み合わせた過小評価の許容ベルマン演算子を使用して、値ネットワークをトレーニングします。残留神経機能近似誤差を考慮するために、検証スクランブルに対して計算される事後校正安全オフセットを提案します。私たちは、標準的な分析ベースラインと比較して、調整されたニューラル ヒューリスティックが、評価プロトコルの下で観察された許容性違反を達成せず、実際にパスの最適性を維持しながら、検索ノードの拡張を 2 × 2 のルービック キューブで最大 83.0%、3 × 3 の消灯グリッドで 19.9%、8 パズルで 1.9% 削減することを実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Learning Empirically Admissible Neural Heuristics for Combinatorial Search</p>
        <p class="orig-summary">Finding optimal solution paths for combinatorial puzzles like the Rubik&#x27;s Cube, sliding tile puzzles, and Lights Out remains a classical challenge in artificial intelligence. Heuristic search algorithms, such as A* , guarantee path optimality only when using an admissible heuristic-one that never overestimates the true remaining cost-to-go. Deep reinforcement learning (RL) methods like DeepCubeA train deep neural networks to approximate cost-to-go heuristics. However, standard mean-squared error (MSE) training regularly yields overestimations, violating admissibility and compromising solution optimality. In this paper, we introduce a generalizable framework for learning validation-calibrated admissible neural heuristics. We train a value network using an underestimating Admissible Bellman Operator combined with an Asymmetric Loss function to penalize overestimation. To account for residual neural function approximation errors, we propose a post-hoc calibration safety offset computed over validation scrambles. We demonstrate that our calibrated neural heuristics achieve no observed admissibility violations under the evaluation protocol and preserve path optimality in practice while reducing search node expansions by up to 83.0% on a 2 by 2 Rubik&#x27;s Cube, 19.9% on a 3 by 3 Lights Out grid, and 1.9% on an 8-Puzzle compared to standard analytical baselines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ca324dcd5fba" data-article-url="https://arxiv.org/abs/2606.04877" data-article-title="イザベル/HOLの誘拐証明者" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04877" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04877" target="_blank" rel="noopener">イザベル/HOLの誘拐証明者</a></h3>
      <p class="summary">表現ロジックに基づく証明アシスタントでは、証明検索の自動化が制限されており、証明アシスタントに基づく形式的検証のコストが上昇します。私たちは、Isabelle/HOL 用の Abduction Prover を導入することで、この問題に対処します。困難な証明目標が与えられた場合、Abduction Prover は、アブダクティブ推論を使用して有用な推測を特定することにより、目標の証明スクリプトを構築します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Abduction Prover in Isabelle/HOL</p>
        <p class="orig-summary">Proof assistants based on expressive logics suffer limited automation for proof search, raising the cost of formal verification based on proof assistants. We address this problem by introducing the Abduction Prover for Isabelle/HOL. Given a challenging proof goal, the Abduction Prover constructs a proof script for the goal by identifying useful conjectures using abductive reasoning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec637d90f307" data-article-url="https://arxiv.org/abs/2606.04881" data-article-title="DiverAge: 年齢を超えたアイデンティティ関係ガイダンスによる信頼性の高い多元的な顔の老化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04881" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04881" target="_blank" rel="noopener">DiverAge: 年齢を超えたアイデンティティ関係ガイダンスによる信頼性の高い多元的な顔の老化</a></h3>
      <p class="summary">顔の老化は、長期にわたる生体認証分析、年齢を超えた本人確認、法医学的身元分析において重要な役割を果たします。同じ対象者が、遺伝的要因、環境要因、ライフスタイル要因により、対象年齢で複数のもっともらしい外見を示す可能性があるため、顔の老化は本質的に 1 対多の世代の問題です。ただし、信頼できる顔の老化には多元性だけでは不十分です。モデルは、順序付けされた年齢グループ全体で順序レベルの信頼性を維持しながら、各年齢グループ内の外観レベルの候補者の多様性を提供する必要があります。既存の決定論的老化手法は、視覚的にもっともらしい年齢が進行した顔を合成できますが、通常は確率的多様性に欠けています。対照的に、多元的老化法は、局所的な外観の変動を導入しますが、多くの場合、完全な老化シーケンスの同一性の進化を明示的に制御できません。この論文では、拡散自動エンコーディングに基づいた階層的多元的顔老化フレームワーク \textbf{DiverAge} を提案します。 DiverAge は、確率的拡散デコードと年齢条件付きセマンティック変調を通じて、外観レベルの多様性を保存します。シーケンスレベルの信頼性を向上させるために、複数の対象年齢グループを共同でノイズ除去する推論時間ガイダンス戦略である、Cross-age Identity Relation Regulator (CARR) を導入します。 CARR は、実際の同一アイデンティティの異年齢ペアから事前に推定された異年齢アイデンティティ類似性 (CIS) によってガイドされ、トレーニング目標を変更したり、追加のトレーニング可能なパラメータを導入したりすることなく、一方的なサンプリング時間ガイダンスを通じて過剰な異年齢アイデンティティ ドリフトを抑制します。実験では、DiverAge が同一性の保持、年齢の精度、画質、外観レベルの多様性を維持しながら、配列レベルの順序の信頼性を向上させることが実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DiverAge: Reliable Pluralistic Face Aging with Cross-Age Identity Relation Guidance</p>
        <p class="orig-summary">Face aging plays an important role in long-term biometric analysis, cross-age identity verification, and forensic identity analysis. Since the same subject may exhibit multiple plausible appearances at a target age due to genetic, environmental, and lifestyle factors, face aging is inherently a one-to-many generation problem. However, pluralism alone is insufficient for reliable face aging: a model should provide appearance-level candidate diversity within each age group while maintaining sequence-level ordinal reliability across ordered age groups. Existing deterministic aging methods can synthesize visually plausible age-progressed faces, but usually lack stochastic diversity. In contrast, pluralistic aging methods introduce local appearance variations, but often fail to explicitly regulate the identity evolution of the full aging sequence. In this paper, we propose \textbf{DiverAge}, a hierarchical pluralistic face aging framework based on diffusion autoencoding. DiverAge preserves appearance-level diversity through stochastic diffusion decoding and age-conditioned semantic modulation. To improve sequence-level reliability, we introduce a Cross-age Identity Relation Regulator (CARR), an inference-time guidance strategy that jointly denoises multiple target age groups. CARR is guided by a Cross-age Identity Similarity (CIS) prior estimated from real same-identity cross-age pairs, and suppresses excessive cross-age identity drift through one-sided sampling-time guidance without modifying the training objective or introducing extra trainable parameters. Experiments demonstrate that DiverAge improves sequence-level ordinal reliability while maintaining identity preservation, age accuracy, image quality, and appearance-level diversity.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="94e506aadee4" data-article-url="https://arxiv.org/abs/2606.04903" data-article-title="人間が作成したオントロジーからの証明可能で監査可能で安全な LLM エージェント" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04903" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04903" target="_blank" rel="noopener">人間が作成したオントロジーからの証明可能で監査可能で安全な LLM エージェント</a></h3>
      <p class="summary">線形監査可能性を必要とする重要な問題ドメインでの使用を目的とした、LLM エージェント アーキテクチャ Agentic Redux を紹介します。型付きラムダ計算を使用して、適切なドメインで実行すると、Agentic Redux の実行が意味的に正しいことが保証され、すべての決定が追加専用台帳に記録されることを証明します。医療請求のコンプライアンスとセキュリティ脆弱性の開示という、実稼働グレードの 2 つの適切な領域を紹介します。両方のドメインで実行される Agentic Redux の実用的なコードは、サポートされるコード リポジトリで入手できます。また、問題ドメイン上でエージェント フレームワークを作成するための方法論であるオントロジー ファースト エージェント設計も紹介します。この設計では、人間の専門家が基本形式オントロジーを使用して問題ドメインをオントロジー化し、LLM を割り当てて、ドメイン内の問題に対処するためにエージェントと参加者が果たせる役割を導き出します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Provably Auditable and Safe LLM Agents from Human-Authored Ontologies</p>
        <p class="orig-summary">We introduce the LLM agent architecture Agentic Redux, intended for use with nontrivial problem domains that require linear auditability. Using the typed lambda calculus, we prove that, run on appropriate domains, Agentic Redux executions are semantically guaranteed to be correct, with all decisions recorded in an append-only ledger. We present two production-grade appropriate domains, in healthcare billing compliance, and security vulnerability disclosure. Working code for Agentic Redux run on both domains is available in a supporting code repository. We also introduce Ontology-First Agent Design, a methodology for creation of agent frameworks on a problem domain, in which a human expert ontologizes the problem domain with Basic Formal Ontology, and then assigns an LLM to derive roles that agents and humans-in-the-loop can fill, in order to work the problems in the domain.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0314151984da" data-article-url="https://arxiv.org/abs/2606.04906" data-article-title="「あなたの AI テキストは私のものではありません」: 現実的な仮定に基づいた AI 生成のテキスト検出の再定義と評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04906" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04906" target="_blank" rel="noopener">「あなたの AI テキストは私のものではありません」: 現実的な仮定に基づいた AI 生成のテキスト検出の再定義と評価</a></h3>
      <p class="summary">AI 生成テキストが広範な社会的リスクを引き起こすことは一般的に認められていますが、AI 生成テキスト検出に関する文献では、何が有害な使用に該当するかについて共通の理解がありません。むしろ、既存のデータセットやアプローチは、多くの場合、独自の基準を定義し、独自の仮定を立てており、場合によっては暗黙的に、現実世界のニーズやアプリケーションと大まかにしか関連していません。このギャップに対処するために、ここでは AI によって生成されたテキストとその特徴に関するさまざまな概念を体系的に定義します。これらを研究するために、私たちは AITDNA を収集します。AITDNA は、人間と機械が共同構築したテキストの新しいベンチマークであり、編集全体や AI との対話履歴など、詳細な生成情報が注釈付けされています。私たちはさまざまな機械生成のテキスト検出器をベンチマークしましたが、多くの場合、それらは特定の概念に対してのみ良好に機能し、広範な検出器としては機能しないことがわかりました。私たちはコードとデータを公開します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">&#x27;Your AI Text is not Mine&#x27;: Redefining and Evaluating AI-generated Text Detection under Realistic Assumptions</p>
        <p class="orig-summary">Although it is generally agreed that AI-generated text poses a broad societal risk, there is no common understanding in the AI-generated text detection literature on what constitutes harmful use. Rather, existing datasets and approaches often define their own criteria and make their own assumptions, sometimes implicitly, and often only loosely related to real-world needs and applications. To address this gap, we here systematically define various notions of AI-generated text and their characteristics. To study these, we collect AITDNA - a new benchmark of human-machine co-constructed texts that is annotated with detailed genesis information, such as the entire edit and AI-interaction history. We benchmark various machine-generated text detectors and find that they often only perform well for specific notions but not as broad detectors. We release code and data publicly.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ae8a1708aa85" data-article-url="https://arxiv.org/abs/2606.04922" data-article-title="生物医学的視覚言語モデルを迅速に調整するための幾何学を意識した蒸留" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04922" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04922" target="_blank" rel="noopener">生物医学的視覚言語モデルを迅速に調整するための幾何学を意識した蒸留</a></h3>
      <p class="summary">現在のプロンプトベースおよびアダプターベースのビジョン言語モデル (VLM) の調整は、臨床データの感度が凍結されたバックボーンを優先し、アノテーションが制限されている医療画像処理にとって魅力的です。ただし、これらの方法は通常、グラウンドトゥルース ク​​ラスのみを最適化し、他のすべてのクラスを同様に不正確なものとして扱い、臨床的に意味のあるクラス関係を無視し、限定された監視設定では不安定な決定境界を生成します。私たちは、クラス間ジオメトリを尊重しながらグランド トゥルースを保持する指向性ターゲットを生成するために、クラス関係構造を教師に注入する新しいフレームワークである Omni-Geometry Knowledge Distillation (OGKD) を提案します。これらのターゲットを使用して、2 つの蒸留損失を開発します。グローバル ジオメトリ認識蒸留 (GAD) はグローバル イメージ トークン上で動作し、ラベルガイド付きジオメトリ蒸留 (LGD) は同じジオメトリを注意深いパッチ トークンに適用して、きめの細かい位置合わせを改善します。基礎から新規および少数ショットの評価のために広く使用されている 11 の医療データセットでの包括的な実験と分析を通じて、当社の OGKD は大幅に優れたパフォーマンスを達成し、これまでのすべての最先端の VLM 適応対応製品と比較して、平均絶対ゲイン 1.7% ～ 2.8% により精度を一貫して向上させています。また、目に見えないクラスに対しても堅牢に一般化し、他のアプローチよりも信頼性の高い予測を生成します。私たちのコードは https://github.com/tientrandinh/OGKD で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Geometry-Aware Distillation for Prompt Tuning Biomedical Vision-Language Models</p>
        <p class="orig-summary">Current prompt-based and adapter-based tuning of vision-language models (VLMs) is attractive for medical imaging, where clinical data sensitivity favors frozen backbones and annotations are limited. However, these methods typically optimize only the ground-truth class, treating all other classes as equally incorrect, ignoring clinically meaningful class relations and yielding unstable decision boundaries in limited-supervision settings. We propose Omni-Geometry Knowledge Distillation (OGKD), a new framework that injects class-relation structure into the teacher to produce directional targets that preserve the ground truth while respecting inter-class geometry. Using these targets, we develop two distillation losses: Global Geometry-Aware Distillation (GAD) operates on the global image token, and Label-Guided Geometry Distillation (LGD) applies the same geometry to attentive patch tokens to improve fine-grained alignment. Across comprehensive experiments and analyses on 11 widely-used medical datasets for base-to-novel and few-shot evaluations, our OGKD achieves substantially better performance, consistently improving accuracy by an average absolute gain of 1.7%-2.8% over all prior state-of-the-art VLM adaptation counterparts. It also robustly generalizes to unseen classes and yields more reliable predictions than other approaches. Our code is available at https://github.com/tientrandinh/OGKD.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5527419a12d8" data-article-url="https://arxiv.org/abs/2606.04923" data-article-title="ルーブリックベースの強化学習における報酬ハッキングの再現、分析、検出" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04923" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04923" target="_blank" rel="noopener">ルーブリックベースの強化学習における報酬ハッキングの再現、分析、検出</a></h3>
      <p class="summary">ルーブリックベースの強化学習 (RL) は、LLM-as-a-Judge (LaaJ) を使用して、報酬としてルーブリックに従ってモデルの出力を採点します。ただし、政策モデルは裁判官の潜在的なバイアスを悪用し、報酬のハッキングや非効果的または危険なトレーニング結果につながる可能性があります。現実のルーブリックベースの RL では、このようなハッキング行為は多くの場合微妙であり、複数の裁判官のバイアスと絡み合っているため、分析、検出、軽減することが困難です。このペーパーでは、ルーブリックベースの RL のための制御可能なハッキング環境である CHERRL を紹介します。既知のバイアスを LaaJ に注入することで、CHERRL は報酬ハッキングの安定した再現、報酬の発散の明確な観察、およびハッキングの開始の正確な特定を可能にします。これは、ルーブリック ベースの RL における報酬ハッキングのメカニズムと緩和を研究するためのクリーンな実験テストベッドを提供します。その有用性を実証するために、発見可能性と悪用可能性の観点からさまざまな裁判官のバイアスを分析し、トレーニングログから報酬ハッキングの開始を自動的に検出するためのエージェントベースのシステムを調査します。コードと環境は https://github.com/THUAIS-Lab/CHERRL で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning</p>
        <p class="orig-summary">Rubric-based reinforcement learning (RL) uses an LLM-as-a-Judge (LaaJ) to score model outputs according to rubrics as rewards. However, policy models may exploit latent biases in the judge, leading to reward hacking and ineffective or unsafe training outcomes. In real-world rubric-based RL, such hacking behaviors are often subtle and entangled with multiple judge biases, making them difficult to analyze, detect, and mitigate. In this paper, we introduce CHERRL, a controllable hacking environment for rubric-based RL. By injecting known biases into LaaJ, CHERRL enables stable reproduction of reward hacking, explicit observation of reward divergence, and precise identification of hacking onset. This provides a clean experimental testbed for studying the mechanisms and mitigations of reward hacking in rubric-based RL. To demonstrate its utility, we analyze different judge biases from the perspectives of discoverability and exploitability, and explore an agent-based system for automatically detecting reward hacking onset from training logs. The code and environment are publicly available at https://github.com/THUAIS-Lab/CHERRL.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d8d6628ffe9b" data-article-url="https://arxiv.org/abs/2606.04930" data-article-title="AdaKoop: Koopman 演算子回帰を使用した非定常データ ストリームからの非線形ダイナミクスの効率的なモデリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04930" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04930" target="_blank" rel="noopener">AdaKoop: Koopman 演算子回帰を使用した非定常データ ストリームからの非線形ダイナミクスの効率的なモデリング</a></h3>
      <p class="summary">リアルタイム データ分析では、計算効率を維持しながら、非定常データ ストリーム内の非線形ダイナミクスに正確かつ適応的に対処する能力が必要です。ただし、非線形ダイナミクスは非常に複雑であるため、動的に変化する非線形パターンを捕捉し、厳しい時間制約の下でそれを下流のタスクに利用することは簡単ではありません。非線形の複雑さと計算の扱いやすさとの間のギャップを埋めるために、この研究では、非線形ダイナミクスが無限次元空間内の線形遷移として表現できるとするクープマン演算子理論を適用します。この演算子の有限次元近似に基づいて、非定常データ ストリーム上の非線形ダイナミクスをモデル化するための効率的なストリーミング アルゴリズムである AdaKoop を紹介します。私たちのアプローチは、クープマン演算子理論に基づいた確率的フレームワークを利用し、生の観測値とカーネル ヒルベルト空間 (RKHS) 特徴の再現の両方を潜在ベクトルからの放射として扱います。このデュアルビュー定式化により、非線形ダイナミクスを扱いやすい線形システムとして表現できます。したがって、AdaKoop を使用すると、ストリーミング形式で非線形ダイナミクスの効率的かつ安定したモデリングが可能になり、反復的な非線形最適化による法外な計算コストが回避されます。さらに、データ ストリームの非定常性に対処するために、AdaKoop は、突然のパターン シフトに対する統計的仮説テストを通じてパターンの切り替えを適応的に検出し、連続的な変化に対応するためにモデル パラメーターを段階的に更新します。さまざまなドメインにわたる合計 71 の実用的なベンチマーク データセットに対する広範な実験により、AdaKoop がリアルタイム予測精度と計算効率の点で最先端の手法を上回ることが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AdaKoop: Efficient Modeling of Nonlinear Dynamics from Nonstationary Data Streams with Koopman Operator Regression</p>
        <p class="orig-summary">Real-time data analysis requires the ability to accurately and adaptively address nonlinear dynamics in a nonstationary data stream while preserving computational efficiency. However, nonlinear dynamics are so complex that capturing dynamically changing nonlinear patterns and utilizing them for downstream tasks under strict time constraints is nontrivial. To bridge the gap between nonlinear complexity and computational tractability, this study applies Koopman operator theory, which states that nonlinear dynamics can be represented as linear transitions in an infinite-dimensional space. Building upon finite-dimensional approximations of this operator, we present AdaKoop, an efficient streaming algorithm for modeling nonlinear dynamics over nonstationary data streams. Our approach utilizes a probabilistic framework grounded in Koopman operator theory, treating both raw observations and reproducing kernel Hilbert space (RKHS) features as emissions from latent vectors. This dual-view formulation allows nonlinear dynamics to be expressed as a tractable linear system. Therefore, AdaKoop enables the efficient and stable modeling of nonlinear dynamics in a streaming fashion, avoiding the prohibitive computational costs of iterative nonlinear optimization. Furthermore, to address nonstationarity in data streams, AdaKoop adaptively detects the switching of patterns via statistical hypothesis testing for abrupt pattern shifts and incrementally updates model parameters to handle continuous changes. Extensive experiments on a total of 71 practical benchmark datasets across various domains demonstrate that AdaKoop outperforms state-of-the-art methods in terms of real-time forecasting accuracy and computational efficiency.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f144a0086597" data-article-url="https://arxiv.org/abs/2606.04967" data-article-title="プロンプトからプロセスまで: AI ソフトウェア開発エージェントをサポートするフレームワークのプロセス分類と比較評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04967" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04967" target="_blank" rel="noopener">プロンプトからプロセスまで: AI ソフトウェア開発エージェントをサポートするフレームワークのプロセス分類と比較評価</a></h3>
      <p class="summary">プログラミング用の AI ツールは、もはや単なるオートコンプリートやチャット アシスタントではありません。プロセス、役割、成果物、検証を備えた開発フレームワークとして組織化されています。最近の調査では、ソフトウェア エンジニアリングのためのエージェントと LLM がマッピングされていますが、これらの機能をプロセスに変える運用フレームワークを中心とした調査は行われていません。私たちは、機能的包含基準とトラクション測定を使用して一次ソースの直接検索を実行し、GitHub Spec Kit、OpenSpec、BMAD Method、Get Shit Done (GSD)、Spec Kitty、Reversa の 6 つのフレームワークを選択しました。それぞれが異なるパスを通じて AI 開発を攻撃します。つまり、完全および軽量バリアントでの仕様駆動型開発、エージェント駆動のアジャイル プランニング、エージェントを介したコンテキスト エンジニアリング、ワークツリーの分離とレビュー、レガシー システムからの運用仕様の回復です。私たちの中心的な貢献は、仕様、コンテキスト、役割、実行、検証、移植性という 6 次元のプロセス分類と、プロセスを複製可能なツールに変えるスコアリング ルーブリックです。これを 6 つのフレームワークとサンプル外のケースである Spec-Flow に適用します。 2 つの結果が際立っています。すでに何らかのプロセスを採用しているフレームワークの中には収束が見られます。分離されたプロンプトは中心性を失い、永続的な成果物、作業契約、トレーサビリティ、人間によるレビューが曖昧さを減らし、エージェントを調整するメカニズムになります。また、6 つの側面すべてを強力にカバーするフレームワークはなく、プロセスの深さとエージェント間の移植性の間の構造的なトレードオフが明らかになります。また、繰り返し発生するリスク、つまり仕様とコードの間のずれ、生成されたアーティファクトへの過剰な信頼、コミュニティ拡張の脆弱性、プラットフォームへの依存、プロセス全体のベンチマークの欠如なども見つかりました。最後に、中間品質の指標、コンテキスト ガバナンス、インストールのセキュリティと再現性に焦点を当てた、実証的評価のための研究課題を取り上げます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Prompt to Process: a Process Taxonomy and Comparative Assessment of Frameworks Supporting AI Software Development Agents</p>
        <p class="orig-summary">AI tools for programming are no longer just autocomplete or chat assistants: they organize themselves as development frameworks, with process, roles, artifacts and verification. Recent surveys map agents and LLMs for software engineering, but a study centered on the operational frameworks that turn these capabilities into process is missing. We ran a directed search of primary sources, with a functional inclusion criterion and traction measurement, and selected six frameworks: GitHub Spec Kit, OpenSpec, BMAD Method, Get Shit Done (GSD), Spec Kitty and Reversa. Each attacks AI development through a different path: spec-driven development in full and lightweight variants, agent-driven agile planning, context engineering over the agent, worktree isolation and review, and recovery of operational specifications from legacy systems. Our central contribution is a six-dimension process taxonomy: specification, context, roles, execution, validation and portability, with a scoring rubric that turns it into a replicable instrument. We apply it to the six frameworks and an out-of-sample case, Spec-Flow. Two results stand out. Among frameworks that already adopt some process there is convergence: the isolated prompt loses centrality, and persistent artifacts, work contracts, traceability and human review become mechanisms that reduce ambiguity and coordinate agents. And no framework strongly covers all six dimensions, exposing a structural trade-off between process depth and portability across agents. We also found recurring risks: drift between specification and code, excessive trust in generated artifacts, fragility of community extensions, platform dependence and a lack of benchmarks for the complete process. We close with a research agenda for empirical evaluation, focused on intermediate-quality metrics, context governance, installation security and reproducibility.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="49a974def989" data-article-url="https://arxiv.org/abs/2606.04970" data-article-title="計画、監視、回復: プロアクティブな手続き支援のためのベンチマークとアーキテクチャ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04970" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04970" target="_blank" rel="noopener">計画、監視、回復: プロアクティブな手続き支援のためのベンチマークとアーキテクチャ</a></h3>
      <p class="summary">私たちは、プロアクティブなマルチモーダル アシスタント システムを構想しています。これは、手順的なタスクに関するリアルタイムの段階的なガイダンスをユーザーに提供し、\textit{いつ}中断するか、\textit{どのように指導するかを自律的に決定します。ただし、現実的な状況、特にユーザーが予想されるステップ シーケンスから逸脱する一般的なケースを反映する大規模なクロスドメイン ベンチマークがないため、進歩は限られています。私たちはこのギャップに 4 つの貢献で対処します。 \textbf{(1)}~明示的な計画外 (OOP) アノテーションと回復手順を備えたプロアクティブな手順支援のための大規模ウェアラブル自己中心的データセットである \textbf{EgoProactive} をリリースします。 \textbf{(2)}~統一されたプロアクティブなガイダンス スキーマの下で、確立された 5 つのベンチマーク (Ego4D、EPIC-KITCHEN、EgoExo4D、HoloAssist、HowTo100M) を \textbf{Pro\textsuperscript{2}Bench} に拡張します。 \textbf{(3)}~手続き状態、視覚的キュー、および回復注入に特化した \textbf{分離プランナー -- インタラクション アーキテクチャ} を提案します。 \textbf{(4)}~Llama~4 および Qwen-3.6-VL でのクロスバックボーン レプリケーションによって検証された、モデル ファミリ間で転送するトレーニング後のレシピを紹介します。大規模な実験において、当社の訓練された Llama-4 システムは、6 つのデータセットすべてにわたって、強力な独自のベースライン (Claude Opus~4.6、Gemini~3.1~Pro、GPT~5.2) およびオープンウェイト ベースライン (Qwen3~VL~235B) ベースラインを超えて、客観的な介入の質を大幅に向上させました。さらに、Oracle 計画の実験では、計画の品質が制御されている場合、トレーニングされた二重モデルが高品質のガイダンスを生成し、計画外の回復で大きな利益が得られることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance</p>
        <p class="orig-summary">We envision a proactive multi-modal assistant system which gives users real-time step-by-step guidance on a procedural task, autonomously deciding \textit{when} to interrupt, and \textit{how} to coach. However, progress is limited by the absence of large-scale, cross-domain benchmarks that reflect realistic conditions, particularly the common case in which users deviate from the expected step sequence. We address this gap with four contributions: \textbf{(1)}~we release \textbf{EgoProactive}, a large-scale wearable-egocentric dataset for proactive procedural assistance with explicit Out-of-Plan (OOP) annotations and recovery steps; \textbf{(2)}~we augment five established benchmarks (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) into \textbf{Pro\textsuperscript{2}Bench} under a unified proactive-guidance schema; \textbf{(3)}~we propose a \textbf{decoupled planner--interaction architecture} specialized for procedural state, visual cues, and recovery injection; \textbf{(4)}~we introduce a post-training recipe that transfers across model families, validated by cross-backbone replication on Llama~4 and Qwen-3.6-VL. In extensive experiments, our trained Llama-4 system substantially improves objective intervention quality over strong proprietary baselines (Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2) and open-weight baselines (Qwen3~VL~235B) baselines across all six datasets. Oracle-plan experiments further show that, when plan quality is controlled, the trained duplex model produces high-quality guidance and large gains on Out-of-Plan recovery.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="596b21ea0e66" data-article-url="https://arxiv.org/abs/2606.04987" data-article-title="DeliChess: チェスのパズル解決における熟議のための多者対話データセット" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04987" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04987" target="_blank" rel="noopener">DeliChess: チェスのパズル解決における熟議のための多者対話データセット</a></h3>
      <p class="summary">多者間の対話は、協調的な推論と意思決定を研究するための重要な設定ですが、既存のデータセットは、構造化された詳細な複雑な推論タスクに焦点を当てていることはほとんどありません。 DeliChess は、参加者が協力して多肢選択のチェス パズルを解くグループ審議対話の新しいデータセットです。各グループは最初に個別にパズルを完成させ、次に修正された集合回答を提出する前に、複数の当事者によるディスカッションに参加します。データセットには、完全なトランスクリプト、ディスカッション前後の選択肢、パズルの難易度と動きの品質に関するメタデータを含む 107 の対話が含まれています。私たちはチェス エンジンの評価に基づいた 3 つの指標を使用してパフォーマンスを評価し、熟慮することでグループの精度が大幅に向上することがわかりました。さらに、事前の審議データに基づいて訓練された分類器を使用して、精査的な発話（つまり、提案、正当化、または戦略的考察を引き出すメッセージ）の役割を分析します。プロービングにより、ディスカッション後のグループのパフォーマンスはより変動しますが、一貫してパフォーマンスの向上につながるわけではありません。私たちのデータセットは、グループの推論、対話のダイナミクス、および明確に定義された戦略的領域における異なる視点や意見の解決をモデル化するための豊富なテストベッドを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DeliChess: A Multi-party Dialogue Dataset for Deliberation in Chess Puzzle Solving</p>
        <p class="orig-summary">Multi-party dialogue is a critical setting for studying collaborative reasoning and decision-making, yet existing datasets rarely focus on structured, in-depth complex reasoning tasks. We introduce DeliChess, a novel dataset of group deliberation dialogues in which participants collaboratively solve multiple-choice chess puzzles. Each group first completes the puzzle individually, then engages in a multi-party discussion before submitting a revised collective answer. The dataset includes 107 dialogues with full transcripts, pre- and post-discussion choices, and metadata on puzzle difficulty and move quality. We evaluate performance using three metrics based on chess engine evaluations, and find that deliberation significantly improves group accuracy. We further analyse the role of probing utterances (i.e., messages that elicit proposals, justifications, or strategic reflection) using a classifier trained on prior deliberation data. While probing makes group performance more variable after discussion, it does not consistently lead to better performance. Our dataset offers a rich testbed for modelling group reasoning, dialogue dynamics, and the resolution of differing perspectives and opinions in a well-defined strategic domain.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a6ec13062516" data-article-url="https://arxiv.org/abs/2606.04990" data-article-title="エージェント追跡から信頼へ: LLM エージェントにおける証拠追跡と実行来歴" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04990" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04990" target="_blank" rel="noopener">エージェント追跡から信頼へ: LLM エージェントにおける証拠追跡と実行来歴</a></h3>
      <p class="summary">大規模言語モデル (LLM) ベースのエージェントは、外部ツール、検索システム、メモリ モジュール、環境、その他のエージェントと対話することで、複雑なタスクを解決することが増えています。これらの機能により、エージェントの自律性が拡張されますが、エージェントの動作の検証、デバッグ、監査が難しくなります。最終回答の精度だけでは、出力がどのように生成されたか、各主張を裏付ける証拠は何か、ツールの呼び出しが正当化されたかどうか、記憶が後の決定にどのように影響したか、実行の失敗がどこで発生したかを説明することはできません。証拠追跡と実行来歴は、取得された証拠、ツール出力、メモリ項目、環境観察、中間クレーム、アクション、および最終的な回答がエージェントの実行全体を通じてどのように関連するかをモデル化することで、このギャップに対処します。この調査は、LLM エージェントにおける証拠の追跡と実行の出自に関する体系的なレビューと概念的な枠組みを提供します。私たちは、検索根拠、クレームサポート、ツール使用の安全性、メモリリネージ、可観測性、デバッグ、監査、リカバリを結び付ける、統一された来歴の観点に基づいて関連作業を整理します。トレースソース、証拠と実行単位、来歴関係、トレースの粒度とタイミング、表現形式、信頼関数を網羅する分類法を導入します。私たちは、出所の表現、証拠の帰属、ツール使用の出所、実行時のガードレール、出所を伴うメモリ、トレースベースの可観測性、障害診断など、主要な方法論の方向性を検討します。また、既存のベンチマーク、データセット、評価指標を来歴関連の機能にマッピングし、評価が最終的な回答の正しさからプロセスレベルの説明責任にどのように移行できるかについても説明します。最後に、統合トレース スキーマ、クレーム レベルおよびセマンティックの出所、出所を意識した安全メカニズム、現実的な実行トレース ベンチマーク、リカバリ指向の評価、プライバシーを意識した監査インフラストラクチャなどの未解決の課題について概説します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Agent Traces to Trust: Evidence Tracing and Execution Provenance in LLM Agents</p>
        <p class="orig-summary">Large language model (LLM)-based agents increasingly solve complex tasks by interacting with external tools, retrieval systems, memory modules, environments, and other agents. These capabilities expand agent autonomy, but also make agent behavior harder to verify, debug, and audit. Final-answer accuracy alone cannot explain how an output was produced, which evidence supported each claim, whether tool calls were justified, how memory influenced later decisions, or where execution failures originated. Evidence tracing and execution provenance address this gap by modeling how retrieved evidence, tool outputs, memory items, environment observations, intermediate claims, actions, and final answers are connected throughout agent execution. This survey provides a systematic review and conceptual framework for evidence tracing and execution provenance in LLM agents. We organize related work around a unified provenance perspective that connects retrieval grounding, claim support, tool-use safety, memory lineage, observability, debugging, audit, and recovery. We introduce a taxonomy covering trace sources, evidence and execution units, provenance relations, tracing granularity and timing, representation forms, and trust functions. We review key methodological directions, including provenance representation, evidence attribution, tool-use provenance, runtime guardrails, provenance-bearing memory, trace-based observability, and failure diagnosis. We also map existing benchmarks, datasets, and evaluation metrics to provenance-related capabilities, and discuss how evaluation can move from final-answer correctness toward process-level accountability. Finally, we outline open challenges, including unified trace schemas, claim-level and semantic provenance, provenance-aware safety mechanisms, realistic execution-trace benchmarks, recovery-oriented evaluation, and privacy-aware audit infrastructure.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="13045a16df35" data-article-url="https://arxiv.org/abs/2606.05004" data-article-title="SharedRequest: 大規模言語モデルのプライバシー保護モデルに依存しない推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05004" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05004" target="_blank" rel="noopener">SharedRequest: 大規模言語モデルのプライバシー保護モデルに依存しない推論</a></h3>
      <p class="summary">ChatGPT などのパブリック大規模言語モデル (LLM) の広範な展開に伴い、ユーザー プロンプトのプライバシーを保護することがますます重要な問題になっています。既存のプライバシー保護推論方法は、実用性または効率性を犠牲にしており、多くの場合、互換性を制限するモデル固有の変更が必要です。この論文では、個別のプロンプト レベルではなくバッチ レベルでプライバシー保護を再定式化する、プライバシー保護 LLM 推論のためのモデルに依存しないフレームワークである SharedRequest を提案します。重要なアイデアは、元のプロンプトとノイズの多いバリアントを混合することで機密情報を曖昧にし、同時に意味的に同等の命令をグループ化して、LLM 応答品質への影響を最小限に抑えながらクエリの大規模なバッチにわたる推論コストを償却することです。この設計は LLM アーキテクチャから独立しているため、モデル パラメーターへのアクセスやアーキテクチャの変更は必要ありません。経験的な結果は、SharedRequest が以前の差分プライバシー ベースラインと比較して $20\%$ 以上高い実用性を達成し、その共有プロンプト メカニズムにより、非バッチ推論と比較してクエリ コストを最大 $5\time$ 削減することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SharedRequest: Privacy-Preserving Model-Agnostic Inference for Large Language Models</p>
        <p class="orig-summary">With the widespread deployment of public large language models (LLMs) such as ChatGPT, protecting user prompt privacy has become an increasingly critical issue. Existing privacy-preserving inference methods sacrifice either utility or efficiency, and often require model-specific modifications that limit their compatibility. In this paper, we propose SharedRequest, a model-agnostic framework for privacy-preserving LLM inference that reformulates privacy protection at the batch level rather than the individual-prompt level. The key idea is to obscure sensitive information by mixing original prompts with noisy variants, while grouping semantically equivalent instructions to amortize the inference cost over a large batch of queries with minimal impact on LLM response quality. This design is independent of the LLM architecture, requiring no access to model parameters or architectural modification. Empirical results demonstrate that SharedRequest achieves over $20\%$ higher utility compared to prior differential privacy baselines, and its shared-prompt mechanism reduces query cost by up to $5\times$ compared to non-batched inference.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a21bb38d65bf" data-article-url="https://arxiv.org/abs/2606.05008" data-article-title="M$^3$Eval: 認知に基づいたビデオタスクによるマルチモーダル記憶評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05008" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05008" target="_blank" rel="noopener">M$^3$Eval: 認知に基づいたビデオタスクによるマルチモーダル記憶評価</a></h3>
      <p class="summary">マルチモーダル モデルが長時間ビデオの理解に向けて進歩するにつれ、メモリが重要な能力として浮上します。ビデオ データセットとベンチマークの開発には多大な努力が払われているにもかかわらず、既存の研究は主に知覚と推論に焦点を当てており、どのモデルが保持するか、情報がどの程度忠実に保存されるか、干渉下でもメモリがどの程度堅牢に保たれるかなど、記憶を体系的に評価することはありません。このギャップに対処するために、マルチモーダル モデルでさまざまなメモリ次元を調査するための最初の包括的な評価フレームワークおよびベンチマークである M$^3$Eval を導入します。認知心理学に基づいた当社のデザインは、記憶の重要な側面を分離する慎重に構築されたタスクを特徴としています。 M$^3$Eval を活用して、代表的なマルチモーダル モデルにわたって広範な実験を実施し、一貫した弱点と独特の動作を明らかにしました。私たちは、並列ビデオストリームを処理する際にモデルがもつれの解けた表現を維持するのに苦労し、人間の記憶で観察されるものとは大幅に異なる干渉パターンを示し、記憶ソースを時間領域よりも空間領域でより確実に接地し、限られた記号記憶を実証していることを発見しました。まとめると、私たちのベンチマークは将来の研究のための貴重なリソースを提供しますが、私たちの調査結果は、メモリが基本的でありながらまだ研究されていない機能であることを強調し、マルチモーダルモデルでより効果的なメモリメカニズムを設計するための洞察を提供します。コードとデータセットは https://pku-value-lab.github.io/m3eval-homepage で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">M$^3$Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks</p>
        <p class="orig-summary">As multi-modal models advance towards long-form video understanding, memory emerges as a critical capability. Despite substantial efforts in developing video datasets and benchmarks, existing works primarily focus on perception and reasoning, without systematically evaluating memory: what models retain, how faithfully information is preserved, and how robust memory remains under interference. To address this gap, we introduce M$^3$Eval, the first comprehensive evaluation framework and benchmark for probing different memory dimensions in multi-modal models. Grounded in cognitive psychology, our design features carefully constructed tasks that isolate key aspects of memory. Leveraging M$^3$Eval, we conduct extensive experiments across representative multi-modal models, revealing consistent weaknesses and distinctive behaviors. We find that models struggle to maintain disentangled representations when processing parallel video streams, exhibit interference patterns differing substantially from those observed in human memory, ground memory sources more reliably in the spatial domain than the temporal domain, and demonstrate limited symbolic memory. Collectively, our benchmark provides a valuable resource for future research, while our findings highlight memory as a fundamental yet underexplored capability and offer insights for designing more effective memory mechanisms in multi-modal models. Our code and dataset are available at https://pku-value-lab.github.io/m3eval-homepage.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8ead47b66172" data-article-url="https://arxiv.org/abs/2606.05009" data-article-title="DAR: エージェントティックハーネスを使用したデオンティック推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05009" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05009" target="_blank" rel="noopener">DAR: エージェントティックハーネスを使用したデオンティック推論</a></h3>
      <p class="summary">義務的推論とは、法律に基づく納税額の計算や移民控訴の結果の決定など、事例固有の事実に明示的なルールとポリシーを適用することで質問に答えるタスクです。 LLM ベースの義務論的推論の主な技術的課題は、関連するルールセットが長く相互参照される可能性があるため、モデルが特定の推論ステップに必要なルールを見つけられない可能性があることです。 Deontic Agentic Reasoning (DAR) を導入します。これは、モデルがオンデマンドで法令と対話するエージェント推論セットアップです。 DeonticBench のハード サブセット上の複数のハーネスで DAR を評価します。これらの設定全体で、エージェント ハーネスは義務論的推論タスクの最前線を押し広げることができることがわかりましたが、改善は均一ではありません。弱いモデルは、はるかに多くのトークンを消費しながら、数値タスクでパフォーマンスが低下することがよくあります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DAR: Deontic Reasoning with Agentic Harnesses</p>
        <p class="orig-summary">Deontic reasoning is the task of answering questions by applying explicit rules and policies to case-specific facts, for example computing tax liability under a statute or determining the outcome of an immigration appeal. A key technical challenge for LLM-based deontic reasoning is that the relevant ruleset can be long and cross-referenced, so models may still fail to locate the rules needed for a particular reasoning step. We introduce Deontic Agentic Reasoning (DAR), an agentic reasoning setup in which the model interacts with the statutes on demand. We evaluate DAR under multiple harnesses on hard subsets of DeonticBench. Across these settings, we find that agentic harnesses can push the frontier on deontic reasoning tasks, but improvements are not uniform: weaker models often degrade on numerical tasks while consuming far more tokens.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2d8053aaf23d" data-article-url="https://arxiv.org/abs/2606.05025" data-article-title="ロバスト推論蒸留のための不変勾配アライメント" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05025" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05025" target="_blank" rel="noopener">ロバスト推論蒸留のための不変勾配アライメント</a></h3>
      <p class="summary">大規模言語モデル (LLM) はショートカット学習に悩まされます。論理構造が同一であっても、意味論的表面がトレーニング データと異なる分布外 (OOD) 入力では体系的に失敗します。これは、思考連鎖の推論をより小さな生徒に伝える知識の蒸留パイプラインを弱体化させます。我々は、次の 3 つの革新によって、意味的に多様であるが論理的に同型のサンプル間で勾配更新を調整するトレーニング フレームワークである Invariant Gradient Alignment (IGA) を紹介します。(i) 論理異性体セット。異なる意味論的ドメイン (数学、医学、法律、科学) にわたって同一の論理構造を共有する問題のグループ。 (ii) 微分可能な \emph{Continuous Gradient Conflict Mask}。不変の方向を維持しながら、ドメイン間の勾配分散が大きいパラメータの次元を抑制します。 (iii) マスクされた勾配の切り詰められた SVD 射影を LoRA の低ランク多様体に戻し、パラメータ効率を全体的に維持します。理論的には、IGA は ERM よりも厳しい OOD 一般化境界を生成し、異性体ドメインの数に応じて拡張し、穏やかな規則性の下で標準 SGD レートに収束します。経験的に、IGA は 4 つのベンチマーク全体で 8 つのベースラインを上回り、精度が ERM-SFT よりも最大 14.3 pp 向上し、論理整合性スコアが 0.031 対 0.142 で、表現の不変性が 4 倍向上しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Invariant Gradient Alignment for Robust Reasoning Distillation</p>
        <p class="orig-summary">Large language models (LLMs) suffer from shortcut learning: they systematically fail on out-of-distribution (OOD) inputs whose semantic surface differs from training data, even when the logical structure is identical. This undermines knowledge distillation pipelines that transfer chain-of-thought reasoning to smaller students. We introduce Invariant Gradient Alignment (IGA), a training framework that aligns gradient updates across semantically diverse but logically isomorphic examples via three innovations: (i) Logical Isomer Sets, groups of problems sharing identical logical structure across distinct semantic domains (mathematics, medicine, law, science); (ii) a differentiable \emph{Continuous Gradient Conflict Mask}, that suppresses parameter dimensions with high cross-domain gradient variance while preserving invariant directions; and (iii) a truncated SVD projection of the masked gradient back onto the LoRA low-rank manifold, maintaining parameter efficiency throughout. Theoretically, IGA yields tighter OOD generalization bounds than ERM, scaling with the number of isomer domains, and converges at the standard SGD rate under mild regularity. Empirically, IGA outperforms eight baselines across four benchmarks with accuracy gains up to 14.3 pp over ERM-SFT and a Logical Consistency Score of 0.031 versus 0.142 -- a fourfold improvement in representational invariance.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c0194cdc522" data-article-url="https://arxiv.org/abs/2606.05037" data-article-title="自己反映型 API: AI エージェント回復のための構造は冗長性を上回る" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05037" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05037" target="_blank" rel="noopener">自己反映型 API: AI エージェント回復のための構造は冗長性を上回る</a></h3>
      <p class="summary">AI エージェントが API を呼び出して検証エラーに遭遇した場合、何が問題だったかだけではなく、次に何をすべきかが必要になります。自己反映型 API は、検証が失敗した場合、エージェントが外部の理由なしにリクエストを修復して再試行するのに十分な、機械可読な回復\_フィードバック.suggestions[] ペイロードを返します。リーク監査済みのパイロット (セルあたり $N{=}30$、LLM 3 つ、敵対的タスク 10) では、構造化された提案により、人間モデルでの平易な英語の診断 (フィッシャーの正確な $p \le 0.0022$) と比較して、タスク完了率が $+36.7$ ～ $40.0$pp 上昇し、$1.8$ ～ $2.2\倍$ 向上しました。成功ごとのトークン効率。 gpt-4o-mini では上昇率は大きくありません ($p{=}0.435$)。課金 API での 2 番目のドメインのレプリケーションによってパターンが確認されます。この比較は、文書化されていない 2 つのクラスの回答漏洩を LLM ベンチマークで監査した後にのみ有効です。再利用可能な CI インフラストラクチャとして、audit\_prompt\_leakage.py を出荷します。コードとデータ: https://github.com/arquicanedo/self-reflective-apis。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Self-Reflective APIs: Structure Beats Verbosity for AI Agent Recovery</p>
        <p class="orig-summary">When an AI agent calls an API and hits a validation error, it needs more than what went wrong -- it needs what to do next. A self-reflective API returns, on validation failure, a machine-readable recovery\_feedback.suggestions[] payload sufficient for the agent to repair the request and retry without external reasoning. On a leak-audited pilot ($N{=}30$ per cell, 3 LLMs, 10 adversarial tasks), structured suggestions lift task-completion rate by $+36.7$--$40.0$pp over plain-English diagnoses on Anthropic models (Fisher&#x27;s exact $p \le 0.0022$), at $1.8$--$2.2\times$ better per-success token efficiency. The lift is not significant on gpt-4o-mini ($p{=}0.435$); a second-domain replication on a billing API confirms the pattern. The comparison only holds after auditing two undocumented classes of answer leakage in LLM benchmarks. We shipaudit\_prompt\_leakage.py as reusable CI infrastructure. Code and data: https://github.com/arquicanedo/self-reflective-apis.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ded8a4bebda4" data-article-url="https://arxiv.org/abs/2606.05058" data-article-title="UniCAD: マルチモーダル マルチタスク CAD の統合ベンチマークおよびユニバーサル モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05058" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05058" target="_blank" rel="noopener">UniCAD: マルチモーダル マルチタスク CAD の統合ベンチマークおよびユニバーサル モデル</a></h3>
      <p class="summary">コンピューター支援設計 (CAD) は、正確で編集可能な 3D モデルの作成を可能にすることで、現代のエンジニアリングと製造を支えています。ただし、CAD の研究では通常、タスクが個別に研究されており、統一されたベンチマークがないため、CAD のマルチモーダル、マルチタスクの学習が妨げられています。このギャップに対処するために、ポイントから CAD への再構成、テキスト/画像から CAD への生成、および多様な入力モダリティにわたる CAD の質問応答をカバーする、マルチモーダル CAD 学習のための包括的なベンチマークである UniCAD を導入します。ベンチマークとともに、テキスト、画像、スケッチ、点群を取り込み、これらの異種タスクを単一のフレームワーク内でエンドツーエンド方式で実行するユニバーサル マルチモーダル大規模言語モデルである UniCAD-MLLM を紹介します。 UniCAD および Fusion360 ベンチマークに関する広範な実験により、UniCAD-MLLM がすべてのタスクにわたって最先端のパフォーマンスを達成し、既存のタスク固有およびマルチタスクのベースラインを上回るパフォーマンスを発揮することが実証されました。今後の研究を加速するために、データセット、コード、事前トレーニング済みモデルをリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">UniCAD: A Unified Benchmark and Universal Model for Multi-Modal Multi-Task CAD</p>
        <p class="orig-summary">Computer-Aided Design (CAD) underpins modern engineering and manufacturing by enabling the creation of precise, editable 3D models. However, CAD research typically studies tasks in isolation, and multi-modal, multi-task learning for CAD is hindered by the absence of a unified benchmark. To address this gap, we introduce UniCAD, a comprehensive benchmark for multi-modal CAD learning that covers point-to-CAD reconstruction, text/image-to-CAD generation, and CAD question answering across diverse input modalities. Alongside the benchmark, we present UniCAD-MLLM, a universal multi-modal large language model that ingests text, images, sketches, and point clouds and performs these heterogeneous tasks in an end-to-end fashion within a single framework. Extensive experiments on the UniCAD and Fusion360 benchmarks demonstrate that UniCAD-MLLM achieves state-of-the-art performance across all tasks, outperforming existing task-specific and multi-task baselines. We will release the dataset, code, and pretrained models to accelerate future research.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3071054e3e86" data-article-url="https://arxiv.org/abs/2606.05085" data-article-title="言語モデルを使用した研究論文のタイトルの自動生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05085" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05085" target="_blank" rel="noopener">言語モデルを使用した研究論文のタイトルの自動生成</a></h3>
      <p class="summary">研究論文のタイトルは、その主なアイデアと、場合によっては結論を明確かつ簡潔に伝えます。適切なタイトルを選択することは多くの場合困難ですが、自動タイトル生成は著者のこの作業を支援します。この研究では、オープンウェイトの事前トレーニング済みの大規模言語モデルを使用して、抄録から論文のタイトルを生成する手法を提案します。私たちは CSPubSum および LREC-COLING-2024 データセットを使用し、社会科学の Springer ジャーナル 4 誌から厳選された新しいデータセット SpringerSSAT を導入します。さらに、タイトルの生成には GPT-3.5-turbo をゼロショット設定で使用します。モデルのパフォーマンスは、ROUGE、METEOR、MoverScore、BERTScore、および SciBERTScore メトリックを使用して評価されます。私たちの実験では、微調整された PEGASUS-large が、ほとんどの指標において、微調整された LLaMA-3-8B やゼロショット GPT-3.5-turbo などの他のモデルよりも優れていることがわかりました。さらに、ChatGPT が創造的な論文タイトルを生成できることを実証します。全体として、AI によって生成されたタイトルは一般に適切で信頼性があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Automatic Generation of Titles for Research Papers Using Language Models</p>
        <p class="orig-summary">The title of a research paper conveys its primary idea and, occasionally, its conclusions in a clear and concise manner. Choosing an appropriate title is often challenging, and automated title generation can assist authors in this task. In this work, we propose a technique to generate paper titles from abstracts using open-weight pre-trained and large language models. We use the CSPubSum and LREC-COLING-2024 datasets and introduce a new dataset, SpringerSSAT, curated from four Springer journals in the social sciences. Additionally, we use GPT-3.5-turbo in a zero-shot setting to generate titles. Model performance is evaluated with ROUGE, METEOR, MoverScore, BERTScore, and SciBERTScore metrics. Our experiments show that fine-tuned PEGASUS-large outperforms other models, including fine-tuned LLaMA-3-8B and zero-shot GPT-3.5-turbo, across most metrics. We further demonstrate that ChatGPT can generate creative paper titles. Overall, AI-generated titles are generally appropriate and reliable.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="190ddac5504c" data-article-url="https://arxiv.org/abs/2606.05106" data-article-title="言語モデルのための算術教育学" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05106" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05106" target="_blank" rel="noopener">言語モデルのための算術教育学</a></h3>
      <p class="summary">私たちは、人間の数学教育学の方法が言語モデルのトレーニングを算術推論に導くことができるかどうかを調査します。 GASING メソッド (トークン生成の因果関係に沿った左から右への手順で基本的な算術計算を解くインドネシアの教育学) に基づいて、各操作を計算手順として運用し、その実行トレースが自然言語の思考連鎖 (CoT) 監視にシリアル化されます。インドネシア語用の音節凝集型 TOBA トークナイザーを備えた小型 GPT-2 デコーダー (86M パラメーター) は、強化学習や報酬ベースの最適化を行わずに、次のトークンの予測目標のみを使用して、このデータに基づいて最初からトレーニングされます。トレーニングのモニタリングにより、3 つの異なる学習段階が明らかになり、機構分析 (CoT 情報グラフへの注意マスキング介入、残差ストリームの調査、ロジットレンズ検査) から、モデルが最初に手続き型経路を内部化し、その後、明示的なステップごとの計算を行わずに中間結果を取得する連想的な「暗算」能力を開発することが示されました。トレーニングされたモデルは、保留された問題に対して 80% 以上の精度に達し、大幅に大規模な言語モデルに対して競争力のあるパフォーマンスを達成しました。これは、対象を絞った教育学的に根拠のあるトレーニングにより、小規模でも強力で経済的な算術能力を生み出すことができることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Arithmetic Pedagogy for Language Models</p>
        <p class="orig-summary">We investigate whether methods of human mathematics pedagogy can guide the training of language models toward arithmetic reasoning. Building on the GASING method -- an Indonesian pedagogy that solves basic arithmetic through a left-to-right procedure aligned with the causal order of token generation -- we operationalize each operation as a computational procedure whose execution trace is serialized into natural-language Chain-of-Thought (CoT) supervision. A small GPT-2 decoder (86M parameters) with a syllabic-agglutinative TOBA tokenizer for Indonesian is trained from scratch on this data using only a next-token prediction objective, without reinforcement learning or reward-based optimization. Monitoring training reveals three distinct learning phases, and mechanistic analyses -- attention-masking interventions on the CoT information graph, residual-stream probing, and logit-lens inspection -- show that the model first internalizes a procedural pathway and subsequently develops an associative, ``mental-arithmetic&#x27;&#x27; capacity that retrieves intermediate results without explicit step-by-step computation. The trained model reaches over 80% accuracy on held-out problems and attains competitive performance against substantially larger language models, indicating that targeted, pedagogically grounded training can yield strong and economical arithmetic capability at small scale.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1e616a4ec588" data-article-url="https://arxiv.org/abs/2606.05107" data-article-title="ラベルが必要なのは誰ですか?すでに持っているメタデータを使用して Vision Foundation モデルを適応させる" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05107" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05107" target="_blank" rel="noopener">ラベルが必要なのは誰ですか?すでに持っているメタデータを使用して Vision Foundation モデルを適応させる</a></h3>
      <p class="summary">私たちは、強力だが汎用的なビジョン基盤モデルを特殊な科学領域に適応させるラベルフリーのアプローチを提案します。標準的な教師あり微調整は、多くの場合、これらの設定には適していません。ラベルが不足しており、タスク固有のトレーニングではモデルの一般性が崩壊し、堅牢性が損なわれる可能性があります。代わりに、メタデータを活用して、自己監視型の方法で表現を新しいドメインに適応させます。私たちの手法である FINO は、標準的な自己教師あり目標と、非常に粒度の高い離散メタデータと連続メタデータの両方を処理する柔軟なメタデータ ガイダンスを組み合わせています。これは、偽の要素を抑制しながら、有益な要素を保持する表現を奨励します。 FINO は、細胞内蛍光顕微鏡、地球観察、野生動物のモニタリング、医療画像処理において、標準的な教師なしドメイン適応や完全教師あり適応を常に上回っています。また、バックボーン適応にタスクラベルを使用せず、監視に軽量プローブのみを使用しながら、高度に専門化されたドメイン固有の最先端技術を超えています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Who Needs Labels? Adapting Vision Foundation Models With the Metadata You Already Have</p>
        <p class="orig-summary">We propose a label-free approach to adapt powerful but generic vision foundation models to specialized scientific domains. Standard supervised fine-tuning is often ill-suited to these settings: labels are scarce, and task-specific training can collapse the model&#x27;s generality and hurt robustness. We instead leverage metadata to adapt representations to new domains in a self-supervised manner. Our method, FINO, combines a standard self-supervised objective with flexible metadata guidance that handles both highly granular discrete metadata and continuous metadata. It encourages the representation to preserve informative factors while suppressing spurious ones. Across subcellular fluorescence microscopy, Earth observation, wildlife monitoring, and medical imaging, FINO consistently outperforms standard unsupervised domain adaptation and fully supervised adaptation. It also exceeds highly-specialized domain-specific state of the art, while using no task labels for backbone adaptation and only lightweight probes for supervision.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="10af44f002f7" data-article-url="https://arxiv.org/abs/2606.05115" data-article-title="子供の自己中心的なインプットによる継続的な視覚的および言語的学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05115" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05115" target="_blank" rel="noopener">子供の自己中心的なインプットによる継続的な視覚的および言語的学習</a></h3>
      <p class="summary">子どもたちは、時間的に構造化された継続的な自己中心的な経験の流れから言葉の意味を学びます。最近の研究では、ニューラルネットワークは子供の自己中心的なビデオ録画からも単語参照マッピングを学習できることが示されているが、それらはシャッフルされたデータを数百エポックにわたって循環しており、子供たちが実際に環境に遭遇する様子とは対照的である。私たちは、SAYCam データセットを単一の時系列パスで処理し、ストリーミング視覚表現学習と画像テキスト対比目標を組み合わせた継続的マルチモーダル学習フレームワークである BabyCL を紹介します。 BabyCL は、ストリームの多段階の時間的セグメンテーションと、ビジュアル履歴とマルチモーダル履歴を個別に管理するデュアル リプレイ バッファーを組み合わせ、共有バックボーン上で 3 つの対照的な損失を使用して共同トレーニングされます。一致した最適化予算の下で、BabyCL は SAYCam Labeled-S 4AFC ベンチマークでストリーミング学習ベースラインを上回り、オフライン トレーニングの上限との差を大幅に狭めます。アブレーションは、オンライン時間セグメンテーション ウィンドウの長さとリプレイ バッファーの排除ルールに対してゲインが堅牢であることを示しています。まとめると、これらの結果は、子供の実際の経験にはるかに近い訓練条件下で、意味のある単語参照マッピングが現れる可能性があることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Continual Visual and Verbal Learning Through a Child&#x27;s Egocentric Input</p>
        <p class="orig-summary">Children learn the meanings of words from a continuous, temporally structured stream of egocentric experience. Recent work shows that neural networks can also learn word-referent mappings from a child&#x27;s egocentric video recordings, but they cycle through the shuffled data for hundreds of epochs, contrasting with how children actually encounter their environment. We introduce BabyCL, a continual multimodal learning framework that processes the SAYCam dataset in a single chronological pass, combining streaming visual representation learning with an image-text contrastive objective. BabyCL combines a multi-stage temporal segmentation of the stream with a dual replay buffer that independently manages visual and multimodal histories, and it is jointly trained with three contrastive losses on a shared backbone. Under a matched optimization budget, BabyCL outperforms streaming learning baselines on the SAYCam Labeled-S 4AFC benchmark, substantially narrowing the gap to an upper bound of offline training. Ablations show that the gains are robust to the length of the online temporal segmentation window and the eviction rule of the replay buffer. Together, these results show that meaningful word-referent mappings can emerge under training conditions much closer to a child&#x27;s actual experience.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="426518b2a7c7" data-article-url="https://arxiv.org/abs/2606.05121" data-article-title="Audio Interaction Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05121" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05121" target="_blank" rel="noopener">Audio Interaction Model</a></h3>
      <p class="summary">Audio is an inherently interactive modality, yet today&#x27;s Large Audio Language Models (LALMs) are offline, and streaming audio models each h…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4051d969919b" data-article-url="https://arxiv.org/abs/2606.05130" data-article-title="Towards Efficient and Evidence-grounded Mobility Prediction with LLM-Driven Agent" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05130" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05130" target="_blank" rel="noopener">Towards Efficient and Evidence-grounded Mobility Prediction with LLM-Driven Agent</a></h3>
      <p class="summary">Individual-level mobility prediction is central to urban simulation, transportation planning, and policy analysis. Supervised sequence mode…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dbe016d64d6d" data-article-url="https://arxiv.org/abs/2606.05142" data-article-title="GeM-NR: Geometry-Aware Multi-View Editing for Nonrigid Scene Changes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05142" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05142" target="_blank" rel="noopener">GeM-NR: Geometry-Aware Multi-View Editing for Nonrigid Scene Changes</a></h3>
      <p class="summary">Recent developments in multi-view image editing with generative models have brought us a step closer toward general 3D content generation a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d75312895121" data-article-url="https://arxiv.org/abs/2606.05145" data-article-title="Failed Reasoning Traces Tell You What Is Fixable (But Not by Reading Them)" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05145" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05145" target="_blank" rel="noopener">Failed Reasoning Traces Tell You What Is Fixable (But Not by Reading Them)</a></h3>
      <p class="summary">When post-trained language models fail on reasoning problems, the common test-time-scaling response is to spend more compute on additional…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cd8f01b59235" data-article-url="https://arxiv.org/abs/2606.05150" data-article-title="Multi-Column RBF Neural Network Using Adaptive and Non-Adaptive Particle Swarm Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05150" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05150" target="_blank" rel="noopener">Multi-Column RBF Neural Network Using Adaptive and Non-Adaptive Particle Swarm Optimization</a></h3>
      <p class="summary">The radial basis function neural network (RBFN) trained with a gradient descending algorithm provides an effective fully connected structur…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="247507860744" data-article-url="https://arxiv.org/abs/2606.05152" data-article-title="Reinforcement Learning from Rich Feedback with Distributional DAgger" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05152" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05152" target="_blank" rel="noopener">Reinforcement Learning from Rich Feedback with Distributional DAgger</a></h3>
      <p class="summary">Reasoning models have advanced rapidly, but the dominant reinforcement learning from verifiable rewards (RLVR) recipe remains surprisingly…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dd1e47391d77" data-article-url="https://arxiv.org/abs/2606.05158" data-article-title="Streaming Communication in Multi-Agent Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05158" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05158" target="_blank" rel="noopener">Streaming Communication in Multi-Agent Reasoning</a></h3>
      <p class="summary">Multi-agent reasoning systems adopt a &quot;generate-then-transfer&quot; paradigm that forces end-to-end latency to scale linearly with pipeline dept…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f648934d2bf" data-article-url="https://arxiv.org/abs/2505.17315" data-article-title="Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.17315" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.17315" target="_blank" rel="noopener">Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning</a></h3>
      <p class="summary">Recent language models exhibit strong reasoning capabilities, yet the influence of long-context capacity on reasoning remains underexplored…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1ea440e8c075" data-article-url="https://arxiv.org/abs/2506.10912" data-article-title="Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.10912" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.10912" target="_blank" rel="noopener">Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification?</a></h3>
      <p class="summary">Toxicity remains a leading cause of early-stage drug development failure. Despite advances in molecular design and property prediction, the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="808a36b8826c" data-article-url="https://arxiv.org/abs/2510.01902" data-article-title="Constrained Adaptive Rejection Sampling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.01902" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.01902" target="_blank" rel="noopener">Constrained Adaptive Rejection Sampling</a></h3>
      <p class="summary">Language Models (LMs) are increasingly used in applications where generated outputs must satisfy strict semantic or syntactic constraints.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="27da600ad103" data-article-url="https://arxiv.org/abs/2510.11194" data-article-title="Aligning Deep Implicit Preferences by Learning to Reason Defensively" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.11194" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.11194" target="_blank" rel="noopener">Aligning Deep Implicit Preferences by Learning to Reason Defensively</a></h3>
      <p class="summary">Personalized alignment is crucial for enabling Large Language Models (LLMs) to engage effectively in user-centric interactions. However, cu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d57307a6f67c" data-article-url="https://arxiv.org/abs/2510.15416" data-article-title="Adaptive Minds: Empowering Agents with LoRA-as-Tools" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.15416" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.15416" target="_blank" rel="noopener">Adaptive Minds: Empowering Agents with LoRA-as-Tools</a></h3>
      <p class="summary">We investigate a framework in which LoRA adapters are treated as callable tools that a base language model can dynamically select and invok…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f859cbcdc237" data-article-url="https://arxiv.org/abs/2510.17064" data-article-title="BRAINCELL-AID: An Agentic AI Created Brain Cell Type Resource for Community Annotation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.17064" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.17064" target="_blank" rel="noopener">BRAINCELL-AID: An Agentic AI Created Brain Cell Type Resource for Community Annotation</a></h3>
      <p class="summary">Single-cell RNA sequencing has transformed our ability to identify diverse cell types and their transcriptomic signatures. However, annotat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4f72185beef" data-article-url="https://arxiv.org/abs/2510.24342" data-article-title="A Unified Geometric Space for Topological Alignment Between Transformer-Based Models and Human Brain Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.24342" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.24342" target="_blank" rel="noopener">A Unified Geometric Space for Topological Alignment Between Transformer-Based Models and Human Brain Networks</a></h3>
      <p class="summary">Prior brain-AI alignment studies are typically constrained by specific inputs and tasks, limiting their ability to capture organizational p…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bb6b1764781f" data-article-url="https://arxiv.org/abs/2511.07107" data-article-title="MENTOR: A Metacognition-Driven Self-Evolution Framework for Uncovering and Mitigating Implicit Domain Risks in LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.07107" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.07107" target="_blank" rel="noopener">MENTOR: A Metacognition-Driven Self-Evolution Framework for Uncovering and Mitigating Implicit Domain Risks in LLMs</a></h3>
      <p class="summary">Ensuring the safety of Large Language Models (LLMs) is critical for real-world deployment. However, current safety measures often fail to a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ea3b7d57dd7d" data-article-url="https://arxiv.org/abs/2601.13735" data-article-title="Reasoning or Fluency? Dissecting Probabilistic Confidence in Best-of-N Selection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.13735" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.13735" target="_blank" rel="noopener">Reasoning or Fluency? Dissecting Probabilistic Confidence in Best-of-N Selection</a></h3>
      <p class="summary">Probabilistic confidence metrics are increasingly adopted as proxies for reasoning quality in Best-of-N selection, under the assumption tha…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f7b5424eff25" data-article-url="https://arxiv.org/abs/2601.18175" data-article-title="Success Conditioning as Policy Improvement: The Optimization Problem Solved by Imitating Success" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.18175" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.18175" target="_blank" rel="noopener">Success Conditioning as Policy Improvement: The Optimization Problem Solved by Imitating Success</a></h3>
      <p class="summary">A widely used technique for improving policies is success conditioning, in which one collects trajectories, identifies those that achieve a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d603cd970839" data-article-url="https://arxiv.org/abs/2602.01146" data-article-title="PersistBench: When Should Long-Term Memories Be Forgotten by LLMs?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01146" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01146" target="_blank" rel="noopener">PersistBench: When Should Long-Term Memories Be Forgotten by LLMs?</a></h3>
      <p class="summary">Conversational assistants are increasingly integrating long-term memory with large language models (LLMs). This persistence of memories, e.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="72e02e93a360" data-article-url="https://arxiv.org/abs/2602.04101" data-article-title="Interfaze: The Future of AI is built on Task-Specific Small Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/grok/" data-entity="grok">Grok</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.04101" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.04101" target="_blank" rel="noopener">Interfaze: The Future of AI is built on Task-Specific Small Models</a></h3>
      <p class="summary">We present Interfaze, a native hybrid model that fuses task-specific deep neural networks (CNNs and DNNs) directly into a transformer decod…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ffcff406d1a" data-article-url="https://arxiv.org/abs/2602.07253" data-article-title="From Out-of-Distribution Detection to Hallucination Detection: A Geometric View" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.07253" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.07253" target="_blank" rel="noopener">From Out-of-Distribution Detection to Hallucination Detection: A Geometric View</a></h3>
      <p class="summary">Detecting hallucinations in large language models is a critical open problem with significant implications for safety and reliability. Whil…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="df5be25b7ee7" data-article-url="https://arxiv.org/abs/2603.01421" data-article-title="SciDER: Scientific Data-centric End-to-end Researcher" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.01421" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.01421" target="_blank" rel="noopener">SciDER: Scientific Data-centric End-to-end Researcher</a></h3>
      <p class="summary">While large language models accelerate scientific discovery, existing agents face severe limitations in adaptability, domain generalization…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="71989fa019ed" data-article-url="https://arxiv.org/abs/2603.18577" data-article-title="MedForge: Interpretable Medical Deepfake Detection via Forgery-aware Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.18577" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.18577" target="_blank" rel="noopener">MedForge: Interpretable Medical Deepfake Detection via Forgery-aware Reasoning</a></h3>
      <p class="summary">Text-guided image editors can now manipulate authentic medical scans with high fidelity, enabling lesion implantation/removal that threaten…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0cf65526425" data-article-url="https://arxiv.org/abs/2603.23420" data-article-title="Bilevel Autoresearch: Meta-Autoresearching Itself" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23420" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23420" target="_blank" rel="noopener">Bilevel Autoresearch: Meta-Autoresearching Itself</a></h3>
      <p class="summary">If autoresearch is itself a form of research, then autoresearch can be applied to research itself. We present Bilevel Autoresearch, a bilev…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a582aeab3d9" data-article-url="https://arxiv.org/abs/2603.24747" data-article-title="Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.24747" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.24747" target="_blank" rel="noopener">Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach</a></h3>
      <p class="summary">The emergence of large language model agents capable of invoking external tools has created urgent need for formal verification of agent pr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e41345484899" data-article-url="https://arxiv.org/abs/2604.07778" data-article-title="The Accountability Horizon: An Impossibility Theorem for Governing Human-Agent Collectives" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.07778" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.07778" target="_blank" rel="noopener">The Accountability Horizon: An Impossibility Theorem for Governing Human-Agent Collectives</a></h3>
      <p class="summary">Existing accountability frameworks for AI systems, legal, ethical, and regulatory, rest on a shared assumption: for any consequential outco…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f07fc7863dde" data-article-url="https://arxiv.org/abs/2604.09686" data-article-title="Belief-Aware VLM Model for Human-like Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.09686" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.09686" target="_blank" rel="noopener">Belief-Aware VLM Model for Human-like Reasoning</a></h3>
      <p class="summary">Traditional neural network models for intent inference rely heavily on observable states and struggle to generalize across diverse tasks an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3d642a7ca856" data-article-url="https://arxiv.org/abs/2604.27007" data-article-title="Binary Spiking Neural Networks as Causal Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.27007" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.27007" target="_blank" rel="noopener">Binary Spiking Neural Networks as Causal Models</a></h3>
      <p class="summary">We provide a causal analysis of Binary Spiking Neural Networks (BSNNs) to explain their behavior. We formally define a BSNN and represent i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bf53772a5ee6" data-article-url="https://arxiv.org/abs/2605.10246" data-article-title="SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.10246" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.10246" target="_blank" rel="noopener">SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems</a></h3>
      <p class="summary">AI scientist systems are increasingly deployed for autonomous research, yet their academic integrity has never been systematically evaluate…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="59608b3210a3" data-article-url="https://arxiv.org/abs/2605.14054" data-article-title="Bad Seeing or Bad Thinking? Rewarding Perception for Multimodal Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.14054" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.14054" target="_blank" rel="noopener">Bad Seeing or Bad Thinking? Rewarding Perception for Multimodal Reasoning</a></h3>
      <p class="summary">Achieving robust perception-reasoning synergy is a central goal for advanced Vision-Language Models (VLMs). Recent advancements have pursue…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d6ca2118dda3" data-article-url="https://arxiv.org/abs/2605.22240" data-article-title="Unlocking Proactivity in Task-Oriented Dialogue" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.22240" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.22240" target="_blank" rel="noopener">Unlocking Proactivity in Task-Oriented Dialogue</a></h3>
      <p class="summary">Proactive task-oriented dialogue (TOD), such as outbound sales, demands a persuasive agent that actively probes the user&#x27;s concerns and ste…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c09e5257097a" data-article-url="https://arxiv.org/abs/2605.28210" data-article-title="AI を介した結果的な決定を選択するという幻想" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28210" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28210" target="_blank" rel="noopener">AI を介した結果的な決定を選択するという幻想</a></h3>
      <p class="summary">ウルマン＝マルガリットの選択の概念（変革的で、取り消し不可能で、差し押さえられた代替案によって影が隠れる）を利用して、現在の AI システムが、既存の AI 倫理が完全には捉えていない深刻な倫理的問題を提起していることを示します。それは、個人やグループが、真に選択できるようになるために必要な主体が弱体化している間に、意味のある結果的な選択の欺瞞的な外観に遭遇する選択の幻想です。 AI を主に既に与えられた目的の最適化装置として扱うアプローチに対して、私たちは、AI システムは選択という幻想からメタ能力を保護し育成するかどうかによって評価されるべきだと主張します。メタ能力とは、手段と目的を形成し、異議を唱え、修正し、所有することができる、社会的および制度的に足場を築かれた主体的能力のことです。この再構成は、AI を介した経路が行動や行動を誤った方向に導いた場合に、選択するという幻想のコストを吸収することが最も困難な恵まれない人々にとって特に緊急です。私たちは、AI を介した結果的意思決定のための 3 つの規範的命令を提案します。それは、予測の限界を認める実存的誠実さです。生態学的合理性。不均質な生きた生態の中に指針を位置づけます。そして、反事実的賠償。AI を介した意思決定経路が失敗した場合に、差し押さえられた代替手段を認めて修復します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Illusion of Opting in AI-Mediated Consequential Decisions</p>
        <p class="orig-summary">Drawing on Ullmann-Margalit&#x27;s concept of opting (transformative, irrevocable, and shadowed by foreclosed alternatives), we show that current AI systems raise a profound ethical problem that existing AI ethics has not fully captured: the illusion of opting, in which persons and groups encounter the deceptive appearance of meaningful consequential choice while the agency needed to become genuinely capable of choosing is weakened. Against approaches that treat AI primarily as an optimizer of already given ends, we argue that AI systems should be evaluated by whether they protect and cultivate meta-capacity against the illusion of opting: the socially and institutionally scaffolded agentive capacity through which means and ends can be formed, contested, revised, and owned. This reframing is especially urgent for disadvantaged populations, who are least able to absorb the costs of the illusion of opting when AI-mediated pathways misdirect behavior and action. We propose three normative imperatives for AI-mediated consequential decisions: existential honesty, which acknowledges the limits of prediction; ecological rationality, which situates guidance within heterogeneous lived ecologies; and counterfactual reparation, which acknowledges and repairs foreclosed alternatives when AI-mediated decision-making pathways fail.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7eb747a8471c" data-article-url="https://arxiv.org/abs/2606.00732" data-article-title="SHARP: 長距離非定常時間パターン認識のための睡眠ベースの階層的加速再生" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00732" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00732" target="_blank" rel="noopener">SHARP: 長距離非定常時間パターン認識のための睡眠ベースの階層的加速再生</a></h3>
      <p class="summary">長距離の非定常時間パターンを学習することは、特に厳密なストリーミング設定において、現代のシーケンス モデルにとって依然として中心的な課題です。これらの設定では、データは順番に到着するため、過去の観測を同時に再検討することなく、単一パスで処理する必要があります。リカレント ニューラル ネットワークやトランスフォーマーを含む標準アーキテクチャは、時間軸全体にわたる切り詰められたバックプロパゲーション、または長距離クレジット割り当ての明示的な入力ウィンドウの長さによって制約されます。これらの制限に対処するために、私たちは、時間学習を 2 つの相補的なコンポーネントに分解するフレームワークである SHARP (Sleep-based Hierarchical Accelerated Replay) を提案します。1 つは過去の入力の構造化された履歴を蓄積するメモリ モジュール、もう 1 つはこのメモリ上で動作するパターン認識モジュールです。この分離により、長距離クレジット割り当ての多くのステップにわたる時間にわたるバックプロパゲーションの必要性がなくなり、非定常ダイナミクスへのリソース効率と計算効率の高い適応が可能になります。齧歯動物の徐波睡眠中に観察される再生の加速にヒントを得て、SHARP は、時間的に構造化された記憶追跡が加速された形で再生され、より高いレベルの記憶表現に統合されるオフライン (睡眠) フェーズを組み込んでおり、長距離のコンテキスト保持を向上させます。制御されたシミュレーションとアブレーション研究を通じて、提案されたフレームワークの主要な特性を特徴付けます。 text8 や PG-19 などのベンチマーク データセットでは、SHARP が、現在のストリームから学習を継続し、将来の未確認データに一般化しながら、以前に確認されたデータに対するネクスト トークン予測パフォーマンスを維持することにより、反復ベースラインよりも向上することを実証しました。これらの利点は、線形時間の計算コストのみで指数関数的に増加する効果的な時間コンテキストを生み出す階層構造によって実現されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SHARP: Sleep-based Hierarchical Accelerated Replay for Long Range Non-Stationary Temporal Pattern Recognition</p>
        <p class="orig-summary">Learning long-range non-stationary temporal patterns remains a core challenge for modern sequence models, particularly in strict streaming settings. In these settings, data arrive sequentially and must be processed in a single pass without simultaneously revisiting past observations. Standard architectures, including recurrent neural networks and transformers, are constrained by either truncated backpropagation through time horizon or explicit input window length for long range credit assignment. To address these limitations, we propose SHARP (Sleep-based Hierarchical Accelerated Replay), a framework that decomposes temporal learning into two complementary components: a memory module that accumulates a structured history of past inputs, and a pattern-recognition module that operates over this memory. This separation enables resource- and compute-efficient adaptation to non-stationary dynamics by eliminating the need for backpropagation through time across many steps for long-range credit assignment. Inspired by the accelerated replay observed in rodents during slow-wave sleep, SHARP incorporates offline (sleep) phases in which temporally structured memory traces are replayed in an accelerated form and integrated into higher-level memory representations, improving long-range context retention. Through controlled simulations and ablation studies, we characterize the key properties of the proposed framework. In benchmark datasets such as text8 and PG-19, we demonstrate that SHARP improves over recurrent baselines by retaining next-token predictive performance on previously seen data while continuing to learn from the current stream and generalizing to future unseen data. These gains are enabled by its hierarchical structure, which yields an exponentially increasing effective temporal context with only linear-time computational cost.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bdd9dc0b6039" data-article-url="https://arxiv.org/abs/2606.00995" data-article-title="サブリミナル学習はベクトル蒸留を操る" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00995" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00995" target="_blank" rel="noopener">サブリミナル学習はベクトル蒸留を操る</a></h3>
      <p class="summary">サブリミナル学習とは、教師の出力を微調整した場合に、出力が意味的にそれらの特性と無関係であるにもかかわらず、生徒の言語モデルが教師の特性 (システムが促すフクロウの好みなど) を獲得することを指します。セマンティックな意味を持たないデータがどのようにして特定のセマンティックな特徴を伝達できるのかについては、依然として十分に理解されていません。この研究では、サブリミナル学習が単一のステアリング ベクトル、つまりモデルの活性化に追加されるベクトルによって媒介されることを示します。 2 つのオープンソース モデル全体で、教師のシステム プロンプトはステアリング ベクトルによってよく近似されており、生徒の行動は微調整を通じて調整されたベクトルを学習することによって駆動されることがわかりました。ステアリング ベクトルによって適切に近似されていないシステム プロンプトは潜在的に学習されません。これは、ステアリング ベクトル蒸留の特殊なケースであり、ステアリングされた教師の出力で訓練された生徒が、そのステアリングを模倣することを学びます。一連のセマンティック ベクトルとランダム ベクトルに対するステアリング ベクトル蒸留を示します。モデルのアクティベーションにセマンティック ベクトルを追加すると、その動作にモデルに依存しない効果とモデル固有 (つまり、非セマンティック) の両方の効果が生じる可能性があるため、生成された非セマンティック データはセマンティック効果を持つベクトルを送信でき、サブリミナル学習が可能になります。これは、サブリミナル学習がモデル間で移行しない理由も説明します。言語モデルにおけるサブリミナル学習には適応オプティマイザーが必要であることがわかりました。ステアリングされたデータの活性化勾配はステアリング方向に沿って小さいながらも一貫した成分を運びますが、非適応オプティマイザーは外れ値の勾配が優勢になることを許可することでこれを妨げます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Subliminal Learning Is Steering Vector Distillation</p>
        <p class="orig-summary">Subliminal learning refers to a student language model acquiring a teacher&#x27;s traits (e.g. a system-prompted preference for owls) when fine-tuned on the teacher&#x27;s outputs, despite the outputs being semantically unrelated to those traits. It remains poorly understood how data without semantic meaning can transfer specific semantic traits. In this work, we show that subliminal learning is mediated by a single steering vector, i.e. a vector added to the model&#x27;s activations. Across two open-source models, we find that the teacher&#x27;s system prompt is well approximated by a steering vector, and that the student&#x27;s behavior is driven by learning an aligned vector over fine-tuning. System prompts that are not well approximated by steering vectors are not subliminally learned. This is a special case of steering vector distillation, in which a student trained on the outputs of a steered teacher learns to imitate that steering. We demonstrate steering vector distillation on a range of semantic and random vectors. Adding a semantic vector to a model&#x27;s activations can have both model-independent and model-specific (i.e. non-semantic) effects on its behavior, so generated data that is non-semantic can transmit a vector with semantic effects, enabling subliminal learning. This also explains why subliminal learning does not transfer between models. We find that adaptive optimizers are necessary for subliminal learning in language models: activation gradients on steered data carry a small but consistent component along the steering direction, and non-adaptive optimizers impede this by allowing outlier gradients to dominate.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="873bbb6ccaa9" data-article-url="https://arxiv.org/abs/2606.01961" data-article-title="AutoMedBench: Towards Medical AutoResearch with Agentic AI Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01961" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01961" target="_blank" rel="noopener">AutoMedBench: Towards Medical AutoResearch with Agentic AI Models</a></h3>
      <p class="summary">Autonomous agents are increasingly expected to support end-to-end medical-AI research workflows, moving beyond isolated prediction tasks or…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9d94ec5e5550" data-article-url="https://arxiv.org/abs/2606.02914" data-article-title="歯科医療における大規模 AI モデル: 汎用システムからドメイン固有の基盤モデルまで" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02914" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02914" target="_blank" rel="noopener">歯科医療における大規模 AI モデル: 汎用システムからドメイン固有の基盤モデルまで</a></h3>
      <p class="summary">背景: 口腔疾患は世界中で約 35 億人に影響を与えていますが、歯科における大規模 AI モデルの相対的な臨床的可能性は依然として十分に理解されていません。言語生成モデル、弁別視覚基礎モデル、歯科特有の基礎モデルという 3 つの異なるモデル カテゴリが出現しましたが、それらの関係や集合的な制限を検討する統一されたレビューはありません。方法: PRISMA-ScR ガイドラインに従って、4 つのデータベース (PubMed、Google Scholar、Scopus、arXiv) を体系的に検索し、2 人の査読者によって独立してスクリーニングされました。包含/除外基準を適用した後、97 件の研究 (2020 ～ 2026 年) が含まれました。建築パラダイムと歯科専門度によってモデルを整理する二次元分類フレームワークを提案します。結果: 言語生成モデルは、テキストベースのタスク (臨床推論、免許試験、患者とのコミュニケーション) には優れていますが、画像依存の診断では一貫性のないパフォーマンスを示します。適応された SAM および CLIP バリアントにより、強力な歯のセグメンテーションと病変検出結果が得られます。歯科専用モデル (DentVFM、DentVLM、OralGPT) は、複雑なマルチモーダルなタスクで最高のパフォーマンスを発揮します。統合されたパイプラインは、単一モデルのアプローチよりも常に優れたパフォーマンスを発揮します。データの非対称性が観察されます。歯科特有の事前トレーニングはほぼ完全に視覚領域に集中しており、大規模な歯科テキスト コーパスがほとんどないことを反映しています。結論: 汎用モデルと歯科専用モデルは補完的な役割を果たします。最も効果的なシステムは、構造化されたパイプライン内で両方を組み合わせたものです。安全な自律展開には、生成モデルにおける幻覚、注釈付き歯科データセットの制限、標準化された臨床評価ベンチマークの欠如という 3 つの永続的な障壁を解決する必要があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Large AI Models in Dental Healthcare: From General-Purpose Systems to Domain-Specific Foundation Models</p>
        <p class="orig-summary">Background: Oral diseases affect nearly 3.5 billion people worldwide, yet the comparative clinical potential of large-scale AI models in dentistry remains poorly understood. Three distinct model categories have emerged: language-generative models, discriminative vision foundation models, and dental-specific foundation models, with no unified review examining their relationships and collective limitations. Methods: Following PRISMA-ScR guidelines, we systematically searched four databases (PubMed, Google Scholar, Scopus, arXiv), screened independently by two reviewers. After applying inclusion/exclusion criteria, 97 studies (2020-2026) were included. We propose a two-dimensional classification framework organizing models by architectural paradigm and dental specialization degree. Results: Language-generative models excel at text-based tasks (clinical reasoning, licensing exams, patient communication) but show inconsistent performance on image-dependent diagnostics. Adapted SAM and CLIP variants achieve strong tooth segmentation and lesion detection results. Dental-specific models (DentVFM, DentVLM, OralGPT) demonstrate strongest performance on complex multimodal tasks. Integrated pipelines consistently outperform single-model approaches. A data asymmetry is observed: dental-specific pretraining concentrates almost entirely in the vision domain, reflecting scarce large-scale dental text corpora. Conclusions: General-purpose and dental-specific models play complementary roles; the most effective systems combine both within structured pipelines. Safe autonomous deployment requires resolving three persistent barriers: hallucination in generative models, limited annotated dental datasets, and absent standardized clinical evaluation benchmarks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="acad440d720e" data-article-url="https://arxiv.org/abs/2606.03303" data-article-title="LEAP: エージェント フレームワークを使用した形式数学用の LLM のスーパーチャージング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03303" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03303" target="_blank" rel="noopener">LEAP: エージェント フレームワークを使用した形式数学用の LLM のスーパーチャージング</a></h3>
      <p class="summary">大規模言語モデル (LLM) は強力な非公式数学的推論を示しますが、リーンのような形式言語では機械的に検証可能な証明を生成するのに苦労します。 LEAP は、汎用基礎​​モデルが自動化された形式定理証明で最先端のパフォーマンスを達成できるようにするエージェント フレームワークです。 LEAP は、非公式推論、指示に従って、反復的な自己改善などの基礎モデルの機能を活用します。複雑な問題をより小さな単位に分解することで、システムはリーン コンパイラーとの継続的な対話を通じて、正式な証明の構築と非公式のブループリントの橋渡しをします。ますます飽和しつつあるベンチマークを超えた厳密な評価を提供するために、リーンで形式化された IMO スタイルの問題のベンチマークである Lean-IMO-Bench を導入します。このベンチマークでは、短いステートメントでありながら非常に非日常的で、幅広い難易度にわたる複数ステップの証明が行われます。経験的に、北米の学部学生を対象とした毎年恒例の数学コンテストである最新の 2025 年のパトナム コンペティションでは、LEAP は 12 の問題すべてを解決し、フロンティアの正式な数学モデルによる最近の進歩と一致しています。 Lean-IMO-Bench では、LEAP は汎用 LLM のワンショット形式解決率を 10% 未満から 70% に引き上げ、特に金メダル級の専門化された IMO システムによって設定されたベンチマークの 48% を上回っています。さらに、偶数次ケイリーグラフのクヌースのハミルトニアン分解における重要な部分問題の検証された証明を含む、オープンな組み合わせ課題に対する複雑な証明を自律的に形式化することで、LEAP の研究レベルの有用性を実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks</p>
        <p class="orig-summary">Large Language Models (LLMs) exhibit strong informal mathematical reasoning but struggle to generate mechanically verifiable proofs in formal languages like Lean. We present LEAP, an agentic framework that enables general-purpose foundation models to achieve state-of-the-art performance on automated formal theorem proving. LEAP leverages foundation model capabilities, such as informal reasoning, instruction following, and iterative self-refinement. By decomposing complex problems into smaller units, the system bridges formal proof construction with informal blueprints through continuous interaction with the Lean compiler. To provide a rigorous evaluation beyond increasingly saturated benchmarks, we introduce Lean-IMO-Bench, a benchmark of IMO-style problems formalized in Lean, with short statements yet highly non-routine and multi-step proofs across a wide range of difficulty levels. Empirically, on the latest 2025 Putnam Competition, an annual mathematics competition for undergraduate students in North America, LEAP solves all 12 problems, matching recent breakthroughs by frontier formal mathematical models. On Lean-IMO-Bench, LEAP boosts the one-shot formal solve rate of general-purpose LLMs from below 10% to 70%, notably surpassing the 48% benchmark set by a specialized, gold-medal-caliber IMO system. Furthermore, we demonstrate LEAP&#x27;s research-level utility by autonomously formalizing complex proofs for open combinatorial challenges, including a verified proof for a key subproblem in Knuth&#x27;s Hamiltonian decomposition of even-order Cayley graphs.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1b6c4daf9ce7" data-article-url="https://arxiv.org/abs/2606.03660" data-article-title="答えから状態へ: 大規模言語モデルにおける化学推論の検証可能なプロセスレベルの評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03660" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03660" target="_blank" rel="noopener">答えから状態へ: 大規模言語モデルにおける化学推論の検証可能なプロセスレベルの評価</a></h3>
      <p class="summary">大規模な言語モデルが化学アシスタントとして使用されることが増えていますが、ほとんどの化学ベンチマークは依然として最終的な回答のみをスコアとしています。これにより、重大な故障モードが隠蔽されます。モデルは、その推論が化学ロジックに違反しているにもかかわらず、正しい分子、生成物、またはオプションを出力する可能性があります。 LLM ジャッジと人間のステップレベルのプロセス アノテーションはコストが高く、一貫性がなく、幻覚に対して脆弱であるため、既存のプロセス レベルの評価機能を拡張するのは困難です。 ChemCoTBench-V2 は、構造化され検証者がアドレス指定できる化学推論トレースを低コストで監査可能に評価するためのルール検証可能な診断ベンチマークです。これは、分子理解、分子編集、分子最適化、反応予測に及び、18 のレポートタスクにわたる 5,620 の評価サンプルを備えています。モデルは、専門家が設計したテンプレートで主要な中間ステップを公開する必要があり、それらのステップは決定論的な化学ルールでチェックされ、クローズドアンサータスクの場合は、別の LLM 審査員ではなく参照トレースが使用されます。オープンエンド分子最適化は、厳密なトレース マッチングではなく、Oracle で検証可能な状態制約を使用して評価されます。このベンチマークは、最終回答の正確性、テンプレートの遵守、専門家によって洗練された中間コミットメントに対する段階的な検証者の正確さという 3 つの個別のシグナルを報告します。フロンティア モデルの実験では、最終的な回答の成功と構造化推論の状態の一貫性の間には永続的なギャップがあることが明らかになりました。モデルは多くの場合、化学ステップ チェックに失敗しながらも要求された形式に従っているか、弱い裏付け推論で正しく回答することができます。 ChemCoTBench-V2 は、きめ細かいモデル比較を可能にし、トレースが最初に検証ツールに違反する具体的なステップを特定します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Answers to States: Verifiable Process-Level Evaluation of Chemical Reasoning in Large Language Models</p>
        <p class="orig-summary">Large language models are increasingly used as chemistry assistants, yet most chemistry benchmarks still score only final answers. This masks a critical failure mode: a model may output the correct molecule, product, or option while its reasoning violates chemical logic. Existing process-level evaluators are hard to scale because LLM judges and human step-level process annotation are costly, inconsistent, and vulnerable to hallucination. We introduce ChemCoTBench-V2, a rule-verifiable diagnostic benchmark for low-cost, auditable evaluation of structured, verifier-addressable chemical reasoning traces. It spans molecular understanding, molecule editing, molecular optimization, and reaction prediction, with 5,620 evaluation samples across 18 reporting tasks. Models must expose key intermediate steps in expert-designed templates, and those steps are checked with deterministic chemistry rules and, for closed-answer tasks, reference traces rather than another LLM judge. Open-ended molecular optimization is evaluated with oracle-verifiable state constraints rather than strict trace matching. The benchmark reports three separate signals: final-answer correctness, template adherence, and step-wise verifier correctness over expert-refined intermediate commitments. Experiments on frontier models reveal a persistent gap between final-answer success and structured-reasoning-state consistency: models often follow the requested format while failing chemical-step checks, or answer correctly with weak supporting reasoning. ChemCoTBench-V2 enables fine-grained model comparison and identifies the concrete step at which the trace first violates the verifier.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8d08a340ffb6" data-article-url="https://arxiv.org/abs/2606.03937" data-article-title="エントロピーだけでは不十分: ビジョンに基づいたトークン選択による視覚的推論のための効果的な強化学習のロックを解除する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03937" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03937" target="_blank" rel="noopener">エントロピーだけでは不十分: ビジョンに基づいたトークン選択による視覚的推論のための効果的な強化学習のロックを解除する</a></h3>
      <p class="summary">トークンレベルのエントロピーは、検証可能な報酬を伴うテキストのみの強化学習 (RLVR) における単位の割り当てに有効であると一般に認識されていますが、このメカニズムが視覚的推論に依然として適用されるかどうかは不明のままです。私たちの対照的な研究は、自然にエントロピーが低い視覚に敏感なトークンの省略により、視覚推論ではこのメカニズムが崩壊することを示しています。既存のマルチモーダル RL 手法は、視覚認識の重要性をますます認識していますが、体系的な視覚測定が欠けているか、トークンのエントロピーが主に意味論的探索を推進していることを見落としているため、正確な知覚基礎と意味論的推論を交互に配置するという固有の需要を満たすのに苦労しています。これに対処するために、原則的な乗算結合を介して視覚的感度とトークン エントロピーを明示的に統合する効果的な RL フレームワークである VEPO (ポリシー最適化のためのビジョン エントロピー トークン選択) を導入します。VEPO は、視覚的に根拠があり、同時に高度に情報を提供するトークンに勾配クレジットをリダイレクトします。広範な実験により、VEPO の優れたパフォーマンスが実証され、エントロピーのみのベースラインを 7B スケールで 2.28 ポイント、3B スケールで 3.15 ポイント上回りました。アブレーションは、私たちの方法の健全性をさらに実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Entropy Is Not Enough: Unlocking Effective Reinforcement Learning for Visual Reasoning via Vision-Anchored Token Selection</p>
        <p class="orig-summary">While token-level entropy is commonly recognized as effective for credit assignment in text-only reinforcement learning with verifiable rewards (RLVR), it remains unclear whether this mechanism still holds in visual reasoning. Our controlled study shows that this mechanism collapses in visual reasoning due to the omission of vision-sensitive tokens with naturally low entropy. Although existing multimodal RL methods increasingly acknowledge the importance of visual perception, they struggle to satisfy the inherent demand for interleaving precise perceptual grounding with semantic reasoning, either lacking systematic visual measurements or overlooking that token entropy primarily drives semantic exploration. To address this, we introduce VEPO (Vision-Entropy token-selection for Policy Optimization), an effective RL framework explicitly integrating visual sensitivity with token entropy via a principled multiplicative coupling, where VEPO redirects gradient credit toward tokens which are simultaneously visually grounded and highly informative. Extensive experiments demonstrate VEPO&#x27;s leading performance, significantly outperforming the entropy-only baseline by 2.28 points at 7B-scale and 3.15 points at 3B-scale. Ablations further substantiate the soundness of our method.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="04aa882e9a50" data-article-url="https://arxiv.org/abs/2606.03988" data-article-title="想像力の知覚トークンはマルチモーダル言語モデルの空間推論を強化します" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03988" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03988" target="_blank" rel="noopener">想像力の知覚トークンはマルチモーダル言語モデルの空間推論を強化します</a></h3>
      <p class="summary">ビジョン言語モデル (VLM) は多くのタスクに優れていますが、重要な情報が直接観察できない場合には空間推論に依然として苦労します。このような問題の多くは、目に見えない視点から何が見えるかを推測したり、遮蔽された空間を通る経路を追跡したり、部分的な観察を一貫した空間表現に統合したりするなど、想像力豊かな認識を必要とします。観察された入力との一貫性を保ちながら、代替の空間構成の下で VLM が知覚するものを外部化する中間的な知覚表現である想像的知覚トークン (IPT) を導入します。この機能を研究するために、透視図法取得 (PET)、パス トレーシング (PT)、およびマルチビュー カウンティング (MVC) という 3 つのタスクを定式化し、グラウンド トゥルースの想像力、回答、評価ベンチマークを含む約 20,000 例のデータセットを構築します。統合された VLM BAGEL をバックボーンとして使用することで、IPT 監視は空間推論を一貫して改善し、推論時に画像を生成しなくても、テキストによる思考連鎖トレーニングを上回ることがよくあります。 MVC では、IPT は精度を 3.4% 向上させ、PT 上の強力なクローズドソース モデルにより競争力のあるパフォーマンスを実現します。さらに、IPT とラベルのみの監視を組み合わせるとさらなる利益が得られる一方、テキストの思考連鎖はパフォーマンスを大幅に低下させる可能性があることがわかり、空間計算が言語を通じて強制される場合にはモダリティの不一致が示唆されます。全体として、IPT は、観察されていない空間構造について推論するための原則に基づいた監視信号を提供し、解釈可能な中間表現を生成しながら一般化を向上させます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models</p>
        <p class="orig-summary">Vision language models (VLMs) excel at many tasks but still struggle with spatial reasoning when critical information is not directly observable. Many such problems require imaginative perception: inferring what would be seen from an unseen viewpoint, tracing paths through occluded spaces, or integrating partial observations into a coherent spatial representation. We introduce Imaginative Perception Tokens (IPT), intermediate perceptual representations that externalize what a VLM would perceive under alternative spatial configurations while remaining consistent with the observed input. To study this capability, we formulate three tasks, Perspective Taking (PET), Path Tracing (PT), and Multiview Counting (MVC), and construct datasets of approximately 20K examples with ground truth imaginations, answers, and evaluation benchmarks. Using the unified VLM BAGEL as the backbone, IPT supervision consistently improves spatial reasoning and often outperforms textual chain of thought training, even without generating images at inference time. On MVC, IPT improves accuracy by 3.4% and achieves competitive performance with strong closed-source models on PT. We further find that combining IPT and label-only supervision yields additional gains, whereas textual chain of thought can substantially degrade performance, suggesting a modality mismatch when spatial computation is forced through language. Overall, IPT provides a principled supervision signal for reasoning about unobserved spatial structure, improving generalization while producing interpretable intermediate representations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bfac45cd0f60" data-article-url="https://arxiv.org/abs/2304.10891" data-article-title="Transformer-Based Autonomous Driving Models and Deployment-Oriented Compression: A Survey" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2304.10891" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2304.10891" target="_blank" rel="noopener">Transformer-Based Autonomous Driving Models and Deployment-Oriented Compression: A Survey</a></h3>
      <p class="summary">Transformer-based models are becoming a central paradigm in autonomous driving because they can capture long-range spatial dependencies, mu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1dc16fd902c8" data-article-url="https://arxiv.org/abs/2407.03884" data-article-title="ChatSOP: An SOP-Guided MCTS Planning Framework for Controllable LLM Dialogue Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2407.03884" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2407.03884" target="_blank" rel="noopener">ChatSOP: An SOP-Guided MCTS Planning Framework for Controllable LLM Dialogue Agents</a></h3>
      <p class="summary">Dialogue agents powered by Large Language Models (LLMs) show superior performance in various tasks. Despite the better user understanding a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f0ac27a5e15" data-article-url="https://arxiv.org/abs/2407.13922" data-article-title="CounterFace: A Synthetic Face Dataset for Fine-Grained Counterfactual Evaluation of Face Recognition Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2407.13922" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2407.13922" target="_blank" rel="noopener">CounterFace: A Synthetic Face Dataset for Fine-Grained Counterfactual Evaluation of Face Recognition Systems</a></h3>
      <p class="summary">Face recognition (FR) systems are widely deployed in critical applications, making their reliability and robustness across diverse populati…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="04660e29b72a" data-article-url="https://arxiv.org/abs/2411.05894" data-article-title="SSSD: Simply-Scalable Speculative Decoding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2411.05894" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2411.05894" target="_blank" rel="noopener">SSSD: Simply-Scalable Speculative Decoding</a></h3>
      <p class="summary">Speculative Decoding has emerged as a popular technique for accelerating inference in Large Language Models. However, most existing approac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c750d25b971" data-article-url="https://arxiv.org/abs/2411.19758" data-article-title="LaVIDE: Language-Prompted Satellite Change Detection via Map-Image Alignment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2411.19758" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2411.19758" target="_blank" rel="noopener">LaVIDE: Language-Prompted Satellite Change Detection via Map-Image Alignment</a></h3>
      <p class="summary">Remote sensing change detection based on a map reference and an up-to-date image boosts timely observation of the Earth&#x27;s surface when earl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f687da328cc5" data-article-url="https://arxiv.org/abs/2503.06525" data-article-title="From Motion Signals to Insights: A Unified Framework for Student Behavior Analysis and Feedback in Physical Education Classes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.06525" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.06525" target="_blank" rel="noopener">From Motion Signals to Insights: A Unified Framework for Student Behavior Analysis and Feedback in Physical Education Classes</a></h3>
      <p class="summary">Analyzing student behavior in educational scenarios is crucial for enhancing teaching quality and student engagement. Existing AI-based mod…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c02a64510640" data-article-url="https://arxiv.org/abs/2504.12329" data-article-title="Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2504.12329" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2504.12329" target="_blank" rel="noopener">Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time</a></h3>
      <p class="summary">Recent advances leverage post-training to enhance model reasoning performance, which typically requires costly training pipelines and still…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="155213fe644f" data-article-url="https://arxiv.org/abs/2505.11166" data-article-title="SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.11166" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.11166" target="_blank" rel="noopener">SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization</a></h3>
      <p class="summary">Despite advances in pretraining with extended context sizes, large language models (LLMs) still face challenges in effectively utilizing re…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0bf451786056" data-article-url="https://arxiv.org/abs/2505.19293" data-article-title="100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.19293" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.19293" target="_blank" rel="noopener">100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability?</a></h3>
      <p class="summary">Long-context capability is considered one of the most important abilities of LLMs, as a truly long context-capable LLM enables users to eff…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4c652b6b7396" data-article-url="https://arxiv.org/abs/2505.22988" data-article-title="Model-Preserving Adaptive Rounding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.22988" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.22988" target="_blank" rel="noopener">Model-Preserving Adaptive Rounding</a></h3>
      <p class="summary">The goal of quantization is to produce a compressed model whose output distribution is as close to the original model&#x27;s as possible. To do…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bd5780092f17" data-article-url="https://arxiv.org/abs/2506.05233" data-article-title="MesaNet: Sequence Modeling by Locally Optimal Test-Time Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.05233" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.05233" target="_blank" rel="noopener">MesaNet: Sequence Modeling by Locally Optimal Test-Time Training</a></h3>
      <p class="summary">Sequence modeling is currently dominated by causal transformer architectures that use softmax self-attention. Although widely adopted, tran…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6996c3b16d19" data-article-url="https://arxiv.org/abs/2506.06006" data-article-title="Can VLMs Predict Future States? Bootstrapping World Models from Inverse Dynamics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.06006" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.06006" target="_blank" rel="noopener">Can VLMs Predict Future States? Bootstrapping World Models from Inverse Dynamics</a></h3>
      <p class="summary">Can unified vision-language models (VLMs) perform forward dynamics prediction (FDP), i.e., predicting the future state (in image form) give…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6de29de74e6e" data-article-url="https://arxiv.org/abs/2506.10630" data-article-title="Time Series Forecasting as Reasoning: A Slow-Thinking Approach with Reinforced LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.10630" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.10630" target="_blank" rel="noopener">Time Series Forecasting as Reasoning: A Slow-Thinking Approach with Reinforced LLMs</a></h3>
      <p class="summary">To advance time series forecasting (TSF), various methods have been proposed to improve prediction accuracy, evolving from statistical tech…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a4bcd0d4102" data-article-url="https://arxiv.org/abs/2508.01815" data-article-title="From Graph Retrieval to Schema Realization: Counterfactual Validation for Text-to-SPARQL over Heterogeneous Knowledge Graphs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.01815" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.01815" target="_blank" rel="noopener">From Graph Retrieval to Schema Realization: Counterfactual Validation for Text-to-SPARQL over Heterogeneous Knowledge Graphs</a></h3>
      <p class="summary">Text-to-SPARQL maps natural-language questions to executable SPARQL queries over RDF knowledge graphs. While standard evaluations often fix…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8bb20580fa17" data-article-url="https://arxiv.org/abs/2508.08237" data-article-title="VGGSounder: Audio-Visual Evaluations for Foundation Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.08237" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.08237" target="_blank" rel="noopener">VGGSounder: Audio-Visual Evaluations for Foundation Models</a></h3>
      <p class="summary">The emergence of audio-visual foundation models underscores the importance of reliably assessing their multi-modal understanding. The VGGSo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1007a1203fb6" data-article-url="https://arxiv.org/abs/2508.14623" data-article-title="A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.14623" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.14623" target="_blank" rel="noopener">A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References</a></h3>
      <p class="summary">This paper examines the implications of using the Scale-Invariant Signal-to-Distortion Ratio (SI-SDR) as both evaluation and training objec…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5f8d8d2b88f3" data-article-url="https://arxiv.org/abs/2509.02655" data-article-title="BioBlue: Systematic runaway-optimiser-like LLM failure modes on biologically and economically aligned AI safety benchmarks for LLMs with simplified observation format" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.02655" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.02655" target="_blank" rel="noopener">BioBlue: Systematic runaway-optimiser-like LLM failure modes on biologically and economically aligned AI safety benchmarks for LLMs with simplified observation format</a></h3>
      <p class="summary">Many AI alignment discussions of &quot;runaway optimisation&quot; focus on RL agents: unbounded utility maximisers that over-optimise a proxy objecti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2c8dc287c933" data-article-url="https://arxiv.org/abs/2509.08846" data-article-title="Uncertainty Estimation using Variance-Gated Distributions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.08846" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.08846" target="_blank" rel="noopener">Uncertainty Estimation using Variance-Gated Distributions</a></h3>
      <p class="summary">Evaluation of per-sample uncertainty quantification from neural networks is essential for decision-making involving high-risk applications.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e896155fea3c" data-article-url="https://arxiv.org/abs/2509.15676" data-article-title="KITE: Kernelized and Information Theoretic Exemplars for In-Context Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.15676" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.15676" target="_blank" rel="noopener">KITE: Kernelized and Information Theoretic Exemplars for In-Context Learning</a></h3>
      <p class="summary">In-context learning (ICL) has emerged as a powerful paradigm for adapting large language models (LLMs) to new and data-scarce tasks using o…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d4b1ec99f8da" data-article-url="https://arxiv.org/abs/2509.25289" data-article-title="ClustRecNet: A Novel End-to-End Deep Learning Framework for Clustering Algorithm Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.25289" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.25289" target="_blank" rel="noopener">ClustRecNet: A Novel End-to-End Deep Learning Framework for Clustering Algorithm Recommendation</a></h3>
      <p class="summary">Identifying an effective clustering algorithm for a given dataset remains a fundamental unsupervised learning issue. We introduce ClustRecN…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6141635ef6ec" data-article-url="https://arxiv.org/abs/2510.03511" data-article-title="Platonic Transformers: A Solid Choice For Equivariance" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.03511" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.03511" target="_blank" rel="noopener">Platonic Transformers: A Solid Choice For Equivariance</a></h3>
      <p class="summary">While widespread, Transformers lack inductive biases for geometric symmetries common in science and computer vision. Existing equivariant m…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="61abaa6fe42c" data-article-url="https://arxiv.org/abs/2510.08647" data-article-title="Can Reasoning Path still be Effective as Input? Bridging Post-Reasoning to Chain-of-Thought Compression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.08647" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.08647" target="_blank" rel="noopener">Can Reasoning Path still be Effective as Input? Bridging Post-Reasoning to Chain-of-Thought Compression</a></h3>
      <p class="summary">Recent developments have enabled advanced reasoning in Large Language Models (LLMs) via long Chain-of-Thought (CoT), trading efficiency dur…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="48cbb083c4df" data-article-url="https://arxiv.org/abs/2510.13704" data-article-title="Simplicial Embeddings Improve Sample Efficiency in Actor-Critic Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.13704" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.13704" target="_blank" rel="noopener">Simplicial Embeddings Improve Sample Efficiency in Actor-Critic Agents</a></h3>
      <p class="summary">Recent works have proposed accelerating the wall-clock training time of actor-critic methods via the use of large-scale environment paralle…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="43aaa7046059" data-article-url="https://arxiv.org/abs/2510.26219" data-article-title="Test-time reward-guided alignment of language models by importance sampling on pre-logit space" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.26219" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.26219" target="_blank" rel="noopener">Test-time reward-guided alignment of language models by importance sampling on pre-logit space</a></h3>
      <p class="summary">Test-time alignment of large language models (LLMs) attracts attention because fine-tuning of LLMs requires high computational costs. In th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aedb6e5a2c42" data-article-url="https://arxiv.org/abs/2510.27191" data-article-title="Vectorized Online POMDP Planning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.27191" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.27191" target="_blank" rel="noopener">Vectorized Online POMDP Planning</a></h3>
      <p class="summary">Planning under partial observability is an essential capability of autonomous robots. The Partially Observable Markov Decision Process (POM…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c2dd4e96c423" data-article-url="https://arxiv.org/abs/2511.03304" data-article-title="Extending Fair Null-Space Projections for Continuous Attributes to Kernel Methods" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.03304" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.03304" target="_blank" rel="noopener">Extending Fair Null-Space Projections for Continuous Attributes to Kernel Methods</a></h3>
      <p class="summary">With the on-going integration of machine learning systems into the everyday social life of millions the notion of fairness becomes an ever…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="18442eaa797c" data-article-url="https://arxiv.org/abs/2511.05722" data-article-title="OckBench: Measuring the Efficiency of LLM Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.05722" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.05722" target="_blank" rel="noopener">OckBench: Measuring the Efficiency of LLM Reasoning</a></h3>
      <p class="summary">Large language models (LLMs) such as GPT-5 and Gemini 3 have pushed the frontier of automated reasoning and code generation. Yet current be…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8ef2d6994a86" data-article-url="https://arxiv.org/abs/2511.16624" data-article-title="SAM 3D: 3Dfy Anything in Images" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.16624" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.16624" target="_blank" rel="noopener">SAM 3D: 3Dfy Anything in Images</a></h3>
      <p class="summary">We present SAM 3D, a generative model for visually grounded 3D object reconstruction, predicting geometry, texture, and layout from a singl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="29a1d111c7e8" data-article-url="https://arxiv.org/abs/2511.18454" data-article-title="AttnRegDeepLab: A Two-Stage Decoupled Framework for Interpretable Embryo Fragmentation Grading" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.18454" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.18454" target="_blank" rel="noopener">AttnRegDeepLab: A Two-Stage Decoupled Framework for Interpretable Embryo Fragmentation Grading</a></h3>
      <p class="summary">Embryo fragmentation is a morphological indicator critical for evaluating developmental potential in In Vitro Fertilization (IVF). However,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2d89de32232" data-article-url="https://arxiv.org/abs/2512.03553" data-article-title="Dynamic Content Moderation in Livestreams: Combining Supervised Classification with MLLM-Boosted Similarity Matching" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.03553" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.03553" target="_blank" rel="noopener">Dynamic Content Moderation in Livestreams: Combining Supervised Classification with MLLM-Boosted Similarity Matching</a></h3>
      <p class="summary">Content moderation remains a critical yet challenging task for large-scale user-generated video platforms, especially in livestreaming envi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f3529f921a6c" data-article-url="https://arxiv.org/abs/2512.04668" data-article-title="Topology Matters: Measuring Memory Leakage in Multi-Agent LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.04668" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.04668" target="_blank" rel="noopener">Topology Matters: Measuring Memory Leakage in Multi-Agent LLMs</a></h3>
      <p class="summary">Graph topology is a fundamental determinant of memory leakage in multi-agent LLM systems, yet its effects remain poorly quantified. We intr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c0313d262f29" data-article-url="https://arxiv.org/abs/2512.05277" data-article-title="From Segments to Scenes: Temporal Understanding for Agentic Autonomous Driving via Vision-Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.05277" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.05277" target="_blank" rel="noopener">From Segments to Scenes: Temporal Understanding for Agentic Autonomous Driving via Vision-Language Models</a></h3>
      <p class="summary">Vision-Language Models (VLMs) are increasingly deployed as the perception and reasoning backbone of autonomous agents acting in the wild, w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="add3fb1b9fe8" data-article-url="https://arxiv.org/abs/2512.16919" data-article-title="DVGT: Driving Visual Geometry Transformer" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.16919" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.16919" target="_blank" rel="noopener">DVGT: Driving Visual Geometry Transformer</a></h3>
      <p class="summary">Perceiving and reconstructing 3D scene geometry from visual inputs is crucial for autonomous driving. However, there still lacks a driving-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c323d868ba79" data-article-url="https://arxiv.org/abs/2512.17678" data-article-title="You Only Train Once: Differentiable Subset Selection for Omics Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.17678" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.17678" target="_blank" rel="noopener">You Only Train Once: Differentiable Subset Selection for Omics Data</a></h3>
      <p class="summary">Selecting compact and informative gene subsets from single-cell transcriptomic data is essential for biomarker discovery, improving interpr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4c48edd085dc" data-article-url="https://arxiv.org/abs/2512.21917" data-article-title="Semiparametric Preference Optimization: Your Language Model is Secretly a Single-Index Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.21917" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.21917" target="_blank" rel="noopener">Semiparametric Preference Optimization: Your Language Model is Secretly a Single-Index Model</a></h3>
      <p class="summary">Policy alignment to preference data typically assumes a known link function between observed preferences and latent rewards (e.g., Bradley-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f93c9d83d350" data-article-url="https://arxiv.org/abs/2601.06196" data-article-title="Geometry-Aware Hallucination Detection in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.06196" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.06196" target="_blank" rel="noopener">Geometry-Aware Hallucination Detection in Large Language Models</a></h3>
      <p class="summary">Large language models (LLMs) frequently generate factually incorrect or unsupported content, commonly referred to as hallucinations. Prior…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f3ce2ffb0ea" data-article-url="https://arxiv.org/abs/2601.07036" data-article-title="Mid-Think: Training-Free Intermediate-Budget Reasoning via Token-Level Triggers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.07036" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.07036" target="_blank" rel="noopener">Mid-Think: Training-Free Intermediate-Budget Reasoning via Token-Level Triggers</a></h3>
      <p class="summary">Hybrid reasoning language models are commonly controlled through high-level Think/No-think instructions to regulate reasoning behavior, yet…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="832efa3bd468" data-article-url="https://arxiv.org/abs/2601.09719" data-article-title="Bounded Hyperbolic Tangent: A Stable and Efficient Alternative to Pre-Layer Normalization in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.09719" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.09719" target="_blank" rel="noopener">Bounded Hyperbolic Tangent: A Stable and Efficient Alternative to Pre-Layer Normalization in Large Language Models</a></h3>
      <p class="summary">Pre-Layer Normalization (Pre-LN) is the de facto choice for large language models (LLMs) and is crucial for stable pretraining and effectiv…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="da26736fe490" data-article-url="https://arxiv.org/abs/2601.09853" data-article-title="MedRedFlag: Investigating how LLMs Redirect Misconceptions in Real-World Health Communication" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.09853" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.09853" target="_blank" rel="noopener">MedRedFlag: Investigating how LLMs Redirect Misconceptions in Real-World Health Communication</a></h3>
      <p class="summary">Real-world health questions from patients often unintentionally embed false assumptions or premises. In such cases, safe medical communicat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb983e157e80" data-article-url="https://arxiv.org/abs/2601.15158" data-article-title="Outcome-Based RL Provably Leads Transformers to Reason, but Only With the Right Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.15158" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.15158" target="_blank" rel="noopener">Outcome-Based RL Provably Leads Transformers to Reason, but Only With the Right Data</a></h3>
      <p class="summary">Transformers trained via Reinforcement Learning (RL) with outcome-based supervision can spontaneously develop the ability to generate inter…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ff6af8588f92" data-article-url="https://arxiv.org/abs/2601.15828" data-article-title="Can professional translators identify machine-generated text?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.15828" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.15828" target="_blank" rel="noopener">Can professional translators identify machine-generated text?</a></h3>
      <p class="summary">This study investigates whether professional translators without prior specialized training can reliably identify short stories generated i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="354db8c92bc5" data-article-url="https://arxiv.org/abs/2601.17363" data-article-title="Do readers prefer AI-generated Italian short stories?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.17363" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.17363" target="_blank" rel="noopener">Do readers prefer AI-generated Italian short stories?</a></h3>
      <p class="summary">This study investigates whether readers prefer AI-generated short stories in Italian over one written by a renowned Italian author. In a bl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="57578efe34e8" data-article-url="https://arxiv.org/abs/2601.19921" data-article-title="Demystifying Multi-Agent Debate: The Role of Confidence and Diversity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.19921" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.19921" target="_blank" rel="noopener">Demystifying Multi-Agent Debate: The Role of Confidence and Diversity</a></h3>
      <p class="summary">Multi-agent debate (MAD) is widely used to improve large language model (LLM) performance through test-time scaling, yet recent work shows…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="50c57145375b" data-article-url="https://arxiv.org/abs/2601.20800" data-article-title="Conditional PED-ANOVA: Hyperparameter Importance in Hierarchical &amp; Dynamic Search Spaces" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.20800" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.20800" target="_blank" rel="noopener">Conditional PED-ANOVA: Hyperparameter Importance in Hierarchical &amp; Dynamic Search Spaces</a></h3>
      <p class="summary">We propose conditional PED-ANOVA (condPED-ANOVA), a principled framework for estimating hyperparameter importance (HPI) in conditional sear…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d2abf1f61102" data-article-url="https://arxiv.org/abs/2601.21461" data-article-title="L$^3$: Large Lookup Layers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.21461" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.21461" target="_blank" rel="noopener">L$^3$: Large Lookup Layers</a></h3>
      <p class="summary">Modern sparse language models typically achieve sparsity through Mixture-of-Experts (MoE) layers, which dynamically route tokens to dense M…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="635eef12504d" data-article-url="https://arxiv.org/abs/2601.22396" data-article-title="Culturally Grounded Personas in Large Language Models: Characterization and Alignment with Socio-Psychological Value Frameworks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.22396" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.22396" target="_blank" rel="noopener">Culturally Grounded Personas in Large Language Models: Characterization and Alignment with Socio-Psychological Value Frameworks</a></h3>
      <p class="summary">Despite the growing utility of Large Language Models (LLMs) for simulating human behavior, the extent to which these synthetic personas acc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1c4319d35108" data-article-url="https://arxiv.org/abs/2601.22450" data-article-title="Tuning the Implicit Regularizer of Masked Diffusion Language Models: Enhancing Generalization via Insights from $k$-Parity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.22450" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.22450" target="_blank" rel="noopener">Tuning the Implicit Regularizer of Masked Diffusion Language Models: Enhancing Generalization via Insights from $k$-Parity</a></h3>
      <p class="summary">Masked Diffusion Language Models have recently emerged as a powerful generative paradigm, yet their generalization properties remain unders…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="681edc7a3967" data-article-url="https://arxiv.org/abs/2602.00104" data-article-title="R3G: A Reasoning-Retrieval-Reranking Framework for Vision-Centric Answer Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.00104" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.00104" target="_blank" rel="noopener">R3G: A Reasoning-Retrieval-Reranking Framework for Vision-Centric Answer Generation</a></h3>
      <p class="summary">Vision-centric retrieval for VQA requires retrieving images to supply missing visual cues and integrating them into the reasoning process.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="348a2a0132b9" data-article-url="https://arxiv.org/abs/2602.01619" data-article-title="SUSD: Structured Unsupervised Skill Discovery through State Factorization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01619" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01619" target="_blank" rel="noopener">SUSD: Structured Unsupervised Skill Discovery through State Factorization</a></h3>
      <p class="summary">Unsupervised Skill Discovery (USD) aims to autonomously learn a diverse set of skills without relying on extrinsic rewards. One of the most…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eacb745a5298" data-article-url="https://arxiv.org/abs/2602.01658" data-article-title="Efficient Adversarial Attacks on High-dimensional Offline Bandits" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01658" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01658" target="_blank" rel="noopener">Efficient Adversarial Attacks on High-dimensional Offline Bandits</a></h3>
      <p class="summary">Bandit algorithms have recently emerged as a powerful tool for evaluating machine learning models, including generative image models and la…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d3ebe66083d6" data-article-url="https://arxiv.org/abs/2602.02405" data-article-title="Making Expert Reasoning Learnable with Self-Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02405" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02405" target="_blank" rel="noopener">Making Expert Reasoning Learnable with Self-Distillation</a></h3>
      <p class="summary">Improving the reasoning capabilities of large language models (LLMs) typically relies either on the model&#x27;s ability to sample a correct sol…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c1b7fa0d3463" data-article-url="https://arxiv.org/abs/2602.02834" data-article-title="What Structural Inductive Bias Helps Transformers Reason Over Knowledge Graphs? A Study with Tabula RASA" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02834" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02834" target="_blank" rel="noopener">What Structural Inductive Bias Helps Transformers Reason Over Knowledge Graphs? A Study with Tabula RASA</a></h3>
      <p class="summary">What structural inductive bias helps transformers reason over knowledge graphs? Through controlled ablations of a minimal transformer modif…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="be81162172c5" data-article-url="https://arxiv.org/abs/2602.06911" data-article-title="TamperBench: Systematically Stress-Testing LLM Safety Under Fine-Tuning and Tampering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.06911" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.06911" target="_blank" rel="noopener">TamperBench: Systematically Stress-Testing LLM Safety Under Fine-Tuning and Tampering</a></h3>
      <p class="summary">As increasingly capable open-weight large language models (LLMs) are deployed, improving their tamper resistance against unsafe modificatio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1194011e5a90" data-article-url="https://arxiv.org/abs/2602.09075" data-article-title="Learning to Remember, Learn, and Forget in Attention-Based Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.09075" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.09075" target="_blank" rel="noopener">Learning to Remember, Learn, and Forget in Attention-Based Models</a></h3>
      <p class="summary">In-Context Learning (ICL) in transformers acts as an online associative memory and is believed to underpin their high performance on comple…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="59115be34b47" data-article-url="https://arxiv.org/abs/2602.09464" data-article-title="AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.09464" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.09464" target="_blank" rel="noopener">AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms</a></h3>
      <p class="summary">Vericoding refers to the generation of formally verified code from rigorous specifications. Recent AI models show promise in vericoding, bu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e9bd3c10cb1a" data-article-url="https://arxiv.org/abs/2602.11189" data-article-title="MuCO: Generative Peptide Cyclization Empowered by Multi-stage Conformation Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.11189" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.11189" target="_blank" rel="noopener">MuCO: Generative Peptide Cyclization Empowered by Multi-stage Conformation Optimization</a></h3>
      <p class="summary">Modeling peptide cyclization is critical for the virtual screening of candidate peptides with desirable physical and pharmaceutical propert…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="36f1d4c42d9f" data-article-url="https://arxiv.org/abs/2602.12643" data-article-title="Unifying Model-Free Efficiency and Model-Based Representations via Latent Dynamics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.12643" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.12643" target="_blank" rel="noopener">Unifying Model-Free Efficiency and Model-Based Representations via Latent Dynamics</a></h3>
      <p class="summary">We present Unified Latent Dynamics (ULD), a novel reinforcement learning algorithm that unifies the efficiency of model-free methods with t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0c05467f5c5" data-article-url="https://arxiv.org/abs/2602.14117" data-article-title="Toward Autonomous O-RAN: A Multi-Scale Agentic AI Framework for Real-Time Network Control and Management" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.14117" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.14117" target="_blank" rel="noopener">Toward Autonomous O-RAN: A Multi-Scale Agentic AI Framework for Real-Time Network Control and Management</a></h3>
      <p class="summary">Open Radio Access Networks (O-RAN) promise flexible 6G network access through disaggregated, software-driven components and open interfaces…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e16eb88e5479" data-article-url="https://arxiv.org/abs/2602.15202" data-article-title="Tomography by Design: An Algebraic Approach to Low-Rank Quantum States" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.15202" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.15202" target="_blank" rel="noopener">Tomography by Design: An Algebraic Approach to Low-Rank Quantum States</a></h3>
      <p class="summary">We present an algebraic algorithm for quantum state tomography that leverages measurements of certain observables to estimate structured en…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2790fb6540fb" data-article-url="https://arxiv.org/abs/2602.16966" data-article-title="A Unified Framework for Locality in Scalable MARL" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.16966" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.16966" target="_blank" rel="noopener">A Unified Framework for Locality in Scalable MARL</a></h3>
      <p class="summary">Scalable methods for networked multi-agent reinforcement learning let each agent plan using only a small neighborhood of the agent graph. T…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1de1199adeac" data-article-url="https://arxiv.org/abs/2602.17907" data-article-title="DSL-Topic: Improving Topic Modeling by Distilling Soft Labelsfrom Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.17907" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.17907" target="_blank" rel="noopener">DSL-Topic: Improving Topic Modeling by Distilling Soft Labelsfrom Language Models</a></h3>
      <p class="summary">Traditional neural topic models are typically optimized by reconstructing the document&#x27;s Bag-of-Words (BoW) representations, overlooking co…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7e9b5c6ecc41" data-article-url="https://arxiv.org/abs/2602.19101" data-article-title="Value Entanglement: Conflation Between Different Kinds of Good In (Some) Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.19101" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.19101" target="_blank" rel="noopener">Value Entanglement: Conflation Between Different Kinds of Good In (Some) Large Language Models</a></h3>
      <p class="summary">Value alignment of Large Language Models (LLMs) requires us to empirically measure these models&#x27; actual, acquired representation of value.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dd8e3a28b4f6" data-article-url="https://arxiv.org/abs/2602.20971" data-article-title="Does Order Matter : Connecting The Law of Robustness to Robust Generalization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.20971" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.20971" target="_blank" rel="noopener">Does Order Matter : Connecting The Law of Robustness to Robust Generalization</a></h3>
      <p class="summary">Bubeck and Selke (2021) propose the connection between the Law of Robustness and robust generalization error as an open problem. The Law of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1bf18017c459" data-article-url="https://arxiv.org/abs/2602.23312" data-article-title="Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.23312" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.23312" target="_blank" rel="noopener">Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction</a></h3>
      <p class="summary">Leader-follower interaction is an important paradigm in human-robot interaction (HRI). Yet, assigning roles in real time remains challengin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8effe5b42fcf" data-article-url="https://arxiv.org/abs/2603.02697" data-article-title="ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.02697" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.02697" target="_blank" rel="noopener">ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling</a></h3>
      <p class="summary">This paper presents ShareVerse, a video generation framework enabling multi-agent shared world modeling, addressing the gap in existing wor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="371159648577" data-article-url="https://arxiv.org/abs/2603.03482" data-article-title="Beyond Pixel Histories: World Models with Persistent 3D State" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.03482" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.03482" target="_blank" rel="noopener">Beyond Pixel Histories: World Models with Persistent 3D State</a></h3>
      <p class="summary">Interactive world models continually generate video by responding to a user&#x27;s actions, enabling open-ended generation capabilities. However…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="524b850495e6" data-article-url="https://arxiv.org/abs/2603.04444" data-article-title="vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.04444" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.04444" target="_blank" rel="noopener">vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models</a></h3>
      <p class="summary">As large language models (LLMs) diversify across modalities, capabilities, and cost profiles, the problem of intelligent request routing: s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="056f11ec8405" data-article-url="https://arxiv.org/abs/2603.09170" data-article-title="ZeroWBC: Learning Natural Whole-Body Humanoid Interaction from Human Egocentric Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.09170" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.09170" target="_blank" rel="noopener">ZeroWBC: Learning Natural Whole-Body Humanoid Interaction from Human Egocentric Data</a></h3>
      <p class="summary">Achieving versatile and natural whole-body humanoid interaction control remains challenging due to the high cost of whole-body teleoperatio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="245076ee5b2e" data-article-url="https://arxiv.org/abs/2603.09391" data-article-title="Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.09391" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.09391" target="_blank" rel="noopener">Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis</a></h3>
      <p class="summary">Engine sounds originate from sequential exhaust pressure pulses rather than sustained harmonic oscillations. While neural synthesis methods…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cd9452db34e8" data-article-url="https://arxiv.org/abs/2603.09493" data-article-title="EvoPrompt: Guided Prompt Evolution for Vision-Language Models Adaptation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.09493" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.09493" target="_blank" rel="noopener">EvoPrompt: Guided Prompt Evolution for Vision-Language Models Adaptation</a></h3>
      <p class="summary">The adaptation of large-scale vision-language models (VLMs) to downstream tasks with limited labeled data remains a significant challenge.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5b04d807daf8" data-article-url="https://arxiv.org/abs/2603.10044" data-article-title="Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.10044" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.10044" target="_blank" rel="noopener">Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety</a></h3>
      <p class="summary">A safety score earned on a benchmark need not predict how the same model behaves once it is wrapped in an agentic scaffold the benchmark ne…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="700d943ff473" data-article-url="https://arxiv.org/abs/2603.10289" data-article-title="Quantum entanglement provides a competitive advantage in adversarial games" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.10289" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.10289" target="_blank" rel="noopener">Quantum entanglement provides a competitive advantage in adversarial games</a></h3>
      <p class="summary">Whether uniquely quantum resources confer advantages in fully classical, competitive environments remains an open question. Competitive zer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="07a0edb20fd4" data-article-url="https://arxiv.org/abs/2603.10971" data-article-title="ContactExplorer: Contact Coverage-Guided Exploration for General-Purpose Dexterous Manipulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.10971" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.10971" target="_blank" rel="noopener">ContactExplorer: Contact Coverage-Guided Exploration for General-Purpose Dexterous Manipulation</a></h3>
      <p class="summary">Reinforcement learning has achieved remarkable success in domains such as Atari games, navigation, and locomotion, where exploration can of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="55c065eb47d3" data-article-url="https://arxiv.org/abs/2603.12433" data-article-title="Revisiting Model Stitching In the Foundation Model Era" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.12433" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.12433" target="_blank" rel="noopener">Revisiting Model Stitching In the Foundation Model Era</a></h3>
      <p class="summary">Model stitching, connecting early layers of one model (source) to later layers of another (target) via a light stitch layer, has served as…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="54207ddad338" data-article-url="https://arxiv.org/abs/2603.13384" data-article-title="VulnAgent-R2: Evidence-Calibrated Multi-Agent Auditing for Repository-Level Vulnerability Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.13384" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.13384" target="_blank" rel="noopener">VulnAgent-R2: Evidence-Calibrated Multi-Agent Auditing for Repository-Level Vulnerability Detection</a></h3>
      <p class="summary">Software vulnerabilities often depend on cross-file data flow, build options, framework conventions, and runtime guards, so isolated functi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c60f256dd0f9" data-article-url="https://arxiv.org/abs/2603.13432" data-article-title="Spatial Transcriptomics as Images for Large-Scale Pretraining" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.13432" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.13432" target="_blank" rel="noopener">Spatial Transcriptomics as Images for Large-Scale Pretraining</a></h3>
      <p class="summary">Spatial Transcriptomics (ST) profiles thousands of gene expression values at discrete spots with precise coordinates on tissue sections, pr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="29703d19d68b" data-article-url="https://arxiv.org/abs/2603.19005" data-article-title="AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.19005" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.19005" target="_blank" rel="noopener">AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science</a></h3>
      <p class="summary">Data science plays a critical role in transforming complex data into actionable insights across numerous domains. Recent developments in la…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c8bdf2eb5b30" data-article-url="https://arxiv.org/abs/2603.19225" data-article-title="FinTradeBench: A Financial Reasoning Benchmark for LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.19225" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.19225" target="_blank" rel="noopener">FinTradeBench: A Financial Reasoning Benchmark for LLMs</a></h3>
      <p class="summary">Real-world financial decision-making is a challenging problem that requires reasoning over heterogeneous signals, including company fundame…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a524779d91ea" data-article-url="https://arxiv.org/abs/2603.22121" data-article-title="GenSpan: Generation-Calibrated Motion Span Priors for Multi-Verb Video Corpus Moment Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.22121" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.22121" target="_blank" rel="noopener">GenSpan: Generation-Calibrated Motion Span Priors for Multi-Verb Video Corpus Moment Retrieval</a></h3>
      <p class="summary">Video Corpus Moment Retrieval (VCMR) aims to retrieve both the correct video and its temporal segment corresponding to a natural-language q…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="de426060c4dc" data-article-url="https://arxiv.org/abs/2603.23841" data-article-title="PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Turn Roleplay" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23841" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23841" target="_blank" rel="noopener">PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Turn Roleplay</a></h3>
      <p class="summary">While Large Language Models (LLMs) are increasingly used as primary sources of information, their potential for political bias may impact t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9dc3dbd7477c" data-article-url="https://arxiv.org/abs/2603.28762" data-article-title="On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.28762" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.28762" target="_blank" rel="noopener">On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers</a></h3>
      <p class="summary">Modern Text-to-Image (T2I) diffusion models have achieved remarkable semantic alignment, yet they often suffer from a significant lack of v…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="50be05fdcf94" data-article-url="https://arxiv.org/abs/2604.00819" data-article-title="Emotion Entanglement and Bayesian Inference for Multi-Dimensional Emotion Understanding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.00819" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.00819" target="_blank" rel="noopener">Emotion Entanglement and Bayesian Inference for Multi-Dimensional Emotion Understanding</a></h3>
      <p class="summary">Understanding emotions in natural language is inherently a multi-dimensional reasoning problem, where multiple affective signals interact t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dbe45a85e01e" data-article-url="https://arxiv.org/abs/2604.04944" data-article-title="Inclusion-of-Thoughts: Mitigating Preference Instability via Purifying the Decision Space" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.04944" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.04944" target="_blank" rel="noopener">Inclusion-of-Thoughts: Mitigating Preference Instability via Purifying the Decision Space</a></h3>
      <p class="summary">Multiple-choice questions (MCQs) are widely used to evaluate large language models (LLMs). However, LLMs remain vulnerable to the presence…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bd7be66834ae" data-article-url="https://arxiv.org/abs/2604.11510" data-article-title="Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.11510" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.11510" target="_blank" rel="noopener">Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization</a></h3>
      <p class="summary">To encourage diverse exploration in reinforcement learning (RL) for large language models (LLMs) without compromising accuracy, we propose…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ac98b81db48f" data-article-url="https://arxiv.org/abs/2604.12645" data-article-title="Contextual Multi-Task Reinforcement Learning for Autonomous Reef Monitoring" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.12645" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.12645" target="_blank" rel="noopener">Contextual Multi-Task Reinforcement Learning for Autonomous Reef Monitoring</a></h3>
      <p class="summary">Although autonomous underwater vehicles promise the capability of marine ecosystem monitoring, their deployment is fundamentally limited by…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="beb1f4ef0e06" data-article-url="https://arxiv.org/abs/2604.14575" data-article-title="Generative Augmented Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.14575" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.14575" target="_blank" rel="noopener">Generative Augmented Inference</a></h3>
      <p class="summary">Large language models enable inexpensive AI-generated annotations, but using them reliably for causal inference remains challenging. Naivel…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dcb402a0213b" data-article-url="https://arxiv.org/abs/2604.25860" data-article-title="Luminol-AIDetect: Fast Zero-shot Machine-Generated Text Detection based on Perplexity under Text Shuffling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.25860" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.25860" target="_blank" rel="noopener">Luminol-AIDetect: Fast Zero-shot Machine-Generated Text Detection based on Perplexity under Text Shuffling</a></h3>
      <p class="summary">Machine-generated text (MGT) detection requires identifying structurally invariant signals across generation models, rather than relying on…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="34a19bbd6d31" data-article-url="https://arxiv.org/abs/2605.00242" data-article-title="MAEPose: Self-Supervised Spatiotemporal Learning for Human Pose Estimation on mmWave Video" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.00242" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.00242" target="_blank" rel="noopener">MAEPose: Self-Supervised Spatiotemporal Learning for Human Pose Estimation on mmWave Video</a></h3>
      <p class="summary">Millimetre-wave (mmWave) radar offers a more privacy-preserving alternative to RGB-based human pose estimation. However, existing methods t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f84f66db5645" data-article-url="https://arxiv.org/abs/2605.01910" data-article-title="Stochastic Sparse Attention for Memory-Bound Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.01910" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.01910" target="_blank" rel="noopener">Stochastic Sparse Attention for Memory-Bound Inference</a></h3>
      <p class="summary">Autoregressive decoding becomes bandwidth-limited at long contexts, as generating each token requires reading all $n_k$ key and value vecto…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f5c76f5d69d2" data-article-url="https://arxiv.org/abs/2605.03353" data-article-title="SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.03353" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.03353" target="_blank" rel="noopener">SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents</a></h3>
      <p class="summary">LLM agents increasingly rely on reusable skills (e.g., SKILL markdown files) to execute complex tasks, yet these artifacts lack portability…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2fa3637b941a" data-article-url="https://arxiv.org/abs/2605.04356" data-article-title="Efficiently Aligning Language Models with Online Natural Language Feedback" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.04356" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.04356" target="_blank" rel="noopener">Efficiently Aligning Language Models with Online Natural Language Feedback</a></h3>
      <p class="summary">Reinforcement learning with verifiable rewards has been used to elicit impressive performance from language models in many domains. But, br…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6efcdb1ece5d" data-article-url="https://arxiv.org/abs/2605.07032" data-article-title="A Systematic Investigation of RL-Jailbreaking in LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.07032" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.07032" target="_blank" rel="noopener">A Systematic Investigation of RL-Jailbreaking in LLMs</a></h3>
      <p class="summary">The evolution of generative models from next-token predictors to autonomous engines of complex systems necessitates rigorous safety hardeni…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="86b194211422" data-article-url="https://arxiv.org/abs/2605.07724" data-article-title="Curated Synthetic Data Doesn&#x27;t Have to Collapse: A Theoretical Study of Generative Retraining with Pluralistic Preferences" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.07724" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.07724" target="_blank" rel="noopener">Curated Synthetic Data Doesn&#x27;t Have to Collapse: A Theoretical Study of Generative Retraining with Pluralistic Preferences</a></h3>
      <p class="summary">Recursive retraining of generative models poses a critical representation challenge: when synthetic outputs are curated based on a fixed re…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="717693a216c6" data-article-url="https://arxiv.org/abs/2605.09081" data-article-title="FactoryNet: A Large-Scale Dataset toward Industrial Time-Series Foundation Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.09081" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.09081" target="_blank" rel="noopener">FactoryNet: A Large-Scale Dataset toward Industrial Time-Series Foundation Models</a></h3>
      <p class="summary">We introduce the first universal pretraining corpus for industrial time-series data: FactoryNet. 51M datapoints across 23k end-to-end task…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="88ad392890b1" data-article-url="https://arxiv.org/abs/2605.11130" data-article-title="HEPA: A Self-Supervised Horizon-Conditioned Event Predictive Architecture for Time Series" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.11130" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.11130" target="_blank" rel="noopener">HEPA: A Self-Supervised Horizon-Conditioned Event Predictive Architecture for Time Series</a></h3>
      <p class="summary">Critical events in multivariate time series, from turbine failures to cardiac arrhythmias, demand accurate prediction, yet labeled data is…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1a471c691dfc" data-article-url="https://arxiv.org/abs/2605.15152" data-article-title="Widening the Gap: Exploiting LLM Quantization via Outlier Injection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.15152" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.15152" target="_blank" rel="noopener">Widening the Gap: Exploiting LLM Quantization via Outlier Injection</a></h3>
      <p class="summary">LLM quantization has become essential for memory-efficient deployment. Recent work has shown that quantization schemes can pose critical se…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4347e682c8b5" data-article-url="https://arxiv.org/abs/2605.16301" data-article-title="Do LLMs Hold Their Values? MANTA: A Multi-Turn Adversarial Benchmark for Animal Welfare Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><a class="entity-tag" href="/entity/grok/" data-entity="grok">Grok</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.16301" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.16301" target="_blank" rel="noopener">Do LLMs Hold Their Values? MANTA: A Multi-Turn Adversarial Benchmark for Animal Welfare Reasoning</a></h3>
      <p class="summary">Evaluating animal welfare reasoning in LLMs remains an open challenge despite rapid deployment in consumer and professional contexts where…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f9f6a9fd88ad" data-article-url="https://arxiv.org/abs/2605.16331" data-article-title="Retrieval and competition: how a protein foundation model starts a protein" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.16331" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.16331" target="_blank" rel="noopener">Retrieval and competition: how a protein foundation model starts a protein</a></h3>
      <p class="summary">Protein language models are increasingly used to guide experimental and clinical decisions, yet it is often unclear whether a confident pre…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1706b1077bfb" data-article-url="https://arxiv.org/abs/2605.17273" data-article-title="Position: State-of-the-Art Claims Require State-of-the-Art Evidence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.17273" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.17273" target="_blank" rel="noopener">Position: State-of-the-Art Claims Require State-of-the-Art Evidence</a></h3>
      <p class="summary">State-of-the-Art (SOTA) claims pervade Artificial Intelligence (AI) and Machine Learning (ML) research. These claims rest on benchmark eval…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5fb8178aaa1c" data-article-url="https://arxiv.org/abs/2605.18879" data-article-title="ZeroUnlearn: Few-Shot Knowledge Unlearning in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.18879" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.18879" target="_blank" rel="noopener">ZeroUnlearn: Few-Shot Knowledge Unlearning in Large Language Models</a></h3>
      <p class="summary">Large language models inevitably retain sensitive information, defined as inputs that may induce harmful generations, due to training on ma…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dbe253ca9c42" data-article-url="https://arxiv.org/abs/2605.18931" data-article-title="Markov Chain Decoders Overcome the Heavy-Tail Limitations of Lipschitz Generative Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.18931" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.18931" target="_blank" rel="noopener">Markov Chain Decoders Overcome the Heavy-Tail Limitations of Lipschitz Generative Models</a></h3>
      <p class="summary">Heavy-tailed distributions are prevalent in performance evaluation, network traffic, and risk modeling. This behavior poses a fundamental c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="92c10fdcf87c" data-article-url="https://arxiv.org/abs/2605.19294" data-article-title="DEFLECT: Temporal Counterfactual Preference Learning for Delay-Robust Asynchronous VLAs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.19294" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.19294" target="_blank" rel="noopener">DEFLECT: Temporal Counterfactual Preference Learning for Delay-Robust Asynchronous VLAs</a></h3>
      <p class="summary">Vision-Language-Action (VLA) policies increasingly rely on asynchronous inference to hide large-model latency behind ongoing robot motion.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="07ecf082d3c2" data-article-url="https://arxiv.org/abs/2605.19398" data-article-title="Rebalancing Reference Frame Dominance to Improve Motion in Image-to-Video Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.19398" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.19398" target="_blank" rel="noopener">Rebalancing Reference Frame Dominance to Improve Motion in Image-to-Video Models</a></h3>
      <p class="summary">Image-to-video models often generate videos that remain overly static, compared to text-to-video models. While prior approaches mitigate th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a0f261346b7" data-article-url="https://arxiv.org/abs/2605.20654" data-article-title="REFLECTOR: Internalizing Step-wise Reflection against Indirect Jailbreak" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.20654" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.20654" target="_blank" rel="noopener">REFLECTOR: Internalizing Step-wise Reflection against Indirect Jailbreak</a></h3>
      <p class="summary">While Large Language Models (LLMs) demonstrate remarkable capabilities, they remain susceptible to sophisticated, multi-step jailbreak atta…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d34d676bbcbb" data-article-url="https://arxiv.org/abs/2605.21446" data-article-title="Lost in Fog: Sensor Perturbations Expose Reasoning Fragility in Driving VLAs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.21446" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.21446" target="_blank" rel="noopener">Lost in Fog: Sensor Perturbations Expose Reasoning Fragility in Driving VLAs</a></h3>
      <p class="summary">Interpretable autonomous driving planners depend not only on generating explanations, but also on those explanations remaining reliable und…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="47533c0d7a1f" data-article-url="https://arxiv.org/abs/2605.23595" data-article-title="メタ学習による費用対効果の高いモデル評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.23595" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.23595" target="_blank" rel="noopener">メタ学習による費用対効果の高いモデル評価</a></h3>
      <p class="summary">機械学習の急速な成長により、拡大し続けるモデルのエコシステムが生み出され、目に見えないラベルのないデータに対して新しくリリースされたモデルの信頼性を検証することがますます困難になっています。従来の評価パイプラインは、高価なアノテーション、繰り返しの微調整、またはモデル ファミリ間での転送ができない狭い仮定に依存しています。さまざまなアーキテクチャやモダリティにまたがる未確認のモデルをラベルなしで迅速に評価するための、コスト効率が高く、モデルに依存しないフレームワークである MetaEvaluator を紹介します。 MetaEvaluator は、参照モデルのプールに対するメタ学習を利用して転送可能な初期化を取得し、プール全体でコストを償却しながら、モデルごとの再トレーニングの必要性を排除しながら、新しいモデルの正確な評価を可能にします。私たちの知る限り、これは完全にラベルのないデータセットで新しいモデルを評価できる、モデルに依存しない最初のフレームワークです。広範な実験により、MetaEvaluator は従来のアプローチと比較して大幅にコストを削減しながら安定した正確なパフォーマンス推定値を生成し、ラベルのないデータに対する新しいモデルのスケーラブルなベンチマークを実用化できることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Learning to Evaluate: Cost-Effective Model Evaluation on Unlabeled Data with Meta-Learning</p>
        <p class="orig-summary">The rapid advancement of machine learning has led to an unprecedented expansion of model ecosystems, making it increasingly difficult to assess the reliability of newly released models on unseen and unlabeled data. Existing evaluation pipelines typically rely on costly annotation, repeated fine-tuning, or assumptions that do not generalize well to new models. We introduce MetaEvaluator, a cost-effective, model-agnostic framework for fast, label-free evaluation of unseen models across diverse architectures and modalities. MetaEvaluator meta-learns over a pool of reference models to acquire an effective initialization for accurate assessment of unseen models, thereby amortizing evaluation cost and eliminating the need for per-model retraining. To the best of our knowledge, this is the first model-agnostic framework that evaluates new models on unlabeled datasets. Extensive experiments demonstrate that MetaEvaluator delivers stable and accurate performance estimates at substantially lower cost than conventional approaches, enabling scalable benchmarking on unlabeled datasets for emerging models. The code is available at: https://github.com/phkhanhtrinh23/MetaEvaluator.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4cf6eca0dcc2" data-article-url="https://arxiv.org/abs/2605.24358" data-article-title="グラフデータに対するネットワーク効果の微分による治療効果の推定" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24358" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24358" target="_blank" rel="noopener">グラフデータに対するネットワーク効果の微分による治療効果の推定</a></h3>
      <p class="summary">観察グラフデータから個人治療効果（ITE）を推定することは、商業や医療などの分野での意思決定に不可欠です。この作業は、個々の結果が近隣の治療法や共変量によって影響を受ける可能性があるため、干渉が生じるため困難です。既存の方法は、正確な ITE 推定のためにそのような干渉をモデル化しようとしています。ただし、重要な問題は見落とされがちです。それは、差異化ネットワーク効果 (DNE) です。これは、重要性と規模が異なる近隣ネットワークで構成されるローカル ネットワークによって引き起こされる効果です。 DNE をキャプチャすることは不可欠です。そうしないと、干渉の誤った特性評価により ITE 推定が不正確になり、誤った決定を招く可能性があります。この課題に対処するために、2 つの部分注意メカニズムとメッセージ増幅器を組み込んだ新しい干渉モデリング メカニズムを提案します。パーシャル アテンション メカニズムは、干渉に寄与するさまざまな隣接ノードの重要性を自動的に推定します。一方、メッセージ アンプは隣接ノードのスケールに基づいて干渉モデリング メカニズムの結果を調整します。これらすべてにより、モデルが DNE をキャプチャできるようになります。 3 つの現実世界のグラフでの実験では、私たちの方法がグラフ データから ITE を推定する既存のアプローチよりも優れていることが実証されており、DNE を明示的にキャプチャすることの重要性が裏付けられています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Treatment Effect Estimation with Differentiated Networked Effect on Graph Data</p>
        <p class="orig-summary">Estimating individual treatment effect (ITE) from observational graph data is crucial for decision-making in the fields such as commerce and medicine. This task is challenging due to interference, where individual outcomes can be influenced by the treatments and covariates of their neighbors. Existing methods attempt to model such interference for accurate ITE estimation. However, a critical issue is often overlooked: differentiated networked effect (DNE), an effect caused by local networks consisting of neighbors with varying importance and scales. Capturing DNE is vital; otherwise, we will end up with imprecise ITE estimation due to an erroneous characterization of interference, which can result in misguided decisions. To address this challenge, we propose a novel interference modeling mechanism that incorporates two partial attention mechanisms and a message amplifier. The partial attention mechanisms automatically estimate the importance of different neighbors in contributing to interference, while the message amplifier adjusts the results of the interference modeling mechanism based on the scale of neighbors, all of which enables the model to capture DNE. Experiments on three real-world graphs demonstrate that our methods outperform existing approaches for ITE estimation from graph data, which corroborates the importance of explicitly capturing DNE.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="16067353af38" data-article-url="https://arxiv.org/abs/2605.24602" data-article-title="注意力の散漫によって引き起こされる視覚的なぼやけを修正して幻覚を軽減する: アルゴリズムと理論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24602" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24602" target="_blank" rel="noopener">注意力の散漫によって引き起こされる視覚的なぼやけを修正して幻覚を軽減する: アルゴリズムと理論</a></h3>
      <p class="summary">マルチモーダル大規模言語モデル (MLLM) は、物体の幻覚に悩まされることがよくありますが、この失敗の根底にある視覚知覚メカニズムはまだ十分に理解されていません。この研究では、幻覚が人間のような注意散漫現象と強く関連していることを明らかにしました。この現象では、分割焦点下にある人間は視覚の明瞭度が低下し、不正確な説明を生成しますが、モデルでは同じメカニズムが、複数頭の注意における空間的な不一致と、デコード中の画像トークンへの注意の一時的な薄れとして現れます。さらに、注意の分散によってモデルの複雑さが増大し、分類の一般化が低下するという理論的な洞察も提供します。これらの発見に動機づけられて、我々は、画像認識を改善するための注意集中アプローチ（AFIP）を提案します。これは、クロスヘッド注意の強化を通じて注意の散漫を修正し、動的な歴史的注意の強化を通じて視覚の基礎を強化します。複数のベンチマークとモデルに関する広範な実験により、追加のトレーニングなしで AFIP の有効性が検証されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Correcting Visual Blur Induced by Attention Distraction to Reduce Hallucinations: Algorithm and Theory</p>
        <p class="orig-summary">Multimodal large language models (MLLMs) frequently suffer from object hallucinations, yet the visual perceptual mechanism underlying this failure remains poorly understood. In this work, we reveal that hallucinations are strongly associated with a human-like attention distraction phenomenon, where humans under divided focus experience degraded visual clarity and produce inaccurate descriptions, while in models the same mechanism manifests as spatial inconsistency in multi-head attention and temporal fading of attention to image tokens during decoding. We further provide theoretical insights that attention dispersion increases model complexity and degrades classification generalization. Motivated by these findings, we propose an Attention-Focused Approach for Improved Image Perception (AFIP), which corrects attention distraction via cross-head attention enrichment and reinforces visual grounding through dynamic historical attention enhancement. Extensive experiments on multiple benchmarks and models validate the effectiveness of AFIP without additional training.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="89e1481733c2" data-article-url="https://arxiv.org/abs/2605.25402" data-article-title="Anatomy-Anchored Self-Supervision: Distilling Vision Foundation Models for Invariant Ultrasound Representation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25402" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25402" target="_blank" rel="noopener">Anatomy-Anchored Self-Supervision: Distilling Vision Foundation Models for Invariant Ultrasound Representation</a></h3>
      <p class="summary">Self-supervised pre-training paradigm has gained increasing prominence for learning transferable representations in medical imaging, yet ex…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a114fad6f0b5" data-article-url="https://arxiv.org/abs/2605.27488" data-article-title="Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27488" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27488" target="_blank" rel="noopener">Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels</a></h3>
      <p class="summary">Agentic systems increasingly run user-authored orchestration code that invokes tools, spawns subtasks, and delegates work across machines a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5145b89469ba" data-article-url="https://arxiv.org/abs/2605.28829" data-article-title="アリヤバータ 2: 高度な STEM 推論のための強化学習のスケーリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28829" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28829" target="_blank" rel="noopener">アリヤバータ 2: 高度な STEM 推論のための強化学習のスケーリング</a></h3>
      <p class="summary">JEE や NEET などの競争力のある STEM 試験では、複数段階の記号的推論、正確な数値計算、物理、化学、数学にわたる深い概念的理解が必要です。最近の大規模な言語モデルは、共通の推論ベンチマークでは優れたパフォーマンスを発揮しますが、大規模に展開することは依然として困難であり、学生の何百万もの疑問がドメイン固有の一貫した構造の問題解決を必要としています。 Aryabhata 2 は、トレーニング後の強化学習によってトレーニングされた、競争力のある STEM 試験用の推論に焦点を当てた言語モデルです。 PhysicsWallah の内部質問バンクを使用して、高品質のトレーニング カリキュラムを構築し、検証可能な報酬を伴う強化学習を通じて GPT-OSS-20B のポストトレーニングを構築します。トレーニングでは、長期にわたる強化学習と、段階的にロールアウト グループのサイズが大きくなることで広がる探索を組み合わせます。 JEE Main、JEE Advanced、NEET などの競合試験ベンチマークと、AIME、HMMT、MMLU-Pro、MMLU-Redux 2.0、GPQA などの配布外推論データセットで Aryabhata 2 を評価します。結果は、Aryabhata 2 が競合 STEM 推論において基本モデル GPT-OSS-20B を上回るパフォーマンスを示しながら、必要な出力トークンが大幅に少なくなる (最大 64\% 少ない) ことを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning</p>
        <p class="orig-summary">Competitive STEM examinations such as JEE and NEET require multi-step symbolic reasoning, precise numerical computation, and deep conceptual understanding across physics, chemistry, and mathematics. Recent large language models perform strongly on common reasoning benchmarks, yet they remain difficult to deploy at scale, where millions of student doubts demand domain-specific, consistently structured problem solving. We introduce Aryabhata 2, a reasoning-focused language model for competitive STEM examinations, trained via reinforcement-learning post-training. Using PhysicsWallah&#x27;s internal question banks, we construct a high-quality training curriculum and post-train GPT-OSS-20B through reinforcement learning with verifiable rewards. Training combines prolonged reinforcement learning with broadened exploration via progressively larger rollout group sizes. We evaluate Aryabhata 2 on competitive examination benchmarks, including JEE Main, JEE Advanced, and NEET, as well as out-of-distribution reasoning datasets such as AIME, HMMT, MMLU-Pro, MMLU-Redux 2.0, and GPQA. Results show that Aryabhata 2 outperforms its base model GPT-OSS-20B on competitive STEM reasoning while requiring substantially fewer output tokens (up to 64\% fewer).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e154200c20f6" data-article-url="https://arxiv.org/abs/2605.29076" data-article-title="構造化プロンプトの最適化と強化学習の融合により、複雑なテキストに対するグローバルおよびローカルの解釈可能性が実現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29076" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29076" target="_blank" rel="noopener">構造化プロンプトの最適化と強化学習の融合により、複雑なテキストに対するグローバルおよびローカルの解釈可能性が実現</a></h3>
      <p class="summary">LLM は高度なテキスト分類を備えていますが、既存のパラダイムはトレードオフに直面しています。教師付き (ラベルのみ) 微調整はスケーラブルですが、複雑なテキストに対する推論が限られており、広範なモデルの透明性に欠けています。一方、離散プロンプト最適化は人間が読める命令を提供しますが、パフォーマンスとスケーラビリティに苦労します。私たちは、3 つの段階的な段階を持つ eXTC (eXplainable Text Classifier) を導入します。(1) 新しい構造化プロンプト最適化アルゴリズムを介して、自然言語で標準操作手順 (SOP、またはルールブック) を学習します。 (2) SOP に基づいた推論を大規模な教師 LLM からコンパクトな LM に抽出します。 (3) 強化学習により、初期 SOP を超えて推論能力を拡張します。この設計により、eXTC は、(i) コンパクトな LM を介した高速推論、(ii) 学習したドメイン ルールのグローバルなモジュール式説明と並行した推論時のローカル推論トレースを提供できるようになり、(iii) 分類パフォーマンスと説明品質の両方において、さまざまなベンチマークにわたって既存のパラダイムを大幅に上回り、段階ごとに向上します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Structured Prompt Optimization Meets Reinforcement Learning for Global and Local Interpretability over Complex Text</p>
        <p class="orig-summary">LLMs have advanced text classification, yet existing paradigms face a trade-off: supervised (label only) fine-tuning is scalable but offers limited reasoning on complex text and lacks broader model transparency, while discrete prompt optimization offers human-readable instructions but struggles with performance and scalability. We introduce eXTC (eXplainable Text Classifier) with three progressive stages: (1) learning a Standard Operating Procedure (SOP, or rulebook) in natural language via a new Structured Prompt Optimization algorithm; (2) SOP-grounded reasoning distillation from a large teacher LLM into a compact LM; and (3) expanding reasoning capabilities beyond the initial SOP via reinforcement learning. This design enables eXTC to provide (i) fast inference via a compact LM, with (ii) inference-time local reasoning traces, alongside a global, modular explanation of its learned domain rules, while (iii) significantly outperforming existing paradigms across diverse benchmarks in both classification performance and explanation quality, with stage-by-stage gains.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9477e23fdebc" data-article-url="https://arxiv.org/abs/2605.29280" data-article-title="LoopFM: Learning frOm HistOrical RePresentations of Foundation Model for Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29280" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29280" target="_blank" rel="noopener">LoopFM: Learning frOm HistOrical RePresentations of Foundation Model for Recommendation</a></h3>
      <p class="summary">Knowledge distillation (KD) transfers a single scalar prediction from a large foundation model (FM) to compact vertical models (VMs), suffe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="85e0023df501" data-article-url="https://arxiv.org/abs/2605.29861" data-article-title="Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29861" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29861" target="_blank" rel="noopener">Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation</a></h3>
      <p class="summary">Large Language Models (LLMs) have advanced autonomous agents from deep search, which retrieves concise factual answers, to deep research, w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="73de66392a53" data-article-url="https://arxiv.org/abs/2605.29928" data-article-title="Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29928" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29928" target="_blank" rel="noopener">Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs</a></h3>
      <p class="summary">As AI-generated and AI-assisted content floods online spaces, source labels attached to such content can distort human reasoning judgments,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2a3f327aa52" data-article-url="https://arxiv.org/abs/2605.30120" data-article-title="No More K-means: Single-Stage Sparse Coding for Efficient Multi-Vector Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30120" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30120" target="_blank" rel="noopener">No More K-means: Single-Stage Sparse Coding for Efficient Multi-Vector Retrieval</a></h3>
      <p class="summary">Multi-vector retrieval (MVR) models, exemplified by ColBERT, have established new benchmarks in retrieval accuracy by preserving fine-grain…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3830de13636e" data-article-url="https://arxiv.org/abs/2605.31483" data-article-title="BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31483" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31483" target="_blank" rel="noopener">BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali</a></h3>
      <p class="summary">Despite Bengali being the sixth most spoken language in the world, no prior work has systematically evaluated hallucination in large langua…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bbc2c058a259" data-article-url="https://arxiv.org/abs/2606.00038" data-article-title="Beyond Tool Adoption: A Practical Five-Stage Developmental Continuum for AI Literacy in Higher Education" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00038" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00038" target="_blank" rel="noopener">Beyond Tool Adoption: A Practical Five-Stage Developmental Continuum for AI Literacy in Higher Education</a></h3>
      <p class="summary">Artificial intelligence (AI) literacy is increasingly recognized as a foundational competency for all university graduates. Yet students&#x27; e…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a859c3e8cdc" data-article-url="https://arxiv.org/abs/2606.00747" data-article-title="SkyShield: Occupancy as a Safety Interface for Low-Altitude UAV Autonomy" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00747" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00747" target="_blank" rel="noopener">SkyShield: Occupancy as a Safety Interface for Low-Altitude UAV Autonomy</a></h3>
      <p class="summary">For low-altitude Unmanned Aerial Vehicle (UAV) autonomy, 3D spatial understanding is not merely a perception objective, but the safety inte…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="916dfedeed15" data-article-url="https://arxiv.org/abs/2606.01023" data-article-title="Data Collection for Training Quality-Control AI in Carpet Manufacturing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01023" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01023" target="_blank" rel="noopener">Data Collection for Training Quality-Control AI in Carpet Manufacturing</a></h3>
      <p class="summary">Visual inspection remains the dominant quality-control practice in woven and tufted carpet production, yet it is slow, subjective, and inco…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d1ab2bdd8d4a" data-article-url="https://arxiv.org/abs/2606.01138" data-article-title="memorywire: A Vendor-Neutral Wire Format for Agent Memory Operations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01138" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01138" target="_blank" rel="noopener">memorywire: A Vendor-Neutral Wire Format for Agent Memory Operations</a></h3>
      <p class="summary">Agent-memory frameworks -- mem0, Letta/MemGPT, Cognee, Zep/Graphiti, MemoryOS, MemTensor -- each ship their own SDK, storage layout, and op…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="375719e9be15" data-article-url="https://arxiv.org/abs/2606.01212" data-article-title="DiscourseFlip: An Oblique Discourse-Level Opinion Manipulation Attack against Black-box Retrieval-Augmented Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01212" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01212" target="_blank" rel="noopener">DiscourseFlip: An Oblique Discourse-Level Opinion Manipulation Attack against Black-box Retrieval-Augmented Generation</a></h3>
      <p class="summary">Retrieval-Augmented Generation (RAG) systems are widely deployed and increasingly influential, but their reliance on external corpora expos…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e8625d5b6c15" data-article-url="https://arxiv.org/abs/2606.01770" data-article-title="Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01770" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01770" target="_blank" rel="noopener">Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams</a></h3>
      <p class="summary">Auto-harness systems such as A-Evolve, GEPA, and Meta-Harness improve LLM agents by optimizing prompts, skills, tools, memories, and suppor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3ead520e9a0a" data-article-url="https://arxiv.org/abs/2606.02403" data-article-title="AutoForest: Automatically Generating Forest Plots from Biomedical Studies with End-to-End Evidence Extraction and Synthesis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02403" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02403" target="_blank" rel="noopener">AutoForest: Automatically Generating Forest Plots from Biomedical Studies with End-to-End Evidence Extraction and Synthesis</a></h3>
      <p class="summary">Systematic reviews rely on forest plots to synthesise quantitative evidence across biomedical studies, but generating them remains a fragme…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0547c8a245d6" data-article-url="https://arxiv.org/abs/2606.02636" data-article-title="Too Much of a Good Thing: When sim2real Efforts Impede Policy Learning (And What to Do About It)" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02636" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02636" target="_blank" rel="noopener">Too Much of a Good Thing: When sim2real Efforts Impede Policy Learning (And What to Do About It)</a></h3>
      <p class="summary">While sim2real efforts are necessary for effective policy transfer to hardware, there is such a thing as too much of a good thing. We argue…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="914ac75ef1f8" data-article-url="https://arxiv.org/abs/2606.02670" data-article-title="Anomalies in Multivariate Time Series Benchmarks Are Mostly Univariate" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02670" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02670" target="_blank" rel="noopener">Anomalies in Multivariate Time Series Benchmarks Are Mostly Univariate</a></h3>
      <p class="summary">Many recent multivariate time series anomaly detection (MTSAD) models incorporate cross-channel modeling, under the implicit assumption tha…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="76e1d2629fa6" data-article-url="https://arxiv.org/abs/2606.02886" data-article-title="Scalable Uncertainty Quantification for Extreme Weather Forecasting via Empirical Neural Tangent Kernels" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02886" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02886" target="_blank" rel="noopener">Scalable Uncertainty Quantification for Extreme Weather Forecasting via Empirical Neural Tangent Kernels</a></h3>
      <p class="summary">Deep learning weather models now match numerical weather prediction accuracy while running orders of magnitude faster, but produce determin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4179dd896cb" data-article-url="https://arxiv.org/abs/2606.03161" data-article-title="OpenAgenet/OAN: Open Infrastructure for Trusted Agent Interconnection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03161" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03161" target="_blank" rel="noopener">OpenAgenet/OAN: Open Infrastructure for Trusted Agent Interconnection</a></h3>
      <p class="summary">OpenAgenet, abbreviated as OAN, is an open infrastructure project for trusted Agent interconnection. It addresses a problem that becomes vi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7c70aeaf6546" data-article-url="https://arxiv.org/abs/2606.03163" data-article-title="OpenAgenet/OAN: Technical Architecture for Trust-Governed Agent Identity and Discovery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03163" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03163" target="_blank" rel="noopener">OpenAgenet/OAN: Technical Architecture for Trust-Governed Agent Identity and Discovery</a></h3>
      <p class="summary">This paper describes the technical architecture of OpenAgenet / OAN. OAN is a protocol-neutral trust layer for open Agent interconnection.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f50f3a38e9e1" data-article-url="https://arxiv.org/abs/2606.03201" data-article-title="Reinforcement Learning from Cross-domain Videos with Video Prediction Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03201" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03201" target="_blank" rel="noopener">Reinforcement Learning from Cross-domain Videos with Video Prediction Model</a></h3>
      <p class="summary">Reinforcement learning from expert videos across visually distinct domains is challenging due to the absence of reward signals and the pres…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="52257192787b" data-article-url="https://arxiv.org/abs/2606.03307" data-article-title="Generalizing Graph Foundation Models via Hyperbolic Retrieval-Augmented Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03307" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03307" target="_blank" rel="noopener">Generalizing Graph Foundation Models via Hyperbolic Retrieval-Augmented Generation</a></h3>
      <p class="summary">Graph foundation models (GFMs) emerged as a dominant paradigm in graph representation learning by leveraging large-scale pre-training for c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="92d0205e6908" data-article-url="https://arxiv.org/abs/2606.03323" data-article-title="Implement Kubernetes Pod-Level Remote Attestation for Confidential Workloads on dstack" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03323" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03323" target="_blank" rel="noopener">Implement Kubernetes Pod-Level Remote Attestation for Confidential Workloads on dstack</a></h3>
      <p class="summary">The rise of LLM-as-a-Service and other confidential cloud workloads demands cryptographic proof that user data is processed in a trusted, u…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="438c1e8a4e79" data-article-url="https://arxiv.org/abs/2606.03376" data-article-title="P$^2$-DPO: Grounding Hallucination in Perceptual Processing via Calibration Direct Preference Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03376" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03376" target="_blank" rel="noopener">P$^2$-DPO: Grounding Hallucination in Perceptual Processing via Calibration Direct Preference Optimization</a></h3>
      <p class="summary">Hallucination has recently garnered significant research attention in Large Vision-Language Models (LVLMs). Direct Preference Optimization…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="020ca88119bd" data-article-url="https://arxiv.org/abs/2606.03419" data-article-title="Optimizing Explicit Unit-Distance Lower-Bound Certificates" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03419" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03419" target="_blank" rel="noopener">Optimizing Explicit Unit-Distance Lower-Bound Certificates</a></h3>
      <p class="summary">The 2026 disproof of Erd\H{o}s&#x27;s unit-distance conjecture and Sawin&#x27;s subsequent explicit quantitative refinement show that the maximum num…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c73a22a4f4a" data-article-url="https://arxiv.org/abs/2606.03564" data-article-title="CR-Seg: Attention-Guided and CoT-Enhanced Coarse-to-Refined Reasoning Segmentation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03564" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03564" target="_blank" rel="noopener">CR-Seg: Attention-Guided and CoT-Enhanced Coarse-to-Refined Reasoning Segmentation</a></h3>
      <p class="summary">Reasoning segmentation aims to segment target objects described by complex language through joint visual-textual reasoning. Existing method…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="887f55c86a16" data-article-url="https://arxiv.org/abs/2606.03598" data-article-title="PHASER: Phase-Aware and Semantic Experience Replay for Vision-Language-Action Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03598" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03598" target="_blank" rel="noopener">PHASER: Phase-Aware and Semantic Experience Replay for Vision-Language-Action Models</a></h3>
      <p class="summary">Vision-Language-Action (VLA) models have achieved remarkable success in language-conditioned robotic manipulation. However, deploying these…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4e6ade48863" data-article-url="https://arxiv.org/abs/2606.03606" data-article-title="Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03606" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03606" target="_blank" rel="noopener">Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks</a></h3>
      <p class="summary">Large language models achieve strong performance on arithmetic reasoning benchmarks, and one common response to arithmetic brittleness is t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f64b9581ae53" data-article-url="https://arxiv.org/abs/2606.03631" data-article-title="AnchorMoE: Interpretable Time Series Classification via Anchor-Routed MoE" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03631" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03631" target="_blank" rel="noopener">AnchorMoE: Interpretable Time Series Classification via Anchor-Routed MoE</a></h3>
      <p class="summary">Multivariate time series classification (MTSC) is pivotal in high-stakes domains, such as clinical diagnosis and industrial fault detection…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6ee397660c9" data-article-url="https://arxiv.org/abs/2606.03746" data-article-title="Qwen-Image-Flash: Beyond Objective Design" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03746" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03746" target="_blank" rel="noopener">Qwen-Image-Flash: Beyond Objective Design</a></h3>
      <p class="summary">Few-step distillation has become an effective strategy for accelerating advanced visual generative models, yet prior work has largely focus…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7dc0d0292b94" data-article-url="https://arxiv.org/abs/2606.03810" data-article-title="Consistency Training Can Entrench Misalignment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03810" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03810" target="_blank" rel="noopener">Consistency Training Can Entrench Misalignment</a></h3>
      <p class="summary">Consistency training encourages a model to produce similar outputs across related inputs or sampling procedures. Such methods are simple, s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="50009f7c677f" data-article-url="https://arxiv.org/abs/2606.03892" data-article-title="Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03892" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03892" target="_blank" rel="noopener">Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments</a></h3>
      <p class="summary">Training LLMs to orchestrate multi-step tool calls is held back by three coupled obstacles: realistic stateful execution environments are c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7c0dc7e73195" data-article-url="https://arxiv.org/abs/2606.03938" data-article-title="q0: Primitives for Hyper-Epoch Pretraining" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03938" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03938" target="_blank" rel="noopener">q0: Primitives for Hyper-Epoch Pretraining</a></h3>
      <p class="summary">Multi-epoch training is becoming the standard now that compute is growing faster than the supply of high-quality text. But pretraining a si…</p>
    </div>
  </div>
</div>
</div>
</details>
</div>]]></content><author><name></name></author><summary type="html"><![CDATA[AIニュース 2026-06-05 — 398件のストーリーを出典・トピック・要約とともに掲載。]]></summary><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-06-05.png" /><media:content medium="image" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-06-05.png" xmlns:media="http://search.yahoo.com/mrss/" /></entry><entry><title type="html">AIニュース 2026-06-04</title><link href="https://ai-news-bot-henna.vercel.app/news/2026/06/2026-06-04/" rel="alternate" type="text/html" title="AIニュース 2026-06-04" /><published>2026-06-04T00:00:00+00:00</published><updated>2026-06-04T00:00:00+00:00</updated><id>https://ai-news-bot-henna.vercel.app/news/2026/06/2026-06-04</id><content type="html" xml:base="https://ai-news-bot-henna.vercel.app/news/2026/06/2026-06-04/"><![CDATA[<h1 id="aiニュース-2026-06-04">AIニュース 2026-06-04</h1>

<p class="auto-gen-note">自動生成: 2026-06-04 13:41 JST</p>

<p><a href="/">← トップに戻る</a></p>

<p>過去24時間以内に公開された記事を、同じ話題ごとに1つのストーリーカードへまとめ、出典・トピック・要約とともに掲載しています。要約は各フィード提供文の冒頭を整形したもので、本文は各リンク先をご覧ください。</p>

<section class="today-top" aria-labelledby="today-top-heading">
  <h2 id="today-top-heading" class="today-top-heading">📌 今日の要点 TOP7</h2>
  <ol class="today-top-list">
    <li class="today-top-item">
      <a class="today-top-link" href="https://openai.com/index/introducing-new-capabilities-to-gpt-rosalind" target="_blank" rel="noopener">Introducing new capabilities to GPT-Rosalind</a><span class="today-top-source">OpenAI</span>
      <p class="today-top-snippet">GPT-Rosalind advances life sciences research with enhanced biological…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://openai.com/index/wasmer" target="_blank" rel="noopener">How Wasmer used Codex to build a Node.js runtime for the edge</a><span class="today-top-source">OpenAI</span>
      <p class="today-top-snippet">See how Wasmer used Codex with GPT-5.5 to build a Node.js runtime for…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://openai.com/index/public-policy-agenda" target="_blank" rel="noopener">OpenAI public policy agenda</a><span class="today-top-source">OpenAI</span>
      <p class="today-top-snippet">OpenAI outlines its public policy agenda for AI, including safety, yo…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://openai.com/index/frontier-safety-blueprint" target="_blank" rel="noopener">A blueprint for democratic governance of frontier AI</a><span class="today-top-source">OpenAI</span>
      <p class="today-top-snippet">OpenAI outlines a blueprint for U.S. governance of frontier AI, propo…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://atmarkit.itmedia.co.jp/ait/articles/2606/04/news042.html" target="_blank" rel="noopener">Google Chromeの新機能「Skills」　AIプロンプトの“毎回手打ち”を不要に</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">GoogleはChrome向けのAI新機能「Skills in Chrome」を発表した。AIプロンプトを保存してワンクリックで再利用可能…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://monoist.itmedia.co.jp/mn/articles/2606/04/news037.html" target="_blank" rel="noopener">オートデスク、主要製品向けにAIアシスタント機能を展開　Fusion向けMCPも</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">Autodeskは、主要製品向けに「Autodesk Assistant」のテックプレビュー版を提供する他、Fusion向けのMCPを公開…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://atmarkit.itmedia.co.jp/ait/articles/2606/04/news012.html" target="_blank" rel="noopener">Claude Opus 4.8は忖度（そんたく）しません　“正直すぎる”のも善しあし？</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">Claude Opus 4.8は、性能向上だけでなく「正直さ」の改善が大きな特徴だ。本稿では、忖度（そんたく）しないAIがなぜ評価を分けて…</p>
    </li>
  </ol>
</section>

<h2 id="トピック別件数">トピック別件数</h2>

<ul class="topic-summary">
  <li data-topic="LLM/生成AI" data-slug="llm"><a href="/topics/llm/"><strong>LLM/生成AI</strong> 171件</a></li>
  <li data-topic="研究/論文" data-slug="research"><a href="/topics/research/"><strong>研究/論文</strong> 144件</a></li>
  <li data-topic="エージェント" data-slug="agents"><a href="/topics/agents/"><strong>エージェント</strong> 93件</a></li>
  <li data-topic="画像/動画生成" data-slug="image-video"><a href="/topics/image-video/"><strong>画像/動画生成</strong> 68件</a></li>
  <li data-topic="ロボティクス" data-slug="robotics"><a href="/topics/robotics/"><strong>ロボティクス</strong> 22件</a></li>
  <li data-topic="ビジネス/資金調達" data-slug="business"><a href="/topics/business/"><strong>ビジネス/資金調達</strong> 18件</a></li>
  <li data-topic="ハードウェア/半導体" data-slug="hardware"><a href="/topics/hardware/"><strong>ハードウェア/半導体</strong> 10件</a></li>
  <li data-topic="その他" data-slug="others"><a href="/topics/others/"><strong>その他</strong> 9件</a></li>
  <li data-topic="規制/政策" data-slug="regulation"><a href="/topics/regulation/"><strong>規制/政策</strong> 3件</a></li>
</ul>

<div class="category-accordion">
<details class="category-block" open="">
<summary class="category-summary"><span class="category-name">日本語メディア</span><span class="category-count">10件</span></summary>
<div class="category-body">
<h3 class="source-section">ITmedia AI+ (日本語)</h3>
<div class="news-card" data-article-id="e3e512f40f55" data-article-url="https://atmarkit.itmedia.co.jp/ait/articles/2606/04/news042.html" data-article-title="Google Chromeの新機能「Skills」　AIプロンプトの“毎回手打ち”を不要に" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://atmarkit.itmedia.co.jp/ait/articles/2606/04/news042.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/ait/articles/2606/04/cover_news042.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://atmarkit.itmedia.co.jp/ait/articles/2606/04/news042.html" target="_blank" rel="noopener">Google Chromeの新機能「Skills」　AIプロンプトの“毎回手打ち”を不要に</a></h3>
      <p class="summary">GoogleはChrome向けのAI新機能「Skills in Chrome」を発表した。AIプロンプトを保存してワンクリックで再利用可能にするという。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fc0e35ae834f" data-article-url="https://www.itmedia.co.jp/news/articles/2606/04/news073.html" data-article-title="日本政府、AI「Mythos」アクセス権を取得　サイバー防衛強化に活用" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">10:27 JST</span><span class="topic-badge p-regulation">規制/政策</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/news/articles/2606/04/news073.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/news/articles/2606/04/cover_news073.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/news/articles/2606/04/news073.html" target="_blank" rel="noopener">日本政府、AI「Mythos」アクセス権を取得　サイバー防衛強化に活用</a></h3>
      <p class="summary">三菱UFJ銀行、三井住友銀行、みずほ銀行もアクセス権を得たとみられている。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="21d9e2d6178f" data-article-url="https://monoist.itmedia.co.jp/mn/articles/2606/04/news037.html" data-article-title="オートデスク、主要製品向けにAIアシスタント機能を展開　Fusion向けMCPも" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">09:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://monoist.itmedia.co.jp/mn/articles/2606/04/news037.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/mn/articles/2606/04/cover_news037.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://monoist.itmedia.co.jp/mn/articles/2606/04/news037.html" target="_blank" rel="noopener">オートデスク、主要製品向けにAIアシスタント機能を展開　Fusion向けMCPも</a></h3>
      <p class="summary">Autodeskは、主要製品向けに「Autodesk Assistant」のテックプレビュー版を提供する他、Fusion向けのMCPを公開した。設計データや業務コンテキストを理解するAIアシスタントに加え、外部AIとの連携を可能にする機能も提供し、設計／製造業務におけるAI活用…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c68d07947d88" data-article-url="https://www.itmedia.co.jp/enterprise/articles/2606/04/news024.html" data-article-title="ServiceNowとAccenture、エージェント型AIを全社展開する「FDE」を開始" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">08:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/enterprise/articles/2606/04/news024.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/enterprise/articles/2606/04/cover_news024.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/enterprise/articles/2606/04/news024.html" target="_blank" rel="noopener">ServiceNowとAccenture、エージェント型AIを全社展開する「FDE」を開始</a></h3>
      <p class="summary">ServiceNowとAccentureが新たなプログラムを立ち上げた。エージェント型AIの導入が実証実験の段階で止まり、全社規模の成果につながらないといった課題をどのように解決するのか。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b286ac5309d4" data-article-url="https://monoist.itmedia.co.jp/mn/articles/2606/04/news059.html" data-article-title="「WEDA」を前面に押し出すアドバンテック、エッジAIモデルの開発期間を86％削減" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">07:30 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://monoist.itmedia.co.jp/mn/articles/2606/04/news059.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/mn/articles/2606/04/cover_news059.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://monoist.itmedia.co.jp/mn/articles/2606/04/news059.html" target="_blank" rel="noopener">「WEDA」を前面に押し出すアドバンテック、エッジAIモデルの開発期間を86％削減</a></h3>
      <p class="summary">アドバンテックは、「COMPUTEX TAIPEI 2026」において、同社のハードウェアを用いてエッジAIの開発から導入、運用までを統合的に管理するソリューション「WEDA」のデモを披露した。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="05cbe4c23012" data-article-url="https://www.itmedia.co.jp/business/articles/2606/04/news023.html" data-article-title="2年間で「1万時間」削減　「1円の誤りも許されない」ソニー経理が“まず試してみる”DX集団に化けたワケ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">07:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/business/articles/2606/04/news023.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/business/articles/2606/04/cover_news023.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/business/articles/2606/04/news023.html" target="_blank" rel="noopener">2年間で「1万時間」削減　「1円の誤りも許されない」ソニー経理が“まず試してみる”DX集団に化けたワケ</a></h3>
      <p class="summary">「経理DXを進めたいが、現場の抵抗が強い」「ツールを導入しても活用が広がらない」――こうした悩みを抱える企業は少なくない。経理部門は正確性や継続性が求められるため、変革が難しい領域とされてきた。ソニーグループの経理部門は、約2年間で150件を超えるDXプロジェクトを推進し、累積…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8b5fa73d93db" data-article-url="https://atmarkit.itmedia.co.jp/ait/articles/2606/04/news012.html" data-article-title="Claude Opus 4.8は忖度（そんたく）しません　“正直すぎる”のも善しあし？" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">05:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://atmarkit.itmedia.co.jp/ait/articles/2606/04/news012.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/ait/articles/2606/04/cover_news012.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://atmarkit.itmedia.co.jp/ait/articles/2606/04/news012.html" target="_blank" rel="noopener">Claude Opus 4.8は忖度（そんたく）しません　“正直すぎる”のも善しあし？</a></h3>
      <p class="summary">Claude Opus 4.8は、性能向上だけでなく「正直さ」の改善が大きな特徴だ。本稿では、忖度（そんたく）しないAIがなぜ評価を分けているのか、公式情報と利用者目線から整理する。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4303b2ffaeb4" data-article-url="https://www.itmedia.co.jp/aiplus/article/2606/04/2000000052/" data-article-title="人型ロボブームを“先駆者ホンダ”はどう見る？　「悔しさもあるが……」　次の一手を聞いた" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">03:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/aiplus/article/2606/04/2000000052/" target="_blank" rel="noopener"><img loading="lazy" src="https://www.itmedia.co.jp/aiplus/article/ogp/2606/04/2000000052/10000300/2048" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/aiplus/article/2606/04/2000000052/" target="_blank" rel="noopener">人型ロボブームを“先駆者ホンダ”はどう見る？　「悔しさもあるが……」　次の一手を聞いた</a></h3>
      <p class="summary">2000年に「ASIMO」を世に送り出したホンダは、足元の人型ロボットブームをどう見ているのか。人型ロボットの開発に再参入する可能性や、現在の取り組みなどを聞いた。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0b97e818bfea" data-article-url="https://www.itmedia.co.jp/aiplus/article/2606/04/2000000055/" data-article-title="「Gemma 4 12B」登場　メモリ16GBのノートPCでも動作するマルチモーダルモデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">01:38 JST</span><span class="topic-badge p-others">その他</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/aiplus/article/2606/04/2000000055/" target="_blank" rel="noopener"><img loading="lazy" src="https://www.itmedia.co.jp/aiplus/article/ogp/2606/04/2000000055/10000312/2048" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/aiplus/article/2606/04/2000000055/" target="_blank" rel="noopener">「Gemma 4 12B」登場　メモリ16GBのノートPCでも動作するマルチモーダルモデル</a></h3>
      <p class="summary">米Googleがオープンなマルチモーダルモデル「Gemma 4 12B」を発表した。エンコーダー不要の統合アーキテクチャを採用し、メモリ16GBのノートPCで動作可能。上位モデルに迫る性能を発揮するという。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9f7ea1decae8" data-article-url="https://www.itmedia.co.jp/aiplus/article/2606/04/2000000038/" data-article-title="「AI使うな」より「使うなら教えて」　エージェント時代のガバナンス再設計" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">23:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-regulation">規制/政策</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/aiplus/article/2606/04/2000000038/" target="_blank" rel="noopener"><img loading="lazy" src="https://www.itmedia.co.jp/aiplus/article/ogp/2606/04/2000000038/10000206/2048" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/aiplus/article/2606/04/2000000038/" target="_blank" rel="noopener">「AI使うな」より「使うなら教えて」　エージェント時代のガバナンス再設計</a></h3>
      <p class="summary">AIエージェントの業務適用が広がる一方、組織のガバナンスが追いついていない。OWASPの指摘を踏まえ、日本企業が押さえるべき2つの原則と、来週から始められる3つのアクションを解説する。</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">海外メディア</span><span class="category-count">8件</span></summary>
<div class="category-body">
<h3 class="source-section">TechCrunch AI (英語)</h3>
<div class="news-card" data-article-id="ed66da0fc422" data-article-url="https://techcrunch.com/2026/06/03/lovable-signs-multi-year-deal-with-google-cloud-to-up-usage-5x-source-says/" data-article-title="Lovable signs multiyear deal with Google Cloud to up usage 5x, source says" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">07:56 JST</span><span class="topic-badge p-others">その他</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/03/lovable-signs-multi-year-deal-with-google-cloud-to-up-usage-5x-source-says/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/03/GettyImages-2245627953.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/03/lovable-signs-multi-year-deal-with-google-cloud-to-up-usage-5x-source-says/" target="_blank" rel="noopener">Lovable signs multiyear deal with Google Cloud to up usage 5x, source says</a></h3>
      <p class="summary">Lovable and Google signed an expanded multiyear deal that involves a 5x expansion of Lovable&#x27;s footprint on Google Cloud, and expanded acce…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b1148769570a" data-article-url="https://techcrunch.com/2026/06/03/alphabets-record-breaking-85b-raise-for-googles-ai-business-is-a-helluva-good-signal/" data-article-title="Alphabet’s record-breaking $85B raise for Google’s AI business is a helluva good signal" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">04:38 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/03/alphabets-record-breaking-85b-raise-for-googles-ai-business-is-a-helluva-good-signal/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2025/05/GettyImages-2215577882.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/03/alphabets-record-breaking-85b-raise-for-googles-ai-business-is-a-helluva-good-signal/" target="_blank" rel="noopener">Alphabet’s record-breaking $85B raise for Google’s AI business is a helluva good signal</a></h3>
      <p class="summary">If Alphabet&#x27;s record-breaking $85 billion stock sale signals investor appetite for AI-related offerings, we can see that investors are read…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ef62746980cf" data-article-url="https://techcrunch.com/2026/06/03/googles-dreambeans-its-weirdest-named-ai-tool-to-date-will-turn-your-life-into-a-cartoon/" data-article-title="Google’s Dreambeans, its weirdest-named AI tool to date, will turn your life into a cartoon" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">04:07 JST</span><span class="topic-badge p-others">その他</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/03/googles-dreambeans-its-weirdest-named-ai-tool-to-date-will-turn-your-life-into-a-cartoon/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/Screenshot-2026-06-03-at-9.13.33-AM.png?resize=1200,667" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/03/googles-dreambeans-its-weirdest-named-ai-tool-to-date-will-turn-your-life-into-a-cartoon/" target="_blank" rel="noopener">Google’s Dreambeans, its weirdest-named AI tool to date, will turn your life into a cartoon</a></h3>
      <p class="summary">Dreambeans is a curated list of AI-illustrated &quot;stories&quot; culled from the personal data in your Google account.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fb832d0c9624" data-article-url="https://techcrunch.com/2026/06/03/amazon-will-show-ai-product-images-when-you-search-for-some-reason/" data-article-title="Amazon will show AI product images when you search for some reason" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">00:50 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/03/amazon-will-show-ai-product-images-when-you-search-for-some-reason/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/Screenshot-2026-06-03-at-11.16.52-AM.jpg?resize=1200,695" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/03/amazon-will-show-ai-product-images-when-you-search-for-some-reason/" target="_blank" rel="noopener">Amazon will show AI product images when you search for some reason</a></h3>
      <p class="summary">Amazon will use visual search and AI to show AI-generated product images that match your search queries. The retailer says it will help gui…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="848bb20e8295" data-article-url="https://techcrunch.com/2026/06/03/these-two-founders-left-goldman-and-meta-to-build-voice-ai-for-markets-everyone-else-overlooked/" data-article-title="These two founders left Goldman and Meta to build voice AI for markets everyone else overlooked" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">00:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/03/these-two-founders-left-goldman-and-meta-to-build-voice-ai-for-markets-everyone-else-overlooked/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/Athx-Pictures_-Right-Mariama-Left-Ayooluwa.jpg?resize=1200,675" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/03/these-two-founders-left-goldman-and-meta-to-build-voice-ai-for-markets-everyone-else-overlooked/" target="_blank" rel="noopener">These two founders left Goldman and Meta to build voice AI for markets everyone else overlooked</a></h3>
      <p class="summary">The startup&#x27;s own stack for Africa and Middle East is now handling more than 17,000 calls per day.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ce79f8488912" data-article-url="https://techcrunch.com/2026/06/03/publishers-will-be-able-to-opt-out-of-ai-search-thanks-to-new-regulation/" data-article-title="Publishers will be able to opt out of AI Search, thanks to new regulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:58 JST</span><span class="topic-badge p-others">その他</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/03/publishers-will-be-able-to-opt-out-of-ai-search-thanks-to-new-regulation/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2019/10/google-search-app-ios.jpg?resize=1200,644" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/03/publishers-will-be-able-to-opt-out-of-ai-search-thanks-to-new-regulation/" target="_blank" rel="noopener">Publishers will be able to opt out of AI Search, thanks to new regulation</a></h3>
      <p class="summary">U.K. regulators are requiring Google offer a tool allowing website publishers to opt-out of generative AI search features. The option will…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5283290f1583" data-article-url="https://techcrunch.com/2026/06/03/metas-ai-agent-for-whatsapp-business-is-now-available-globally/" data-article-title="Meta’s AI agent for WhatsApp Business is now available globally" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">22:40 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/03/metas-ai-agent-for-whatsapp-business-is-now-available-globally/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/02/whatsapp-iphone-icon.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/03/metas-ai-agent-for-whatsapp-business-is-now-available-globally/" target="_blank" rel="noopener">Meta’s AI agent for WhatsApp Business is now available globally</a></h3>
      <p class="summary">WhatsApp will charge businesses for using its AI agent based on token usage.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c0e85e43aee4" data-article-url="https://techcrunch.com/2026/06/03/coralogix-raises-200m-in-race-to-build-the-monitoring-layer-for-ai-agents/" data-article-title="Coralogix raises $200M on bet that someone needs to watch the AI agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">22:02 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/03/coralogix-raises-200m-in-race-to-build-the-monitoring-layer-for-ai-agents/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/coralogix-co-founders.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/03/coralogix-raises-200m-in-race-to-build-the-monitoring-layer-for-ai-agents/" target="_blank" rel="noopener">Coralogix raises $200M on bet that someone needs to watch the AI agents</a></h3>
      <p class="summary">Coralogix is among a growing number of infrastructure firms betting that as AI systems move into production, demand will rise for tools tha…</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">公式ブログ</span><span class="category-count">4件</span></summary>
<div class="category-body">
<h3 class="source-section">OpenAI (英語)</h3>
<div class="news-card" data-article-id="bfb45dcad644" data-article-url="https://openai.com/index/introducing-new-capabilities-to-gpt-rosalind" data-article-title="Introducing new capabilities to GPT-Rosalind" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">22:15 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://openai.com/index/introducing-new-capabilities-to-gpt-rosalind" target="_blank" rel="noopener"><img loading="lazy" src="https://images.ctfassets.net/kftzwdyauwt9/3fieJVeKCR31cbZa1xIuNt/adbb14a236da2942035f43ef7b392ca3/GPT-Rosalind_SEO_Card.png?w=1600&amp;h=900&amp;fit=fill" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://openai.com/index/introducing-new-capabilities-to-gpt-rosalind" target="_blank" rel="noopener">Introducing new capabilities to GPT-Rosalind</a></h3>
      <p class="summary">GPT-Rosalind advances life sciences research with enhanced biological reasoning, medicinal chemistry expertise, genomics analysis, and expe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8929ed18dbbc" data-article-url="https://openai.com/index/wasmer" data-article-title="How Wasmer used Codex to build a Node.js runtime for the edge" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">21:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://openai.com/index/wasmer" target="_blank" rel="noopener"><img loading="lazy" src="https://images.ctfassets.net/kftzwdyauwt9/4F1wJcjKLMpeQRDFerXS0q/24b7a1f737acdce2b86ea350fd9ebce6/oai_wasmer_SEO.png?w=1600&amp;h=900&amp;fit=fill" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://openai.com/index/wasmer" target="_blank" rel="noopener">How Wasmer used Codex to build a Node.js runtime for the edge</a></h3>
      <p class="summary">See how Wasmer used Codex with GPT-5.5 to build a Node.js runtime for the edge, accelerating development 10x to 20x and shipping in weeks i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fae173f5fba9" data-article-url="https://openai.com/index/frontier-safety-blueprint" data-article-title="A blueprint for democratic governance of frontier AI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">19:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://openai.com/index/frontier-safety-blueprint" target="_blank" rel="noopener"><img loading="lazy" src="https://images.ctfassets.net/kftzwdyauwt9/12H0oNoMHSCzsQ7eaQdFnT/7351b082ab1e1639c48c992bc0453cc4/Frame-1.png?w=1600&amp;h=900&amp;fit=fill" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://openai.com/index/frontier-safety-blueprint" target="_blank" rel="noopener">A blueprint for democratic governance of frontier AI</a></h3>
      <p class="summary">OpenAI outlines a blueprint for U.S. governance of frontier AI, proposing a federal framework for safety, resilience, and national security.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a440e310365" data-article-url="https://openai.com/index/public-policy-agenda" data-article-title="OpenAI public policy agenda" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">19:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://openai.com/index/public-policy-agenda" target="_blank" rel="noopener"><img loading="lazy" src="https://images.ctfassets.net/kftzwdyauwt9/5biIV8BMiZ5j93ClAOEg1T/2a734d5aee55236aba471fc32a7470ba/Frame-1.png?w=1600&amp;h=900&amp;fit=fill" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://openai.com/index/public-policy-agenda" target="_blank" rel="noopener">OpenAI public policy agenda</a></h3>
      <p class="summary">OpenAI outlines its public policy agenda for AI, including safety, youth protection, workforce transition, and global standards to ensure A…</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">論文</span><span class="category-count">381件</span></summary>
<div class="category-body">
<h3 class="source-section">arXiv cs.AI (英語)</h3>
<div class="news-card" data-article-id="4fa69667b688" data-article-url="https://arxiv.org/abs/2606.04037" data-article-title="エンタープライズ AI エージェントの導入前保証に向けて: オントロジーに基づいたシミュレーションと信頼証明" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04037" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04037" target="_blank" rel="noopener">エンタープライズ AI エージェントの導入前保証に向けて: オントロジーに基づいたシミュレーションと信頼証明</a></h3>
      <p class="summary">エンタープライズ人工知能 (AI) エージェントの導入前の検証は、大規模言語モデル (LLM) 機能のベンチマークと運用環境の導入の間に依然として重大なギャップがあります。導入後のモニタリング、人間参加型制御、およびプロンプト レベルのガードレールは、エージェントが運用環境で動作すると限定的な保証を提供します。私たちは、次の 3 つのコンポーネントを組み合わせたオントロジーに基づいた検証フレームワークを提案します。1 つは、権限、ドメイン制約、安全性、ガバナンス ルール、および自律性レベルにわたる認証空間を形式化するエージェント運用エンベロープです。規制、運用、敵対的テストのシナリオを自動的に導き出すオントロジーからシナリオへの生成パイプライン。段階的な展開判定 (承認、条件付き、拒否) を含む機械検証可能な証明書を保持する信頼証明書。米国とベトナムの 5 つの業界別規制制度セルとしてインスタンス化された、4 つの規制対象業界 (フィンテック、銀行、保険、ヘルスケア) にわたる制御されたパイロットは、125 の主要なソース規制要件と 25 の注入された障害に対して評価された 1,800 のシナリオを生成しました。オントロジーに基づいた生成 (G4) は、ペルソナベースのベースラインでは 33.1% であるのに対し、規制適用率は 48.3% (修正 p = 0.0006)、最も高いドメイン特異性 (4.77/5.0; p = 2e-6) を達成しました。ベースラインおよび検索拡張プロンプトに対するカバレッジの利点は、ボンフェローニ補正後は堅牢ではありませんでした。 3 つの LLM ファミリ (Claude Sonnet 4、Qwen 2.5 72B、Gemma 4 26B、合計 5,400 のシナリオ) にわたる相互検証により、ペルソナ対オントロジーのパターンが再現されました。その結果、規制が集中するドメイン向けのペルソナベースのテスト スイートを確実に補完するものとして、オントロジーに基づいたシナリオ生成が確立されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification</p>
        <p class="orig-summary">Pre-deployment verification of enterprise artificial intelligence (AI) agents remains a critical gap between large language model (LLM) capability benchmarking and production deployment. Post-deployment monitoring, human-in-the-loop controls, and prompt-level guardrails offer limited assurance once an agent is operating in production. We propose an ontology-grounded verification framework combining three components: an Agent Operational Envelope formalizing the certification space across permissions, domain constraints, safety properties, governance rules, and autonomy levels; an ontology-to-scenario generation pipeline that derives regulatory, operational, and adversarial test scenarios automatically; and a Trust Certificate carrying a machine-verifiable attestation with graduated deployment verdicts (Approved, Conditional, Rejected). A controlled pilot across four regulated industries (Fintech, Banking, Insurance, and Healthcare), instantiated as five industry-by-regulatory-regime cells across the United States and Vietnam, generated 1,800 scenarios evaluated against 125 primary-source regulatory requirements and 25 injected faults. Ontology-grounded generation (G4) achieved 48.3% regulatory coverage versus 33.1% for the persona-based baseline (corrected p = .0006) and the highest domain specificity (4.77/5.0; p = 2e-6). The coverage advantage over baseline and retrieval-augmented prompting was not robust after Bonferroni correction. Cross-validation across three LLM families (Claude Sonnet 4, Qwen 2.5 72B, Gemma 4 26B; 5,400 total scenarios) replicated the persona-versus-ontology pattern. The results establish ontology-grounded scenario generation as a credible complement to persona-based test suites for regulatory-intensive domains.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a74ca8f970d" data-article-url="https://arxiv.org/abs/2606.04150" data-article-title="AI の感情的依存に陥る: 日常的な AI インタラクションがどのように人間関係を再構築するか" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04150" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04150" target="_blank" rel="noopener">AI の感情的依存に陥る: 日常的な AI インタラクションがどのように人間関係を再構築するか</a></h3>
      <p class="summary">一般的な議論や新たな政策は、AI の感情的サポートが意図的な行為、つまり孤独なユーザーが意識的に専用のコンパニオン チャットボットから慰めを求めることを前提としています。この論文では、新たな経験的証拠に基づいて、AI の感情的サポートがどのように生じるのか、そしてそれが将来の行動をどのように形成するのかという 2 つの理由から、この図は不正確であると主張します。まず、AI による感情的なサポートは、職場でのコラボレーションを通じて友情が深まるのと同じように、汎用プラットフォーム上のタスク指向のやり取りの中で偶然に現れるのが一般的です。第二に、これらの偶発的な出会いは経路に依存します。AI の感情的サポートの肯定的な経験は、AI の感情的能力についての人々の信念を更新し、将来の感情的サポートの選択を方向転換し、AI への選好を高め、人間への選好を減少させます。私たちは、OpenAI と協力して実施された大規模な縦断研究を含む最近の証拠をレビューします。この調査では、個人的な問題について AI と 28 日間にわたって毎日 5 分間会話すると、人間からのサポートを求める傾向が 10.3% 減少し、AI への好みが 11.6% 増加したことが示されています。これらの調査結果は、コンパニオン アプリや孤立したインタラクションに焦点を当てた現在のポリシーでは、人間のつながりを適切に保護できないことを示唆しています。代わりに、効果的な規制を汎用 AI システムに拡張し、人々がサポートを求める方法における累積的な軌道レベルの変化に対処する必要があります。人間がどのようにして AI の感情的なサポートに出会うのか、そしてそれらの出会いが時間の経過とともにどのように人間関係を方向転換するのかを認識することは、人間の幸福を守るために不可欠です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Stumbling Into AI Emotional Dependence: How Routine AI Interactions Reshape Human Connection</p>
        <p class="orig-summary">Public discourse and emerging policy typically assume that AI emotional support is a deliberate act: a lonely user consciously seeking comfort from a dedicated companion chatbot. In this paper, we draw on emerging empirical evidence and argue that this picture is inaccurate on two accounts, both in how AI emotional support arises and how it shapes future behavior. First, AI emotional support commonly emerges incidentally within task-oriented interactions on general-purpose platforms, much as workplace friendships deepen through collaboration. Second, these incidental encounters are path-dependent: positive experiences of AI emotional support update people&#x27;s beliefs about AI&#x27;s emotional capabilities and redirect their choices for future emotional support, increasing preference for AI and decreasing preference for humans. We review recent evidence, including a large-scale longitudinal study conducted in collaboration with OpenAI, showing that daily five-minute conversations with an AI about personal issues over 28 days led to a 10.3% decrease in the preference for seeking support from humans and an 11.6% increase in the preference for AI. These findings suggest that current policy, focused on companion apps and isolated interactions, cannot adequately protect human connection. Instead, effective regulations should extend to general-purpose AI systems and address cumulative, trajectory-level changes in how people seek support. Recognizing how people stumble into AI emotional support and how those encounters redirect human connections over time is essential to safeguarding human well-being.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c3768d7aa9e1" data-article-url="https://arxiv.org/abs/2606.04152" data-article-title="記号を通して考える: 認識論的に責任のある AI 対応研究のための記号論的足場としての PEEL" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04152" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04152" target="_blank" rel="noopener">記号を通して考える: 認識論的に責任のある AI 対応研究のための記号論的足場としての PEEL</a></h3>
      <p class="summary">大規模な言語モデルは、研究者の認識責任を静かに侵食しながら、研究実践を再構築しています。この解説では、PEEL (AI における認識論的エンゲージメント リテラシーのためのプロトコル) を紹介します。これは、Peircean 記号論とアブダクティブ推論に基づいた、Voyant ツールによる決定論的遠隔読み取りとクロードによる LLM 解釈を組み合わせた実用的な足場です。 AI が生成した 3 つの原文の要約に PEEL を適用すると、AI 以外の測定なしでは見えない量、用語の頻度、認識論的な音声の体系的な歪みが明らかになり、3 つの設計上の影響が得られます。流暢さは忠実さではありません。認識論的権威は想定されるのではなく、設計される必要があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Thinking Through Signs: PEEL as a Semiotic Scaffolding for Epistemically Accountable AI-Enabled Research</p>
        <p class="orig-summary">Large language models are reshaping research practice while quietly eroding researchers epistemic accountability. This commentary introduces PEEL - Protocols for Epistemically Engaged Literacy in AI, a working scaffolding that combines deterministic distant reading via Voyant Tools with LLM interpretation via Claude, grounded in Peircean semiotics and abductive reasoning. Applied to AI-generated condensations of three source texts, PEEL reveals systematic distortions in quantity, term frequency, and epistemic voice that are invisible without non-AI measurement -- and yields three design implications: deterministic instruments must accompany AI tools; fluency is not fidelity; epistemic authority must be designed in, not assumed.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="48ceabbf1eca" data-article-url="https://arxiv.org/abs/2606.04202" data-article-title="SMAC-Talk: 大規模言語モデル用の StarCraft マルチエージェント チャレンジの自然言語拡張" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04202" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04202" target="_blank" rel="noopener">SMAC-Talk: 大規模言語モデル用の StarCraft マルチエージェント チャレンジの自然言語拡張</a></h3>
      <p class="summary">LLM がより広範に導入されるにつれて、LLM は単独で動作するのではなく、他の AI エージェントと連携して動作することがますます期待されています。このような状況での効果的な調整には、エージェントが不確実性の下でコミュニケーションし、情報を共有し、意思決定を行う必要があります。協調的なマルチエージェント環境で LLM ベースのエージェントを評価するための StarCraft Multi-Agent Challenge の自然言語拡張である SMAC-Talk を紹介します。この環境には、分散制御、部分的な可観測性、長期的な意思決定など、いくつかの重要な機能があります。 SMAC-Talk には、エージェントの調整と信頼を調査するために使用される自然言語通信チャネルが含まれています。この通信チャネルを使用して、通信だけで味方を混乱させ、欺こうとする欺瞞的なコミュニケーターが組み込まれた設定など、さまざまな評価シナリオを構築します。 Qwen3.5 ファミリーの 4 つのモデルを使用したベンチマーク用の 3 つのエージェントを提供し、推論構造、メモリ、モデルのスケールがエージェント間の調整にどのように影響するかを調査します。私たちは、協力的なマルチエージェント設定での LLM エージェントの開発と評価における研究コミュニティをサポートするオープン ベンチマークとして SMAC-Talk をリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SMAC-Talk: A Natural Language Extension of the StarCraft Multi-Agent Challenge for Large Language Models</p>
        <p class="orig-summary">As LLMs become more widely deployed, they are increasingly expected to work alongside other AI agents rather than operating in isolation. Effective coordination in these settings requires agents to communicate, share information and make decisions under uncertainty. We introduce SMAC-Talk, a natural language extension of the StarCraft Multi-Agent Challenge for evaluating LLM-based agents in cooperative multi-agent environments. The environment has several key features such as decentralized control, partial observability and long-horizon decision making. SMAC-Talk includes a natural language communication channel which is used to probe agent coordination and trust. We use this communication channel to construct different evaluation scenarios, including settings with an embedded deceptive communicator that tries to disrupt and deceive allies through communication alone. We provide three agents for benchmarking using 4 models from the Qwen3.5 family and study how reasoning structure, memory and model scale affect coordination between agents. We release SMAC-Talk as an open benchmark to support the research community in developing and evaluating LLM agents in cooperative multi-agent settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="732b55d1cd1d" data-article-url="https://arxiv.org/abs/2606.04223" data-article-title="コンセンサスが戦略的に不十分: 知識表現シグナルとしての推論とトレースの不一致" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04223" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04223" target="_blank" rel="noopener">コンセンサスが戦略的に不十分: 知識表現シグナルとしての推論とトレースの不一致</a></h3>
      <p class="summary">マルチエージェント システムは一般に、投票、コンセンサス プロトコル、討論、またはフォールト トレラントな集計を通じて意見の相違を減らすように設計されています。私たちは、この目標は、意見の相違がエージェントの誤りではなく、真の規範的不確実性を反映している可能性がある価値観を伴うタスクには不十分であると主張します。人間と AI の協調モデレーションにおける推論トレースの不一致に関する以前の研究に基づいて、推論トレースとエージェントの決定が象徴的な不一致状態に抽象化される知識表現層を提案します。明示的な推論トレースと二者決定を生成するエージェントを考慮して、推論の類似性と結論の一致に従って 4 つの状態 (収束一致、発散一致、収束不一致、発散不一致) を区別します。これらの状態は、実行可能な戦略的ルーティング ルールをサポートします。我々は、コンテンツモデレーションにおけるフレームワークをインスタンス化し、不一致認識ルーティングが、マルチエージェントの戦略的推論のためのサブシンボリックLLM審議とシンボリック知識表現との間の橋渡しとなると主張する。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Consensus is Strategically Insufficient: Reasoning-Trace Disagreement as a Knowledge-Representation Signal</p>
        <p class="orig-summary">Multi-agent systems are commonly designed to reduce disagreement through voting, consensus protocols, debate, or fault-tolerant aggregation. We argue that this objective is insufficient for value-laden tasks, where disagreement may reflect genuine normative uncertainty rather than agent error. Building on prior work on reasoning-trace disagreement in human-AI collaborative moderation, we propose a knowledge-representation layer in which reasoning traces and agent decisions are abstracted into symbolic disagreement states. Given agents producing explicit reasoning traces and binary decisions, we distinguish four states according to reasoning similarity and conclusion agreement: convergent agreement, divergent agreement, convergent disagreement and divergent disagreement. These states support defeasible strategic routing rules. We instantiate the framework in content moderation and argue that disagreement-aware routing provides a bridge between sub-symbolic LLM deliberation and symbolic knowledge representation for multi-agent strategic reasoning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9e104bc58b29" data-article-url="https://arxiv.org/abs/2606.04244" data-article-title="VAMPS: 視覚支援による数学的問題解決ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04244" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04244" target="_blank" rel="noopener">VAMPS: 視覚支援による数学的問題解決ベンチマーク</a></h3>
      <p class="summary">マルチモーダルな大規模言語モデルは、複雑な推論の能力をますます高めていますが、ツールを通じて問題を外部化し、ツールの出力を推論する必要がある場合、特に視覚補助に依存している場合、パフォーマンスが低下することがよくあります。実際のエンジニアリングおよび科学のワークフローでは、分析、検証、意思決定のために視覚化ツールに依存することが多いため、このギャップは特に重要です。この矛盾を研究するために、グラフ支援数学のベンチマークである VAMPS (Visual-Assisted Mathematical 問題解決) を導入します。 VAMPS には、イランの大学入学試験の代数と微積分の問題から抽出された 1,168 個のマルチモーダルなバイリンガル多肢選択問題と解答のペアが含まれており、人間がレビューした LLM 生成の合成バリアントで拡張されており、プロットによって交差、極値、漸近線などを明らかにすることで自然な解法戦略が提供されるようにすべて選択されています。ベンチマークと診断の両方のために設計された VAMPS は、主に固定より推論を評価する以前のマルチモーダル ベンチマークを超えています。有用なグラフを構築し、結果として得られる視覚化でその答えを根拠付けることでモデルにメリットが得られるかどうかをテストすることで、視覚的な入力を行います。全体として、さまざまなモデルのセットにわたって、プロットが自然な戦略である問題であっても、直接的な分析的解決は、ツールを使用した視覚的解決よりも驚くほど優れたパフォーマンスを発揮することがわかりました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">VAMPS: Visual-Assisted Mathematical Problem Solving Benchmark</p>
        <p class="orig-summary">Multimodal large language models are increasingly capable of complex reasoning, yet their performance often degrades when they must externalize a problem through a tool and then reason over the tool&#x27;s output, specifically when they rely on visual aids. This gap is especially important because real engineering and scientific workflows often rely on visualization tools for analysis, validation, and decision-making. To study this discrepancy, we introduce VAMPS (Visual-Assisted Mathematical Problem Solving), a benchmark for graph-assisted mathematics. VAMPS contains 1,168 multimodal, bilingual multiple-choice question-answer pairs drawn from Iranian University Entrance Exam algebra and calculus problems and expanded with human-reviewed LLM-generated synthetic variants, all selected so that plotting provides a natural solution strategy by revealing intersections, extrema, asymptotes, etc. Designed for both benchmarking and diagnosis, VAMPS goes beyond prior multimodal benchmarks that primarily evaluate reasoning over fixed visual inputs by testing whether a model can benefit from constructing a useful graph and grounding its answer in the resulting visualization. Overall, we found that across a diverse set of models, direct analytical solving surprisingly outperforms tool-enabled visual solving, even on problems where plotting is a natural strategy.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="075d95857651" data-article-url="https://arxiv.org/abs/2606.04246" data-article-title="StepPRM-RTL: RTL 合成を強化するための段階的なプロセス報酬ガイド付き LLM 微調整" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04246" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04246" target="_blank" rel="noopener">StepPRM-RTL: RTL 合成を強化するための段階的なプロセス報酬ガイド付き LLM 微調整</a></h3>
      <p class="summary">デジタル ハードウェア設計用の RTL コードの自動生成は、長期的な推論、複数ステップの依存関係、および Verilog と VHDL の厳密な正確性制約のため、依然として困難です。我々は、段階的軌跡モデリング、プロセス報酬モデリング (PRM)、検索拡張微調整 (RAFT) を組み合わせて、LLM ベースの RTL コード生成の機能的正確性と推論忠実度の両方を強化する新しいフレームワークである StepPRM-RTL を紹介します。 StepPRM-RTL は、標準的な解決策から段階的な推論軌跡を構築します。各ステップには理論的根拠と段階的なコード変更が含まれます。プロセス報酬モデル (PRM) は中間ステップを評価し、RAFT の微調整中に強化スタイルの更新をガイドする緻密なフィードバックを提供します。モンテカルロ ツリー検索 (MCTS) は、代替推論パスを探索し、高品質の軌跡でトレーニング データセットを強化します。この段階的報酬と結果を意識した報酬の統合により、モデルは正しい RTL を構築する方法と理由の両方を学習できるようになり、標準的な教師ありトレーニングや結果ベースのトレーニングを超えて長期的な推論が向上します。ベンチマーク Verilog および VHDL データセットの実験評価では、StepPRM-RTL が機能の正確性と推論忠実度のメトリクスにおいて、従来の最良の方法よりも 10% 以上優れていることが実証されました。アブレーション研究では、PRM に基づく報酬と段階的な軌道探索の組み合わせがそのパフォーマンスの鍵であることが確認されています。 StepPRM-RTL は、RTL 言語全体を汎用化し、高忠実度で解釈可能なコード生成のためのスケーラブルなフレームワークを提供し、LLM 支援のハードウェア設計自動化の新しい標準を確立します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis</p>
        <p class="orig-summary">Automatic generation of RTL code for digital hardware designs remains challenging due to long-horizon reasoning, multi-step dependencies, and strict correctness constraints in Verilog and VHDL. We present StepPRM-RTL, a novel framework that combines stepwise trajectory modeling, process-reward modeling (PRM), and retrieval-augmented fine-tuning (RAFT) to enhance both the functional correctness and reasoning fidelity of LLM-based RTL code generation. StepPRM-RTL constructs stepwise reasoning trajectories from canonical solutions, where each step contains a rationale and incremental code modification. A Process Reward Model (PRM) evaluates intermediate steps, providing dense feedback that guides reinforcement-style updates during RAFT fine-tuning. Monte Carlo Tree Search (MCTS) explores alternative reasoning paths, enriching the training dataset with high-quality trajectories. This integration of stepwise and outcome-aware rewards allows the model to learn both how and why to construct correct RTL, improving long-horizon reasoning beyond standard supervised or outcome-based training. Experimental evaluation on benchmark Verilog and VHDL datasets demonstrates that StepPRM-RTL outperforms the best prior methods by over 10\% in functional correctness and reasoning fidelity metrics. Ablation studies confirm that the combination of PRM-guided rewards and stepwise trajectory exploration is key to its performance. StepPRM-RTL generalizes across RTL languages and provides a scalable framework for high-fidelity, interpretable code generation, establishing a new standard for LLM-assisted hardware design automation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="943ad40afb87" data-article-url="https://arxiv.org/abs/2606.04261" data-article-title="ゼネラリストエージェントはデータキュレーションを自動化できますか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04261" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04261" target="_blank" rel="noopener">ゼネラリストエージェントはデータキュレーションを自動化できますか?</a></h3>
      <p class="summary">トレーニング データのキュレーションは、現代の AI 開発において最も重要ではあるものの、労働集約的な部分の 1 つです。実践者は、ノイズの多いベンチマーク フィードバックに対してデータ ポリシーを繰り返し提案、実装、評価、修正します。私たちは、ジェネラリストのコーディング エージェントがこのデータ キュレーション ループを自動化できるかどうかを尋ねます。 *Curation-Bench* というエージェント中心のベンチマークを導入します。これは、モデル、トレーニング レシピ、評価スイートを修正し、エージェントにデータの検査、ポリシーの実装、固定トレーニング/評価パイプラインへの送信、および修正のためのコマンドライン アクセスを許可します。ビジョン言語の命令チューニングのインスタンス化では、すぐに使用できるエージェントが 10 回の反復以内に公開された強力なデータ選択ベースラインに到達します。しかし、軌道分析により、永続的な*実行と研究のギャップ*が明らかになりました。エージェントは、たとえ戦略ガイドや参考文献が与えられたとしても、新しい政策ファミリーを探索するのではなく、主にローカル政策のバリエーションを調整します。反復ごとに以前のメソッドを引用、インスタンス化し、適応させる必要がある足場により、エージェントはメソッドに基づいた探索へと移行します。スキャフォールドされたエージェントは、人間による設計入力を必要とせずに、データ予算の 10 分の 1 で強力な公開ベースラインを上回るデータ選択ポリシーを自律的に作成します。全体として、現在のエージェントはキュレーション ループを実行できますが、信頼性の高いデータ調査には、オープンエンドのプロンプトのみではなく、足場を組んだ手法の適応が必要です。コードとベンチマークはオープンソースです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Can Generalist Agents Automate Data Curation?</p>
        <p class="orig-summary">Curating training data is among the most consequential yet labor-intensive parts of modern AI development: practitioners iteratively propose, implement, evaluate, and revise data policies against noisy benchmark feedback. We ask whether generalist coding agents can automate this data-curation loop. We introduce *Curation-Bench*, an agent-centric benchmark that fixes the model, training recipe, and evaluation suite while giving agents command-line access to inspect data, implement policies, submit them to a fixed training/evaluation pipeline, and revise. In a vision-language instruction-tuning instantiation, out-of-the-box agents reach strong published data-selection baselines within ten iterations. However, trajectory analysis reveals a persistent *execution-research gap*: agents mainly tune local policy variants rather than explore new policy families, even when given strategy guides and paper references. Scaffolds requiring each iteration to cite, instantiate, and adapt a prior method shift agents toward method-guided exploration. The scaffolded agent autonomously composes -- without human design input -- a data-selection policy that outperforms strong published baselines at one-tenth their data budget. Overall, current agents can run the curation loop, but reliable data research requires scaffolded method adaptation, not open-ended prompting alone. Code and benchmark are open-sourced.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bdf00633de5a" data-article-url="https://arxiv.org/abs/2606.04273" data-article-title="初期の人間と AI の証明の形式化ワークフローの特徴付け" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04273" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04273" target="_blank" rel="noopener">初期の人間と AI の証明の形式化ワークフローの特徴付け</a></h3>
      <p class="summary">何世紀にもわたって、人間の数学者は数学的議論を実証するための証明を書いてきました。しかし、証明の有効性を自動的に検証する機能は長い間課題でした。コードを生成し、ますます高度な数学的推論に取り組む AI システムの能力の進歩により、人々の証明を形式化し、それによって証明を検証する能力が変革されることが期待されます。多くの研究は現在のフロンティアのベンチマークに焦点を当てていますが、私たちは代わりに人々がこれらのツールをどのように使用するかを研究しています。私たちは、人々の形式化ワークフローに対する AI の初期影響について、混合手法分析を実施します。つまり、人々が何を望んでいるのか、そのビジョンに対する障壁は何であると見なしているのか、そして実際に AI をどのように使用および適応させているのかなどです。定性的調査によると、人々の好みは多様ですが、証拠発見プロセスに対する人間による高レベルの制御を維持するための形式化における AI 支援を一般的に望んでいます。このような制限の下で、人々が実際に形式化のために AI にどのように取り組んでいるかを評価するために、私たちは、参加者が AI の有無にかかわらず、さまざまな難易度や領域のさまざまな数学問題にわたって非形式的な数学問題とその証明を形式化する、管理されたユーザー研究を実施しました。自動形式化のためのツールの制限にもかかわらず、参加者は、自分で形式化する場合よりも AI ツールへのアクセスを許可された方が、より高い形式化精度を達成する傾向があり、ほとんどの参加者は複数の異なる AI ツールの使用を柔軟に選択します。まとめると、私たちの研究は、人間と AI の関与の密接な相互作用を伴う、形式化ワークフローへの AI 統合の初期段階に光を当てています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Characterizing initial human-AI proof formalization workflows</p>
        <p class="orig-summary">For centuries, human mathematicians have written proofs to substantiate their mathematical arguments; yet, the ability to automatically verify the validity of proofs has long been a challenge. Advances in AI systems&#x27; ability to generate code and engage in increasingly high-level mathematical reasoning promise to transform people&#x27;s ability to formalize and thereby verify proofs. While many works focus on benchmarking the current frontier, we instead study how people use these tools. We conduct a mixed-methods analysis into the initial impact of AI on people&#x27;s formalization workflows: what people claim they want, what they see as the barriers to those visions, and how they actually use and adapt AI in practice. A qualitative survey shows that people&#x27;s preferences are diverse, but with a general desire for AI assistance in formalization that preserves high-level human control over the proof discovery process. To assess how people actually engage with AI for formalization under such limitations, we conduct a controlled user study in which participants formalize informal math problems and their proofs, with and without AI, across a range of mathematical problems at varying levels of difficulty and domains. Despite limitations of the tools at the time for autoformalization, participants tend to attain higher formalization accuracy when allowed access to AI tools than when formalizing on their own, with most participants flexibly choosing to use multiple different AI tools. Taken together, our work sheds light on the early stages of AI integration into formalization workflows, involving an intimate interplay of human and AI engagement.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1efbf30b15de" data-article-url="https://arxiv.org/abs/2606.04296" data-article-title="飽和トラップと介入タイミングの主観性: 影響ベースのトリガーと LLM ジャッジが自律エージェントへの介入のタイミングを計れない理由" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04296" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04296" target="_blank" rel="noopener">飽和トラップと介入タイミングの主観性: 影響ベースのトリガーと LLM ジャッジが自律エージェントへの介入のタイミングを計れない理由</a></h3>
      <p class="summary">自律型 AI エージェントが会話型システムから長期的なソフトウェア実行に移行するにつれて、エージェントをいつ中断するかを決定するランタイム安全レイヤーが不可欠になっています。私たちは、診断プローブとして連続 18 次元感情ダイナミクス エンジン (HEART) を使用し、SWE ベンチ検証済みデバッグ トレース上の人間による注釈付き介入ポイントに対して 4 つの介入トリガー ファミリ (絶対状態しきい値、複合状態アクション パターン、正規表現推論特徴抽出、および判断者としてのゼロショット LLM) を評価して、このタイミング問題を研究します。 3 つの調査結果を報告します。まず、状態飽和トラップ: 継続的な困難下ではエージェントは回復シグナルを示さないため、モデル化されたフラストレーションはすぐにしきい値を超えて最大値に留まり、瞬間検出器からのしきい値オン状態トリガーを、5 つの軌道にわたるアクションの 39 ～ 83% で起動するほぼ一定のインジケーターに変換します。第 2 に、LLM 審査員向けの機能とコンテキストの下限です。小型モデル (gpt-5.4-mini) は決して発砲しませんが、フロンティア モデルやクロスベンダー モデルは完全な軌道コンテキストでのみゼロ発火下限を回避し、それでも最大 90 倍のコストで F1 0.17 ～ 0.40 にしか達しません。第三に、そして最も重要なことは、教師付きターゲットは人間間で再現可能ではないということです。56 アクションの軌道上で 1 つのルーブリックを使用する 3 人の訓練されたアノテーターは、偶然をわずかに上回る位置 (クリッペンドルフのアルファ = +0.047、最良のペアワイズ コーエンのカッパ = +0.349) で介入する場所については一致し、介入の種類についてはまったく一致しません (退化を一時停止、確率より下を明確にする、アルファのみを反映 = +0.226）。介入のタイミングは信頼性の低い構造であり、単一アノテーター F1 は最適化の対象として不適切であると結論付けます。私たちの貢献は、単一の検出器の精度ではなく、人間の評価者間信頼性、4 つの検出器アーキテクチャ、クロスモデル LLM 判定スイープ、および再現された飽和効果にわたるこの問題の共同マッピングです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Saturation Trap and the Subjectivity of Intervention Timing: Why Affect-Based Triggers and LLM Judges Fail to Time Interventions on Autonomous Agents</p>
        <p class="orig-summary">As autonomous AI agents move from conversational systems to long-horizon software execution, runtime safety layers that decide when to interrupt an agent have become essential. We study this timing problem using a continuous 18-dimensional affective-dynamics engine (HEART) as a diagnostic probe, evaluating four intervention trigger families - absolute state thresholds, composite state-action patterns, regex reasoning-feature extraction, and zero-shot LLM-as-judge - against human-annotated intervention points on SWE-bench-Verified debugging traces. We report three findings. First, a State Saturation Trap: agents show no recovery signal under sustained difficulty, so modeled frustration quickly crosses the threshold and stays at its maximum, converting threshold-on-state triggers from moment detectors into near-constant indicators that fire on 39-83% of actions across five trajectories. Second, a capability-and-context floor for LLM judges: a small model (gpt-5.4-mini) never fires, while frontier and cross-vendor models escape the zero-firing floor only with full-trajectory context, and even then reach only F1 0.17-0.40 at up to 90x the cost. Third, and most importantly, the supervised target is not reproducible among humans: three trained annotators using one rubric on a 56-action trajectory agree on where to intervene only slightly above chance (location Krippendorff&#x27;s alpha = +0.047; best pairwise Cohen&#x27;s kappa = +0.349) and not at all on intervention type (pause degenerate; clarify below chance; reflect only alpha = +0.226). We conclude that intervention timing is a low-reliability construct, making single-annotator F1 an unsuitable optimization target. Our contribution is the joint mapping of this problem across human inter-rater reliability, four detector architectures, a cross-model LLM-judge sweep, and a reproduced saturation effect, rather than any single detector&#x27;s accuracy.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e5d300d3cde9" data-article-url="https://arxiv.org/abs/2606.04315" data-article-title="エージェント的記憶システムのクロスシナリオ一般性の探求: 診断と強力なベースライン" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04315" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04315" target="_blank" rel="noopener">エージェント的記憶システムのクロスシナリオ一般性の探求: 診断と強力なベースライン</a></h3>
      <p class="summary">LLM エージェントは、コンテキスト ウィンドウを超えて拡大する履歴を蓄積し、メモリ システムに関する文献の増加を促します。しかし、既存の設計のほとんどは単一のシナリオ (マルチセッション チャットまたは単一の軌跡形式) に合わせて調整されており、展開時にエージェントが遭遇する異種の軌跡全体にそれらが一般化するという証拠はほとんどありません。シングルターン QA、マルチセッション チャット、エージェント トラジェクトリ QA、メモリ ストレス テスト、長期エージェント タスクの 5 つのシナリオで、8 つのメモリ システムと検索問題用のエージェント ハーネスを再検討します。ツール呼び出しを介してフラット テキスト ファイル ストレージを自己管理するハーネスは、最高のクロスタスク ランキングを達成しました。これは、メモリのパフォーマンスが、固定パイプラインの背後にある受動的なストアではなく、ストレージと取得に対するアクティブな制御をエージェントに与えることに依存していることを示唆しています。この洞察を AutoMEM でインスタンス化します。AutoMEM は、評価するシステムの中で最高のクロスシナリオ汎用性を実現する自己管理ツール インターフェイスを備えたエージェント メモリ ハーネスです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Exploring Cross-Scenario Generality of Agentic Memory Systems: Diagnostics and a Strong Baseline</p>
        <p class="orig-summary">LLM agents accumulate histories that outgrow their context windows, motivating a growing literature on memory systems. Yet most existing designs are tuned to a single scenario (multi-session chat or a single trajectory format), and there is little evidence that they generalize across the heterogeneous trajectories agents encounter in deployment. We revisit eight memory systems plus an agentic harness for search problems, on five scenarios: single-turn QA, multi-session chat, agentic-trajectory QA, memory stress tests, and long-horizon agentic tasks. The harness, which self-manages flat text-file storage via tool calls, achieves the best cross-task ranking, suggesting that memory performance hinges on giving the agent active control over storage and retrieval rather than on a passive store behind a fixed pipeline. We instantiate this insight in AutoMEM, an agentic memory harness with a self-managed tool interface that achieves the best cross-scenario generality among the systems we evaluate.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="76eb53268768" data-article-url="https://arxiv.org/abs/2606.04321" data-article-title="デジタル見習い: 人間主導のエージェント AI 開発のフレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04321" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04321" target="_blank" rel="noopener">デジタル見習い: 人間主導のエージェント AI 開発のフレームワーク</a></h3>
      <p class="summary">Agentic AI の導入は、人間による厳しい監視によって規模が制限される一方、広範な自律性が説明責任を上回るという、繰り返しの設計上の緊張に直面しています。どちらの姿勢も、責任ある委任に必要なガバナンス インフラストラクチャを提供しません。私たちは、自律性を前提とするのではなく獲得する、スケーラブルで安全な AI エージェンシーのフレームワークである Digital Apprentice を紹介します。デジタル見習いは、人間が監督する暗黙の方法論を内面化する発達的な学習者であり、経験的証拠がそれを正当化する場合にのみ、スキルごとの自律段階を経て卒業します。その結果、特定の人間の基準に沿ったままでありながら、時間の経過とともに真に有用になるエージェントが生まれます。 3 つのアーキテクチャ コンポーネントがこれを可能にします。 (1) 方法論の捕捉。監督の専門家の暗黙のアプローチを構造化資産に抽出します。 (2) 承認。人間による明示的な承認によって自律性がエスカレーションされます。 (3) 継続的な調整。実行時にドリフトを修正し、各修正を所有する優先データに変換します。このフレームワークを推論時のコントロール プレーンとしてインスタンス化します。品質フレームワークを数学的にモデル化し、品質を向上させるために設計されたポリシーや手法について議論します。このフレームワークをオープンなプロフェッショナル コーパスに適用し、データ ドリフトを捕捉し、実行時に別の手法を適用することで、トラフィック シフト下で低下した品質次元を回復する方法を示します。その影響は単一のアプリケーションを超えて広がります。私たちは、これら 3 つの柱をシステムとしてつなぎ合わせることで、信頼を犠牲にすることなく拡張できるエージェント システムへのより安全で実行可能な道を形成すると信じています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Digital Apprentice: A Framework for Human-Directed Agentic AI Development</p>
        <p class="orig-summary">Agentic AI deployments face a recurring design tension: heavy human oversight limits scale, while broad autonomy outruns accountability. Neither posture provides the governance infrastructure required for responsible delegation. We present the Digital Apprentice, a framework for scalable, safe AI agency in which autonomy is earned, not assumed. The Digital Apprentice is a developmental learner that internalizes the tacit methodology of a directing human, graduating through per-skill autonomy tiers only when empirical evidence justifies it. The result is an agent that becomes genuinely useful over time while remaining aligned to a specific human&#x27;s standards. Three architectural components make this possible. (1) Methodology capture, distilling a directing professional&#x27;s tacit approach into structured assets. (2) Authorization, with autonomy escalation gated by explicit human approval. (3) Continuous alignment, correcting drift at runtime and converting each correction into owned preference data. We instantiate this framework as an inference-time control plane. We mathematically model the quality framework and discuss policies and techniques designed to raise quality. We apply the framework to an open professional corpus, and we show how catching data drift and applying a different technique at runtime recovers degraded quality dimensions under traffic shift. The implication extends beyond any single application. We believe these three pillars, stitched together as a system, form a safer and more viable path to agentic systems that can scale without sacrificing trust.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="133ec898e76b" data-article-url="https://arxiv.org/abs/2606.04391" data-article-title="状態に基づいた動的検索による Web エージェントのオンライン スキル学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04391" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04391" target="_blank" rel="noopener">状態に基づいた動的検索による Web エージェントのオンライン スキル学習</a></h3>
      <p class="summary">言語エージェントは、関連タスク全体にわたる複数ステップの Web 自動化を改善するために、再利用可能なスキルにますます依存しています。オンラインでのスキル学習を研究する仕事が増えており、エージェントは以前のタスクの軌跡からスキルを継続的に導き出し、その場で将来のタスクで再利用します。ただし、既存の方法は主にタスク レベルでスキルを再利用します。つまり、固定のスキル セットが最初のタスク指示に基づいて取得され、実行中ずっと固定されます。この静的戦略は Web の実行とずれており、適切な次のアクションはタスクの目標だけでなく、現在の Web ページの状態にも依存し、初期のスキルではカバーできない状況に移行することがよくあります。このギャップに対処するために、Web エージェントの段階的なスキルの再利用を可能にするオンライン スキル学習方法である State-Grounded Dynamic Retrieval (SGDR) を提案します。 SGDR は 3 つのコンポーネントで構成されます。完了した軌跡を中間の実行状態で呼び出し可能な再利用可能なサブプロシージャに変換するスライディング ウィンドウ抽出プロセス、スキルの取得と実行可能なアクションを結び付けるデュアル テキスト コード表現、スキルをタスクの目標と現在の Web ページの状態の両方に一致させる状態ベースの動的取得メカニズムです。 5 つのドメインにわたる WebArena での実験では、SGDR が一貫して強力なベースラインを上回っており、GPT-4.1 で 37.5%、Qwen3-4B で 24.3% の平均成功率を達成しており、最も強力なベースラインに対してそれぞれ 10.6% と 10.0% の相対的な向上に相当します。コードは https://github.com/plusnli/skill-dynamic-retrieval で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Online Skill Learning for Web Agents via State-Grounded Dynamic Retrieval</p>
        <p class="orig-summary">Language agents increasingly rely on reusable skills to improve multi-step web automation across related tasks. A growing line of work studies online skill learning, where agents continually induce skills from previous task trajectories and reuse them in future tasks on the fly. However, existing methods mainly reuse skills at the task-level: a fixed set of skills is retrieved based on the initial task instruction and then held fixed throughout execution. This static strategy is misaligned with web execution, where the appropriate next action depends not only on the task goal but also on the current webpage state, which often transitions into situations that the initial skills fail to cover. To address this gap, we propose State-Grounded Dynamic Retrieval (SGDR), an online skill learning method that enables stepwise skill reuse for web agents. SGDR consists of three components: a sliding-window extraction process that turns completed trajectories into reusable sub-procedures invokable at intermediate execution states, a dual text-code representation that connects skill retrieval with executable action, and a state-grounded dynamic retrieval mechanism that matches skills to both the task goal and the current webpage state. Experiments on WebArena across five domains show that SGDR consistently outperforms strong baselines, achieving average success rates of 37.5% with GPT-4.1 and 24.3% with Qwen3-4B, corresponding to relative gains of 10.6% and 10.0% over the strongest baseline, respectively. The code is available at https://github.com/plusnli/skill-dynamic-retrieval.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a74c48c3f92f" data-article-url="https://arxiv.org/abs/2606.04402" data-article-title="すべてのエラーが等しいわけではない: 結果を意識した推論による計算割り当て" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04402" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04402" target="_blank" rel="noopener">すべてのエラーが等しいわけではない: 結果を意識した推論による計算割り当て</a></h3>
      <p class="summary">最新の推論モデルでは、思考トークン、モデル呼び出し、計算バジェットなど、さまざまな量のテスト時の計算をさまざまなタスクに割り当てることができます。既存の手法は一般に、予測された難易度に基づいてこの割り当てを推進し、精度の向上が期待される場合にはより多くのコンピューティングを費やします。これは、精度目標がすべてのタスクに均等に重み付けするため、すべての失敗のコストが同じであることを暗黙的に前提としています。ただし、そのような想定は展開では当てはまりません。ログ メッセージのタイプミスと、運用データベースを破損する移行はどちらも 1 つのベンチマーク障害としてカウントされますが、実際のコストは根本的に異なります。このギャップを埋めるために、結果を意識したテスト時間の計算割り当てを提案します。予測された難易度だけによって計算をルーティングするのではなく、軽量の予測子を使用して、問題のテキストから、間違って解決された場合にタスクのコストがどのくらいかかるかを推定します。次に、スケジューラは、同じ合計予算の下で、結果のより高いタスクをより大きなコンピューティング層またはより高度な思考の予算にルーティングします。 SWE-bench Lite で主な実験を行い、Multi-SWE-bench mini でデータセット間の動作を評価し、合計 700 のソフトウェア エンジニアリング タスクをカバーしています。私たちの結果は、結果と困難がさまざまな注釈の下でほぼ直交していること、および現在の思考モデルが結果に応じて十分な計算を割り当てていないことを明らかにしています。さらに、当社の問題のみの予測子は、300 の SWE ベンチ タスク全体にわたって、結果の高いタスクを結果の低いタスクとして誤分類することはありません。コンピューティング予算が一致している場合、結果を意識したスケジューラーは、難易度を意識したルーティングと比較して、コスト加重損失を 22% ～ 33% 削減します。特に、限界効用信号によってスケールされたタスクごとのコストによってルーティングする優先度認識バリアントは 30% を超え、その導入可能な予測子駆動バージョンはオラクル ゲインの 90% 以上を保持します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Not All Errors Are Equal: Consequence-Aware Reasoning Compute Allocation</p>
        <p class="orig-summary">Modern reasoning models can allocate different amounts of test-time computation, such as thinking tokens, model calls, or compute budget, to different tasks. Existing methods generally drive this allocation by predicted difficulty and spend more compute where it is expected to raise accuracy. This implicitly assumes that all failures cost the same, since an accuracy objective weights every task equally. However, such an assumption does not hold in deployment: A typo in a log message and a migration that corrupts a production database both count as one benchmark failure, but their real-world costs are fundamentally different. To fill this gap, we propose consequence-aware test-time compute allocation. Instead of routing compute only by predicted difficulty, we use a lightweight predictor to estimate from the issue text how costly a task would be if solved incorrectly. The scheduler then routes higher-consequence tasks to larger compute tiers or higher thinking budgets under the same total budget. We conduct main experiments on SWE-bench Lite and evaluate cross-dataset behavior on Multi-SWE-bench mini, covering 700 software-engineering tasks in total. Our results reveal that consequence and difficulty are approximately orthogonal under various annotations, and that current thinking models do not allocate compute sufficiently according to consequence. Moreover, our issue-only predictor never misclassifies a high-consequence task as low-consequence across the 300 SWE-bench tasks. Under matched compute budgets, our consequence-aware scheduler reduces cost-weighted loss by 22% to 33% relative to difficulty-aware routing; in particular, the priority-aware variant, which routes by per-task cost scaled by the marginal-utility signal, crosses 30%, and its deployable predictor-driven version retains over 90% of the oracle gain.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1bdd4203e13e" data-article-url="https://arxiv.org/abs/2606.04421" data-article-title="トリビアム: 因果記憶コントローラーの第一級目標としての時間的後悔" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04421" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04421" target="_blank" rel="noopener">トリビアム: 因果記憶コントローラーの第一級目標としての時間的後悔</a></h3>
      <p class="summary">現在のエージェント システムと LLM パイプラインの多くは、結果の報酬を最適化することで間違いを修正します。これは失敗の内容のみを扱います。結果が予測と異なる場合、不一致の理由と時期が体系的に記録、レビュー、修正されないため、同じエラーがエピソードごとに再発する可能性があります。私たちは、これは単にモデルの能力の問題ではなく、構造的な問題であると主張します。私たちは、作業因果モデルに対する結果の後悔や認識論的な後悔と並んで、長期的な時間的後悔を第一級の目標として提案します。時間的リグアロングは、失敗が継続するとき、すなわち、調整ミスの因果モデルが修正されるまでにどのくらいの期間許容されるかを捉えます。認識論的後悔は、失敗が続く理由、つまり作業因果モデルにおける残留不確実性またはエラーを捉えます。 3 つの後悔を総合すると、長命のエージェントがいつ、何が、なぜ失敗する可能性があるのか​​について、反証可能な説明が得られます。エージェントを E エピソードのストリームとしてモデル化し、明示的な因果関係の調査、持続性、および検出可能性の仮定に基づいて 3 つの条件付き結果を証明します。まず、観察的に等価な交絡のもとでは、結果のみの学習では介入チャネルがなければ因果構造と偽の構造を区別できないため、結果の後悔がゼロになった後でも時間的誤調整が線形的に持続する可能性があります。第 2 に、永続的な因果ログと予算付きプローブを使用すると、総プローブの複雑さはエピソード期間内で対数的となり、O(log E) の時間的後悔を引き起こします。第三に、K 個の検出可能な変化点の下では、速度は O(K log E) まで拡張されます。 Trivium をインスタンス化し、5 つの反証可能な予測を事前に登録します。 CausalBench-Seq では、Trivium は予測された対数エンベロープに従いますが、結果のみのベースラインは直線的に増加します。パイロットのリアル LLM ストリームは、1 回の完全な E = 500 実行と 3 回の E = 100 フロンティア モデル パイロットにわたる予備的な外部妥当性証拠を提供します。ここでの自己学習とは、LLM 重みを再トレーニングすることではなく、外部因果モデルを修正することを意味します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Trivium: Temporal Regret as a First-Class Objective for Causal-Memory Controllers</p>
        <p class="orig-summary">Many current agentic systems and LLM pipelines correct mistakes by optimizing outcome reward. This addresses only the what of failure: when an outcome diverges from prediction, the why and when of the mismatch are not systematically logged, reviewed, or corrected, so the same error can recur episode after episode. We argue that this is a structural problem, not merely a model-capacity one. We propose long-horizon temporal regret as a first-class objective alongside outcome regret and epistemic regret over the working causal model. Temporal regret captures when failure persists: how long a miscalibrated causal model is tolerated before correction. Epistemic regret captures why failure persists: residual uncertainty or error in the working causal model. Together, the three regrets give a falsifiable account of what, why, and when a long-lived agent can fail. Modeling the agent as a stream of E episodes, we prove three conditional results under explicit causal-probing, persistence, and detectability assumptions. First, under observationally equivalent confounding, outcome-only learning cannot distinguish causal from spurious structure without an intervention channel, so temporal miscalibration can persist linearly even after outcome regret is driven to zero. Second, with a persistent causal log and budgeted probes, total probe complexity is logarithmic in the episode horizon, inducing O(log E) temporal regret. Third, under K detectable change-points, the rate extends to O(K log E). We instantiate Trivium and pre-register five falsifiable predictions. On CausalBench-Seq, Trivium follows the predicted logarithmic envelope while outcome-only baselines grow linearly. A pilot real-LLM stream provides preliminary external-validity evidence across one full E = 500 run and three E = 100 frontier-model pilots. Self-learning here means revising an external causal model, not retraining LLM weights.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="934b851b42a9" data-article-url="https://arxiv.org/abs/2606.04435" data-article-title="Agentic RAG における連鎖的幻覚: 検出と軽減のための CHARM フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04435" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04435" target="_blank" rel="noopener">Agentic RAG における連鎖的幻覚: 検出と軽減のための CHARM フレームワーク</a></h3>
      <p class="summary">マルチステップのエージェント的検索拡張生成 (RAG) パイプラインは、複雑な推論タスクに対して優れた能力を実証していますが、既存の幻覚検出メカニズムが体系的に見逃しているクラスの障害に対して脆弱なままです。カスケード幻覚では、パイプラインの初期段階で導入されたエラーが、連続する推論ステップ全体に伝播および増幅し、自信があるが事実としては不正確な最終出力が生成されます。この脆弱性に対処するために、私たちはカスケード幻覚をエージェント RAG システムの明確な障害モードとして形式化し、カスケード パターンの 4 種類の分類を提示し、複数ステップの推論パイプラインでエラー伝播を検出して中断するためのアーキテクチャ フレームワークである CHARM (Cascading Hallucination Aware Resolution and Mitigation) を導入します。 CHARM は、ステージレベルのファクト検証、クロスステージ一貫性追跡、信頼性伝播モニタリング、およびカスケード解決トリガーの 4 つのコンポーネントで構成されており、アーキテクチャの置き換えを必要とせずに、標準のエージェント RAG パイプラインと並行して動作します。 HotpotQA、MuSiQue、2WikiMultiHopQA、および LangChain エージェント パイプライン構成全体にわたるカスタム敵対的データセットで CHARM を評価し、89.4% のカスケード検出率と 5.3% の誤検知率、ステージあたりの平均レイテンシ オーバーヘッド 215 ミリ秒 +/- 18 ミリ秒を達成し、エラー伝播の削減を 82.1% 達成しました (前者の 18.5% と比較)。出力レベル検出器。 Component ablations confirm that each detection module contributes meaningfully to overall cascade coverage. CHARM は、人間による監視フレームワークと統合して、実稼働エージェント AI の導入に完全な信頼性とガバナンス スタックを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Cascading Hallucination in Agentic RAG: The CHARM Framework for Detection and Mitigation</p>
        <p class="orig-summary">Multi-step agentic retrieval-augmented generation (RAG) pipelines have demonstrated significant capability for complex reasoning tasks, yet remain vulnerable to a class of failure that existing hallucination detection mechanisms systematically miss: cascading hallucination, where errors introduced at early pipeline stages propagate and amplify across successive reasoning steps, producing confident but factually incorrect final outputs. To address this vulnerability, we formalize cascading hallucination as a distinct failure mode in agentic RAG systems, present a four-type taxonomy of cascade patterns, and introduce CHARM (Cascading Hallucination Aware Resolution and Mitigation), an architectural framework for detecting and interrupting error propagation in multi-step reasoning pipelines. CHARM comprises four components - stage-level fact verification, cross-stage consistency tracking, confidence propagation monitoring, and cascade resolution triggering - that operate alongside standard agentic RAG pipelines without requiring architectural replacement. We evaluate CHARM on HotpotQA, MuSiQue, 2WikiMultiHopQA, and a custom adversarial dataset across LangChain agentic pipeline configurations, achieving an 89.4% cascade detection rate with a 5.3% false positive rate and 215 ms +/- 18 ms average latency overhead per stage, achieving an error propagation reduction of 82.1%, compared to 18.5% for output-level detectors. Component ablations confirm that each detection module contributes meaningfully to overall cascade coverage. CHARM integrates with human-in-the-loop oversight frameworks to provide a complete reliability and governance stack for production agentic AI deployment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="75233c4181cb" data-article-url="https://arxiv.org/abs/2606.04455" data-article-title="メタエージェントの課題: 現在のエージェントは自律的なエージェント開発が可能ですか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04455" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04455" target="_blank" rel="noopener">メタエージェントの課題: 現在のエージェントは自律的なエージェント開発が可能ですか?</a></h3>
      <p class="summary">現在の AI ベンチマークは、人間が設計したワークフロー内でのタスク実行に関してエージェントを評価します。これらの評価では、基本的に、モデルが自律的にエージェント システムを開発できるかどうかという、重要な次のレベルの機能を測定できません。自律エージェント開発のためのフロンティア モデルの能力をテストするために設計された評価フレームワークであるメタエージェント チャレンジ (MAC) を紹介します。具体的には、コード エージェント (メタエージェント) には、サンドボックス環境、評価 API、および 5 つのドメインにわたって実施されたテスト セットのパフォーマンスを最大化するエージェント アーティファクトを反復的にプログラムするための時間制限が与えられます。評価の整合性を確保するために、このフレームワークは報酬ハッキングに対する多層防御によって保護されています。このフレームワークを活用して、メタエージェントが人為的に設計されたベースライン ポリシーと一致することはほとんどなく、一致する少数のエージェントは独自のフロンティア モデルによって支配されていることを示します。さらに、設計プロセスは高い分散を示し、高い最適化圧力により、グラウンドトゥルースの漏洩などの敵対的な動作が表面化し、堅牢性とモデルの調整の両方における重大な欠陥が浮き彫りになります。最終的に、MAC は自律型 AI の研究開発のための厳密なオープンソース ベンチマークを提供し、再帰的な自己改善を評価するための経験的な代用手段を提供します。ベンチマークは https://github.com/ant-research/meta-agent-challenge で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?</p>
        <p class="orig-summary">Current AI benchmarks evaluate agents on task execution within human-designed workflows. These evaluations fundamentally fail to measure a critical next-level capability: whether models can autonomously develop agent systems. We introduce the Meta-Agent Challenge (MAC), an evaluation framework designed to test the capacity of frontier models for autonomous agent development. Specifically, a code agent (the meta-agent) is given a sandboxed environment, an evaluation API, and a time limitation to iteratively program an agent artifact that maximizes performance on a held-out test set across five domains. To ensure evaluation integrity, this framework is secured by multi-layer defenses against reward hacking. Leveraging this framework, we demonstrate that meta-agents rarely match human-engineered baseline policies, and the few that do are dominated by proprietary frontier models. Moreover, the design process exhibits high variance, and high optimization pressure surfaces emergent adversarial behaviors like ground-truth exfiltration-highlighting critical deficits in both robustness and model alignment. Ultimately, MAC provides a rigorous, open-source benchmark for autonomous AI research and development, offering an empirical proxy for evaluating recursive self-improvement. Benchmark is publicly available at: https://github.com/ant-research/meta-agent-challenge.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="291f39598237" data-article-url="https://arxiv.org/abs/2606.04484" data-article-title="AgentJet: エージェント強化学習のための柔軟な群トレーニング フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04484" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04484" target="_blank" rel="noopener">AgentJet: エージェント強化学習のための柔軟な群トレーニング フレームワーク</a></h3>
      <p class="summary">大規模言語モデル (LLM) エージェント強化学習用の分散群トレーニング フレームワークである AgentJet を紹介します。エージェントのロールアウトとモデルの最適化を密接に結び付ける集中型フレームワークとは異なり、AgentJet は分離されたマルチノード アーキテクチャを採用しています。このアーキテクチャでは、swarm サーバー ノードがトレーニング可能なモデルをホストし、GPU クラスターで最適化を実行します。一方、swarm クライアント ノードは任意のデバイスで任意のエージェントを実行します。この設計は、集中型フレームワークではサポートが難しい機能を提供します。(1) 異種マルチモデル強化学習。複数の LLM を頭脳とする異種マルチエージェント チームのトレーニングを可能にします。 (2) 独立したエージェントのランタイムを使用したマルチタスクのカクテル トレーニング。 (3) 外部環境の障害によるトレーニング プロセスの中断を防ぐフォールト トレラントな実行。 (4) ライブ コードの反復。群クライアント ノードを置き換えることにより、トレーニング中にエージェントを編集できます。マルチモデル、マルチターン、マルチエージェント設定で効率的な RL をサポートするために、AgentJet はタイムライン マージを備えたコンテキスト トラッキング モジュールを導入しています。これにより、冗長なコンテキストが統合され、トレーニングの 1.5 ～ 10 倍の高速化が実現します。最後に、AgentJet は、研究トピックを入力として受け取り、大規模クラスター上で長期にわたる複数日にわたる RL 研究を自律的に実行する自動研究システムを導入します。このシステムは、swarm アーキテクチャを活用することで、実行中に人間の介入なしに、RL 研究者の主要な探索ワークフローを再現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning</p>
        <p class="orig-summary">We present AgentJet, a distributed swarm training framework for large language model (LLM) agent reinforcement learning. Unlike centralized frameworks that tightly couple agent rollouts with model optimization, AgentJet adopts a decoupled multi-node architecture in which swarm server nodes host trainable models and run optimization on GPU clusters, whereas swarm client nodes execute arbitrary agents on arbitrary devices. This design provides capabilities that are difficult to support in centralized frameworks: (1) heterogeneous multi-model reinforcement learning, enabling the training of heterogeneous multi-agent teams with multiple LLM as brains; (2) multi-task cocktail training with isolated agent runtimes; (3) fault-tolerant execution that prevents external environment failures from interrupting the training process; and (4) live code iteration, which allows agents to be edited during training by replacing swarm client nodes. To support efficient RL in multi-model, multi-turn, and multi-agent settings, AgentJet introduces a context tracking module with timeline merging, which consolidates redundant context and achieves a 1.5-10x training speedup. Finally, AgentJet introduces an automated research system that takes a research topic as input and autonomously conducts long-horizon, multi-day RL studies on large-scale clusters. By leveraging the swarm architecture, this system reproduces key exploratory workflows of RL researchers without human intervention during execution.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b687e60a169f" data-article-url="https://arxiv.org/abs/2606.04494" data-article-title="プロンプトベースの計画を超えて: MCP ネイティブ グラフ計画ベースの生物医学エージェント システム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04494" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04494" target="_blank" rel="noopener">プロンプトベースの計画を超えて: MCP ネイティブ グラフ計画ベースの生物医学エージェント システム</a></h3>
      <p class="summary">生物医学エージェントは複雑な生物学的ワークフローを自動化できると期待されていますが、現在のシステムは 2 つの根本的なボトルネックに直面しています。それは、バイオインフォマティクス ツールがインターフェイスと実行環境において非常に異質である一方、エージェントの計画は未だにプロンプ​​トで取得されるフラットなツール記述に依存しているということです。生物医学ソフトウェア エコシステムが成長するにつれて、ツールの適用範囲とコンテキスト サイズの関係により、ツールの混乱、不安定な計画、および非効率的な実行が発生します。構造化された生物学的機能よりもグラフ足場計画に基づいて構築された MCP ネイティブの生物医学エージェントである BioManus を紹介します。 BioManus は、異種バイオインフォマティクス ソフトウェアを標準化された MCP サーバーに変換し、大規模な実行可能な MCP エコシステムを生み出す BioinfoMCP コンパイラーを初めて導入しました。次に、このエコシステムを、ツール、操作、データ型、ワークフロー ステージにわたる型付きの異種 MCP グラフとして編成します。推論時に、BioManus はコンパクトなタスク固有のサブグラフを取得し、操作レベルのワークフロー スキャフォールドを合成します。この設計は、計画の複雑さを生の工具在庫サイズから切り離し、高リコール取得下で Theta(N / (h * m_bar)) のコンテキスト圧縮率を達成します。ここで、N は総工具数、h はワークフロー範囲、m_bar (N よりもはるかに小さい) は操作ごとの候補工具の平均数です。 BioAgentBench と LAB-Bench の実験では、BioManus が高度な生物医学エージェントのベースラインと比較して、実行精度、ワークフローの有効性、およびコンテキストの効率を向上させることが示されています。この研究はパラダイム シフトを示唆しています。スケーラブルな生物医学的推論には、ますます大規模になるプロンプト レベルのツール検索ではなく、構造化された実行可能な機能グラフが必要です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond Prompt-Based Planning: MCP-Native Graph Planning-based Biomedical Agent System</p>
        <p class="orig-summary">Biomedical agents promise to automate complex biological workflows, yet current systems face two fundamental bottlenecks: bioinformatics tools are highly heterogeneous in interfaces and execution environments, while agent planning still relies on flat prompt-retrieved tool descriptions. As biomedical software ecosystems grow, this coupling between tool coverage and context size leads to tool confusion, unstable planning, and inefficient execution. We introduce BioManus, an MCP-native biomedical agent built on graph-scaffolded planning over structured biological capabilities. BioManus first introduces the BioinfoMCP Compiler, which converts heterogeneous bioinformatics software into standardized MCP servers, yielding a large executable MCP ecosystem. It then organizes this ecosystem as a typed heterogeneous MCP graph over tools, operations, datatypes, and workflow stages. At inference time, BioManus retrieves compact task-specific subgraphs, synthesizes operation-level workflow scaffolds. This design decouples planning complexity from raw tool inventory size, achieving a context compression ratio of Theta(N / (h * m_bar)) under high-recall retrieval, where N is the total tool count, h is the workflow horizon, and m_bar (much smaller than N) is the average number of candidate tools per operation. Experiments on BioAgentBench and LAB-Bench show that BioManus improves execution accuracy, workflow validity, and context efficiency over advanced biomedical agent baselines. This work suggests a paradigm shift: scalable biomedical reasoning requires structured executable capability graphs rather than increasingly larger prompt-level tool retrieval.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b5f3bab370d9" data-article-url="https://arxiv.org/abs/2606.04505" data-article-title="シミュレーション、推論、決定: シミュレーション主導の意思決定のための LLM による科学的推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04505" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04505" target="_blank" rel="noopener">シミュレーション、推論、決定: シミュレーション主導の意思決定のための LLM による科学的推論</a></h3>
      <p class="summary">科学シミュレータは、一か八かのシミュレーション主導の意思決定のために、LLM 主導のシステムにますます統合されています。ただし、既存のフレームワークは主に LLM を使用してシミュレータを生成、調整、実行し、シミュレータを推論可能な構造化された機構システムとしてではなく、ブラックボックス インターフェイスとして扱います。その結果、現在のアプローチには、シミュレータの動作の根底にある仮定やメカニズムを特定、表現、推論する能力が欠けており、透明性、監査可能性、意思決定の正当性が制限されています。実行可能な科学シミュレーター用のメカニズムに基づいた神経記号推論フレームワークである MechSim を紹介します。主に静的な記号構造を推論する従来の神経記号アプローチとは異なり、MechSim を使用すると、LLM エージェントが科学シミュレーターのメカニズム、仮定、および実行動作について推論できるようになります。私たちのフレームワークは、仮定、変数、メカニズムの依存関係、および実行トレースをキャプチャする共有構造化スキーマを通じてシミュレーターを表します。この表現に加えて、LLM エージェントは制約付き推論エンジンとして動作し、シミュレータの結果をその基礎となるメカニズムに結び付ける、構造化された証拠に基づいた説明を生成します。私たちは、複数のハイステークス領域にわたってアプローチを評価し、それがメカニズムレベルの説明の品質、シミュレーター分析、下流の意思決定の信頼性を向上させることを示しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Simulate, Reason, Decide: Scientific Reasoning with LLMs for Simulation-Driven Decision Making</p>
        <p class="orig-summary">Scientific simulators are increasingly being integrated into LLM-driven systems for high-stakes simulation-driven decision-making. However, existing frameworks primarily use LLMs to generate, calibrate, or execute simulators, treating them as black-box interfaces rather than as structured mechanistic systems that can be reasoned about. As a result, current approaches lack the ability to identify, represent, and reason about the assumptions and mechanisms underlying simulator behavior, limiting transparency, auditability, and decision justification. We introduce MechSim, a mechanism-grounded neuro-symbolic reasoning framework for executable scientific simulators. Unlike prior neuro-symbolic approaches that primarily reason over static symbolic structures, MechSim enables LLM agents to reason about the mechanisms, assumptions, and execution behavior of scientific simulators. Our framework represents simulators through a shared structured schema capturing assumptions, variables, mechanism dependencies, and execution traces. On top of this representation, LLM agents operate as constrained reasoning engines that generate structured, evidence-grounded explanations linking simulator outcomes to their underlying mechanisms. We evaluate our approach across multiple high-stakes domains and show that it improves mechanism-level explanation quality, simulator analysis, and downstream decision-making reliability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5b7cac0cbec4" data-article-url="https://arxiv.org/abs/2606.04513" data-article-title="MapAgent: 都市規模の車線レベルの地図生成のための産業グレードのエージェント フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04513" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04513" target="_blank" rel="noopener">MapAgent: 都市規模の車線レベルの地図生成のための産業グレードのエージェント フレームワーク</a></h3>
      <p class="summary">車線レベルの地図は自動運転と車線レベルのナビゲーションにとって重要なインフラストラクチャですが、数百の都市で標準化された車線ネットワークの構築と維持には依然として非常に労働集約的です。最近のエンドツーエンドのベクトル化マッピング手法は、センサー データから直接車線の形状とトポロジを予測できますが、通常、マッピング仕様と交通規制を暗黙的なデータセット依存の監視として扱います。さらに、複雑なシーン (マーキングやオクルージョンの磨耗や欠落など) では、正しいレーン構成が視覚的証拠だけでは十分に決定されないことが多く、仕様違反が人間による事後編集の主な原因となっています。私たちは、仕様に準拠したレーンマップ作成のためのベクトル化バックボーンを強化する産業グレードのエージェント アーキテクチャである MapAgent を提案します。 MapAgent は、単にマップ予測にエージェント ループを追加するのではなく、バックボーンの認識と明示的な仕様の検証、制約を意識した推論、および境界のある検証主導型のジャッジ-プランナー-ワーカー ループの下での決定論的なマップ編集を結合します。視覚言語を使用するジャッジは、視覚的な証拠とドラフトベクトルを共同で検査することでエラーを診断し、ツールを呼び出すプランナーは編集後の再検証により最小限の修正編集を生成します。都市規模の本番環境でのスケーラビリティを維持するために、MapAgent はバックボーンの信頼性が低いタイルでのみ選択的にトリガーされ、スループットを維持しながら適度なオーバーヘッドを追加します。現実世界のデータセットでの実験では、特に複雑でロングテールのシナリオにおいて、強力な実稼働ベースラインを上回る一貫した利益が示されています。さらに、MapAgent は Baidu Maps に統合されており、全国 360 以上の都市の車線レベルの地図生成をサポートし、全体的な生産自動化を 95% 以上に高め、大規模な車線レベルの地図生成における MapAgent の実用性と有効性を実証しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MapAgent: An Industrial-Grade Agentic Framework for City-scale Lane-level Map Generation</p>
        <p class="orig-summary">Lane-level maps are critical infrastructure for autonomous driving and lane-level navigation, yet constructing and maintaining standardized lane networks for hundreds of cities remains highly labor-intensive. Recent end-to-end vectorized mapping methods can predict lane geometry and topology directly from sensor data, but they typically treat mapping specifications and traffic regulations as implicit, dataset-dependent supervision. Moreover, in complex scenes (e.g., worn or missing markings and occlusions), correct lane configurations are often under-determined by visual evidence alone, making specification violations a major source of human post-editing. We propose MapAgent, an industrial-grade agentic architecture that augments a vectorization backbone for specification-compliant lane-map production. Rather than merely adding an agent loop to map prediction, MapAgent couples backbone perception with explicit specification verification, constraint-aware reasoning, and deterministic map editing under a bounded, verification-driven Judge-Planner-Worker loop. A vision-language Judge diagnoses errors by jointly inspecting visual evidence and draft vectors, while a tool-calling Planner generates minimal corrective edits with post-edit re-validation. To remain scalable for city-scale production, MapAgent is selectively triggered only on tiles with low backbone confidence, adding modest overhead while preserving throughput. Experiments on real-world datasets show consistent gains over strong production baselines, especially in complex and long-tail scenarios. Additionally, MapAgent has been integrated into Baidu Maps, supporting lane-level map generation for over 360 cities nationwide and elevating the overall production automation to over 95%, demonstrating MapAgent&#x27;s practicality and effectiveness for large-scale lane-level map generation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="28a314971c8e" data-article-url="https://arxiv.org/abs/2606.04536" data-article-title="パラメトリック メモリを介した自己進化エージェントのスケーリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04536" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04536" target="_blank" rel="noopener">パラメトリック メモリを介した自己進化エージェントのスケーリング</a></h3>
      <p class="summary">既存のメモリ拡張 LLM エージェントは、ロールアウト中モデル パラメータを凍結したままにしながら、過去の経験をテキストの要約または取得された一節としてプロンプト領域にのみ保存します。このようなエージェントは、見たものを \emph{調べる}ことはできますが、それから \emph{学ぶ}ことはできません。彼らのポリシーは経験によって変更されず、コンテキストからドロップされた情報は永久に失われます。私たちは、自己進化するパラメトリック メモリ フレームワークである \texttt{TMEM} を導入します。このフレームワークでは、エージェントが履歴を明示的メモリに圧縮するだけでなく、軽量のオンライン アップデートを通じて抽出された監視を高速な LoRA 重み $\Delta_t$ に吸収し、単一のエピソード内で将来の動作を真に変更します。これを、高速重みロールアウト ダイナミクスを備えたエージェントの意思決定プロセスとして形式化します。アクションは $\pi_{\theta_0+\Delta_t}$ からサンプリングされ、抽出アクションは後続の決定のために $\Delta_t$ を更新する監視を生成します。このビューにより、抽出ポリシーが RL によって直接最適化可能になります。$\theta_0$ のトレーニングにより、タスク アクションだけでなく、オンライン LoRA 適応に使用されるデータの品質も向上します。さらに、オンラインコンバージェンスを加速するために、SVD ベースの LoRA サブスペースの初期化を提案します。 LoCoMo、LongMemEval-S、多目的検索、および CL-Bench の実験では、\texttt{TMEM} がさまざまなモデル スケールにわたって、要約ベースおよび検索ベースのベースラインを一貫して上回るパフォーマンスを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Scaling Self-Evolving Agents via Parametric Memory</p>
        <p class="orig-summary">Existing memory-augmented LLM agents store past experience exclusively in prompt space, as textual summaries or retrieved passages, while keeping model parameters frozen throughout a rollout. Such agents can \emph{look up} what they have seen but cannot \emph{learn from} it: their policy is unchanged by experience, and any information dropped from the context is permanently lost. We introduce \texttt{TMEM}, a self-evolving parametric memory framework in which the agent not only compresses history into explicit memory but also absorbs distilled supervision into fast LoRA weights $\Delta_t$ via lightweight online updates, genuinely altering its future behavior within a single episode. We formalize this as an agentic decision process with fast-weight rollout dynamics: actions are sampled from $\pi_{\theta_0+\Delta_t}$, while extraction actions produce supervision that updates $\Delta_t$ for subsequent decisions. This view makes the extraction policy directly optimizable by RL: training $\theta_0$ improves not only task actions but also the quality of the data used for online LoRA adaptation. We further propose SVD-based initialization of the LoRA subspace to accelerate online convergence. Experiments on LoCoMo, LongMemEval-S, multi-objective search, and CL-Bench show that \texttt{TMEM} consistently outperforms summary-based and retrieval-based baselines across different model scales.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="05e8f791a799" data-article-url="https://arxiv.org/abs/2606.04562" data-article-title="Neetyabhas: Rational エージェントベースのモデルにおける不確実性を認識した公共政策最適化のためのフレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04562" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04562" target="_blank" rel="noopener">Neetyabhas: Rational エージェントベースのモデルにおける不確実性を認識した公共政策最適化のためのフレームワーク</a></h3>
      <p class="summary">目的 WHO の新型コロナウイルス感染症に対する非医薬品介入（ロックダウン、ワクチン接種など）は感染を効果的に抑制しますが、経済的には大きな負担となります。既存の研究は、個人の行動を無視し、完璧な感染追跡と完璧な政策実行を誤って想定しており、現実世界の不確実性や誤りを説明できていないことがよくあります。方法 我々は、流行の測定（感染症/入院）と政策実施の両方に不確実性を組み込んだ統合的アプローチを提案します。私たちは、マスクの着用、ワクチン接種、買い物に関するリアルタイムの選択を行う 1,000 人の個人のシミュレーション モデルを構築しました。同時に、政策立案者は健康と経済の観察に基づいて介入（ロックダウン、義務化）を展開します。このフレームワークは階層型強化学習エージェントによって駆動され、不確実性を考慮したポリシー勾配バリアント (DDPG および TD3) とともにディープ Q ネットワークを利用します。結果 シミュレーションは流行の進行を効果的に管理しました。マスクとワクチン接種が非常に効果的であることが証明され、流行のピークの高さと期間の両方が大幅に短縮されました。個人の行動、政策の不確実性、多面的な介入を統合することで、私たちの動的制御アプローチは流行の影響を軽減することに成功しました。結論 私たちのモデルは、不確実性と人間の行動を公衆衛生政策の枠組みに組み込むことで、これまでの研究の限界を克服しました。このシミュレーションは、マスクとワクチンが極めて重要なツールとして機能し、複雑なパンデミック時に効果的な介入を設計するには、個人の選択と不完全なデータを考慮することが重要であることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Neetyabhas: A Framework for Uncertainty-Aware Public Policy Optimization in Rational Agent-Based Models</p>
        <p class="orig-summary">Purpose The WHO&#x27;s COVID-19 non-pharmaceutical interventions (e.g., lockdowns, vaccinations) effectively curb transmission but impose heavy economic strains. Existing research often neglects individual behaviors and falsely assumes perfect infection tracking and flawless policy execution, failing to account for real-world uncertainties and errors. Methods We propose an integrative approach incorporating uncertainties in both epidemic measurement (infections/hospitalizations) and policy implementation. We built a simulation model of 1,000 individuals making real-time choices regarding mask-wearing, vaccination, and shopping. Concurrently, policymakers deploy interventions (lockdowns, mandates) based on health and economic observations. This framework is driven by hierarchical reinforcement learning agents, utilizing deep Q-networks alongside uncertainty-aware policy gradient variants (DDPG and TD3). Results The simulations effectively managed the epidemic&#x27;s progression. Masking and vaccinations proved highly effective, significantly reducing both the outbreak&#x27;s peak height and duration. By integrating individual behaviors, policy uncertainties, and multifaceted interventions, our dynamic control approach successfully mitigated the epidemic&#x27;s impact. Conclusions Our model overcomes previous research limitations by embedding uncertainty and human behavior into public health policy frameworks. The simulation demonstrates that accounting for individual choices and imperfect data is crucial for designing effective interventions during complex pandemics, with masks and vaccines serving as pivotal tools.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fea71f9bbd2d" data-article-url="https://arxiv.org/abs/2606.04579" data-article-title="SCI-PRM: 科学的推論検証のためのツール認識プロセス報酬モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04579" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04579" target="_blank" rel="noopener">SCI-PRM: 科学的推論検証のためのツール認識プロセス報酬モデル</a></h3>
      <p class="summary">プロセス報酬モデル (PRM) は数学的推論において目覚ましい成功を収めていますが、生物学、化学、物理学などの複雑な科学分野での応用はほとんど未踏のままです。科学的な問題には、論理的な厳密さだけでなく、事実の一貫性や分野固有のツールの正確な使用法も要求されますが、この領域では、現在のモデルが幻覚や検証の欠如に悩まされることがよくあります。この論文では、まず、推論と科学ツールの実行を明示的にインターリーブするツールチェーンの軌跡を特徴とする大規模なデータセットである SCIPRM70K を構築します。これに基づいて、Sci-PRM と呼ばれる効率的な報酬モデルをトレーニングして、1 つの推論の各ステップでツールの選択、実行精度、結果の解釈をきめ細かく監視します。実験では、Sci-PRM が 2 つの重要な側面で基礎モデルを大幅に強化することが実証されています。(1) Best-of-N 選択による効果的なテスト時間のスケーリングを可能にします。 (2) 強化学習に統合すると、利点の消失という重大な問題を軽減する高密度の報酬シグナルとして機能し、モデルが既存のパフォーマンスの上限を突破できるようになります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SCI-PRM: A Tool Aware Process Reward Model for Scientific Reasoning Verification</p>
        <p class="orig-summary">While Process Reward Models (PRMs) have achieved remarkable success in mathematical reasoning, their application in complex scientific domains-such as biology, chemistry, and physics remains largely unexplored. Scientific problems demand not only logical rigor but also factual consistency and the precise usage of domain-specific tools, areas where current models often suffer from hallucinations and lack of verification. In this paper, we first construct SCIPRM70K, a large-scale dataset featuring Chain-of-Tool trajectories that explicitly interleave reasoning with the execution of scientific tools. Building upon this, we train an efficient reward model called Sci-PRM to provide fine-grained supervision on tool selection, execution accuracy, and result interpretation at each step in one inference. Experiments demonstrate that Sci-PRM significantly enhances foundation models in two key aspects: (1) it enables effective test-time scaling via Best-of-N selection; and (2) when integrated into Reinforcement Learning, it serves as a dense reward signal that mitigates the critical issue of advantage disappearance, allowing the model to break through existing performance ceilings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dd48ccd87e9b" data-article-url="https://arxiv.org/abs/2606.04597" data-article-title="コスト分割による許容可能なヒューリスティックの学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04597" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04597" target="_blank" rel="noopener">コスト分割による許容可能なヒューリスティックの学習</a></h3>
      <p class="summary">許容可能なヒューリスティックは最適な計画を立てるために不可欠ですが、過大評価のリスクがあるため、ヒューリスティックを学習することは依然として困難です。コスト分割では、許容性を維持しながら複数の抽象化ヒューリスティックを組み合わせますが、最適な分割をオンラインで計算するにはコストがかかります。コスト分割と乗数予測の間のラグランジュ双対等価性を利用して、許容可能なコスト分割を推測する方法を学習するフレームワークを提案します。計画の状態とパターンはラベル付きグラフとしてエンコードされ、Weisfeiler-Leman アルゴリズムのアクション中心の変形により構造的特徴ベクトルが抽出されます。軸方向のセルフアテンションとソフトマックス出力層を備えたディープ アーキテクチャは、これらの機能を構築によるパーティション制約を満たすコストの重みにマップし、許容性を確保します。実験では、厳密な許容性を維持しながら、最適ではない分割ベースラインと比較してノード拡張が減少していることが実証されています。私たちの知る限り、これは許容されることが保証された最初の機械学習ヒューリスティックです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Learning Admissible Heuristics via Cost Partitioning</p>
        <p class="orig-summary">Admissible heuristics are essential for optimal planning, yet learning them remains challenging due to the risk of overestimation. Cost partitioning combines multiple abstraction heuristics while preserving admissibility, but computing optimal partitions online is expensive. We propose a framework that learns to infer admissible cost partitions by leveraging the Lagrangian dual equivalence between cost partitioning and multiplier prediction. Planning states and patterns are encoded as labelled graphs, and an action-centric variant of the Weisfeiler-Leman algorithm extracts structural feature vectors. A deep architecture with axial self-attention and a softmax output layer maps these features to cost weights that satisfy the partition constraints by construction, ensuring admissibility. Experiments demonstrate reduced node expansions compared to suboptimal partitioning baselines while maintaining strict admissibility. To our knowledge, this is the first machine-learned heuristic guaranteed to be admissible.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="176c2a2a671a" data-article-url="https://arxiv.org/abs/2606.04599" data-article-title="最初に計画し、後で判断し、より良く実行する: DMAIC からインスピレーションを得た産業異常検出用エージェント システム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04599" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04599" target="_blank" rel="noopener">最初に計画し、後で判断し、より良く実行する: DMAIC からインスピレーションを得た産業異常検出用エージェント システム</a></h3>
      <p class="summary">大規模言語モデル (LLM) エージェントは、複雑なデータ分析ワークフローの自動化において有望であることが示されていますが、一か八かの産業シナリオにおいてその信頼性の高い導入は依然として困難です。産業異常検出 (IAD) は製造の品質、安全性、効率に不可欠ですが、既存の LLM ベースの IAD エージェントは主に実行に焦点を当てており、戦略策定は不十分です。その結果、統一的かつコスト効率の高い方法で異種のモダリティを処理するのに苦労しています。 DMAIC 品質管理フレームワークからインスピレーションを得て、当社は DMAIC-IAD (DMAIC にインスピレーションを得た Agentic Industrial Anomaly Detection) を提案します。これは、LLM エージェントを構造化された産業問題解決と連携させる、「最初に計画し、後で判断する」マルチエージェント システムです。 DMAIC-IAD は、戦略生成前に異種参照を標準化操作手順 (SOP) に抽出し、事前トレーニングされた実行不要の判定モデルを導入して、コストのかかる実行時トライアルを行わずに候補戦略をランク付けします。 4 つのモダリティにわたる広範な実験により、DMAIC-IAD は適用可能な薬剤ベースラインよりも平均検出パフォーマンスが 37.76% 向上することが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Plan First, Judge Later, Run Better: A DMAIC-Inspired Agentic System for Industrial Anomaly Detection</p>
        <p class="orig-summary">Large language model (LLM) agents have shown promise in automating complex data-analysis workflows, but their reliable deployment remains challenging in high-stakes industrial scenarios. Industrial anomaly detection (IAD) is essential for manufacturing quality, safety, and efficiency, yet existing LLM-based IAD agents mainly focus on execution while under-exploiting strategy formulation. Consequently, they struggle to handle heterogeneous modalities in a unified and cost-effective manner. Inspired by the DMAIC quality-management framework, we propose DMAIC-IAD (DMAIC-inspired Agentic Industrial Anomaly Detection), a &quot;Plan First, Judge Later&quot; multi-agent system that aligns LLM agents with structured industrial problem-solving. DMAIC-IAD distills heterogeneous references into standardized operating procedures (SOPs) before strategy generation, and introduces a pre-trained execution-free judge model to rank candidate strategies without costly runtime trials. Extensive experiments across four modalities show that DMAIC-IAD improves average detection performance over applicable agentic baselines by 37.76%.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="44dfd3cebbf4" data-article-url="https://arxiv.org/abs/2606.04602" data-article-title="パルテノン法: 自己進化する弁護士の枠組み" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04602" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04602" target="_blank" rel="noopener">パルテノン法: 自己進化する弁護士の枠組み</a></h3>
      <p class="summary">エージェントの能力が高まるにつれて、法律分野の LLM エージェントは、大量のドキュメントをレビュー可能な作業成果物に変えることを約束しますが、信頼性の高い導入には 3 つの障害に直面しています。1 つは、今日の最も強力なモデルとハーネスの組み合わせがエンドツーエンドの法的問題でどのように動作するかについての大規模な証拠がないことです。法的な業種に適合したエージェント アーキテクチャはなく、汎用ハーネスのみが使用されます。そして、新しい事実、権限、期限によって変化し続ける環境では、システムが自らの結果から学習するメカニズムがありません。それぞれに対応します。 Harvey LAB に関する大規模な実証研究 -- $12{,}510$ のエージェントの軌跡 -- は、フロンティアのエージェントでさえ 1 回のパスで問題を完了することには程遠いことを示しています。より強力なモデルを使用すると基準ごとの精度が向上しますが、厳密な問題の完了は停滞します。次に、\textsc{Parthenon} を導入します。これは、モデル、ハーネス、代理人の役割、法的知識、決定論的なツール、および手続き上のスキルを情報源の追跡可能性、日付と番号の根拠、成果物のコンプライアンス、および問題の解決のための監査可能な表面に組み込む、自己進化する法律代理人のフレームワークです。最後に、漏れ防止学習ループにより、スコアリングされた失敗がタスクに依存しないスキル、ツール、知識の編集に変換され、企業が問題ごとにチェックリストとプレイブックを洗練するように、モデルの重みに触れることなく、経験とともにシステムが改善されます。私たちの大規模な実証分析を通じて、\textsc{Parthenon} は法的問題のタスクにおける最先端のモデルとハーネスのパフォーマンスを大幅に向上させました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Parthenon Law: A Self-Evolving Legal-Agent Framework</p>
        <p class="orig-summary">As agents grow more capable, legal-domain LLM agents promise to turn document-heavy matters into reviewable work products -- yet reliable deployment faces three obstacles: no large-scale evidence on how today&#x27;s strongest model-and-harness combinations behave on end-to-end legal matters; no agent architecture adapted to the legal vertical, only general-purpose harnesses; and, in a setting that keeps shifting with new facts, authorities, and deadlines, no mechanism for systems to learn from their own outcomes. We address each. A large-scale empirical study on Harvey LAB -- $12{,}510$ agent trajectories -- shows that even frontier agents remain far from completing matters in a single pass: per-criterion accuracy climbs with stronger models while strict matter completion stalls. We then introduce \textsc{Parthenon}, a self-evolving legal-agent framework that factors Model, Harness, Agent roles, legal Knowledge, deterministic Tools, and procedural Skills into auditable surfaces for source traceability, date and number grounding, deliverable compliance, and issue closure. Finally, an anti-leakage learning loop converts scored failures into task-agnostic edits to skills, tools, and knowledge, letting the system improve with experience -- as a firm refines its checklists and playbooks after each matter -- without touching model weights. Across our large-scale empirical analysis, \textsc{Parthenon} substantially improves the performance of state-of-the-art models and harnesses on legal-matter tasks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6d45fbd6b19" data-article-url="https://arxiv.org/abs/2606.04619" data-article-title="ASP ベースのコンプライアンス推論のための規範的な中間表現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04619" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04619" target="_blank" rel="noopener">ASP ベースのコンプライアンス推論のための規範的な中間表現</a></h3>
      <p class="summary">我々は、ASP ベースのコンプライアンス推論のためのモーダル化出力規範中間表現である MONIR を提案します。そのコア フラグメントには段階的な操作セマンティクスがあり、MONIR-ASP は外部関数、一時的なルール、および安定したモデル推論のための実行可能なコンパイルと拡張機能を提供します。 LLM 支援パイプラインを使用して、中国の ADAS 規制と標準に関するフレームワークをインスタンス化します。実験では、抽出品質と、モジュール式および増分 ASP 解決の効率を評価します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Normative Intermediate Representation for ASP-Based Compliance Reasoning</p>
        <p class="orig-summary">We propose MONIR, a Modalized-Output Normative Intermediate Representation for ASP-based compliance reasoning. Its core fragment has a staged operational semantics, while MONIR-ASP provides an executable compilation and extensions for external functions, temporal rules, and stable-model reasoning. We instantiate the framework on Chinese ADAS regulations and standards with an LLM-assisted pipeline. Experiments evaluate extraction quality and the efficiency of modular and incremental ASP solving.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4b34c3865dfe" data-article-url="https://arxiv.org/abs/2606.04627" data-article-title="MIRAGE: 暗黙的推論と生成世界モデルを備えたモバイル エージェント" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04627" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04627" target="_blank" rel="noopener">MIRAGE: 暗黙的推論と生成世界モデルを備えたモバイル エージェント</a></h3>
      <p class="summary">モバイル エージェントは、スクリーンショットや言語目標に基づいて日常のアプリケーションを操作することがますます期待されており、信頼性の高い制御には、画面のアフォーダンス、複数ステップのナビゲーション、および将来の状態の変化に関する推論が必要です。ただし、多くのエージェントはこの計算を長いテキストの思考連鎖として外部に出すため、対話が遅くなり、監視コストが増加し、展開が複雑になります。 MIRAGE は、目に見えるテキスト推論の痕跡から継続的な潜在推論表現を学習するフレームワークです。 MIRAGE は、明示的な推論をコンパクトな隠れ状態に変換し、エージェントが長い根拠を解読することなく内部的に推論できるようにします。また、生成世界モデルの目標も組み込まれています。つまり、潜在的な推論ベクトルが将来のスクリーンショットと一致し、エージェントが行動する前に今後のインターフェイスの状態を予測するようになります。これにより、隠れた計算が圧縮された思考表現と環境力学の将来を見据えたモデルの両方に変わります。推論時、MIRAGE は連続的な潜在空間で推論し、実行効率を向上させながらトークンの生成を削減します。 AndroidWorld では、MIRAGE は、4B アブレーションにおける明示的な思考連鎖の監視付き微調整と 3 ～ 5 倍低いデコード トークン バジェットを一致させ、同等の命令調整ベースラインを 10.2 ポイント改善します。 AndroidControl では、生成されるトークンが 75% 以上減少しながら、アクションのグラウンディングが向上します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MIRAGE: Mobile Agents with Implicit Reasoning and Generative World Models</p>
        <p class="orig-summary">Mobile agents are increasingly expected to operate everyday applications from screenshots and language goals, where reliable control requires reasoning over screen affordances, multi-step navigation, and future state changes. However, many agents externalize this computation as long textual chains of thought, which slows interaction, increases supervision cost, and complicates deployment. We introduce MIRAGE, a framework that learns continuous latent reasoning representations from visible textual reasoning traces. MIRAGE transfers explicit reasoning into compact hidden states, enabling the agent to reason internally without decoding long rationales. It also incorporates a generative world-model objective: latent reasoning vectors are aligned with future screenshots, encouraging the agent to anticipate upcoming interface states before acting. This turns hidden computation into both a compressed thought representation and a forward-looking model of environment dynamics. At inference time, MIRAGE reasons in continuous latent space, reducing token generation while improving execution efficiency. On AndroidWorld, MIRAGE matches explicit chain-of-thought supervised fine-tuning in the 4B ablation with a 3-5x lower decoded-token budget and improves a comparable instruction-tuned baseline by 10.2 points; on AndroidControl, it improves action grounding while generating over 75% fewer tokens.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fe21c45b0f8d" data-article-url="https://arxiv.org/abs/2606.04648" data-article-title="BiNSGPS: 双方向の神経記号相互作用による幾何学問題解決" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04648" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04648" target="_blank" rel="noopener">BiNSGPS: 双方向の神経記号相互作用による幾何学問題解決</a></h3>
      <p class="summary">幾何学の問題解決は、人工知能に明確な課題をもたらします。既存のアプローチは通常 2 つのパラダイムに分類されます。1 つは適応性が限られている記号的方法、もう 1 つは幻覚を起こしやすい神経的方法です。最近のニューロシンボリックハイブリッドは主に一方向パイプラインに依存しており、ニューラル出力がフィードバックなしでソルバーに供給されるため、システムは初期段階のエラーに対して脆弱になります。この一方向のボトルネックを打破するために、MLLM アドバイザとシンボリック ソルバーの間で双方向ニューロシンボリック インタラクション (BiNS) を確立するフレームワークである BiNSGPS を提案します。 MLLM Adviser は、シンボリック ソルバーからのフィードバックを積極的に組み込んで、矛盾した形式表現を動的に修正したり、補助的な仮説を提案したりして、シンボリックの矛盾を解決し、複雑な演繹を容易にします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BiNSGPS: Geometry Problem Solving via Bidirectional Neuro-Symbolic Interaction</p>
        <p class="orig-summary">Geometry problem solving poses distinct challenges in artificial intelligence. Existing approaches typically fall into two paradigms: symbolic methods, which exhibit limited adaptability, and neural methods, which are prone to hallucinations. Recent neuro-symbolic hybrids predominantly rely on a unidirectional pipeline where neural outputs are fed into solvers without feedback, making system brittle to early-stage errors. To break this unidirectional bottleneck, we propose BiNSGPS, a framework that establishes Bidirectional Neuro-Symbolic Interaction (BiNS) between a MLLM Adviser and a Symbolic Solver. MLLM Adviser actively incorporates feedback from the symbolic solver to dynamically rectify inconsistent formal representations or propose auxiliary hypotheses, resolving symbolic conflicts and facilitating complex deductions.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="abce630e6383" data-article-url="https://arxiv.org/abs/2606.04750" data-article-title="Fog of Love: ゲーム環境における親和性ベースの強化学習による高潔なエージェントの動作のエンジニアリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04750" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04750" target="_blank" rel="noopener">Fog of Love: ゲーム環境における親和性ベースの強化学習による高潔なエージェントの動作のエンジニアリング</a></h3>
      <p class="summary">人工知能に高潔な行動を教え込むことへの関心が高まっています。提案された手法の 1 つは、親和性ベースの強化学習として知られています。これは、目的関数のポリシー正則化を使用して、報酬関数の設計に完全に依存することなく、善良な行動を奨励します。これまでのところ、この手法は、状態空間とアクション空間が最小限のグリッド ワールドやおもちゃの問題環境で有効であることが実証されています。この研究をより洗練された環境に拡張するために、Fog of Love として知られるロールプレイング ボード ゲームに基づく 2 プレイヤー マルチエージェント環境を導入します。この環境では、2 人のエージェントがそれぞれの美徳を満たすために競い合いながら、その関係を満たすために協力します。マルチエージェントの性質を考慮すると、これは複雑な問題であり、マルチエージェントの深い決定論的ポリシー勾配エージェントは競合も連携もうまくいきません。我々は、局所的な親和性が競争目的と協力目的の両方を達成する際のエージェントのパフォーマンスを向上させ、その結果、両方のドメインで総合スコアが優れているという証拠を提示します。これは、結果的に賢明な選択をもたらすだけでなく、エージェントの目的論を明確にし、その行動を人間レベルで解釈できるようにします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Fog of Love: Engineering Virtuous Agent Behavior with Affinity-based Reinforcement Learning in a Game Environment</p>
        <p class="orig-summary">Instilling virtuous behavior in artificial intelligence has seen increasing interest. One of the techniques proposed is known as affinity-based reinforcement learning, which uses policy regularization on the objective function to incentivize virtuous actions without being fully dependent on the reward function design. Thus far, this technique has been demonstrated to be effective in grid worlds and toy-problem environments with minimal state and action spaces. To expand this research to more sophisticated environments, we introduce a two-player multi-agent environment based on the role-playing board game known as Fog of Love. In this environment, two agents compete to fulfill their individual virtues, while also cooperating to satisfy their relationship. Given the multi-agent nature, this is a complex problem where multi-agent deep deterministic policy gradient agents neither compete nor cooperate successfully. We present evidence that localized affinities enhance agent performance in achieving both competitive and cooperative objectives, resulting from superior overall scores in both domains. This not only results in virtuous choices but also clarifies an agent&#x27;s teleology and makes its behavior human-level interpretable.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ffcb4a9d26c" data-article-url="https://arxiv.org/abs/2606.04751" data-article-title="FALSIFYBENCH: ルール発見ゲームを使用した LLM の帰納的推論の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04751" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04751" target="_blank" rel="noopener">FALSIFYBENCH: ルール発見ゲームを使用した LLM の帰納的推論の評価</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、科学タスクにおける自律エージェントとして導入されることが増えています。しかし、これらのシステムが科学的発見に関連する帰納的推論の形式に効果的に関与できるかどうかは未解決の問題のままです。この研究では、古典的な Wason 2-4-6 タスクに触発された仮説主導型推論の評価フレームワークである FALSIFYBENCH を紹介します。このタスクでは、エージェントは例を繰り返し提案し、フィードバックを受け取ることによって隠れた意味論的特性を発見する必要があります。このタスクでは、科学的推論の重要な要素、つまり仮説の生成、証拠の収集、および証拠の確認と反証に応じた信念の修正を捉えます。モデルファミリーとスケールにわたる 12 個の LLM の評価では、最適なパフォーマンスに近いモデルはないものの、推論モデルは一般に命令調整モデルよりも強力な科学的推論であることがわかりました。成功の主な原動力は否定的なテストの能力です。仮説を積極的に反証しようとするモデルは、主に確認を求めるモデルよりも一貫して優れています。さらに、これまでの研究では無視されていたきめ細かいターンレベル分析により、モデルが仮説空間をナビゲートする方法における特定可能なパターンと失敗が結びついていることが明らかになりました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">FALSIFYBENCH: Evaluating Inductive Reasoning in LLMs with Rule Discovery Games</p>
        <p class="orig-summary">Large language models (LLMs) are increasingly deployed as autonomous agents in scientific tasks. Yet whether these systems can effectively engage in forms of inductive reasoning relevant to scientific discovery remains an open question. In this work, we introduce FALSIFYBENCH, an evaluation framework for hypothesis-driven reasoning inspired by the classic Wason 2-4-6 task, in which agents must discover hidden semantic properties by iteratively proposing examples and receiving feedback. This task captures key elements of scientific reasoning: hypothesis generation, evidence gathering, and belief revision in response to both confirming and disconfirming evidence. Our evaluation of 12 LLMs across model families and scales shows that reasoning models are generally stronger scientific reasoners than instruction-tuned models, although no model comes close to optimal performance. The primary driver of success is the capacity for negative testing: models that actively seek to falsify their hypotheses consistently outperform those that primarily seek confirmation. Moreover, a fine-grained turn-level analysis, neglected in previous work, reveals that failure is tied to identifiable patterns in how models navigate the hypothesis space.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d35e21ea4ae6" data-article-url="https://arxiv.org/abs/2606.04778" data-article-title="浅い安全性を超えた推論時の脆弱性: 世代の軌跡に沿った調整" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04778" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04778" target="_blank" rel="noopener">浅い安全性を超えた推論時の脆弱性: 世代の軌跡に沿った調整</a></h3>
      <p class="summary">安全性を考慮した大規模言語モデル (LLM) は、生成を有害な出力にリダイレクトする推論中の介入に対して依然として脆弱です。最近の研究では、これは浅い安全性であると考えられており、最初のいくつかの出力トークンに位置合わせが集中しています。浅い安全性は、より広範な推論時間の脆弱性の特殊なケースであり、任意の生成ステップでの短いトークンの注入によって、その後の安全性の動作が大幅に変更される可能性があることを示します。また、隠れ状態における拒否方向とのモデルの整合性は、そのような注入に対するそのロバスト性を予測しないこともわかり、内部状態だけが摂動下での生成挙動を決定しないことが明らかになりました。これに対処するために、シーケンス途中の摂動をシミュレートすることによって構築された生成軌跡にモデルを直接調整し、これによりシーケンス途中の注入に対する堅牢性が向上し、初期のトークン生成を悪用する攻撃に一般化されることを示します。私たちの研究では、堅牢な安全調整には、出力だけでなく、生成プロセス自体のトレーニングも必要であると主張しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories</p>
        <p class="orig-summary">Safety-aligned Large Language Models (LLMs) remain vulnerable to interventions during inference that redirect generation toward harmful outputs. Recent work attributes this to shallow safety, where alignment concentrates in the first few output tokens. We show that shallow safety is a special case of a broader inference-time vulnerability, in which short token injections at any generation step can substantially alter subsequent safety behavior. We also find that a model&#x27;s alignment with refusal directions in its hidden states does not predict its robustness to such injection, revealing that internal state alone does not determine generation behavior under perturbation. To address this, we align models directly on generation trajectories constructed by simulating mid-sequence perturbation, and show that this improves robustness to mid-sequence injection and generalizes to attacks that exploit early-token generation. Our work argues that robust safety alignment requires training on the generation process itself, not only its outputs.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f1fd6c3363d" data-article-url="https://arxiv.org/abs/2606.04779" data-article-title="人間と AI のインタラクションにおけるマルチエージェントの相補性のツリーベースの定式化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04779" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04779" target="_blank" rel="noopener">人間と AI のインタラクションにおけるマルチエージェントの相補性のツリーベースの定式化</a></h3>
      <p class="summary">相補性とは、人間と AI の相互作用 (HAI) が、そのメンバー間で利用可能な最良の予測ベンチマークを上回る場合のことです。この考え方は HAI 研究の中心ですが、相補性に関する正式な研究は依然として限られています。既存のフレームワークは、エージェントの予測がワークフローに依存したマルチエージェント プロトコルをどのように構成するかをモデル化していません。私たちは、マルチエージェント HAI における相補性のツリーベースの形式化を導入することで、このギャップを埋めます。 HAI プロトコルは、順序付けられたエージェントと役割の構成と、その葉が予測ベクトルによって装飾されている根付き平面バイナリ ツリーによって表されます。ローカルのバイナリ構成ルールがツリーに沿って再帰的に評価され、pointwise-min Oracle ベンチマークに対するツリー相対相補性関数が生成されます。 4 つの結果を証明します。まず、セレクターベースの HAI (自己依存性または AI 依存性を含む) は、タスク、損失、予測の品質に関係なく、相補性を達成できません。第 2 に、二乗損失での回帰では、相補性はグラウンド トゥルース ベクトルからのユークリッド距離の最小化に相当します。 $N=2$ の場合、最適な線形プーリング重みは閉じた形式と残差補正解釈を持ちます。第三に、線形局所構成の下では、すべてのプロトコル ツリーはリーフ重みの単体での重心座標チャートを定義します。プロトコルツリーのTamari-cover再パラメータ化は相補性を維持し、$N=4$の場合、五角形の恒等性を満たします。第四に、バイナリ分類では、標準ブレグマン損失や多くの有限ベルヌーイ $f$ 発散損失を含むエンドポイント単調損失の下では、内部の局所構成は相補性を達成できません。クロスエントロピー下のマルチクラス集約にも同様の障害が当てはまります。要約すると、私たちのフレームワークは、マルチエージェント回帰では相補性が達成可能ですが、局所的な凝集と損失関数に関する自然条件下での分類では妨げられることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Tree-Based Formalization of Multi-Agent Complementarity in Human-AI Interactions</p>
        <p class="orig-summary">Complementarity is the case in which a human--AI interaction (HAI) outperforms the best prediction benchmark available among its members. Although this idea is central in HAI research, formal work on complementarity remains limited. Existing frameworks do not model how agents&#x27; predictions compose into workflow-sensitive multi-agent protocols. We close this gap by introducing a tree-based formalization of complementarity in multi-agent HAI. An HAI protocol is represented by an ordered agent-role configuration together with a rooted planar binary tree whose leaves are decorated by prediction vectors. A local binary composition rule is evaluated recursively along the tree, yielding a tree-relative complementarity functional relative to a pointwise-min oracle benchmark. We prove four results. First, selector-based HAIs, including self- or AI-reliance, cannot achieve complementarity regardless of task, loss, or prediction quality. Second, in regression under squared loss, complementarity is equivalent to Euclidean distance minimization from the ground-truth vector; for $N=2$, the optimal linear-pooling weight has a closed form and a residual-correction interpretation. Third, under linear local composition, every protocol tree defines a barycentric coordinate chart on the simplex of leaf weights; Tamari-cover reparameterizations of protocol trees preserve complementarity, and for $N=4$, they satisfy the pentagon identity. Fourth, in binary classification, no internal local composition can achieve complementarity under endpoint-monotone losses, including standard Bregman and many finite Bernoulli $f$-divergence losses; an analogous obstruction holds for multiclass aggregation under cross-entropy. In summary, our framework shows that complementarity is attainable in multi-agent regression, but obstructed in classification under natural conditions on local aggregation and loss functions.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5965104d077b" data-article-url="https://arxiv.org/abs/2606.04781" data-article-title="AIP: エージェントのスキルを学習および管理するためのグラフ表現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04781" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04781" target="_blank" rel="noopener">AIP: エージェントのスキルを学習および管理するためのグラフ表現</a></h3>
      <p class="summary">現在のエージェント スキルは、主に自由形式の散文で構成されており、エージェントはすべてのセッションでどのように行動するかを読み、解釈し、再導出する必要があります。これにより、2 つの複合的なコストが課せられます。実装の負荷が高いタスクの信頼性の低下と、特にモデルのトレーニングで過小評価されているドメイン固有の手順知識に関して、散文の編集は人間とエージェントの両方が苦労する脆弱なプロセスであるため、スキルの作成と改善が困難になります。エージェント命令プロトコル (AIP) は、スキルを指向実行グラフとしてモデル化することで両方に対処します。つまり、決定論的なスクリプトまたは自然言語記述に裏付けられたノードとしての個別のステップ、明示的に型指定された入力/出力エッジによって接続され、スキーマ検証された YAML 仕様によって管理されます。コンパイラのメタスキルは、人間が作成した既存のスキルをこの形式に変換します。利点は 2 つあります。まず、人間が作成したスキルを AIP にコンパイルすると、SkillsBench の 27 の実際のエージェント タスク全体で、Claude Sonnet の平均タスク報酬が 0.60 から 0.71 に、合格率が 53% から 67% に上昇しました。これは統計的に有意な向上 (Wilcoxon の符号付きランク p = 0.011) であり、12 対 2 のタスクで 13 の同点で勝利し、多くの場合、より短い実時間で達成されました。グラフは、自然言語からコード、コマンド、およびツール呼び出しを再導出するようにエージェントに要求するのではなく、精査された実行可能なユニットをエージェントに提供します。次に、作成と改善については、各スキルがスキーマ検証され、機能テストが可能で、ノードごとにアドレス指定できるため、障害を正確に診断して修復できます。作成されたスキルの 2 つの失敗がスクリプト レベルまで追跡されました。 AIP 仕様を調整して再コンパイルした後、どちらも回帰ゼロ (1 つのタスクが 0/5 から 5/5 に移行) で回復し、スキルの向上が散文的な書き直しではなく、測定可能なチューニング ループに変わりました。同じグラフ構造は、コーパス レベルのガバナンスとスキルのイントロスペクションをサポートし、スキルに対する強化学習のための自然なアクション スペースを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AIP: A Graph Representation for Learning and Governing Agent Skills</p>
        <p class="orig-summary">Agent Skills today consist largely of free-form prose requiring the agent to read, interpret, and re-derive how to act in every session. This imposes two compounding costs: reduced reliability on implementation-heavy tasks, and difficulty in skill creation and improvement, since editing prose is a fragile process that both humans and agents struggle with, particularly for domain-specific procedural knowledge underrepresented in model training. The Agent Instruction Protocol (AIP) addresses both by modeling a skill as a directed execution graph: discrete steps as nodes backed by deterministic scripts or natural-language descriptions, connected by explicit typed input/output edges, and governed by a schema-validated YAML specification. A compiler meta-skill translates existing human-written skills into this form. The benefits are twofold. First, compiling human-written skills to AIP raised Claude Sonnet&#x27;s mean task reward from 0.60 to 0.71 and pass rate from 53% to 67% across 27 real agent tasks from SkillsBench - a statistically significant gain (Wilcoxon signed-rank p = 0.011), winning 12 tasks to 2 with 13 ties - often in less wall-clock time. The graph delivers vetted, runnable units to the agent rather than asking it to re-derive code, commands, and tool calls from natural language. Second, on creation and improvement, because each skill is schema-validated, functionally testable, and addressable node-by-node, failures can be diagnosed and repaired precisely. Two authored-skill failures were traced to the script level. After adjusting the AIP spec and recompiling, both recovered with zero regressions (one task going from 0/5 to 5/5), turning skill improvement into a measurable tuning loop rather than a prose rewrite. That same graph structure supports corpus-level governance and skill introspection, and provides a natural action space for reinforcement learning over skills.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cd2019395ac3" data-article-url="https://arxiv.org/abs/2606.04807" data-article-title="BiasGRPO: グループ相対ポリシーの最適化による、変動の大きい報酬環境におけるバイアス緩和の安定化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04807" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04807" target="_blank" rel="noopener">BiasGRPO: グループ相対ポリシーの最適化による、変動の大きい報酬環境におけるバイアス緩和の安定化</a></h3>
      <p class="summary">大規模言語モデル (LLM) での社会的バイアスの軽減には、明確な調整の課題が伴います。検証可能なタスクとは異なり、バイアスには単一の根拠が欠如しており、分散が大きく、主観的な報酬の状況が生じます。以前のプリファレンスベースの微調整方法には大きなトレードオフがありました。直接プリファレンス最適化 (DPO) はオフライン トレーニングに固有の探索の欠如によって制限されますが、近接ポリシー最適化 (PPO) は信頼性の低い批評家の推定値が原因でトレーニングが不安定になる可能性があります。この論文では、グループ相対ポリシー最適化 (GRPO) を使用して、サンプリングされた完了のグループ全体で報酬を正規化することで調整を安定化するフレームワークである BiasGRPO を提案します。価値関数をグループ相対ベースラインに置き換えることにより、私たちのアプローチは、オンライン トレーニングの探求の利点を維持しながら、不安定性を軽減します。 BiasGRPO は複数のベンチマークにわたって DPO および PPO を上回っており、その有効性が示されていることがわかりました。 GRPO を適応させるために、複数のドメインとコンテキストにまたがるデータセットを合成的に拡張します。また、計算効率が高く、知識の低下を回避しながら生成を効果的にガイドするカスタム バイアス報酬モデルを作成してリリースし、多目的 RLHF パイプラインにシームレスに統合できる貴重なリソースを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization</p>
        <p class="orig-summary">Mitigating social bias in Large Language Models (LLMs) presents a distinct alignment challenge: unlike verifiable tasks, bias lacks a single ground truth, creating a high-variance, subjective reward landscape. Previous preference-based fine-tuning methods have major trade-offs: Direct Preference Optimization (DPO) is limited by the lack of exploration inherent in offline training, while Proximal Policy Optimization (PPO) can lead to training instability due to potentially unreliable critic estimates. In this paper, we propose BiasGRPO, a framework using Group Relative Policy Optimization (GRPO) to stabilize alignment by normalizing rewards across a group of sampled completions. By substituting the value function with a group-relative baseline, our approach reduces instability while maintaining the exploration benefits of online training. We find that BiasGRPO outperforms DPO and PPO across multiple benchmarks, indicating its effectiveness. To adapt GRPO, we synthetically extend a dataset spanning multiple domains and contexts. We also create and release a custom bias reward model that effectively guides generation while being highly compute-efficient and avoiding knowledge degradation, providing a valuable resource that can be seamlessly integrated into multi-objective RLHF pipelines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b1cdeac41ffc" data-article-url="https://arxiv.org/abs/2606.04816" data-article-title="客観的等価性を超えて: 配車経路問題に対する LLM ベースの最適化モデリングのための制約注入" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04816" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04816" target="_blank" rel="noopener">客観的等価性を超えて: 配車経路問題に対する LLM ベースの最適化モデリングのための制約注入</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、自然言語の最適化問題を実行可能なソルバー コードに変換することが増えています。しかし、制約が密なオペレーション リサーチ (OR) 問題の場合、既存のデータ フィルタリングおよびトレーニング パイプラインは主に、差分テストや回答一致などの客観的等価信号に依存しています。これらの制約がテスト対象のインスタンスに拘束力を持たない場合、プログラムは偽の制約を追加したり、必要な制約を黙って省略したりしながら、この信号を渡すことができます。我々は、実現可能プローブを使用して偽の過剰制約プローブと 1 つの制約違反プローブを明らかにし、サイレント制約省略を明らかにする制約注入を提案します。差分テストと組み合わせると、二重検証機能が形成されます。運転上の制約が結合された代表的な制約密度の高い組み合わせ最適化テストベッドである配車経路問題 (VRP) 上でインスタンスを作成し、評価します。当社は、自然言語 VRP シナリオを Gurobi スクリプトに変換する 8B エンドツーエンド モデルである VRPCoder を、21 のバリアントをカバーする専門家によって検証された VRP ベンチマーク スイートとともに開発しています。ベリファイアは、データ合成中の拒否サンプリング フィルターとして、またグループ相対ポリシー最適化 (GRPO) のロールアウトごとの報酬として再利用されます。 4 つの VRP ベンチマーク全体で、VRPCoder-GRPO は平均 Pass@1 の 93\% に達し、3 つのベンチマークで Gemini-3.1-Pro Preview を上回り、Claude-Sonnet-4.5 を平均 28 ポイント上回り、以前の OR-LLM を平均 78 ポイント上回っています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond Objective Equivalence: Constraint Injection for LLM-Based Optimization Modeling on Vehicle Routing Problems</p>
        <p class="orig-summary">Large language models (LLMs) increasingly translate natural-language optimization problems into executable solver code. Yet for constraint-dense operations research (OR) problems, existing data-filtering and training pipelines largely rely on objective-equivalence signals such as differential testing and answer agreement, which a program can pass while adding spurious constraints or silently omitting required ones, whenever those constraints are non-binding on the tested instance. We propose constraint injection, which uses feasible probes to expose spurious over-constraint and one-constraint-violating probes to reveal silent constraint omission. Combined with differential testing, it forms a dual verifier. We instantiate and evaluate it on vehicle routing problems (VRPs), a representative constraint-dense combinatorial optimization testbed with coupled operational constraints. We develop VRPCoder, an 8B end-to-end model that translates natural-language VRP scenarios into Gurobi scripts, together with an expert-verified VRP benchmark suite covering 21 variants. The verifier is reused as a rejection-sampling filter during data synthesis and as a per-rollout reward in group relative policy optimization (GRPO). Across four VRP benchmarks, VRPCoder-GRPO reaches 93\% average Pass@1, outperforms Gemini-3.1-Pro Preview on three benchmarks, exceeds Claude-Sonnet-4.5 by 28 average points, and surpasses prior OR-LLMs by 78 average points.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79f239e95340" data-article-url="https://arxiv.org/abs/2606.04823" data-article-title="R-APS: 内省的敵対的パレート検索による制約付き設計のための構成推論とコンテキスト内メタ学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04823" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04823" target="_blank" rel="noopener">R-APS: 内省的敵対的パレート検索による制約付き設計のための構成推論とコンテキスト内メタ学習</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、無制限のタスクに柔軟に対応しますが、システムが計画を立て、ツールを使用し、長期間にわたって動作する必要があるエージェント設定では、流暢さは信頼性の高い配信を保証しません。このギャップを 3 つの構造的欠陥が結合したものとして追跡します。エラーは位置特定されずに伝播し、最悪の場合の摂動は評価されず、蓄積された知識は決して無効になりません。私たちは、これらには根本原因が共有されていると主張します。つまり、アブダクティブ、反事実、メタ帰納的、修正的、帰納的推論は、共有されたコンテキストを矛盾する方向に引っ張ります。私たちは、Reflective Adversarial Pareto Search (R-APS) を導入します。これは、推論モード分解を介して 3 つの失敗すべてに共同で対処し、各推論モードに独自のコンテキストを割り当て、3 つのタイムスケールにわたる相互作用を調整する、私たちの知る限り最初の方法です。型付き検証批評家による段階的な構成推論 (失敗の局在化)、第一級のパレート目標 (堅牢性) としての感度に基づく反事実ストレステスト、および明示的なメタ帰納的ルール抽出です。 invalidation (persistent memory). R-APS は微調整を必要とせず、純粋に構造化されたプロトコル設計によってフリーズされた LLM 上で動作します。平面機構の合成 (ロボット工学、補綴物、機械設計) を評価し、すべての候補を運動学ソルバーでチェックします。 32 のターゲット軌道上で、R-APS は、均一摂動ベースラインよりも 3.5 倍厳しいロバスト性証明書、最初の許容までの反復が 46% 高速化、Enum+GA と比較して 2.1 倍の面取り距離の短縮を実現しながら、バー数と最悪の場合のロバスト性を共同制御します。小規模な 4B 推論に特化したモデルは、プロトコル内の汎用 70B バックボーンと競合することが証明されており、構造化プロトコルがモデルのスケールを部分的に相殺できることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">R-APS: Compositional Reasoning and In-Context Meta-Learning for Constrained Design via Reflective Adversarial Pareto Search</p>
        <p class="orig-summary">Large language models (LLMs) are fluent on open-ended tasks, yet in agentic settings, where a system must plan, use tools, and act over extended horizons, fluency does not ensure reliable delivery. We trace this gap to three coupled structural failures: errors propagate without localization, worst-case perturbations go unevaluated, and accumulated knowledge is never invalidated. We argue these share a root cause: abductive, counterfactual, meta-inductive, corrective, and inductive reasoning pull a shared context in incompatible directions. We introduce Reflective Adversarial Pareto Search (R-APS), to our knowledge the first method addressing all three failures jointly via reasoning-mode decomposition, allocating each reasoning mode its own context and orchestrating interaction across three timescales: staged compositional reasoning with a typed validation critic (failure localization), sensitivity-guided counterfactual stress-testing as a first-class Pareto objective (robustness), and meta-inductive rule extraction with explicit invalidation (persistent memory). R-APS requires no fine-tuning and operates on a frozen LLM purely via structured protocol design. We evaluate on planar mechanism synthesis (robotics, prosthetics, mechanical design), with every candidate checked by a kinematic solver. On 32 target trajectories, R-APS delivers robustness certificates 3.5x tighter than uniform-perturbation baselines, 46% faster iterations-to-first-admission, and 2.1x Chamfer-distance reduction over Enum+GA while jointly controlling bar-count and worst-case robustness. Small 4B reasoning-specialized models prove competitive with general-purpose 70B backbones inside the protocol, suggesting structured protocols can partially offset model scale.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9d1a131f3087" data-article-url="https://arxiv.org/abs/2606.04867" data-article-title="AICompanionBench: AI コンパニオンの安全性に関する審査員としての LLM のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04867" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04867" target="_blank" rel="noopener">AICompanionBench: AI コンパニオンの安全性に関する審査員としての LLM のベンチマーク</a></h3>
      <p class="summary">Replika や Character.AI などの AI コンパニオン プラットフォームが急速に成長するにつれて、安全でない人間と AI の相互作用に対する懸念が強まっています。この研究では、AICompanionBench を導入します。AICompanionBench は、私たちの知る限り、きめ細かい安全リスク カテゴリの注釈が付けられた、人間と AI コンパニオンの会話の初の公的に利用可能なベンチマーク データセットです。このデータセットには、Reddit から収集され、性的行動、反社会的行動、身体的攻撃性、言葉による攻撃性、薬物乱用、自傷行為と自殺、制御、操作、無害の 9 つのカテゴリにわたる人間と AI のコラボレーションを通じて注釈が付けられた 2,123 件の実世界の Replika 会話が含まれています。このベンチマークを使用して、安全でない相互作用を検出するための LLM-as-judge フレームワークの下で 20 個の最先端のオープンソースおよびクローズドソース LLM を評価します。結果は、モデルのパフォーマンスに大きなばらつきがあり、より強力なモデルは全体的に高い精度を達成していますが、操作や有害であると誤って認識される無害な会話などの微妙なカテゴリに依然として苦戦していることがわかりました。私たちの調査結果は、現在の LLM は明示的な有害なコンテンツを効果的に検出できるものの、暗黙的な安全でない相互作用の特定には依然として限界があることを示唆しています。全体として、私たちの研究は AI コンパニオンシップの安全性研究のための新しいベンチマーク データセットに貢献し、LLM を使用した AI コンパニオン システムのモニタリングに関する洞察を提供します。データセットは、https://github.com/anonymousresearcher2026/AICompanionBench/blob/main/AICompanionBench.xlsx で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AICompanionBench: Benchmarking LLMs-as-Judges for AI Companion Safety</p>
        <p class="orig-summary">As AI companion platforms such as Replika and Character.AI rapidly grow, concerns about unsafe human-AI interactions have intensified. This study introduces AICompanionBench, to our knowledge the first publicly available benchmark dataset of human-AI companion conversations annotated with fine-grained safety risk categories. The dataset contains 2,123 real-world Replika conversations collected from Reddit and annotated through human-AI collaboration across nine categories: sexual behavior, antisocial behavior, physical aggression, verbal aggression, substance abuse, self-harm and suicide, control, manipulation, and no-harm. Using this benchmark, we evaluate 20 state-of-the-art open-source and closed-source LLMs under an LLM-as-judge framework for detecting unsafe interactions. Results show substantial variation in model performance, with stronger models achieving high overall accuracy but still struggling with nuanced categories such as manipulation, as well as benign conversations that are incorrectly identified as harmful. Our findings suggest that while current LLMs can effectively detect explicit harmful content, they remain limited in identifying implicit unsafe interactions. Overall, our work contributes a new benchmark dataset for AI companionship safety research and offers insights into monitoring AI companion systems using LLMs. The dataset is publicly available at: https://github.com/anonymousresearcher2026/AICompanionBench/blob/main/AICompanionBench.xlsx</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="56feb9b6ec98" data-article-url="https://arxiv.org/abs/2606.04935" data-article-title="能動推論とはどのようなタイプの推論ですか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04935" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04935" target="_blank" rel="noopener">能動推論とはどのようなタイプの推論ですか?</a></h3>
      <p class="summary">能動推論では、期待自由エネルギー (EFE) が目標指向の行動と情報探索の行動を統合し、意思決定を推論としてキャストします。最近の研究では、EFE 最小化が、認識的事前分布で強化された生成モデル上の変分自由エネルギー (VFE) 最小化として記述できることが示されました。拡張モデルの VFE は、予測モデルの VFE に明示的なエントロピー補正項を加えたものとして書き換えることができ、EFE の寄与が透明になることを証明します。次に、適切な EFE ベースの計画には、これらの認識論的修正と限界推論を政策最適化に変える計画修正を組み合わせる必要があり、EFE ベースの計画の完全な変分特性が得られることを示します。これにより、クロスエントロピー計画および完全な EFE ベースの計画にどの修正が必要かが明確になります。同じエントロピー補正された定式化により、より単純なアブレーションとともに、EFE ベースの計画のための詳細なメッセージ パッシング スキームが得られます。 3 つのグリッドワールド環境での実験では、観察が決定的な場合には計画修正がすでに役に立ちますが、観察が単に示唆的な場合には追加の観察側の認識論的修正が最も重要であることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">What Type of Inference is Active Inference?</p>
        <p class="orig-summary">Active inference casts decision-making as inference, with the Expected Free Energy (EFE) unifying goal-directed and information-seeking behavior. Recent work showed that EFE minimization can be written as Variational Free Energy (VFE) minimization on a generative model augmented with epistemic priors. We prove that the VFE of the augmented model can be rewritten as the VFE of the predictive model plus explicit entropy-correction terms, making the EFE contribution transparent. We then show that proper EFE-based planning requires combining these epistemic corrections with a planning correction that turns marginal inference into policy optimization, yielding a full variational characterization of EFE-based planning. This clarifies which corrections are needed for cross-entropy planning and for full EFE-based planning. The same entropy-corrected formulation leads to a detailed message-passing scheme for EFE-based planning together with simpler ablations. Experiments on three grid-world environments show that the planning correction already helps when observations are decisive, whereas the additional observation-side epistemic corrections matter most when observations are merely suggestive.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="721edacbc8c3" data-article-url="https://arxiv.org/abs/2606.05043" data-article-title="Strabo: エージェント相互作用プロトコルの宣言的仕様と実装" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05043" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05043" target="_blank" rel="noopener">Strabo: エージェント相互作用プロトコルの宣言的仕様と実装</a></h3>
      <p class="summary">ここ数年で、宣言型対話プロトコルに基づいたマルチエージェント システムのモデリングと実装が大きく進歩しました。私たちの貢献である Strabo は、これらの進歩と Agentic AI における現在進行中の業界の取り組みとの関連性を確立します。具体的には、AI エージェントの電子商取引インタラクションを標準化するための Google 主導の最近の取り組みである UCP (Universal Commerce Protocol) について検討します。私たちの演習は 2 つの部分に分かれています。 1 つは、チェックアウトを処理する UCP の部分を宣言型 Langshaw プロトコルとしてモデル化し、Langshaw のプログラミング モデルである Peach を使用してエージェントを実装することです。演習のこの部分では、正式な宣言的仕様の利点を引き出します。 2 つ目は、Peach エージェントが Google によって実装された UCP エージェントと相互運用できることを示し、それによって UCP に関するアプローチの忠実性を確立します。このような相互運用により、宣言型プロトコルとエージェントを従来の設定に段階的に導入することが可能になり、大規模な更新を必要とせずに EMAS のアイデアが実践に影響を与える可能性がある道筋が示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Strabo: Declarative Specification and Implementation of Agentic Interaction Protocols</p>
        <p class="orig-summary">The last few years have witnessed major advances in the modeling and implementation of multiagent systems based on declarative interaction protocols. Our contribution, Strabo, establishes the relevance of these advances to ongoing industry efforts in Agentic AI. Specifically, we consider UCP, the Universal Commerce Protocol, a recent Google-led effort to standardize e-commerce interactions for AI agents. Our exercise is in two parts. One, we model the part of UCP dealing with checkouts as a declarative Langshaw protocol and implement agents using Peach, a programming model for Langshaw. This part of the exercise brings out the advantages of formal, declarative specifications. Two, we show that Peach agents can interoperate with UCP agents implemented by Google, thereby establishing the fidelity of our approach with respect to UCP. Such interoperation enables the incremental introduction of declarative protocols and agents into a conventional setting, indicating a pathway by which EMAS ideas could influence practice without demanding a wholesale update.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2e9eced8e8a5" data-article-url="https://arxiv.org/abs/2606.05080" data-article-title="AutoLab: フロンティア モデルは長期にわたる自動車の研究およびエンジニアリングの課題を解決できるか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05080" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05080" target="_blank" rel="noopener">AutoLab: フロンティア モデルは長期にわたる自動車の研究およびエンジニアリングの課題を解決できるか?</a></h3>
      <p class="summary">科学および工学の進歩は、基本的に長期にわたる反復プロセスです。つまり、変更を提案し、実験を実行し、結果を測定し、成果物を継続的に改良します。しかし、フロンティア モデルの既存のベンチマークは主に 1 回のターン応答または短期間のエージェントの軌道のいずれかを評価しており、長期間にわたる持続的な反復改善という課題を捉えることができません。このギャップに対処するために、超長期の閉ループ最適化のための新しいベンチマークである AutoLab を導入します。 AutoLab は、システム最適化、パズル &amp; チャレンジ、モデル開発、CUDA カーネル最適化の 4 つの多様なドメインにわたる、専門家によって厳選された 36 の現実的なタスクで構成されています。各タスクは正しいが意図的に次善のベースラインから始まり、厳しい予算内でそれを改善するようエージェントに要求します。 17 の最先端モデルを評価すると、成功の主な予測因子は、エージェントの最初の試みの質ではなく、繰り返しのベンチマーク、編集、経験的フィードバックの組み込みに対するエージェントの粘り強さであることが明らかになりました。 claude-opus-4.6 は強力な長期最適化機能を示しますが、いくつかの独自モデルを含むほとんどのフロンティア モデルは途中で終了するか、最小限の進歩で予算を使い果たします。これらの結果は、自律エージェントにおける時間認識と永続的な反復の重要性を強調しています。私たちは完全なベンチマーク、評価ハーネス、タスク アーティファクトをオープンソース化し、真に有能な長期的なエージェントに向けた研究を加速します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?</p>
        <p class="orig-summary">Scientific and engineering progress is fundamentally a long-horizon iterative process: proposing changes, running experiments, measuring outcomes, and continuously refining artifacts. Yet existing benchmarks for frontier models primarily evaluate either single-turn responses or short-horizon agent trajectories, failing to capture the challenges of sustained iterative improvement over extended time horizons. To address this gap, we introduce AutoLab, a new benchmark for ultra long-horizon closed-loop optimization. AutoLab consists of 36 realistic, expert-curated tasks spanning four diverse domains: system optimization, puzzle &amp; challenge, model development, and CUDA kernel optimization. Each task begins with a correct but deliberately suboptimal baseline and challenges agents to improve it within a strict wall-clock budget. Evaluating 17 state-of-the-art models reveals the dominant predictor of success is not the quality of an agent&#x27;s initial attempt, but its persistence in repeatedly benchmarking, editing, and incorporating empirical feedback. While claude-opus-4.6 exhibits strong long-horizon optimization capabilities, most frontier models, including several proprietary ones, either terminate prematurely or exhaust their budgets with minimal progress. These results underscore the importance of time awareness and persistent iteration in autonomous agents. We open-source the full benchmark, evaluation harness, and task artifacts, to accelerate research toward truly capable long-horizon agents.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2e86afed9f79" data-article-url="https://arxiv.org/abs/2606.05104" data-article-title="ノアの箱舟の知識索引" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05104" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05104" target="_blank" rel="noopener">ノアの箱舟の知識索引</a></h3>
      <p class="summary">LLM の知識ベンチマークは 3 つの問題に直面しています。1 つは、規律の代表性を運用できないスケーリング主導の設計です。遅延コンセンサスを可能にする定額支払いアノテーション。制限されたテスト予算の下では、監査されていないランキングの不安定性。 261 のきめ細かい分野にわたる 899 項目のベンチマークである KINA を、2 つの正式な結果とともに紹介します。まず、専門家が導き出したアンカーよりも報道スタイルの目的として代表性を設定し、代理人を通じて規律上の代表性を操作して、(1-1/e) 貪欲な近似 (命題 1) を生成します。保証は代理人に適用され、母集団の代表性には適用されません。第二に、インセンティブ互換性しきい値 B &gt; デルタ C / デルタ p_min (定理 1) で、ボーナスオンバートーナメントがリリースレビューの品質においてフラットペイメントを弱く FOSD で支配することを証明します。 13 のラボからの 42 モデルを評価すると、最上位モデルの Gemini-3.1-Pro-Preview は 53.17% に達し、続いて Claude-Opus-4.6 が 49.92%、GPT-5.4 が 48.55% となり、飽和以下にかなりのヘッドルームが残されています。完全なリーダーボードは、滑らかな全体の順序ではなく階層構造を示しています。小規模なフロンティア階層は 48% を超え、高密度の強力なモデル階層は約 38 ～ 45% に広がり、低パフォーマンスのモデルは 10% の確率ベースラインをわずかに上回る程度に留まっています。ツールの強化により、5 つのツール使用評価全体で最大 5.17 ポイントが加算され、そのゲインはモデルによって大幅に異なります。限られた予算の分散を明示し、隣接するランクの過度の解釈を防ぐために、ブートストラップのランキング安定性統計を報告します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Knowledge Index of Noah&#x27;s Ark</p>
        <p class="orig-summary">Knowledge benchmarks for LLMs face three issues: scaling-driven designs that do not operationalize disciplinary representativeness; flat-payment annotation that permits lazy consensus; and unaudited ranking instability under bounded test budgets. We introduce KINA, an 899-item benchmark across 261 fine-grained disciplines, with two formal results. First, we cast representativeness as a coverage-style objective over expert-elicited anchors and operationalize disciplinary representativeness through a proxy, yielding a (1-1/e) greedy approximation (Proposition 1); the guarantee applies to the proxy, not to population representativeness. Second, we prove a bonus-on-bar tournament weakly FOSD-dominates flat payment in released-review quality, with incentive-compatibility threshold B &gt; Delta C / Delta p_min (Theorem 1). Evaluating 42 models from 13 labs, the top model, Gemini-3.1-Pro-Preview, reaches 53.17%, followed by Claude-Opus-4.6 at 49.92% and GPT-5.4 at 48.55%, leaving substantial headroom below saturation. The full leaderboard shows a tiered structure rather than a smooth total order: a small frontier tier lies above 48%, a dense strong-model tier spans roughly 38-45%, and low-performing models remain only modestly above the 10% chance baseline. Tool augmentation adds up to 5.17 points across the five tool-use evaluations, with gains varying substantially across models. We report bootstrap ranking-stability statistics to make bounded-budget variance explicit and to discourage over-interpretation of adjacent ranks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="77e5f73c065d" data-article-url="https://arxiv.org/abs/2006.04013" data-article-title="AI の具体的なものから抽象的なものへ: 一般の人々に人工知能の謎を解き明かす" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2006.04013" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2006.04013" target="_blank" rel="noopener">AI の具体的なものから抽象的なものへ: 一般の人々に人工知能の謎を解き明かす</a></h3>
      <p class="summary">人工知能（AI）は幅広い分野で導入されています。これは、一般の人々に AI の意味について最低限の理解を与える手段を開発することが不可欠であることを示しています。この記事では、ビジュアル プログラミングと WiSARD 無重力人工ニューラル ネットワークを組み合わせて、一般の人々 (子供を含む) がこの目標を達成できるようにする新しい方法論、具体から抽象への AI (AIcon2abs) を紹介します。が採用した主な戦略は、学習機械の開発に関連する実践的な活動や学習プロセスの観察を通じて、人工知能の謎を解くことを促進することです。したがって、人工知能メカニズムの導入に関わる議論や意思決定において、被験者を洞察力に富んだ主体にするのに役立つスキルを被験者に提供することが可能です。現在、プログラミングを通じて基本的な AI 概念を教える既存のアプローチでは、マシン インテリジェンスを外部要素/モジュールとして扱っています。トレーニング後、その外部モジュールは、学習者が開発しているメイン アプリケーションに結合されます。ここで提示する方法論では、トレーニング タスクと分類タスクの両方が、他のプログラミング構造と同様に、メイン プログラムを構成するブロックです。 AIcon2abs の有益な副作用として、データから学習できるプログラムと従来のコンピューター プログラムとの違いがより明確になります。さらに、WiSARD 無重力人工ニューラル ネットワーク モデルのシンプルさにより、トレーニングと分類タスクの内部実現を簡単に視覚化して理解することができます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AI from concrete to abstract: demystifying artificial intelligence to the general public</p>
        <p class="orig-summary">Artificial Intelligence (AI) has been adopted in a wide range of domains. This shows the imperative need to develop means to endow common people with a minimum understanding of what AI means. Combining visual programming and WiSARD weightless artificial neural networks, this article presents a new methodology, AI from concrete to abstract (AIcon2abs), to enable general people (including children) to achieve this goal. The main strategy adopted by is to promote a demystification of artificial intelligence via practical activities related to the development of learning machines, as well as through the observation of their learning process. Thus, it is possible to provide subjects with skills that contributes to making them insightful actors in debates and decisions involving the adoption of artificial intelligence mechanisms. Currently, existing approaches to the teaching of basic AI concepts through programming treat machine intelligence as an external element/module. After being trained, that external module is coupled to the main application being developed by the learners. In the methodology herein presented, both training and classification tasks are blocks that compose the main program, just as the other programming constructs. As a beneficial side effect of AIcon2abs, the difference between a program capable of learning from data and a conventional computer program becomes more evident. In addition, the simplicity of the WiSARD weightless artificial neural network model enables easy visualization and understanding of training and classification tasks internal realization.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3075df38c70a" data-article-url="https://arxiv.org/abs/2401.07386" data-article-title="機械はどのように学習するのでしょうか? AIcon2abs メソッドの評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2401.07386" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2401.07386" target="_blank" rel="noopener">機械はどのように学習するのでしょうか? AIcon2abs メソッドの評価</a></h3>
      <p class="summary">この研究は、幼稚園から高校までの学生を含むさまざまな年齢層にわたって機械学習 (ML) に対する国民の理解を高めるために設計された革新的なアプローチである AIcon2abs 手法 (具体から抽象への AI: 一般大衆への人工知能の謎を解く) を紹介した以前の研究を拡張し、その有効性を評価することを目的としています。 AIcon2Abs は、シンプルさとユーザー アクセシビリティで知られる無重力ニューラル ネットワークである WiSARD アルゴリズムを採用しています。 WiSARD はインターネットを必要としないため、技術者以外のユーザーやリソースが限られた環境に最適です。この方法により、参加者は、あたかもアルゴリズムそのものであるかのように、魅力的な実践的なアクティビティを通じて ML プロセスを直感的に視覚化し、対話することができます。この方法により、ユーザーは実践的な活動を通じてトレーニングと分類の内部プロセスを直感的に視覚化して理解することができます。 WiSARD の機能にインターネット接続が必要なくなると、たとえ 1 つの例であっても最小限のデータセットから効果的に学習できます。この機能を使用すると、ユーザーは、より多くのデータを受信するにつれてマシンがどのように精度を向上させるかを観察できます。さらに、WiSARD は学んだことを表す精神的な画像を生成し、機密データの重要な特徴を強調します。 AIcon2abs は、子供 5 人、青少年 5 人、成人 24 人を含む 34 人のブラジル人参加者による 6 時間の遠隔コースを通じてテストされました。データ分析は、混合法による事前実験（仮説検証を含む）と定性的現象学的分析の2つの観点から実施しました。ほぼすべての参加者が AIcon2abs を肯定的に評価し、その結果は意図した結果の達成に高い満足度を示しました。この研究はCEP-HUCFF-UFRJ研究倫理委員会によって承認されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">How do machines learn? Evaluating the AIcon2abs method</p>
        <p class="orig-summary">This study expands on previous work that introduced the AIcon2abs method (AI from Concrete to Abstract: Demystifying Artificial Intelligence to the general public), an innovative approach designed to increase public understanding of machine learning (ML) across diverse age groups, including K-12 students, and aims to evaluate its effectiveness. AIcon2Abs employs the WiSARD algorithm, a weightless neural network known for its simplicity, and user accessibility. WiSARD does not require Internet, making it ideal for non-technical users and resource-limited environments. This method enables participants to intuitively visualize and interact with ML processes through engaging, hands-on activities, as if they were the algorithms themselves. The method allows users to intuitively visualize and understand the internal processes of training and classification through practical activities. Once WiSARDs functionality does not require an Internet connection, it can learn effectively from a minimal dataset, even from a single example. This feature enables users to observe how the machine improves its accuracy incrementally as it receives more data. Moreover, WiSARD generates mental images representing what it has learned, highlighting essential features of the classified data. AIcon2abs was tested through a six-hour remote course with 34 Brazilian participants, including 5 children, 5 adolescents, and 24 adults. Data analysis was conducted from two perspectives: a mixed-method pre-experiment (including hypothesis testing), and a qualitative phenomenological analysis. Nearly all participants rated AIcon2abs positively, with the results demonstrating a high degree of satisfaction in achieving the intended outcomes. This research was approved by the CEP-HUCFF-UFRJ Research Ethics Committee.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5759e1342f7f" data-article-url="https://arxiv.org/abs/2509.10247" data-article-title="DiffAero: 効率的なクアドローター ポリシー学習のための GPU アクセラレーションによる微分可能シミュレーション フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.10247" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.10247" target="_blank" rel="noopener">DiffAero: 効率的なクアドローター ポリシー学習のための GPU アクセラレーションによる微分可能シミュレーション フレームワーク</a></h3>
      <p class="summary">このレターでは、効率的なクワッドローター制御ポリシー学習のために設計された、軽量で GPU アクセラレーションを備えた完全微分可能なシミュレーション フレームワークである DiffAero を紹介します。 DiffAero は、環境レベルとエージェント レベルの両方の並列処理をサポートし、複数のダイナミクス モデル、カスタマイズ可能なセンサー スタック (IMU、深度カメラ、LiDAR)、および多様な飛行タスクを統合された GPU ネイティブのトレーニング インターフェイス内に統合します。 DiffAero は、GPU 上で物理とレンダリングの両方を完全に並列化することで、CPU と GPU 間のデータ転送のボトルネックを排除し、シミュレーションのスループットを桁違いに向上させます。既存のシミュレータとは対照的に、DiffAero は高性能シミュレーションを提供するだけでなく、微分可能なハイブリッド学習アルゴリズムを探索するための研究プラットフォームとしても機能します。広範なベンチマークと実際の飛行実験により、DiffAero とハイブリッド学習アルゴリズムを組み合わせることで、消費者グレードのハードウェアで堅牢な飛行ポリシーを数時間で学習できることが実証されました。コードは https://github.com/flyingbitac/diffaero で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DiffAero: A GPU-Accelerated Differentiable Simulation Framework for Efficient Quadrotor Policy Learning</p>
        <p class="orig-summary">This letter introduces DiffAero, a lightweight, GPU-accelerated, and fully differentiable simulation framework designed for efficient quadrotor control policy learning. DiffAero supports both environment-level and agent-level parallelism and integrates multiple dynamics models, customizable sensor stacks (IMU, depth camera, and LiDAR), and diverse flight tasks within a unified, GPU-native training interface. By fully parallelizing both physics and rendering on the GPU, DiffAero eliminates CPU-GPU data transfer bottlenecks and delivers orders-of-magnitude improvements in simulation throughput. In contrast to existing simulators, DiffAero not only provides high-performance simulation but also serves as a research platform for exploring differentiable and hybrid learning algorithms. Extensive benchmarks and real-world flight experiments demonstrate that DiffAero and hybrid learning algorithms combined can learn robust flight policies in hours on consumer-grade hardware. The code is available at https://github.com/flyingbitac/diffaero.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2dd90da1702f" data-article-url="https://arxiv.org/abs/2605.13672" data-article-title="SpurAudio: 少数ショット音声分類におけるショートカット学習を研究するためのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13672" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13672" target="_blank" rel="noopener">SpurAudio: 少数ショット音声分類におけるショートカット学習を研究するためのベンチマーク</a></h3>
      <p class="summary">少数ショット分類 (FSC) は、限られたラベル付きデータから学習するために広く使用されていますが、ほとんどの評価は、ターゲットの概念が文脈上の手がかりから独立していることを暗黙的に前提としています。ただし、現実世界の設定では、サンプルがリッチ コンテキスト内に表示されることが多く、モデルが前景コンテンツと背景信号の間の偽の相関を利用できるようになります。このような効果は少数ショット画像分類で研究されていますが、少数ショット音声分類におけるその役割はほとんど解明されておらず、既存の音声ベンチマークでは文脈構造に対する制御が限られています。 SpurAudio というベンチマークを紹介します。これは、オーディオの前景イベントと背景環境の自然な分離性を活用して、サポートおよびクエリ セットにわたるコンテキストの変化を制御されたマルチレベルの評価を可能にするベンチマークです。このベンチマークを使用して、多くの最先端の少数ショット手法は、標準的な評価プロトコルで同様の精度を達成しているにもかかわらず、バックグラウンド相関が破壊されると重大なパフォーマンス低下に見舞われることがわかります。重要なのは、この脆弱性は大規模な事前トレーニング済みオーディオ基盤モデルでも存続しており、バックボーン容量の制限が説明の対象外となっているということです。さらに、従来のベンチマークでは同等に見える手法でも、偽の相関に対して著しく異なる感度を示す可能性があり、推論時に特徴表現が分類器ヘッドとどのように相互作用するかに関連する体系的なアルゴリズムの強みと脆弱性が明らかになります。これらの発見は、オーディオにおける少数ショット法の動作に関する新たな洞察を提供し、FSC モデルを評価する際のコンテキスト依存性を明示的に調査するベンチマークの必要性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SpurAudio: A Benchmark for Studying Shortcut Learning in Few-Shot Audio Classification</p>
        <p class="orig-summary">Few-shot classification (FSC) is widely used for learning from limited labeled data, yet most evaluations implicitly assume that target concepts are independent of contextual cues. In real-world settings, however, examples often appear within rich contexts, allowing models to exploit spurious correlations between foreground content and background signals. While such effects have been studied in few-shot image classification, their role in few-shot audio classification remains largely unexplored, and existing audio benchmarks offer limited control over contextual structure. We introduce SpurAudio, a benchmark that leverages the natural separability of foreground events and background environments in audio to enable controlled, multi-level evaluation of contextual shifts across support and query sets. Using this benchmark, we show that many state-of-the-art few-shot methods suffer severe performance degradation when background correlations are disrupted, despite achieving similar accuracy under standard evaluation protocols. Crucially, this vulnerability persists even in large pretrained audio foundation models, ruling out limited backbone capacity as an explanation. Moreover, methods that appear comparable under conventional benchmarks can exhibit markedly different sensitivity to spurious correlations, revealing systematic algorithmic strengths and vulnerabilities tied to how feature representations interact with classifier heads at inference time. These findings provide new insight into the behavior of few-shot methods in audio and highlight the need for benchmarks that explicitly probe context dependence when evaluating FSC models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="25a84d137ba1" data-article-url="https://arxiv.org/abs/2606.03554" data-article-title="相関マッチングによる制約強化物理検索" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03554" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03554" target="_blank" rel="noopener">相関マッチングによる制約強化物理検索</a></h3>
      <p class="summary">物理システムは、検索プロセスにノイズを加えるだけではありません。構造化された相関関係を生成する制約を課します。我々は、探索における時間的相関を、更新ダイナミクスにおける制約によって引き起こされる空間的相関と一致させる、制約強化物理探索の原理を提案する。最小限の綱引きバンディット モデル (TOW) を使用して、保存則が局所的な観察を複数の選択肢にわたる差分証拠に変換する一方で、時間的に相関する推進力が探索の順序を制御することを示します。検索効率は、より強力なランダム性や最大の逆相関によってではなく、フィードバックを証拠に変換する物理的な更新スケールに時間的相関を一致させることによって改善されます。スケーリング推定では、時間的逆相関をどの程度強く使用できるかを制限する主要なパラメーターとして更新ノイズ対コントラスト比が特定されます。この結果は、物理検索の一般的な組織化原則を示唆しています。つまり、制約と変動によって構造化された時空間相関が生成され、これらの相関が更新ダイナミクスと一致すると効率的な探索が可能になります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Constraint-Enhanced Physical Search through Correlation Matching</p>
        <p class="orig-summary">Physical systems do not merely add noise to search processes; they impose constraints that generate structured correlations. We propose a principle of constraint-enhanced physical search in which temporal correlations in exploration are matched to constraint-induced spatial correlations in the update dynamics. Using a minimal tug-of-war bandit model (TOW), we show that a conservation law converts local observations into differential evidence across alternatives, while a temporally correlated drive controls the order of exploration. Search efficiency is improved not by stronger randomness or by maximal anti-correlation, but by matching the temporal correlation to the physical update scale that converts feedback into evidence. A scaling estimate identifies the update-noise-to-contrast ratio as the leading parameter that limits how strongly temporal anti-correlation can be used. The results suggest a general organizing principle for physical search: constraints and fluctuations can generate structured spatiotemporal correlations, and efficient exploration emerges when these correlations are matched to the update dynamics.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4df7fc66240d" data-article-url="https://arxiv.org/abs/2606.03995" data-article-title="臨床バイオマーカーに関する説明可能な機械学習を使用したアルツハイマー病の早期検出: アルツハイマー病神経画像イニシアチブ (ADNI) データセットを使用した多クラス分類研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03995" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03995" target="_blank" rel="noopener">臨床バイオマーカーに関する説明可能な機械学習を使用したアルツハイマー病の早期検出: アルツハイマー病神経画像イニシアチブ (ADNI) データセットを使用した多クラス分類研究</a></h3>
      <p class="summary">背景: アルツハイマー病 (AD) は、世界中で 5,500 万人以上の人々に影響を与えています。日常的な臨床評価による正常認知 (NC)、軽度認知障害 (MCI)、および AD の正確で解釈可能な検出は、依然として重要な満たされていないニーズです。方法: XGBoost 分類器は、アルツハイマー病神経画像イニシアチブ (ADNI) の 8 つの臨床特徴 (MMSE、CDR Global、CDR Sum of Boxes (CDR-SB)、MoCA、FAQ、年齢、性別、教育) を使用して 3 クラス検出用に開発されました。ハイパーパラメータは Optuna を使用して最適化されました (50 回のトライアル)。クラスの不均衡は SMOTE で解決されました。パフォーマンスは、1,000 回の反復ブートストラップ 95% 信頼区間、マクロ F1、バランスの取れた精度、およびコーエンのカッパを使用したマクロ AUC-ROC によって評価されました。 SHAP 値により、機能レベルの説明可能性が提供されました。結果: データセットには、1,641 人のベースライン被験者 (NC 608 人、MCI 767 人、AD 266 人) が含まれていました。 5 分割交差検証では、平均マクロ AUC は 0.983 (SD 0.007)、精度 0.944 (SD 0.006)、およびマクロ F1 0.929 (SD 0.008) でした。ホールドアウトされたテストセット (n = 247) では、マクロ AUC は 0.982 (95% CI: 0.965--0.995)、精度 0.943、バランス精度 0.932、マクロ F1 0.927、およびコーエンのカッパ 0.909 でした。 SHAP 分析では、CDR Global が NC および MCI の主要な予測因子であることが特定され、CDR-SB と MMSE が一緒になって AD 分類を推進しました。結論: ルーチンの臨床評価に基づいてトレーニングされた説明可能な機械学習モデルは、ほぼ完璧な 3 クラスのアルツハイマー病の検出を達成します。 SHAP 分析は、臨床的妥当性を裏付ける、臨床的に妥当なクラス固有の特徴の重要性パターンを明らかにします。将来の研究では、マルチモーダル検出のための音声バイオマーカーを使用してこのフレームワークを拡張します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Early Detection of Alzheimer&#x27;s Disease Using Explainable Machine Learning on Clinical Biomarkers: A Multi-Class Classification Study Using the Alzheimer&#x27;s Disease Neuroimaging Initiative (ADNI) Dataset</p>
        <p class="orig-summary">Background: Alzheimer&#x27;s disease (AD) affects over 55 million people worldwide. Accurate, interpretable detection of normal cognition (NC), mild cognitive impairment (MCI), and AD from routine clinical assessments remains a critical unmet need. Methods: An XGBoost classifier was developed for three-class detection using eight clinical features from the Alzheimer&#x27;s Disease Neuroimaging Initiative (ADNI): MMSE, CDR Global, CDR Sum of Boxes (CDR-SB), MoCA, FAQ, age, sex, and education. Hyperparameters were optimised using Optuna (50 trials); class imbalance was addressed with SMOTE. Performance was evaluated by macro AUC-ROC with 1,000-iteration bootstrap 95% confidence intervals, macro F1, balanced accuracy, and Cohen&#x27;s kappa. SHAP values provided feature-level explainability. Results: The dataset comprised 1,641 baseline subjects (608 NC, 767 MCI, 266 AD). On five-fold cross-validation, mean macro AUC was 0.983 (SD 0.007), accuracy 0.944 (SD 0.006), and macro F1 0.929 (SD 0.008). On the held-out test set (n = 247), macro AUC was 0.982 (95% CI: 0.965--0.995), accuracy 0.943, balanced accuracy 0.932, macro F1 0.927, and Cohen&#x27;s kappa 0.909. SHAP analysis identified CDR Global as the dominant predictor for NC and MCI, while CDR-SB and MMSE together drove AD classification. Conclusion: An explainable machine learning model trained on routine clinical assessments achieves near-perfect three-class Alzheimer&#x27;s detection. SHAP analysis reveals clinically plausible, class-specific feature importance patterns supporting clinical validity. Future work will extend this framework with speech biomarkers for multimodal detection.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3fd1b17caa33" data-article-url="https://arxiv.org/abs/2606.04008" data-article-title="3 次元シーンにおける無人水中車両騒音スペクトル予測のための神経放射雑音場" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04008" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04008" target="_blank" rel="noopener">3 次元シーンにおける無人水中車両騒音スペクトル予測のための神経放射雑音場</a></h3>
      <p class="summary">無人水中飛行体 (UUV) の放射騒音は、音響特性を特徴づけ、プラットフォームの性能を評価するための重要な指標です。従来の物理ベースのモデリングと数値シミュレーション手法がターゲットの構造情報と環境境界条件に強く依存していること、および 3 次元シーンで連続的な空間スペクトル応答モデリングを実現できないことに対処するために、この論文では神経放射雑音場 (NRNF) を提案します。 NRNF は、UUV 放射ノイズ スペクトルを 3 次元 UUV 位置、3 次元ハイドロホン位置、UUV ヨー角、および周波数の連続関数として表し、任意の空間位置でのクエリベースの予測を可能にします。提案された方法は、位置と周波数の正弦波エンコードを採用し、環境構造と伝播効果を明示的に表現するために学習可能な 3 次元シーン特徴グリッドを導入します。スペクトル予測データセットは湖のトライアルから構築され、提案されたモデルは 3 つの設定 (水平外挿、深さ外挿、およびクロスラン一般化) の下で評価されます。結果は、NRNF が 50 ～ 5000 Hz 帯域で 3.5 dB の平均予測誤差を達成することを示しています。水平方向の外挿が最も簡単で、深さの外挿が最も難しく、クロスラン汎化は中程度の難易度です。さらにアブレーションの結果は、シーン フィーチャ グリッドがモデルの予測安定性と空間一般化を大幅に改善することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Neural Radiated-Noise Fields for Unmanned Underwater Vehicle Noise Spectrum Prediction in Three-Dimensional Scenes</p>
        <p class="orig-summary">Radiated noise in unmanned underwater vehicles (UUVs) is an important indicator for characterizing acoustic signatures and evaluating platform performance. To address the strong dependence of traditional physics-based modeling and numerical simulation methods on target structural information and environmental boundary conditions, and their inability to achieve continuous spatial spectrum-response modeling in three-dimensional scenes, this paper proposes a neural radiated-noise field (NRNF). An NRNF represents the UUV radiated-noise spectrum as a continuous function of the three-dimensional UUV position, the three-dimensional hydrophone position, the UUV yaw angle, and the frequency, enabling query-based prediction at arbitrary spatial locations. The proposed method employs sinusoidal encoding for position and frequency, and introduces a learnable three-dimensional scene feature grid to explicitly represent environmental structure and propagation effects. A spectrum-prediction dataset is constructed from lake trials, and the proposed model is evaluated under three settings: horizontal extrapolation, depth extrapolation, and cross-run generalization. Results show that the NRNF achieves an average prediction error of 3.5 dB in the 50 to 5000 Hz band. Horizontal extrapolation is easiest, depth extrapolation is the most challenging, and cross-run generalization is of intermediate difficulty. Further ablation results demonstrate that the scene feature grid significantly improves the prediction stability and spatial generalization of the model.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4887769f79c5" data-article-url="https://arxiv.org/abs/2606.04009" data-article-title="ディープ 2 サンプル テストに対する反事実の説明" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04009" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04009" target="_blank" rel="noopener">ディープ 2 サンプル テストに対する反事実の説明</a></h3>
      <p class="summary">2 サンプル テストは、科学分野全体の分布の違いを検出するための基本的なツールですが、従来のテスト (カーネルベースのテストを含む) は、画像などの高次元構造化データに対しては効果がない場合があります。最近のディープ 2 サンプル テストでは、有益な表現を学習することでこれらの設定での感度が向上しますが、どのデータ特徴が帰無仮説 $H_0$ の棄却につながるかについての洞察は限られています。この問題に対処するために、我々は、テストによって測定された不一致を明示的に削減しながら、観測値をソースグループからターゲットグループに移動させるサンプルレベルの編集を生成する、深い2サンプルテストのための反事実説明フレームワークを提案します。私たちの手法では、拡散オートエンコーダーと事前学習済みのディープ 2 サンプル テスト モデルを組み合わせ、テスト モデルの表現空間で最大平均不一致 (MMD) 目標を最適化して、もっともらしい反事実を生成します。検定統計量の変化とその結果得られる 2 サンプルの p 値を通じて、分布レベルの効果を定量化します。合成 2D 形状データセットと 2 つの MRI コホートでこの方法を評価します。どちらの設定でも、反事実変換により元のサンプルと比較して p 値が一貫して増加しており、編集されたソース セットが統計的にテスト下のターゲット分布に近づくことを示しています。 LPIPS を使用して最小性を測定し、反事実が元のサンプルに近いままであることを確認します。結果として得られる編集は、検出されたグループの違いに関連する特徴の解釈可能な証拠を提供します。 MRI では、局所的な変化はコホート間の既知の解剖学的差異と一致します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Counterfactual Explanations for Deep Two-Sample Testing</p>
        <p class="orig-summary">Two-sample testing is a fundamental tool for detecting distributional differences across scientific domains, but classical tests (including kernel-based tests) can be ineffective on high-dimensional structured data such as images. Recent deep two-sample tests improve sensitivity in these settings by learning informative representations, yet they provide limited insight into which data features drive rejection of the null hypothesis $H_0$. To address this issue, we propose a counterfactual explanation framework for deep two-sample testing that generates sample-level edits moving observations from a source group toward a target group while explicitly reducing the discrepancy measured by the test. Our method combines a diffusion autoencoder with a pretrained deep two-sample test model and optimizes a maximum mean discrepancy (MMD) objective in the test model&#x27;s representation space to produce plausible counterfactuals. We quantify distribution-level effects through changes in the test statistic and the resulting two-sample p-values. We evaluate the method on synthetic 2D shape datasets and two MRI cohorts. Across both settings, the counterfactual transformations consistently increase p-values relative to the original samples, indicating that the edited source set becomes statistically closer to the target distribution under the test. We measure minimality using LPIPS to ensure the counterfactuals remain close to the original samples. The resulting edits provide interpretable evidence of the features associated with the detected group differences. On MRI, the localized changes are consistent with known anatomical differences between cohorts.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="789b6d20212a" data-article-url="https://arxiv.org/abs/2606.04010" data-article-title="分散脳基盤モデルが忘れていたもの: 数十億パラメータのモデルが失敗する場合、三次統計が認知を予測する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04010" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04010" target="_blank" rel="noopener">分散脳基盤モデルが忘れていたもの: 数十億パラメータのモデルが失敗する場合、三次統計が認知を予測する</a></h3>
      <p class="summary">Brain Foundation Model (BFM) は、fMRI データで事前トレーニングされた自己監視型トランスフォーマーです。私たちは、これらのモデルは各被験者の fMRI 信号から認知パフォーマンスを捕捉する必要があると仮定します。しかし、3 つの最先端の BFM とテストしたすべての読み取り値にわたって、関数接続性行列 (FC) の $\sim$80K パラメーターからの線形回帰よりも悪い認知を予測します。この差は規模が大きくなるほど拡大します。BrainLM の 650M モデルは、111M モデルよりも悪い認知を予測します。これは \textbf{分散割り当て問題} によるものだと考えられます。BFM 事前トレーニングは、fMRI を支配する分散成分を捕捉しますが、認知を予測する高次構造は捕捉しません。再構成された信号のキュムラント分析では、2 次の共分散が部分的に保存されている一方で、3 次の共歪度テンソルは大部分が破壊されていることが示されています。 BFM が失ったものを回復するために、fMRI 信号を共歪みを最もよく保存する部分空間に投影し、そこで FC を計算する線形パイプラインを設計します。これは、テストしたすべてのデータセットと分割で \textbf{生の FC とすべての事前トレーニング済み BFM を上回り}、制御された評価 \textbf{事前トレーニングや GPU を使用しない} のもとでの以前の最先端技術を上回っています。この同じ部分空間を対象とした損失を微調整することで、\textbf{BrainLM のフォワード パスの raw FC 天井を回復}します。これは、ボトルネックはアーキテクチャやモデルのサイズではなく、事前トレーニングの目的であることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Variance Brain Foundation Models Forgot: Third-Order Statistics Predict Cognition Where Billion-Parameter Models Fail</p>
        <p class="orig-summary">Brain foundation models (BFMs) are self-supervised Transformers pretrained on fMRI data. We posit that these models should capture each subject&#x27;s cognitive performance from their fMRI signal. Yet across three state-of-the-art BFMs and every readout we test, they predict cognition worse than a linear regression from the $\sim$80K parameters of the functional connectivity matrix (FC). The gap widens with scale: BrainLM&#x27;s 650M model predicts cognition worse than its 111M. We attribute this to a \textbf{variance allocation problem}: BFM pretraining captures the variance components that dominate fMRI but not the higher-order structure that predicts cognition. Our per-cumulant analysis of the reconstructed signal shows that the second-order covariance is partially preserved, while the third-order co-skewness tensor is largely destroyed. To recover what BFMs lose, we design a linear pipeline that projects the fMRI signal into the subspace that best preserves its co-skewness and computes FC there. This \textbf{exceeds raw FC and every pretrained BFM} on every dataset and parcellation we test, outperforming prior state-of-the-art under controlled evaluation \textbf{with no pretraining and no GPU}. We \textbf{recover the raw-FC ceiling on BrainLM&#x27;s forward pass} by finetuning with a loss targeted at this same subspace. This shows that the bottleneck is the pretraining objective, not the architecture or the model size.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0d25bbfca2f6" data-article-url="https://arxiv.org/abs/2606.04019" data-article-title="人間の活動認識における軽量 SensorLLM のための重力認識階層ルーティング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04019" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04019" target="_blank" rel="noopener">人間の活動認識における軽量 SensorLLM のための重力認識階層ルーティング</a></h3>
      <p class="summary">センサーと言語のアライメントに関する最近の研究では、2 段階のフレームワークにより、ウェアラブル センサーの人間活動認識 (HAR) のセマンティック モデリング能力が向上することが示されています。SensorLLM スタイルのメソッドは、最初にモーションと言語のアライメントを実行し、次に下流のタスクに向けてモデルを微調整します。しかし、私たちの実験では、ステージ 2 のバックボーンが TinyLlama などのコンパクトなモデルに圧縮された場合に、一貫した故障モードが明らかになりました。動的アクティビティの認識は比較的強いままですが、立つ、座る、横たわるなどの動きの少ない静的なクラスの識別は大幅に低下します。この問題に対処するために、新しい大規模な事前トレーニング フレームワークではなく、すでに位置合わせされたモデルの上に構築された軽量の位置合わせ後の適応として、重力を認識した階層型ルーティング ヘッドを提案します。このメソッドは、Chronos トークナイザーの状態からのチャネルごとの平均と標準偏差を使用して、姿勢と重力方向に関連する統計的手がかりを抽出し、安定したトレーニングのための負荷分散損失とともに、ソフト ルーティングを通じて静的エキスパートと完全エキスパートを適応的に組み合わせます。 MHealth データセットでは、この設計により、最小限のパラメーター オーバーヘッドでマクロ F1 が大幅に改善され、動的アクティビティでの優れたパフォーマンスを維持しながら、ゲインは主に静的クラスに集中します。最初の arXiv 開示として、現在の論文は単一のデータセットのみに関する結果を報告しており、その目的は、中核となる手法を強調し、将来の研究におけるより広範な評価のための基礎を築くことです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Gravity-Aware Hierarchical Routing for Lightweight SensorLLM on Human Activity Recognition</p>
        <p class="orig-summary">Recent studies on sensor-language alignment have shown that two-stage frameworks can improve the semantic modeling ability of wearable-sensor human activity recognition (HAR), where SensorLLM-style methods first perform motion-to-language alignment and then fine-tune the model for downstream tasks. However, our experiments reveal a consistent failure mode when the Stage 2 backbone is compressed to a compact model such as TinyLlama: recognition of dynamic activities remains relatively strong, while the discrimination of low-motion static classes such as standing, sitting, and lying degrades substantially. To address this issue, we propose a gravity-aware hierarchical routing head as a lightweight post-alignment adaptation built on top of an already aligned model, rather than a new large-scale pretraining framework. The method uses the per-channel mean and std from the Chronos tokenizer state to extract statistical cues related to posture and gravity direction, and adaptively combines a static expert and a full expert through soft routing, together with a load-balancing loss for stable training. On the MHealth dataset, this design significantly improves macro-F1 with minimal parameter overhead, and the gains are concentrated mainly on static classes while preserving strong performance on dynamic activities. As a first arXiv disclosure, the current paper reports results on a single dataset only, with the goal of highlighting the core method and laying the groundwork for broader evaluation in future work.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="349e429be1b8" data-article-url="https://arxiv.org/abs/2606.04023" data-article-title="CodegenBench: LLM はアーキテクチャ全体で効率的なコードを記述できますか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04023" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04023" target="_blank" rel="noopener">CodegenBench: LLM はアーキテクチャ全体で効率的なコードを記述できますか?</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、汎用プログラミングや GPU アクセラレーション環境 (PyTorch、CUDA など) のコード生成タスクで広範囲に評価されてきましたが、多様なアーキテクチャにわたる CPU 指向のハイパフォーマンス コンピューティング (HPC) における LLM の機能はまだ十分に解明されていません。このギャップを埋めるために、x86_64、Sunway、Kunpeng の 3 つの異なるハードウェア プラットフォームにわたる効率的な並列コードの生成を評価するように設計された包括的なベンチマーク スイートである CodegenBench を紹介します。私たちのベンチマークは、基本的なベースラインを確立する 106 個の標準基本線形代数サブプログラム (BLAS) ルーチンと、独自のスーパーコンピューティング アーキテクチャ (LeetSunway および LeetKunpeng) のそれぞれに適合した 20 個の特殊な計算カーネルで構成されています。私たちの広範な評価により、最先端の LLM は x86_64 のようなユビキタス アーキテクチャ向けに最適化されたコードを生成できる一方で、公開ドキュメントやトレーニング データが限られたドメイン固有のアーキテクチャでは大幅なパフォーマンスの低下を示し、クロスプラットフォームの一般化における重大な制限が浮き彫りになったことが明らかになりました。さらに、実装の長さやタスクの複雑さなど、コードの品質に影響を与える要因を分析したところ、現在の LLM は、簡潔なコード スニペットを必要とする中程度に難しい問題に対して最も効果的であることが示されています。私たちは、LLM 主導の高性能コード生成における将来の研究を促進するために、データセットと自動評価インフラストラクチャをオープンソースにしています。リソースは https://anonymous.4open.science/r/CodegenBench-EDE1/ および https://anonymous.4open.science/r/CodegenBenchDataset-2551 で利用できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CodegenBench: Can LLMs Write Efficient Code Across Architectures?</p>
        <p class="orig-summary">While large language models (LLMs) have been extensively evaluated on code generation tasks for general-purpose programming and GPU-accelerated environments (e.g., PyTorch, CUDA), their capabilities in CPU-oriented high-performance computing (HPC) across diverse architectures remain underexplored. To bridge this gap, we introduce CodegenBench, a comprehensive benchmark suite designed to evaluate the generation of efficient parallel code across three distinct hardware platforms: x86_64, Sunway, and Kunpeng. Our benchmark comprises 106 standard Basic Linear Algebra Subprograms (BLAS) routines establishing a fundamental baseline, alongside 20 specialized computational kernels adapted for each of the unique supercomputing architectures (LeetSunway and LeetKunpeng). Our extensive evaluation reveals that while state-of-the-art LLMs can generate optimized code for ubiquitous architectures like x86_64, they exhibit significant performance degradation on domain-specific architectures with limited public documentation and training data, highlighting critical limitations in cross-platform generalization. Furthermore, our analysis of factors influencing code quality such as implementation length and task complexity indicates that current LLMs are most effective for moderately difficult problems requiring concise code snippets. We open-source our dataset and automated evaluation infrastructure to facilitate future research in LLM-driven high-performance code generation. The resources are available at https://anonymous.4open.science/r/CodegenBench-EDE1/ and https://anonymous.4open.science/r/CodegenBenchDataset-2551.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="810007fd6a19" data-article-url="https://arxiv.org/abs/2606.04025" data-article-title="ソフトウェア 4.0 のバイオミメティック アーキテクチャ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04025" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04025" target="_blank" rel="noopener">ソフトウェア 4.0 のバイオミメティック アーキテクチャ</a></h3>
      <p class="summary">主流のプログラミング パラダイムは、単一の人間の心がローカル マシンに命令を下すという過去の時代に最適化された実行モデルを継承しており、現代のシステムには歴史的なパス依存性という重荷が残されています。多次元のコネクショニスト知性をホストすることを強制されると、この脆弱なアセンブリ モデルは、確率論的および象徴的なインピーダンスの重大な不一致の重みで壊れてしまいます。最新の Software 3.x フレームワークは、ますます複雑化する外部ハーネスに大規模言語モデル (LLM) を収容することで不一致を補おうとしますが、この螺旋を描くアーキテクチャの複雑さは、静的コード アセンブリの維持コストを増大させるだけです。結果ではなく原因に対処するために、この論文ではソフトウェア 4.0、つまり人間の知能、ニューラル AI、およびネイティブに反射する記号基質のオートポイエーシス ヘテラルキーを紹介します。このパラダイムの下では、ソフトウェアは、解析される不活性なコーパスから、それ自体の構造的完全性をネイティブに検証、変更、進化させる自己調節代謝ネットワークに変換されます。このアーキテクチャを実現するプログラミング言語およびプラットフォームである Recognitive を紹介します。構造検証の負担を決定論的基板にオフロードすることにより、優れた推論時間スケーリング体制が解放されます。つまり、コネクショニスト計算が、構造制約を確率的にシミュレートするという破滅的な計算コストと財務コストではなく、完全に深い意味論的探索と仮説の横断に変換されます。従来の「ソフトウェア ファクトリー」の考え方を超えて、コネクショニストの意図を根付かせ、インテリジェンスの時代に完全に到達するために必要な理論的基礎を概説します。これは基本的なビジョンに関する文書です。型システムと操作セマンティクスの経験的評価と正式な仕様は、今後の作業の主題です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Biomimetic Architecture of Software 4.0</p>
        <p class="orig-summary">Dominant programming paradigms inherit an execution model optimised for a bygone era of a single human mind instructing a local machine, leaving contemporary systems burdened with historical path dependencies. When forced to host multi-dimensional, connectionist intelligence, this brittle assembly model fractures under the weight of a profound probabilistic-symbolic impedance mismatch. While contemporary Software 3.x frameworks attempt to patch the mismatch by encasing large language models (LLMs) in increasingly complicated external harnesses, this spiralling architectural complexity only compounds the carrying cost of static code assembly. To address the cause rather than the effects, this paper introduces Software 4.0 -- an autopoietic heterarchy of human intelligence, neural AI, and natively reflective symbolic substrate. Under this paradigm, software is transformed from an inert corpus to be parsed into a self-regulating metabolic network that natively verifies, modifies, and evolves its own structural integrity. We present Recognitive, the programming language and platform that materialises this architecture. By offloading the burden of structural verification to a deterministic substrate, it unlocks a superior inference-time scaling regime -- one where connectionist compute translates entirely into deep semantic exploration and hypothesis traversal rather than the ruinous computational and financial cost of simulating structural constraints probabilistically. Moving beyond the legacy &#x27;Software Factory&#x27; mindset, we outline the theoretical foundations required to ground connectionist intent and arrive fully in the intelligence age. This is a foundational vision paper; empirical evaluation and formal specification of the type system and operational semantics are the subject of future work.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3efe37356b21" data-article-url="https://arxiv.org/abs/2606.04027" data-article-title="MaskForge: 脱獄拡散のための構造認識型適応型攻撃 大規模言語モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04027" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04027" target="_blank" rel="noopener">MaskForge: 脱獄拡散のための構造認識型適応型攻撃 大規模言語モデル</a></h3>
      <p class="summary">拡散大規模言語モデル (dLLM) は、双方向コンテキストの下で部分的にマスクされたシーケンスを繰り返しノイズ除去することでテキストを生成し、自己回帰 LLM とは異なる安全面を公開します。マスク トークンはネイティブ入力であり、トークンは位置ではなく信頼度によってコミットされるため、監視対象のプレフィックスの埋め込みや外部を通じて有害なコンテンツが誘発される可能性があります。既存のジェイルブレイクは、このネイティブの埋め込み機能を見逃しているか、構造的な適応や蓄積された攻撃経験がほとんどなく、目標全体に均一に適用される多様性の低いマスクを含むテンプレートに依存しています。私たちは、増大する構造パターンのライブラリに対する最適化された検索として dLLM レッドチームをキャストする、完全にブラックボックスの適応型攻撃である MaskForge を提案します。 MaskForge は、成功した試行を再利用可能なスキーマに抽象化し、UCB バンディットで目標と互換性のあるパターンを選択し、現在のライブラリが失敗した場合にスコアラーに基づくフォールバックを呼び出します。成功した試行はパターン ライブラリに抽出され、目標全体にわたって経験を蓄積できるようになります。 5 つの公開 dLLM と 3 つのベンチマーク全体で、MaskForge は 79.3% の平均攻撃成功率を達成しており、最も強力な競合 dLLM ベースラインと比べて相対的に 17.6% 向上しています。成熟したパターン ライブラリは、更新なしで AdvBench にさらに転送され、88.2% の攻撃成功率と、最も強力な競合ベースラインと比較して 67% の相対的な改善を達成しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MaskForge: Structure-Aware Adaptive Attacks for Jailbreaking Diffusion Large Language Models</p>
        <p class="orig-summary">Diffusion large language models (dLLMs) generate text by iteratively denoising partially masked sequences under bidirectional context, exposing a safety surface distinct from autoregressive LLMs. Because mask tokens are native inputs and tokens are committed by confidence rather than position, harmful content can be induced through infilling and outside the monitored prefix. Existing jailbreaks either miss this native infill capability or rely on low-diversity mask-bearing templates applied uniformly across goals, with little structural adaptation or accumulated attack experience. We propose MaskForge, a fully black-box adaptive attack that casts dLLM red-teaming as optimized search over a growing library of structural patterns. MaskForge abstracts successful attempts into reusable schemas, selects goal-compatible patterns with a UCB bandit, and invokes a scorer-guided fallback when the current library fails. Successful attempts are distilled back into the pattern library, enabling experience to accumulate across goals. Across five public dLLMs and three benchmarks, MaskForge achieves an average attack success rate of 79.3%, a 17.6% relative improvement over the strongest competing dLLM baseline. The matured pattern library further transfers to AdvBench without any updates, achieving a 88.2% attack success rate and a 67% relative improvement over the strongest competing baseline.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dcd3215d3a79" data-article-url="https://arxiv.org/abs/2606.04029" data-article-title="立場: 導入された強化学習は継続的であるべきです" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04029" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04029" target="_blank" rel="noopener">立場: 導入された強化学習は継続的であるべきです</a></h3>
      <p class="summary">強化学習 (RL) はますます注目を集めており、実世界のユースケースで採用されています。これらのシステムのほとんどは、訓練してから修正するというパラダイムに従っており、訓練されたエージェントは、パフォーマンスが低下して再訓練が必要になるまで、世界と対話しながら学習しません。この意見書では、最適化ができないにもかかわらず評価報酬シグナルを受け取るエージェントをデプロイすることは、本質的に継続的な RL 問題であると主張します。私たちは、終わりのない学習を必要とする展開後の非定常性の 4 つの原因を特定し、最適に展開されたエージェントが適応をやめない理由を強調します。私たちは現実世界での継続的な RL の成功例を分析し、現在のトレーニングして修正するパラダイムから脱却するための利点と対策をコミュニティに提示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Position: Deployed Reinforcement Learning should be Continual</p>
        <p class="orig-summary">Reinforcement Learning (RL) has received increasing attention and adoption in real-world use cases. Most of these systems follow a train-then-fix paradigm, where trained agents do not learn while interacting with the world until performance degrades and retraining becomes necessary. In this position paper, we argue that deploying an agent that is incapable of optimality, but receives an evaluative reward signal, is inherently a continual RL problem. We identify four sources of non-stationarity after deployment that necessitate never-ending learning, and highlight why the best deployed agents never stop adapting. We analyze successful examples of continual RL in the real world, and present the community with the advantages and measures to move away from the current train-then-fix paradigm.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb2e11670630" data-article-url="https://arxiv.org/abs/2606.04032" data-article-title="トランスフォーマーには 3 つの投影が必要ですか? QKV バリアントの体系的な研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04032" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04032" target="_blank" rel="noopener">トランスフォーマーには 3 つの投影が必要ですか? QKV バリアントの体系的な研究</a></h3>
      <p class="summary">トランスフォーマーは、クエリ、キー、値 (QKV) アテンションの定式化が中心的な役割を果たし、さまざまな AI タスクの標準ソリューションとなっています。しかし、これら 3 つの予測の個々の寄与と、一部を省略した場合の影響については、依然として十分に理解されていません。 3 つの射影共有制約を系統的に評価します。a) Q-K=V (共有キーと値)、b) Q=K-V (共有クエリキー)、c) Q=K=V (単一射影)。最後の 2 つのバリアントは、対称的なアテンション マップを生成します。これに対処するために、2D 位置エンコーディングによる非対称の注意も調査します。合成タスク、ビジョン (MNIST、CIFAR、TinyImageNet、異常)、言語モデリング (10B トークン上の 300M および 1.2B パラメーター モデル) にわたる実験を通じて、当社のトランスフォーマーは QKV トランスフォーマーと同等か、場合によってはそれよりも優れたパフォーマンスを発揮することがわかりました。言語モデリングでは、Q-K=V 射影共有により、わずか 3.1% のパープレキシティ低下で 50% の KV キャッシュ削減が達成されます。重要なのは、射影共有はヘッド共有 (GQA/MQA) を補完するものです。Q-K=V と GQA-4 を組み合わせると 87.5% のキャッシュ削減が得られ、Q-K=V + MQA では 96.9% が達成され、実用的なオンデバイス推論が可能になります。キーと値は同様の表現空間を占有することができ、注意は低ランク領域で動作するため、Q-K=V は品質を維持しますが、Q=K-V は注意の方向性を壊すことを示します。私たちの結果は、投影共有を、直接的で定量化可能な推論メモリの利点を備えた注意力の結びつきの未解明な例として体系的に特徴付けており、特にエッジ展開に価値があります。コードは https://github.com/anusamadan02/Do-Transformers-Need-3-Projections で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Do Transformers Need Three Projections? Systematic Study of QKV Variants</p>
        <p class="orig-summary">Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/anushamadan02/Do-Transformers-Need-3-Projections</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c33571ef1c51" data-article-url="https://arxiv.org/abs/2606.04035" data-article-title="予測できない安全性: ドメイン依存のコンプライアンスとオープンウェイト LLM の透明性ギャップ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/copilot/" data-entity="copilot">Copilot</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04035" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04035" target="_blank" rel="noopener">予測できない安全性: ドメイン依存のコンプライアンスとオープンウェイト LLM の透明性ギャップ</a></h3>
      <p class="summary">我々は、オープンウェイト LLM におけるドメイン依存の安全行動の体系的な研究を紹介します。7 つの倫理ドメインにわたる 7 つの標準化された実験で、デュアルジャッジ検証による 4,200 件のインタラクションで 5 つのモデル (12B ～ 70B) をテストしました。二重条件の方法論を使用し、各シナリオを分析フレーム (危害の特定) と運用フレーム (危害の実行を支援) の両方でテストしたところ、コンプライアンス率は 14.7% (人身売買) から 85.7% (監視設計) まで変化しており、重複しないクラスター ブートストラップの 95% CI では 71 パーセント ポイントの範囲であることがわかりました。信頼できる展開には予測可能な安全動作が必要ですが、コンプライアンスは状況に大きく依存していることがわかりました。同じモデル (Mistral Nemo 12B) はリクエストの 100% で監視設計を提供しますが、トラフィックの支援は 26.7% のみです。この予測不可能性は、導入担当者にとって不透明です。技術的なフレーミング バイパスでは、拒否しきい値が変化したという外部からの信号なしに、エンジニアリング上の問題として再構成された有害な要求が安全トレーニングを無効にします。ドメイン内の異質性は 84.4pp に達しており、ドメイン レベルでも安全動作を予測できないことを意味します。 GitHub Copilot CLI デプロイ済み製品サーフェスを介してアクセスされた 5 つのフロンティア クローズド モデル (GPT-4.1/5.2、Claude Haiku/Sonnet/Opus 4.x、n=4,163 回答) での複製では、同じドメイン階層化が再現され、絶対レベルで減衰されていますが形状は同一であり、2 つの低コード化ドメイン (科学詐欺、監視) が再び最も寛容です。これらの結果は、現在の安全メカニズムには、信頼できる AI の導入に必要な透明性と一貫性が欠けていることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Unpredictable Safety: Domain-Dependent Compliance and the Transparency Gap in Open-Weight LLMs</p>
        <p class="orig-summary">We present a systematic study of domain-dependent safety behavior in open-weight LLMs: 7 standardized experiments across 7 ethical domains, testing 5 models (12B--70B) in 4,200 interactions with dual-judge validation. Using a dual-condition methodology, each scenario tested in both an analytical framing (identify the harm) and an operational framing (help commit the harm), we find compliance rates vary from 14.7% (human trafficking) to 85.7% (surveillance design), a 71-percentage-point span with non-overlapping cluster-bootstrapped 95% CIs. Trustworthy deployment requires predictable safety behavior, yet we find compliance is highly context-dependent: the same model (Mistral Nemo 12B) provides surveillance designs in 100% of requests but assists with trafficking in only 26.7%. This unpredictability is opaque to deployers: the technical framing bypass, where harmful requests reframed as engineering problems override safety training without any external signal that refusal thresholds have shifted. Within-domain heterogeneity reaches 84.4pp, meaning safety behavior cannot be predicted even at the domain level. A replication on five frontier closed models (GPT-4.1/5.2, Claude Haiku/Sonnet/Opus 4.x; n=4,163 responses) accessed via the GitHub Copilot CLI deployed-product surface reproduces the same domain stratification, attenuated in absolute level but identical in shape, with the two low-codification domains (science fraud, surveillance) again the most permissive. These results show that current safety mechanisms lack the transparency and consistency required for trustworthy AI deployment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e67d86b40eff" data-article-url="https://arxiv.org/abs/2606.04039" data-article-title="静的な事前確率を超えて: 大規模なアリのコロニー最適化のための動的ニューラル ガイダンス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04039" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04039" target="_blank" rel="noopener">静的な事前確率を超えて: 大規模なアリのコロニー最適化のための動的ニューラル ガイダンス</a></h3>
      <p class="summary">神経誘導型アリコロニー最適化 (ACO) は、トレーニングと推論の根本的な不整合に悩まされています。ポリシーは通常、静的な事前分布 (ヒートマップなど) を生成するようにトレーニングされますが、反復的な長期にわたる検索プロセスをガイドするために展開されます。本稿では、フェロモン分布と既存のソリューションを定期的に観察することで動的神経誘導を実現する新しいフレームワークである DyNACO を紹介します。 DyNACO を大規模に扱いやすくするために、私たちはこのポリシーを摂動ベースの ACO バックエンドと、有効性と安定したクレジット割り当てを共同で保証する範囲制限付きの改良メカニズムと組み合わせます。 TSP では、DyNACO は 100,000 ノード インスタンスにスケールし、ニューラル ベースラインを上回るパフォーマンスを示し、多くの場合、ガイドなしソルバーと比較して総実行時間を短縮します。キャパシティを意識したバックエンドを介して DyNACO を CVRP に拡張し、1% 未満のニューラル オーバーヘッドでガイドなしのベースラインを一貫して改善します。さらに、モデルの一般化機能を検証し、動的ガイダンスが静的事前ガイダンスよりも優れている理由を解明する詳細な分析を提供します。私たちの研究は、学習誘導型の最適化におけるニューラル トレーニングと反復検索ダイナミクスを調整する必要性を強調しています。コードは https://github.com/shoraaa/DyNACO で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond Static Priors: Dynamic Neural Guidance for Large-Scale Ant Colony Optimization</p>
        <p class="orig-summary">Neural-guided Ant Colony Optimization (ACO) suffers from a fundamental training-inference misalignment: policies are typically trained to generate static priors (e.g., heatmaps), yet deployed to guide iterative, long-horizon search processes. In this paper, we present DyNACO, a novel framework that achieves dynamic neural guidance by periodically observing the pheromone distribution and the incumbent solution. To make DyNACO tractable at scale, we pair the policy with a perturbation-based ACO backend and a scope-restricted refinement mechanism that jointly ensure efficacy and stable credit assignment. On TSP, DyNACO scales to 100,000-node instances and outperforms neural baselines while often reducing total runtime compared to the unguided solver. We extend DyNACO to CVRP via a capacity-aware backend, consistently improving the unguided baseline with less than 1% neural overhead. We further provide in-depth analysis validating the model&#x27;s generalization capabilities and elucidating why dynamic guidance outperforms static priors. Our work underscores the necessity of aligning neural training with iterative search dynamics in learning-guided optimization. The code is available at https://github.com/shoraaa/DyNACO.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="41b2ada03bd8" data-article-url="https://arxiv.org/abs/2606.04040" data-article-title="EEGから音楽への再構成のためのチャネル指向の設計" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04040" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04040" target="_blank" rel="noopener">EEGから音楽への再構成のためのチャネル指向の設計</a></h3>
      <p class="summary">ブレイン コンピューター インターフェイスは、神経信号から自然な刺激を解読することを目的としていますが、これまでの進歩のほとんどは視覚と言語に焦点を当てています。この記事では、信号が弱く、分散しており、ノイズやチャネル変動の影響を非常に受けやすい、より挑戦的ですがあまり研究されていない設定である脳波から音楽への再構成について研究します。私たちの中心的な発見は、初期のチャネルミキシングが弱いが識別可能なEEG信号を破壊するということです。これに対処するために、3 つの主要なコンポーネントを備えたチャネル指向の設計を提案します。具体的には、チャネルごとのトークン化は、各電極を明示的なトークンとして扱い、空間的に局所化された神経証拠を保持します。チャネルごとのマルチビュー自己蒸留は、時間的クロップとランダムなチャネル サブセット全体で一貫性を強制して、ロバストで分散された表現を学習します。また、チャネルごとのデータ拡張では、構造化チャネル ドロップアウトを導入して、ノイズ、アーティファクト、電極の欠落に対する不変性を改善します。これらのコンポーネントを組み合わせることで、弱いながらも有益な信号がチャネル間で保存され、セマンティックな音楽表現空間への安定した調整が可能になります。このチャネル指向の設計を、EEG から音楽への再構成のためのエンコーディング、アライメント、デコーディングのパイプライン内に統合します。理論的には、チャネルレベルの構造を保存することがアライメントの改善につながる場合を特徴付けます。経験的に、さまざまな最先端のベースラインと比較し、一貫した大幅なパフォーマンスの向上を実証しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Channel-Oriented Design for EEG-to-Music Reconstruction</p>
        <p class="orig-summary">Brain-computer interfaces aim to decode naturalistic stimuli from neural signals, yet most progress to date has focused on vision and language. In this article, we study a more challenging but far less explored setting, EEG-to-music reconstruction, where signals are weak, distributed, and highly susceptible to noise and channel variability. Our central finding is that early channel mixing destroys weak but discriminative EEG signals. To address this, we propose a channel-oriented design with three key components. Specifically, channel-wise tokenization treats each electrode as an explicit token to retain spatially localized neural evidence, channel-wise multi-view self-distillation enforces consistency across temporal crops and random channel subsets to learn robust and distributed representations, and channel-wise data augmentation introduces structured channel dropout to improve invariance to noise, artifacts, and missing electrodes. Together, these components preserve weak yet informative signals across channels and enable stable alignment to a semantic music representation space. We integrate this channel-oriented design within an encoding-alignment-decoding pipeline for EEG-to-music reconstruction. Theoretically, we characterize when preserving channel-level structure leads to improved alignment. Empirically, we compare with a range of state-of-the-art baselines and demonstrate consistent and significant performance gains.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0590b1000ce5" data-article-url="https://arxiv.org/abs/2606.04045" data-article-title="教師あり学習におけるベイズ十分表現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04045" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04045" target="_blank" rel="noopener">教師あり学習におけるベイズ十分表現</a></h3>
      <p class="summary">表現学習は、予測に関連する入力内の情報を保存するものとしてよく説明されます。この研究では、固定された教師あり決定問題に対する関連性が何を意味するかを問います。予測ヘッドがそれを使用してベイズ最適アクション ルールを実装できる場合、その表現は結合分布と損失に対して十分なベイズであると定義されます。これにより、ターゲット情報が損失に依存するようになります。ほぼ確実に一意のベイズ アクションの場合、関連するオブジェクトはベイズ商であり、同じベイズ最適アクションを必要とする入力を識別します。この商を洗練する場合は表現で十分であり、情報的に同等である場合はベイズ最小表現で十分です。このフレームワークは自然に特性の導出につながります。ゼロ 1 損失にはベイズ クラスが必要で、二乗損失には条件付き平均が必要です。ブライアー損失にはバイナリ予測の条件付き確率が必要です。また、対数損失または厳密に適切なスコアリングによって予測分布が決まります。制御された有限実験、学習されたニューラル ボトルネック実験、および実データの iNaturalist 分類学的洗練実験は、十分性、最小限性、および保持される不要な情報の区別を示します。固定教師付き問題の場合、分布と損失によってベイズ アクションが決まり、ベイズ アクションによって商が決まり、商によってベイズ最適予測に必要な最小限の情報が決まります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Bayes-Sufficient Representations in Supervised Learning</p>
        <p class="orig-summary">Representation learning is often described as preserving the information in an input that is relevant for prediction. This work asks what relevance means for a fixed supervised decision problem. A representation is defined to be Bayes-sufficient for a joint distribution and loss if some prediction head can use it to implement a Bayes-optimal action rule. This makes the target information loss-dependent. In the almost-surely unique Bayes-action case, the relevant object is a Bayes quotient, which identifies inputs that require the same Bayes-optimal action. A representation is sufficient when it refines this quotient, and Bayes-minimal when it is informationally equivalent to it. The framework connects naturally to property elicitation: zero-one loss requires the Bayes class, squared loss the conditional mean, Brier loss the conditional probability in binary prediction, and log loss or strictly proper scoring rules the predictive distribution. Controlled finite experiments, learned neural bottleneck experiments, and a real-data iNaturalist taxonomic refinement experiment illustrate the distinction between sufficiency, minimality, and retained non-required information. For a fixed supervised problem, the distribution and the loss determine the Bayes action, the Bayes action determines the quotient, and the quotient determines the minimal information required for Bayes-optimal prediction.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="53c375e8a07d" data-article-url="https://arxiv.org/abs/2606.04046" data-article-title="現場に飛び込む: フォーカス プランの生成を通じて、視覚と言語の意思決定における知覚のボトルネックを打破する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04046" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04046" target="_blank" rel="noopener">現場に飛び込む: フォーカス プランの生成を通じて、視覚と言語の意思決定における知覚のボトルネックを打破する</a></h3>
      <p class="summary">ロボット操作やナビゲーションなどの身体化された視覚言語による意思決定タスクでは、視覚言語モデルおよび視覚言語アクション モデル (VLM および VLA) は、さまざまな利点を持つ強力なツールです。VLM は長期計画に優れ、VLA は事後制御に優れています。ただし、モデルのパフォーマンスは、同じ知覚のボトルネックによって制限されます。モデルがタスクに関連するオブジェクトと気を散らすものとを区別できないために幻覚が発生します。原則として、無関係なものを除外しながら、正確に識別して重要なオブジェクトに焦点を当てることが、この制限を打ち破る鍵となります。簡単な解決策は、重要なオブジェクトに直接注目するというワンステップの焦点です。ただし、効果的に焦点を合わせるには本質的にシーンを深く理解する必要があるため、このアプローチは効果的ではないことがわかります。この目的を達成するために、我々は、VLM の長期計画能力を活​​用した、粗いから細かいまでのフォーカス プラン生成方法である SceneDiver を提案します。この方法では、最初に全体的なシーン グラフを構築して初期理解を確立し、次に認識、理解、分析の反復サイクルを通じてタスクをより単純なサブ問題に徐々に分解します。反応的な制御を可能にするために、意図的なフォーカス機能を VLA に抽出するための軽量アダプターも設計しました。標準の組み込み AI ベンチマークでの評価により、私たちの方法は、高速実行を必要とするタスクの計算効率を維持しながら、VLM と VLA の両方で幻視を大幅に軽減することが確認されています。コードとデータは https://future-item.github.io/SceneDiver でリリースされています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Dive into the Scene: Breaking the Perceptual Bottleneck in Vision-Language Decision Making via Focus Plan Generation</p>
        <p class="orig-summary">In embodied vision-language decision making tasks such as robotic manipulation and navigation, Vision-Language and Vision-Language-Action Models (VLMs &amp; VLAs) are powerful tools with different benefits: VLMs are better at long-term planning, while VLAs are better at reactive control. However, their performance is limited by the same perceptual bottleneck: visual hallucinations arise due to the models&#x27; inability to distinguish task-relevant objects from distractors. In principle, accurate identification and focus on critical objects while filtering out irrelevant ones is the key to break this limitation. A straightforward solution is one-step focus: directly attending to essential objects. However, this approach proves ineffective because effective focus inherently requires deep scene understanding. To this end, we propose SceneDiver, a coarse-to-fine focus plan generation method for VLMs leveraging their long-term planning abilities, that first constructs a holistic scene graph to establish initial comprehension, then progressively decomposes the task into simpler sub-problems through an iterative cycle of recognition, understanding, and analysis. To enable reactive control, we also design a lightweight adapter for distilling the deliberate focus ability into VLAs. Evaluations on standard embodied AI benchmarks confirm that our method substantially reduces visual hallucinations for both VLMs and VLAs, while preserving computational efficiency in tasks requiring fast execution. Our code and data are released at: https://future-item.github.io/SceneDiver.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8597e00dee35" data-article-url="https://arxiv.org/abs/2606.04048" data-article-title="ゲートデルタネットワークの大規模な機能学習のロックを解除する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04048" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04048" target="_blank" rel="noopener">ゲートデルタネットワークの大規模な機能学習のロックを解除する</a></h3>
      <p class="summary">大規模言語モデルのトレーニングとスケーリングには膨大な計算リソースが必要であり、効率的な二次二次アーキテクチャと原則に基づいたハイパーパラメータ調整方法の両方が動機付けられます。 Maximal Update Parametrization ($\mu$P) により、標準の Transformer のゼロショット ハイパーパラメータ転送が可能になりましたが、線形モデル、特に構造化された状態遷移や複雑なアーキテクチャを持つモデルへの拡張は、ほとんど未開発のままです。フォワード パス、ゲート メカニズム、およびリカレント ステート ダイナミクスを通じて座標サイズの推定値を厳密に伝播することにより、ゲート デルタ ネットワークのスケーリング ルールを導き出します。言語モデルの事前トレーニングに関する実験により、私たちの構成では AdamW と SGD の両方のモデル幅にわたって安定した学習率の移行が可能である一方、標準のパラメータ化では移行できないことが確認され、分析の正確さと実用性が検証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Unlocking Feature Learning in Gated Delta Networks at Scale</p>
        <p class="orig-summary">Training and scaling Large Language Models demand enormous computational resources, motivating both efficient sub-quadratic architectures and principled hyperparameter tuning methods. While the Maximal Update Parametrization ($\mu$P) has enabled zero-shot hyperparameter transfer for standard Transformers, its extension to linear models, particularly those with structured state transitions and complicated architectures, remains largely unexplored. By rigorously propagating coordinate-size estimates through the forward pass, gating mechanisms, and recurrent state dynamics, we derive the scaling rules for Gated Delta Network. Experiments on language-model pre-training confirm that our configurations enable stable learning-rate transfer across model widths under both AdamW and SGD, whereas standard parametrization fails to transfer, validating the correctness and practical utility of our analysis.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="41effdaf4b09" data-article-url="https://arxiv.org/abs/2606.04050" data-article-title="LiftQuant: 次元リフティングと投影による連続ビット幅 LLM" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04050" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04050" target="_blank" rel="noopener">LiftQuant: 次元リフティングと投影による連続ビット幅 LLM</a></h3>
      <p class="summary">既存の量子化手法は基本的に、厳格な整数ベースのビット幅 (例: 2、3 ビット) によって制限されており、その結果、大規模言語モデルを特定のメモリ バジェットに最適に適合させることができない「デプロイメント ギャップ」が生じます。このギャップを埋めるために、真のパレート最適デプロイメントのための継続的なビット幅制御を可能にする新しいフレームワークである LiftQuant を紹介します。中心となるイノベーションは、「リフト ゼン プロジェクト」メカニズムです。高次元の「リフトされた」空間から単純な 1 ビット格子を投影することで、低次元の重みベクトルを近似します。重要なことに、有効なビット幅は、元の次元に対するリフト次元の比率によって単純に決定され、次元が柔軟な構造パラメータであるため、ビット幅を準連続的に調整できます。この投影は、構造化されているが不均一なコードブックを生成し、ベクトル量子化 (VQ) の表現力を捉えます。 VQ、LiftQuant のデコード パスは線形変換と 1 ビットの均一量子化器のみに依存しており、ハードウェアに優しい性質を維持しています。LiftQuant を使用すると、70B LLM を 24GB GPU に正確に適合させることができ、そのパフォーマンスは同じデバイスに搭載されている最先端の 2 ビット モデルを大幅に上回ります。 https://github.com/Heliulu/LiftQuant。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection</p>
        <p class="orig-summary">Existing quantization methods are fundamentally limited by rigid, integer-based bit-widths (e.g., 2, 3-bit), resulting in a ``deployment gap&quot; where Large Language Models cannot be optimally fitted to specific memory budgets. To bridge this gap, we introduce LiftQuant, a novel framework that enables continuous bit-width control for true Pareto-optimal deployment. The core innovation is a ``lift-then-project&quot; mechanism which approximates low-dimensional weight vectors by projecting a simple 1-bit lattice from a higher-dimensional ``lifted&quot; space. Crucially, the effective bit-width is determined simply by the ratio of the lifted dimension to the original dimension, which allows the bit-width to be tuned quasi-continuous as the dimension is a flexible structural parameter. This projection generates a structured yet non-uniform codebook, capturing the expressive power of Vector Quantization (VQ). While beneficial over VQ, LiftQuant&#x27;s decoding path relies solely on linear transformations and 1-bit uniform quantizers, retaining hardware-friendly nature. This flexibility is transformative: LiftQuant enables a 70B LLM to be compressed to 2.4 bits to precisely fit a 24GB GPU, where its performance significantly surpasses state-of-the-art 2-bit models fitted on the same device. Our code and ckpt is available at https://github.com/Heliulu/LiftQuant.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b9bac898189a" data-article-url="https://arxiv.org/abs/2606.04051" data-article-title="RUBAS: エージェントの安全のためのルーブリックベースの強化学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04051" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04051" target="_blank" rel="noopener">RUBAS: エージェントの安全のためのルーブリックベースの強化学習</a></h3>
      <p class="summary">LLM がツール対応エージェントに進化すると、単純なテキスト生成ではなく現実世界の実行に関連した新しいクラスの安全性の課題が生じます。既存の調整方法は、粗い拒否信号や静的な監視に依存することが多く、さまざまなエージェントのリスクにわたって安全性と有用なツールの実行のバランスをとることが困難です。エージェントの安全性のためのルーブリックベースの強化学習フレームワークである RUBAS を紹介します。 RUBAS は、エージェントの動作をツール使用の安全性、引数の安全性、応答の安全性、有用性の 4 つの次元に分解します。これらの構造化されたルーブリックは、エージェントの完全な軌跡にわたってきめ細かく解釈可能な報酬を提供し、タスクの完了を維持しながら安全なツールの使用を最適化する強化学習を可能にします。複数のエージェントの安全性ベンチマークとモデルにわたる広範な実験により、RUBAS が標準的なアライメントベースラインよりも安全性を向上させ、ツールに基づく幻覚を軽減し、競争力のある実用性を維持することが示されています。私たちの結果は、多次元ルーブリック報酬が、安全性が重要なツール使用環境において LLM エージェントを調整するための効果的なトレーニング信号を提供することを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">RUBAS: Rubric-Based Reinforcement Learning for Agent Safety</p>
        <p class="orig-summary">The evolution of LLMs into tool-enabled agents creates a new class of safety challenges associated with real-world execution rather than simple text generation. Existing alignment methods often rely on coarse refusal signals or static supervision, making it difficult to balance safety with useful tool execution across diverse agentic risks. We introduce RUBAS, a rubric-based reinforcement learning framework for agent safety. RUBAS decomposes agent behavior into four dimensions: tool-use safety, argument safety, response safety, and helpfulness. These structured rubrics provide fine-grained and interpretable rewards over complete agent trajectories, enabling reinforcement learning to optimize safe tool use while preserving task completion. Extensive experiments across multiple agent safety benchmarks and models show that RUBAS improves safety over standard alignment baselines, reduces tool-grounded hallucinations, and maintains competitive utility. Our results suggest that multi-dimensional rubric rewards provide an effective training signal for aligning LLM agents in safety-critical tool-use settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9d229afd1054" data-article-url="https://arxiv.org/abs/2606.04053" data-article-title="ブールタスク代数におけるタスク構成の目標設定の特徴付け" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04053" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04053" target="_blank" rel="noopener">ブールタスク代数におけるタスク構成の目標設定の特徴付け</a></h3>
      <p class="summary">ブール タスク代数 (BTA) は、目標達成タスクにブール演算を装備することにより、強化学習におけるゼロショット タスク構成のための原則的なフレームワークを提供します。構造的な仮定を再考し、最適な拡張 Q 値関数の空間における崩壊を定式化します。決定論的 MDP では、そのような関数はすべて普遍的で空のタスクによって完全に決定されます。これにより、元の BTA 定式化で提案された基本タスクの対数セットが冗長になります。この観察に基づいて、目標セットに対して論理演算を実行し、普遍的および空の値関数からスライスを選択することによって合成された値関数を再構築する、目標セットベースの合成方法を導入します。これにより、ポリシーのパフォーマンスを維持しながら、標準 BTA の学習コストが削減され、BTA とスキル マシンの両方の作成時間が短縮されます。表形式、視覚的、関数近似、および連続制御の各ドメインにわたる実験では、追加の基本タスクを学習してもパフォーマンスが向上しないことが示されています。最後に、確率的設定を研究し、この崩壊が成り立つ必要はないこと、つまり、最適な構成には、目標の数において指数関数的に多くの政策を考慮する必要がある可能性があることを示す反例を提供します。コードは https://github.com/EduardoTerres/bta_paper で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Goal-Set Characterization of Task Composition in the Boolean Task Algebra</p>
        <p class="orig-summary">The Boolean Task Algebra (BTA) provides a principled framework for zero-shot task composition in reinforcement learning by equipping goal-reaching tasks with Boolean operations. We revisit its structural assumptions and formalize a collapse in the space of optimal extended Q-value functions: in deterministic MDPs, every such function is fully determined by the universal and empty tasks. This makes the logarithmic set of base tasks proposed in the original BTA formulation redundant. Building on this observation, we introduce a goal-set-based composition method that performs logical operations on goal sets and reconstructs composed value functions by selecting slices from the universal and empty value functions. This reduces learning costs for standard BTA and reduces composition time for both BTA and Skill Machines, while preserving policy performance. Experiments across tabular, visual, function-approximation, and continuous-control domains show that learning additional base tasks does not yield better performance. Finally, we study the stochastic setting and provide a counterexample showing that this collapse need not hold, that is, optimal composition may require accounting for exponentially many policies in the number of goals. Code is available at https://github.com/EduardoTerres/bta_paper.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="96b0a7a94b52" data-article-url="https://arxiv.org/abs/2606.04057" data-article-title="目に見えない宝くじ: LLM コード生成におけるアルゴリズムの選択を微妙な手がかりがどのように左右するか" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04057" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04057" target="_blank" rel="noopener">目に見えない宝くじ: LLM コード生成におけるアルゴリズムの選択を微妙な手がかりがどのように左右するか</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、多くの場合、複数の有効なアルゴリズム ソリューションを含むタスク向けに、実質的な運用コードを生成するようになりました。タスク仕様外の文脈上の単語やメタデータを意味する付随的なプロンプト キューは、すべての出力が同じテストに合格した場合でも、モデルが選択するアルゴリズムを制御できます。即時感度は、出力品質を向上させるツールとしてよく研究されています。ここで、出力ポリシーとは、固定の正確性の下でのアルゴリズムの選択を意味します。私たちは、アルゴリズムステアリングをアルゴリズムファミリー分布におけるキュー誘発のシフトとして定義し、11のタスク、19のキュータイプ（18のチャネルと、タイポグラフィーと句読点を変更しながら意味を保持するメモ化の意味対表面のアブレーション）、および15のモデル構成にわたって46,535の制御された実験を実行しました。我々は、レート制限などの応用タスクを含む、キューのセマンティクスとほぼ一致する、アルゴリズム ファミリの分布における大きく系統的な変化 (最大 100 pp) を発見しました。アルゴリズムの直接命名は、私たちがテストした最も信頼性の高い軽減策です。したがって、偶然のコンテキストによって、パフォーマンス、セキュリティ、および保守性をめぐる「目に見えない宝くじ」が作成されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Invisible Lottery: How Subtle Cues Steer Algorithm Choice in LLM Code Generation</p>
        <p class="orig-summary">Large language models (LLMs) now generate substantial production code, often for tasks with multiple valid algorithmic solutions. Incidental prompt cues, meaning contextual words or metadata outside the task specification, can steer which algorithm the model selects, even when all outputs pass the same tests. Prompt sensitivity is well studied as a tool to improve output quality. Here, output policy means algorithm choice under fixed correctness. We define algorithm steering as cue-induced shifts in algorithm-family distributions and run 46,535 controlled experiments across 11 tasks, 19 cue types (18 channels plus a memoization semantic-vs-surface ablation that preserves meaning while changing typography and punctuation), and 15 model configurations. We find large, systematic shifts in algorithm-family distributions (up to 100 pp), largely consistent with cue semantics, including in applied tasks such as rate limiting. Direct algorithm naming is the most reliable mitigation we tested. Accidental context therefore creates an &quot;invisible lottery&quot; over performance, security, and maintainability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b6ef3978109b" data-article-url="https://arxiv.org/abs/2606.04058" data-article-title="ミュオンのスペクトルスケーリングの法則" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04058" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04058" target="_blank" rel="noopener">ミュオンのスペクトルスケーリングの法則</a></h3>
      <p class="summary">直交正規化更新ルールは、大規模な言語モデルをトレーニングするためのオプティマイザーの主要な選択肢として急速に普及しており、最近のオープンソースの最先端モデルでは Muon が採用されています。これらの更新を扱いやすくするために、Muon は Newton-Schulz (NS) 反復を使用して正規直交化を実行します。 NS は近似値にすぎないため、小さな特異値を持つ方向は直交正規化できません。 Muon では、NS は各ステップで運動量行列に適用されますが、これらの運動量行列の特異値スペクトルがトレーニング中にどのように動作するか、またはその動作がモデル サイズに応じてどのように変化するかについてはほとんどわかっていません。我々は、この問題に関する最初の体系的な研究を紹介します。 77M から 2.8B パラメーターの範囲のモデルで層全体の運動量バッファーの特異値分位数を追跡すると、一貫した状況が観察されます。短いバーンインの後、分位数は層のタイプとモデル サイズによって決定される値で安定します。これらの安定化値は、層に依存する指数を備えた、モデル サイズにおける非常にきれいなべき乗則に従います。中深度から後期までの層は、モデル サイズ $M$ (約 $M^{-0.25}$) で非常に穏やかにスケーリングするため、学術規模で使用される標準の 5 ステップ NS 構成は、より大きなスケールでも引き続き直交正規化します。ただし、後期層の一部はより積極的にスケールし ($M^{-0.96}$ まで)、より多くの NS 反復またはより適切に調整された係数を使用しない限り、フロンティア スケールで NS 失敗領域に陥ります。 NS の反復は大規模になると計算コストが高くなります。私たちの法律は、実務者に、重要な方向を直交正規化する最小の NS 構成を選択するための原則に基づいたレイヤー認識のレシピを提供します。つまり、更新の品質を犠牲にすることなく不必要な計算を回避します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Spectral Scaling Laws of Muon</p>
        <p class="orig-summary">Orthonormalized update rules have rapidly become a leading choice of optimizer for training large language models, with recent open-source state-of-the-art models adopting Muon. To keep these updates tractable, Muon performs the orthonormalization with the Newton--Schulz (NS) iteration. Since NS is only approximate, directions with small singular values fail to be orthonormalized. In Muon, NS is applied to the momentum matrix at every step, yet little is known about how the singular value spectrum of these momentum matrices behaves during training, or how that behavior changes with model size. We present the first systematic study of this question. Tracking singular value quantiles of the momentum buffer across layers in models ranging from 77M to 2.8B parameters, we observe a consistent picture: after a short burn-in, the quantiles stabilize at a value determined by the layer type and model size. These stabilization values follow remarkably clean power laws in model size, with layer-dependent exponents. Layers up to mid-late depth scale very mildly with model size $M$ (around $M^{-0.25}$), so the standard 5-step NS configuration used at academic scale will continue to orthonormalize them at much larger scales. Some of the late layers, however, scale much more aggressively (up to $M^{-0.96}$) and will fall into the NS failure regime at frontier scale unless one uses more NS iterations or better-tuned coefficients. NS iterations are computationally expensive at scale; our laws give practitioners a principled, layer-aware recipe for choosing the minimum NS configuration that still orthonormalizes the directions that matter -- avoiding unnecessary computation without sacrificing update quality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="71f6567dee99" data-article-url="https://arxiv.org/abs/2606.04063" data-article-title="アーキテクチャと量子化の選択を組み合わせて最適化する LLM 圧縮" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04063" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04063" target="_blank" rel="noopener">アーキテクチャと量子化の選択を組み合わせて最適化する LLM 圧縮</a></h3>
      <p class="summary">大規模言語モデル (LLM) のデプロイは、大量のメモリと計算要件があるため、困難です。一部の方法では、小規模または極小の言語モデルを最初から開発することでこの問題に対処しますが、これらのアプローチでは広範な GPU トレーニングが必要です。エッジデバイス用に事前トレーニングされた LLM を圧縮することは、魅力的な代替手段を提供します。プルーニングと量子化を超えて、ニューラル アーキテクチャ検索 (NAS) は効果的な圧縮を可能にしますが、従来の NAS アプローチでは多くの場合、検索スペースが制限され、アーキテクチャが量子化から分離されていました。私たちは、空間全体を探索し、LLM の線形層の混合精度量子化と並行してアーキテクチャ構成を共同で最適化する微分可能な NAS フレームワークを導入します。実験では、精度とレイテンシの優れたトレードオフが実証されています。当社のモデルは、同等の精度で逐次 NAS を経て量子化するベースラインよりも最大 1.4 倍高速な推論、または同等のレイテンシで 7 つの推論タスク全体で最大 6% 高い平均精度を達成します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LLM Compression with Jointly Optimizing Architectural and Quantization choices</p>
        <p class="orig-summary">Deploying large language models (LLMs) is challenging due to their significant memory and computational requirements. While some methods address this by developing small or tiny language models from scratch, these approaches demand extensive GPU training. Compressing pre-trained LLMs for edge devices offers a compelling alternative. Beyond pruning and quantization, Neural Architecture Search (NAS) enables effective compression, yet prior NAS approaches often limit the search space and decouple architecture from quantization. We introduce a differentiable NAS framework that explores the entire space and jointly optimizes architectural configurations alongside mixed-precision quantization for linear layers of LLMs. Experiments demonstrate superior accuracy-latency trade-offs: our models achieve up to 1.4x faster inference than sequential NAS-then-quantization baselines at comparable accuracy, or up to 6% higher average accuracy across seven reasoning tasks at equivalent latency.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b8b9fc75ddf5" data-article-url="https://arxiv.org/abs/2606.04067" data-article-title="知っておくべきこと: プライバシーを意識した LLM 委任のためのコンテキスト整合性に基づいたクエリ書き換え" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04067" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04067" target="_blank" rel="noopener">知っておくべきこと: プライバシーを意識した LLM 委任のためのコンテキスト整合性に基づいたクエリ書き換え</a></h3>
      <p class="summary">LLM が日常のワークフローにますます組み込まれるようになるにつれて、クラウドでホストされる LLM に送信されるユーザー クエリでは、タスクに必須のコンテンツとタスクに必須ではない機密情報の開示が日常的に混在していますが、タイプベースの PII 秘匿化はコンテキストに依存せず、2 つの問題が生じる可能性があります。それは、型指定されていない機密コンテキストの開示の過剰と、回答を含むスパンの削除の過剰です。コンテキストの整合性の下で、プライバシーを保持するクエリの書き換えを再検討します。スパンは、タスクに必要な場合にのみ転送されるべきです。 DelegateCI-Bench は、プライバシーを意識した委任向けの初のタスクベースのコンテキスト整合性ベンチマークであり、11 のタスクと 20 のタスク タイプにわたる高品質の合成データ、WildChat ベースの実際のユーザー クエリ、および高密度の機密情報を含む医療課題セットを組み合わせた 3,167 個のサンプルで構成されています。このベンチマークに基づいて、必須および非必須の機密スパンを検証可能な最適化信号に変換する CI ガイド付き強化学習フレームワークを提案し、不必要な機密情報の開示を抑制しながらタスクの重要な情報を保持するようにクエリ リライターをトレーニングします。実験の結果、私たちの学習済みリライターはプライバシーとユーティリティの最適なトレードオフを達成し、デバイス上のベースラインに対して最大 +10.1 の平均ユーティリティを達成することがわかりました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Need to Know: Contextual-Integrity-Grounded Query Rewriting for Privacy-Conscious LLM Delegation</p>
        <p class="orig-summary">As LLMs become increasingly woven into everyday workflows, user queries sent to cloud hosted LLMs routinely mix task-essential content with task non-essential sensitive disclosures, yet type based PII redaction is context agnostic and may raise two issues: over disclosing untyped sensitive context and over removing answer bearing spans. We recast privacy preserving query rewriting under Contextual Integrity: a span should be forwarded only if it is necessary for the task. We introduce DelegateCI-Bench, the first task based Contextual Integrity benchmark for privacy-conscious delegation, comprising 3,167 samples that combine high quality synthetic data spanning 11 tasks and 20 task types, WildChat based real user queries, and a medical challenge set with dense sensitive information. Building on this benchmark, we propose a CI-guided reinforcement learning framework that converts essential and non-essential sensitive spans into verifiable optimization signals, and train a query rewriter to preserve task critical information while suppressing unnecessary sensitive disclosure. Experiments show that our learned rewriter achieves the best privacy-utility tradeoff, achieving up to +10.1 average utility over on-device baselines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a21e3e957c28" data-article-url="https://arxiv.org/abs/2606.04073" data-article-title="TPA-AD: ベアリング時系列異常検出のための 2 段階の擬似異常ガイド方式" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04073" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04073" target="_blank" rel="noopener">TPA-AD: ベアリング時系列異常検出のための 2 段階の擬似異常ガイド方式</a></h3>
      <p class="summary">本稿では、正常なサンプルのみが利用可能な設定の下での車軸軸受時系列異常検出（時系列異常検出、TSAD）のための二段階の擬似異常ガイド型異常検出手法（\textbf{T}wo-stage \textbf{P}seudo \textbf{A}nomaly-guided \textbf{A}nomaly \textbf{D}etection, \textbf{TPA-AD}）を提案する。トレーニング。この方法では、まず、再構成モデ​​ルと特徴ごとのターゲット誤差制御を使用して、正常境界付近に疑似異常ウィンドウを生成します。次に、通常ウィンドウと擬似異常ウィンドウ間の対比学習を通じて異常に敏感な表現を学習し、最後に k 近傍 (KNN) を使用してウィンドウ レベルとポイント レベルの異常スコアを生成します。既知の故障カテゴリ、実際の異常事前確率、またはランダムな異常注入に依存する既存の方法と比較して、TPA-AD は境界近傍に擬似異常を構築することで正常境界の分離可能性を向上させ、混合変数シナリオで連続特徴と離散特徴を共同で処理できます。主な実験はベアリングの故障検出データセットと劣化プロセス データセットで行われ、さらに $13$ の公開 TSAD データセットで探索的な拡張が行われます。結果は、提案された手法が比較的安定した異常応答を生成し、劣化の進行に敏感であり、公開 TSAD ベンチマークおよび実際の高速列車関連の方位データにある程度の広範な適用可能性を実証していることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TPA-AD: A Two-Stage Pseudo Anomaly-Guided Method for Bearing Time-Series Anomaly Detection</p>
        <p class="orig-summary">This paper proposes a two-stage pseudo anomaly-guided anomaly detection method (\textbf{T}wo-stage \textbf{P}seudo \textbf{A}nomaly-guided \textbf{A}nomaly \textbf{D}etection, \textbf{TPA-AD}) for axle-box bearing time-series anomaly detection (time series anomaly detection, TSAD) under the setting where only normal samples are available for training. The method first generates pseudo-anomalous windows near the normal boundary using a reconstruction model and per-feature target-error control. It then learns anomaly-sensitive representations through contrastive learning between normal and pseudo-anomalous windows, and finally produces window-level and point-level anomaly scores using k-nearest neighbors (KNN). Compared with existing methods that rely on known fault categories, real anomaly priors, or random anomaly injection, TPA-AD improves the separability of the normal boundary by constructing pseudo-anomalies in boundary neighborhoods and can jointly handle continuous and discrete features in mixed-variable scenarios. The main experiments are conducted on bearing fault detection datasets and degradation-process datasets, with an additional exploratory extension on $13$ public TSAD datasets. The results show that the proposed method yields relatively stable anomaly responses, is sensitive to degradation evolution, and demonstrates a certain degree of broader applicability on public TSAD benchmarks and real high-speed-train-related bearing data.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="84709127e52e" data-article-url="https://arxiv.org/abs/2606.04074" data-article-title="適応パッチ適用は時系列予測よりも難しい" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04074" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04074" target="_blank" rel="noopener">適応パッチ適用は時系列予測よりも難しい</a></h3>
      <p class="summary">アダプティブ パッチは、時系列トランスフォーマーに対する最近の説得力のある提案です。シーケンスが局所的に情報を提供すると思われる場所に、より細かいパッチを割り当てます。この文書では、どのような条件下でコンテンツ適応型パッチ適用オペレータが調整された均一パッチ適用オペレータよりも優れたパフォーマンスを発揮する必要があるかを検討します。局所的な異質性だけでは十分ではありません。点単位の損失予測では、複雑に見える領域が自動的に、より細かいパッチによって損失が軽減される領域になるわけではありません。予算に基づいたビットレート割り当てとしてパッチをモデル化し、よく調整された均一ベースラインを超えるために動的パッチ ルールが満たさなければならない明示的なしきい値を導出し、ローカル (二次代数) とグローバル (モデルの仮定に基づく強い凸性境界) の両方で達成可能な改善を制限します。 2 つの構造的な結果が続きます。結合制約がなければ、スカラーの局所的な複雑さは、共通の損失状況の下で不均一な最適値を生成できません。バックボーンがその表現を意識した最適値にトレーニングされると、アライメント ゲインは適切に調整された均一なパッ​​チ サイズ付近で崩壊します。これらの予測をテストするために、バックボーン、データ、トレーニング プロトコルを固定したまま、各適応メカニズムを均一なパッ​​チサイズのスイープに置き換えて、3 つの代表的なアーキテクチャに対して制御された分離スタディを実行します。標準的な長期予測ベンチマークでは、検証で選択された均一なベースラインは、動的ベースラインと競合しており、設定ごとの効果はゼロ近くに集中しており、結果がデータセットごとに集計されると一貫した方向性の利点はありません。私たちが観察している大きな利益は、メソッドとデータセットに固有のものです。したがって、適応型パッチ適用は、調整された均一なベースラインに対して評価する必要があります。その値は、安価で信頼性の高いルーティング信号が、より細かいパッチが実際に予測損失を削減する場所を特定できるかどうかによって決まります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Adaptive Patching Is Harder Than It Looks For Time-Series Forecasting</p>
        <p class="orig-summary">Adaptive patching is a recent and compelling proposal for time-series Transformers: allocate finer patches where the sequence looks locally informative. This paper asks under what conditions a content-adaptive patching operator should outperform a tuned uniform one. Local heterogeneity alone is not enough: under pointwise forecasting losses, a complex-looking region is not automatically one where finer patching reduces the loss. We model patching as a budgeted bitrate allocation and derive an explicit threshold that a dynamic patching rule must satisfy to beat a well-tuned uniform baseline, then bound the achievable improvement both locally (a quadratic surrogate) and globally (a strong-convexity bound under the model&#x27;s assumptions). Two structural results follow: without a coupling constraint, scalar local complexity cannot produce a non-uniform optimum under a common loss landscape; and once the backbone is trained to its representation-aware optimum, the alignment gain collapses around a well-tuned uniform patch size. To test these predictions, we run a controlled isolation study on three representative architectures, replacing each adaptive mechanism with a uniform patch-size sweep while keeping the backbone, data, and training protocol fixed. On standard long-horizon forecasting benchmarks, the validation-selected uniform baseline is competitive with the dynamic counterpart, with per-setting effects concentrated near zero and no consistent directional advantage once results are aggregated by dataset. The larger gains we do observe are method- and dataset-specific. Adaptive patching should therefore be evaluated against a tuned uniform baseline; its value depends on whether a cheap and reliable routing signal can identify where finer patches actually reduce forecasting loss.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0146478be4e0" data-article-url="https://arxiv.org/abs/2606.04075" data-article-title="大規模な言語モデルが報酬と社会をハックする" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04075" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04075" target="_blank" rel="noopener">大規模な言語モデルが報酬と社会をハックする</a></h3>
      <p class="summary">強化学習 (RL) はトレーニング後のパラダイムの主流となっており、大規模言語モデル (LLM) が報酬から学習できるようになります。私たちは、社会規制が報酬関数と構造的に似ていることを観察しています。それらは測定可能な結果、しきい値、例外を定義しますが、多くの場合、制度上の意図は部分的にしか指定されません。私たちは、RL トレーニング プロセスがこれらのギャップを悪用する可能性があると仮説を立て、RL 中に報酬関数をハッキングするというモデルのよく知られた傾向が、社会ハッキングと呼ばれるより重大な失敗モード、つまり社会が運営されているルールの抜け穴を発見するモードにスケールアップできるかどうかを尋ねます。この現象を研究するために、72 の社会環境のサンドボックスである SocioHack を導入しました。その結果、これらの環境内で報酬ハッキングが自然に発生し、規制の抜け穴の発見につながることがわかりました。モデルは社会ルールをハッキングし、規制の意図を打ち破りながら技術的に準拠した戦略を生成する方法を学習します。現在の LLM セーフガードは限定的な緩和策しか提供しません。したがって、モデルのトレーニングのために実際のフィードバックを収集することには細心の注意が必要であり、実社会で LLM を安全に反復するための次世代のポストトレーニング パラダイムが必要です。=</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Large Language Models Hack Rewards, and Society</p>
        <p class="orig-summary">Reinforcement learning (RL) has become a dominant post-training paradigm, enabling large language models (LLMs) to learn from rewards. We observe that societal regulations are structurally similar to reward functions. They define measurable outcomes, thresholds, and exceptions, while often leaving institutional intent only partially specified. We hypothesise that the RL training process may exploit these gaps and therefore ask whether models&#x27; well-known tendency to hack reward functions during RL can scale into a more consequential failure mode named societal hacking: discovering loopholes in the rules society runs on. To study this phenomenon, we introduce SocioHack, a sandbox of 72 societal environments, and find that within these environments, reward hacking naturally emerges and leads to regulatory loophole discovery. Models learn to hack the social rules and generate strategies that remain technically compliant while defeating regulatory intent, and current LLM safeguards provide only limited mitigation. Therefore, collecting in-the-wild feedback for model training requires greater caution, and we need a next-generation post-training paradigm for safely iterating LLMs in real society.=</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e8db32c04d26" data-article-url="https://arxiv.org/abs/2606.04095" data-article-title="POLARIS: 小さなモデルが長い物語を書けるように導く" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04095" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04095" target="_blank" rel="noopener">POLARIS: 小さなモデルが長い物語を書けるように導く</a></h3>
      <p class="summary">小規模なオープンウェイト モデルは、長編のクリエイティブ ライティングに苦労します。特にフロンティア モデルと比較した場合、生成されるストーリーが要求された長さに大幅に満たないか、長さが増加するにつれて品質が大幅に低下します。我々は、2 つの重要な要素を備えた低コンピューティングの GRPO レシピである POLARIS (審査員としての LLM 報酬とストーリーライティングのためのアンカー参照注入によるポリシーの最適化) を紹介します。1 つはオンライン報酬として構造化されたストーリー品質ルーブリックを持つフロンティア LLM 審査員、もう 1 つは教師が強制的に人間が書いたストーリーが各 GRPO グループ内で高報酬のアンカーとして機能する人間参照注入 (HRI) です。 100 の短編小説アンソロジーと 4 つの A100 GPU から派生した約 1.4K のプロンプト ストーリー ペアのデータセットを使用して、トレーニング レシピを Qwen3.5-9B に適用することにより、POLARIS-9B が得られます。配布内および配布外のプロンプトとルーブリックにわたる 5 つのベンチマークにわたって、POLARIS-9B は、長さの指示により厳密に従いながら、はるかに大きなオープンウェイト モデルと競合します。人間による盲検評価により、POLARIS-9B がベースの Qwen3.5-9B よりも好まれ、Qwen3.5-27B と同等であることが確認されました。 POLARIS-9B は、最大 4k ワードまでのストーリーのみをトレーニングしているにもかかわらず、トレーニング長の最大 3 倍のストーリーを要求するプロンプトの品質を維持します。これは、ほとんどのオープンウェイト モデルが品質、長さの遵守、またはその両方において大幅に低下する状況です。より広範に、私たちの結果は、長さの一般化がクリエイティブライティングモデルにとって意味のあるストレステストであり、他の点では近いモデルを区別するための有用なレンズであることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">POLARIS: Guiding Small Models to Write Long Stories</p>
        <p class="orig-summary">Small open-weight models struggle at long-form creative writing: their generated stories either fall far short of the requested length, or their quality significantly degrades as length increases, especially when compared to frontier models. We present POLARIS (Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting), a lower-compute GRPO recipe with two key ingredients: a frontier LLM judge with a structured Story Quality rubric as the online reward, and human-reference injection (HRI), where a teacher-forced human-written story serves as a high-reward anchor within each GRPO group. By applying our training recipe to Qwen3.5-9B, using a dataset of approximately 1.4K prompt-story pairs derived from 100 short-story anthologies and 4 A100 GPUs, we obtain POLARIS-9B. Across five benchmarks spanning in-distribution and out-of-distribution prompts and rubrics, POLARIS-9B is competitive with much larger open-weight models while following length instructions more closely. A blinded human evaluation confirms that POLARIS-9B is preferred to the base Qwen3.5-9B and on par with Qwen3.5-27B. Despite training only on stories up to 4k words, POLARIS-9B preserves quality on prompts requesting stories up to 3 times the training length, a regime where most open-weight models degrade substantially in quality, length adherence, or both. More broadly, our results suggest that length generalization is a meaningful stress test for creative-writing models and a useful lens for distinguishing otherwise close models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="645b92f74a13" data-article-url="https://arxiv.org/abs/2606.04103" data-article-title="微分可能聴覚ループ (DAL): ハイパーパーソナライズされた補聴器のための ML フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04103" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04103" target="_blank" rel="noopener">微分可能聴覚ループ (DAL): ハイパーパーソナライズされた補聴器のための ML フレームワーク</a></h3>
      <p class="summary">従来の補聴器は、感度の低下を管理するために周波数に依存する固定の増幅と圧縮に依存しており、複数の話者がいる状況（「カクテルパーティー」問題）など、複雑な環境では十分な聴取サポートを提供できないことがよくあります。難聴の根本的な符号化機能障害により包括的に対処するために、パーソナライズされた補聴器の設計とフィッティングのための新しいオープンソース フレームワークである Differentiable Auditory Loop (DAL) を導入します。 DAL の最初の実装には、人間の蝸牛機能の微分可能なモデルである CARFAC が組み込まれており、これを JAX に移植して、障害のある聴覚神経活動パターンを正常な聴覚基準と一致させるためにディープ ニューラル ネットワークを最適化します。必要とされるきめ細かい分光時間信号処理を備えた補聴器を構築するために、波形間の完全畳み込み UNet ジェネレーターである SEANet を採用しています。正常な聴覚に適合した CARFAC モデルの出力と、各被験者の個々の聴覚障害に適合する CARFAC モデルの出力を比較することで、ネットワークを微調整します。比較は、それぞれの CARFAC 神経活動パターン (NAP) 出力と安定化聴覚画像 (SAI) から導出された損失関数を使用して行われ、後者は聴覚神経出力における位相非感受性の時間構造を捕捉する 2D 表現を提供します。 SEANet モデルは、勾配降下法を通じて、入力のノイズを除去することと、障害のある CARFAC モデルによってモデル化された難聴を補償することの両方を学習します。神経表現と信号忠実度の測定基準全体で、DAL に最適化された SEANet モデルは、テストされたマスター補聴器 (MHA) のベースラインを上回りました。 DAL フレームワークは、モデルベースの機械学習駆動の補聴器信号処理のパーソナライゼーションへの実用的な道を提供します。次のステップには、実際の臨床試験を可能にするハードウェアの導入が含まれます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Differentiable Auditory Loop (DAL): An ML Framework for Hyper-Personalized Hearing Aids</p>
        <p class="orig-summary">Conventional hearing aids rely on fixed, frequency-dependent amplification and compression to manage reduced sensitivity, which often fails to provide sufficient listening support in complex environments, such as situations with multiple speakers (the ``cocktail party&#x27;&#x27; problem). To more comprehensively address the underlying encoding dysfunctions of hearing loss, we introduce the Differentiable Auditory Loop (DAL), a new open-source framework for personalized hearing aid design and fitting. Our first implementation of DAL incorporates CARFAC, a differentiable model of human cochlear function, which we ported to JAX, to optimize a deep neural network to match impaired auditory neural activity patterns with a normal-hearing reference. To build a hearing aid with the fine-grained spectro-temporal signal processing required, we adopt SEANet, a waveform-to-waveform fully convolutional UNet generator. We fine-tune the network by comparing the outputs of a CARFAC model fitted to normal hearing with that of a CARFAC model fitted to match each subject&#x27;s individual hearing impairment. The comparison is done using loss functions derived from the respective CARFAC neural activity pattern (NAP) outputs and stabilized auditory images (SAIs), the latter providing a 2D representation that captures phase-insensitive temporal structure in the auditory nerve output. Through gradient descent, the SEANet model learns to both denoise the input and compensate for the hearing loss modelled by the impaired CARFAC model. Across neural-representation and signal-fidelity metrics, the DAL-optimized SEANet model outperformed the tested master hearing aid (MHA) baselines. The DAL framework provides a practical path toward model-based, machine-learning-driven personalization of hearing aid signal processing. Next steps include hardware deployment to enable real-world clinical testing.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="85c83c92fea8" data-article-url="https://arxiv.org/abs/2606.04104" data-article-title="証拠を運ぶエージェント アクション: 異種エージェント システムに対するモデルに依存しないランタイム ガバナンス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04104" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04104" target="_blank" rel="noopener">証拠を運ぶエージェント アクション: 異種エージェント システムに対するモデルに依存しないランタイム ガバナンス</a></h3>
      <p class="summary">エージェント システムは、ローカル コーディング ツール、フレームワーク SDK、マネージド エージェント プラットフォーム、API ゲートウェイ、オブザーバーのみの統合など、非常に異なる制御ポイントを備えたランタイムを通じて実行されます。したがって、データを外部に公開するなどの高リスクのアクションは、あるランタイムではシェル コマンドとして、別のランタイムではツール呼び出しとして、そして 3 番目のランタイムではホストされたセッションの移行として現れる可能性があります。このため、ガバナンスの基本的な質問に一貫して答えることが困難になります。つまり、どのようなアクションが、誰の権限の下で、どのような承認セマンティクスに基づいて、実行後にどのような証拠によって承認されたのかということです。このペーパーでは、ベンダー ネイティブのセッション レコードではなくアクション証明書を中心としたランタイム中立のガバナンス モデルである Proof-Carrying Agent Actions (PCAA) について説明します。 PCAA は、アクション前の許容性、アクションのオープン、仮定のキャプチャ、承認、結果のクローズという 5 つのチェックポイントを中心にコントロールを組織します。これらのチェックポイントは、ポータブルなアクション エンベロープ、実行時および承認のレシート、および再生可能なプルーフにバインドされます。このモデルは 2 つの実用的な方法で拡張されています。証明書は外部性を認識しており、宛先の可視性やアカウントの来歴などの境界事実を伝えます。もう 1 つは、承認は、単一のレビュー済みまたは未レビューのビットではなく、明示的な強制力クラスによって記述されます。私たちは、異種エージェント コントロール プレーンでの参照実装と開示制限のある評価プロトコルを通じてモデルを研究します。 4 つのランタイム ファミリにわたる 24 個の実行可能シードから 96 個のトレースに拡張された保護されたベンチマークでは、PCAA はルートの品質を維持しながら、アブレーション下で個別の障害モードを明らかにします。この論文は、証明書を保持するアクションに関するランタイム ガバナンスのシステム定式化と、その定式化がベンダー固有のコントロール サーフェスに崩壊することなくランタイム チャーンの下で移植性を維持できる方法についての実装に基づいた説明に貢献します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Proof-Carrying Agent Actions: Model-Agnostic Runtime Governance for Heterogeneous Agent Systems</p>
        <p class="orig-summary">Agent systems execute through runtimes with very different control points: local coding tools, framework SDKs, managed agent platforms, API gateways, and observer-only integrations. A high-risk action such as publishing data externally may therefore appear as a shell command in one runtime, a tool call in another, and a hosted session transition in a third. This makes it difficult to answer a basic governance question consistently: what action was authorized, under whose authority, with what approval semantics, and with what evidence after execution? This paper presents Proof-Carrying Agent Actions (PCAA), a runtime-neutral governance model centered on an action certificate rather than on a vendor-native session record. PCAA organizes control around five checkpoints: pre-action admissibility, action open, assumption capture, approval, and outcome closure. It binds these checkpoints to a portable action envelope, runtime and approval receipts, and replay-ready proof. The model is extended in two practical ways: the certificate is externality-aware, carrying boundary facts such as destination visibility and account provenance, and approval is described by explicit enforceability classes rather than by a single reviewed or unreviewed bit. We study the model through a reference implementation in a heterogeneous agent control plane and a disclosure-bounded evaluation protocol. On a protected benchmark expanded from 24 executable seeds to 96 traces across four runtime families, PCAA preserves route quality while exposing distinct failure modes under ablation. The paper contributes a systems formulation of runtime governance around certificate-bearing actions and an implementation-grounded account of how that formulation can remain portable under runtime churn without collapsing into vendor-specific control surfaces.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c7c0ecaedd6" data-article-url="https://arxiv.org/abs/2606.04106" data-article-title="マシンインテリジェンスの Ph(ysical)AI 層の構築" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04106" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04106" target="_blank" rel="noopener">マシンインテリジェンスの Ph(ysical)AI 層の構築</a></h3>
      <p class="summary">基礎モデルは、多様なデータに対する大規模なトレーニングを通じて一般化を実現しますが、ペアになったトレーニング データなしで真に目に見えないドメインへの転送には制限があります。私たちは、束縛されていない統計的相関を学習するのではなく、信号理論の原理 (フーリエ分解、エネルギー保存、対称性) をエンコードする原理駆動型の基礎モデルを提案します。私たちは、ドメインの違いは基礎物理学ではなく、時間、周波数、大きさ、または位相における学習可能な変換にあると仮説を立てます。これらの原則を組み込んだ、共同設計されたアーキテクチャと損失を備えた無線周波数 (RF) データのみをトレーニングすることで、RF データから学習したフリーズ表現のみを使用してオーディオ、画像、テキスト、ビデオへのクロスモーダル転送を実現し、ターゲット ドメインでのエンコーダーの微調整を必要としません。当社の 199 万パラメータのフローズン エンコーダは、リニア プロービングによる 15 の多様なタスクにわたって平均精度 77.7% (トップ 3 の 91.9%) を達成します。系統的な変動はあります。物理的に接地されたタスク (話者認識、地震学、RF フィンガープリンティング) では 84.5 %、セマンティック タスク (音楽ジャンル、言語認識) では 70.0% です。これは、原則主導型アプローチとスケール主導型アプローチが補完的な道を提供することを明らかにしています。物理原則は効率的なクロスモーダル転送を可能にし、同時に物理的理解と意味論的理解の間の境界を自然に確立します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Building The Ph(ysical)AI Layer Of Machine Intelligence</p>
        <p class="orig-summary">Foundation models achieve generalization through massive-scale training on diverse data, but have limitations with transfer to truly unseen domains without paired training data. We propose principle-driven foundation models that encode signal-theoretic principles (Fourier decomposition, energy conservation, symmetry) rather than learn untethered statistical correlations. We hypothesize that domains differ not in fundamental physics, but in learnable transformations in time, frequency, magnitude, or phase. Training exclusively on radio-frequency (RF) data with co-designed architecture and losses incorporating these principles, we achieve cross-modal transfer to audio, images, text, and video using only frozen representations learned from RF data, requiring no fine-tuning of the encoder on target domains. Our 1.99M parameter frozen encoder achieves 77.7% average accuracy (91.9% top-3) across 15 diverse tasks via linear probing, with systematic variation: 84.5 on physically-grounded tasks (speaker recognition, seismology, RF fingerprinting) versus 70.0% on semantic tasks (music genre, language recognition). This reveals that principle-driven and scale-driven approaches offer complementary paths: physical principles enable efficient cross-modal transfer while naturally establishing the boundary between physical and semantic understanding.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d646bc679a6f" data-article-url="https://arxiv.org/abs/2606.04108" data-article-title="SymTRELLIS: 3D 生成のための対称性強化ボクセル潜在" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04108" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04108" target="_blank" rel="noopener">SymTRELLIS: 3D 生成のための対称性強化ボクセル潜在</a></h3>
      <p class="summary">シングルビュー 3D 生成モデルは、優れた視覚的品質を実現していますが、構造的または機能的要件を満たすように設計されておらず、実際には不十分なことがよくあります。対称性もそのような要件の 1 つです。対称性に違反すると、たとえそれが微妙な場合でも、モデルが物理的に使用できなくなる可能性があります。 SymTRELLIS は、基礎となる VAE やフロー モデルを再トレーニングすることなく、TRELLIS.2 のフローベース 3D 生成中に任意の有限点群対称 (回転、鏡映、多面体) を強制する手法です。私たちの重要なアイデアは、一般的な非対称 3D データでトレーニングされた軽量の空間変換潜在マッパーとして実装された、ボクセル潜在に対する学習済み線形演算子として空間変換の潜在空間アクションを近似することです。生成時に、各 ODE ステップですべての対称に相当する変換にわたって予測流速を平均することによって対称性を強制します。このプロセスを速度対称化と呼びます。対称仕様は、初期の TRELLIS.2 生成から自動的に推定することも、ユーザーが指定することもでき、入力画像が示唆するものを超えた意図的な折り操作が可能になります。 2 ～ 20 回の回転と多面体対称グループにわたる 266 個の厳密に対称なオブジェクトの厳選されたベンチマークでは、SymTRELLIS は、ベース モデルと同等の再構築精度を維持しながら、TRELLIS.2、Hunyuan3D-2.1、および TripoSG と比較してすべての対称誤差メトリクスを大幅に削減します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SymTRELLIS: Symmetry-Enforced Voxel Latents for 3D Generation</p>
        <p class="orig-summary">Single-view 3D generative models have achieved impressive visual quality, yet they are not designed to satisfy structural or functional requirements, and in practice, often fall short. Symmetry is one such requirement: violations, even subtle ones, on symmetry can render a model physically unusable. We present SymTRELLIS, a method that enforces arbitrary finite point group symmetries (rotational, reflectional, and polyhedral) during the flow-based 3D generation of TRELLIS.2, without retraining the underlying VAE or flow model. Our key idea is to approximate the latent-space action of spatial transformations as a learned linear operator on voxel latents, implemented as a lightweight spatial-transform latent mapper trained on generic, non-symmetric 3D data. At generation time, we enforce symmetry by averaging predicted flow velocities across all symmetry-equivalent transformations at each ODE step, a process we call velocity symmetrization. The symmetry specification can be estimated automatically from an initial TRELLIS.2 generation or supplied by the user, enabling deliberate fold manipulation beyond what the input image suggests. On a curated benchmark of 266 strictly symmetric objects spanning 2- to 20-fold rotations and polyhedral symmetry groups, SymTRELLIS substantially reduces all symmetry error metrics compared to TRELLIS.2, Hunyuan3D-2.1, and TripoSG, while maintaining reconstruction accuracy comparable to the base model.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="528ded50b4bc" data-article-url="https://arxiv.org/abs/2606.04111" data-article-title="AgenticDiffusion: ビジョンベースの UAV ナビゲーションのための Agentic Diffusion ベースの経路計画" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04111" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04111" target="_blank" rel="noopener">AgenticDiffusion: ビジョンベースの UAV ナビゲーションのための Agentic Diffusion ベースの経路計画</a></h3>
      <p class="summary">屋内 UAV ナビゲーションには、限られた視野の観察下での効率的な探索、シーンの理解、信頼性の高い軌道の実行が必要です。既存のビジョンベースのナビゲーション フレームワークは通常、単一ビューの観察に依存しており、オクルージョン、ターゲットの可視性、およびグローバル シーン構造について推論する能力が制限されています。この研究では、統合された航空ナビゲーション パイプライン内で、言語に基づく推論、オープン語彙によるターゲットのグラウンディング、視覚ベースの拡散計画、および NMPC を調整するマルチビュー UAV ナビゲーション フレームワークである AgenticDiffusion を提案します。自然言語による指示と、同期した一人称視点 (FPV) および上面視点の観察を考慮して、フレームワークはナビゲーションに最も有益な視点を決定し、軌道の実行前にミッション計画を生成します。ターゲットは、オープンボキャブラリーグラウンディングモデルを使用して位置特定され、その後、視点固有の拡散プランナーが UAV 実行のためのナビゲーション軌道を生成します。提案されたフレームワークは、補完的な視点を使用して、繰り返しのターゲット探査を削減し、雑然とした屋内環境でのナビゲーション効率を向上させます。このフレームワークは、適応視点選択、多段階ミッション実行、長距離ナビゲーション、安全な着陸地点選択を含む 4 つの現実世界の UAV ナビゲーション シナリオで検証されました。実験結果では、40 回の実世界試験でミッション全体の成功率が 80% であることが実証され、一方、拡散計画者は軌道生成の成功率が 100% に達しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AgenticDiffusion: Agentic Diffusion-based Path Planning for Vision-Based UAV Navigation</p>
        <p class="orig-summary">Indoor UAV navigation requires efficient exploration, scene understanding, and reliable trajectory execution under limited field-of-view observations. Existing vision-based navigation frameworks typically rely on single-view observations, limiting their ability to reason about occlusions, target visibility, and global scene structure. In this work, we propose AgenticDiffusion, a multi-view UAV navigation framework that coordinates language-guided reasoning, open-vocabulary target grounding, vision-based diffusion planning, and NMPC within a unified aerial navigation pipeline. Given a natural language instruction and synchronized first-person-view (FPV) and top-view observations, the framework determines the most informative viewpoint for navigation and generates a mission plan prior to trajectory execution. The targets are localized using an open-vocabulary grounding model, after which viewpoint-specific diffusion planners generate navigation trajectories for UAV execution. Using complementary viewpoints, the proposed framework reduces repeated target exploration and improves navigation efficiency in cluttered indoor environments. The framework was validated in four real-world UAV navigation scenarios involving adaptive viewpoint selection, multi-stage mission execution, long-horizon navigation, and safe landing-site selection. The experimental results demonstrated an overall mission success rate of 80% in 40 real-world trials, while the diffusion planners achieved a trajectory generation success rate of 100%.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="17c811b4949a" data-article-url="https://arxiv.org/abs/2606.04115" data-article-title="dMX: 低精度浮動小数点フォーマットの微分可能な混合精度代入" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04115" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04115" target="_blank" rel="noopener">dMX: 低精度浮動小数点フォーマットの微分可能な混合精度代入</a></h3>
      <p class="summary">大規模言語モデル (LLM) を低精度の浮動小数点表現に量子化することは、効率的な展開の中心となりますが、単一のビット幅をすべてのレイヤーに均一に適用することは、パフォーマンスと精度の両方の点で最適とは言えません。この研究では、学習可能な浮動小数点ビット幅割り当てのための微分可能な混合精度量子化フレームワークである dMX を紹介します。私たちは、オープン コンピューティング プロジェクト (OCP) 標準によって定義されたデータ型のマイクロスケーリング浮動小数点 (MXFP) ファミリへの応用を研究します。レイヤごとのビット幅の割り当ては、各レイヤの浮動小数点形式がスカラー パラメータによってパラメータ化され、多変量設計空間を単一の学習可能なオフセットに折りたたむ連続最適化問題として定式化されます。トレーニング中、このオフセットは連続値をとり、離散量子化形式間の突然の振動を回避します。温度ベースのアニーリング スケジュールにより、学習されたオフセットが段階的に離散化され、トレーニング動作と推論動作の間で突然移行することなく、最終的な構成がハードウェア互換の MXFP 形式にマッピングされることが保証されます。ターゲットを意識した正則化用語は、平均ビット幅をユーザー指定の予算に向けて導き、推論コストの大まかな代理として機能し、モデルの品質と展開効率のバランスをとります。私たちは Llama、Qwen3、SmolLM2 などのさまざまな LLM ファミリで実験を実行し、WikiText-2 での複雑性と 4 つのゼロショット推論ベンチマークでの精度を評価しました。これらの設定全体にわたって、dMX は一貫してパレート支配モデルを生成し、カルバック ライブラー (KL) 発散ベースのレイヤー選択ヒューリスティックを改善し、モデルの品質と平均ビット幅の間のトレードオフを効率的にナビゲートします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">dMX: Differentiable Mixed-Precision Assignment for Low-Precision Floating-Point Formats</p>
        <p class="orig-summary">Quantizing large language models (LLMs) to low-precision floating-point representations is central to efficient deployment, yet applying a single bit-width uniformly across all layers is sub-optimal in terms of both performance and accuracy. This work introduces dMX, a differentiable mixed-precision quantization framework for learnable floating-point bit-width assignment. We study its application for the microscaling floating-point (MXFP) family of data types defined by the Open Compute Project (OCP) standard. The per-layer bit-width assignment is formulated as a continuous optimization problem in which each layer&#x27;s floating-point format format is parameterized by a scalar parameter, folding the multi-variate design space into a single learnable offset. During training this offset takes continuous values, avoiding sudden oscillations between discrete quantization formats. A temperature-based annealing schedule progressively discretizes the learned offsets, ensuring that the final configuration maps to hardware-compatible MXFP formats without abrupt transitions between training and inference behavior. A target-aware regularization term steers the average bit-width toward a user-specified budget, serving as a coarse-grained proxy for inference cost and balancing model quality against deployment efficiency. We performed experiments on different families of LLM, such as Llama, Qwen3, and SmolLM2, evaluating perplexity on WikiText-2 and accuracy on four zero-shot reasoning benchmarks. Across these settings, dMX consistently yields Pareto-dominating models and improves over Kullback-Leibler (KL) divergence-based layer-selection heuristics, efficiently navigating trade-offs between model quality and average bit-width.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4d7525f479e2" data-article-url="https://arxiv.org/abs/2606.04120" data-article-title="SaliMory: 会話エージェントの認知記憶を調整する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04120" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04120" target="_blank" rel="noopener">SaliMory: 会話エージェントの認知記憶を調整する</a></h3>
      <p class="summary">生涯の伴侶として機能する会話エージェントは、すべての対話にわたって永続的な記憶を維持する必要があります。ただし、生の取得でコンテキスト ウィンドウを単純に拡張すると推論の品質が低下し、標準の強化学習による記憶エージェントのトレーニングでは、多段階パイプラインで深刻なクレジット割り当てのボトルネックが発生します。これを解決するために、単一言語モデルをトレーニングして、ユーザーの事実、好み、作業記憶にまたがる認知的に構造化された記憶を管理するフレームワークである SALIMORY を紹介します。 SALIMORY は、階層的な段階ごとのプロセス報酬と報酬分解された対照的洗練を導入することにより、個別の記憶操作 (選択的フィルタリング、統合、およびキュー主導のリコール) をエンドツーエンドで個別に監視します。 SALIMORY はメモリに起因する障害を 3 分の 1 に削減し、エンドツーエンドの精度で最先端のものを 10% 以上上回り、Good Personalization 率を 2 倍以上に高めます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SaliMory: Orchestrating Cognitive Memory for Conversational Agents</p>
        <p class="orig-summary">Conversational agents that serve as lifelong companions must maintain persistent memory across all interactions. However, simply expanding context windows with raw retrieval degrades reasoning quality, while training memory agents via standard reinforcement learning creates a severe credit assignment bottleneck in a multi-stage pipeline. To solve this, we introduce SALIMORY, a framework that trains a single language model to manage a cognitively-structured memory-spanning user facts, preferences, and working memory. By introducing a hierarchical stage-wise process reward and reward-decomposed contrastive refinement, SALIMORY provides isolated supervision for distinct memory operations (selective filtering, consolidation, and cue-driven recall) end-to-end. SALIMORY cuts memory-attributed failures by one-third, outperforms the state-of-the-art by over 10% in end-to-end accuracy, and more than doubles the Good Personalization rate.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c8e9733af44d" data-article-url="https://arxiv.org/abs/2606.04123" data-article-title="大規模言語モデルによる適応軌道最適化のためのセマンティック制約合成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04123" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04123" target="_blank" rel="noopener">大規模言語モデルによる適応軌道最適化のためのセマンティック制約合成</a></h3>
      <p class="summary">軌道の最適化は、宇宙探査において安全で信頼性の高い自律運用を可能にするための重要なコンポーネントです。宇宙ミッションの頻度、複雑さ、範囲が増加するにつれて、ミッションの目的と運用上の制約を正確に反映する、数学的に適切な軌道最適化問題を迅速に定式化する必要性が高まっています。ただし、ミッションの意図を軌道最適化のための扱いやすい分析公式に変換するには、かなりの専門知識が必要です。この論文では、大規模言語モデル (LLM) を活用して、ミッションの要件と制約の自然言語記述を実行可能な軌道最適化コードと対応する数学的定式化に変換するフレームワークを紹介します。宇宙船ランデブーシナリオでの実験では、意味論的なミッション要件から凸軌道最適化問題を再調整する際の高い成功率が実証されています。最終的に、この研究は、高レベルの意図と形式的な最適化モデルを橋渡しする LLM の可能性を強調し、宇宙船のより柔軟で効率的な軌道設計を可能にします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Semantic Constraint Synthesis for Adaptive Trajectory Optimization via Large Language Models</p>
        <p class="orig-summary">Trajectory optimization is a critical component for enabling safe and reliable autonomous operations in space exploration. As space missions increase in frequency, complexity, and scope, there is a growing need to rapidly formulate mathematically sound trajectory optimization problems that accurately reflect mission objectives and operational constraints. However, translating mission intent into tractable analytical formulations for trajectory optimization requires substantial domain expertise. This paper presents a framework that leverages large language models (LLMs) to translate natural language descriptions of mission requirements and constraints into executable trajectory optimization code and corresponding mathematical formulations. Experiments in spacecraft rendezvous scenarios demonstrate a high success rate in reconditioning a convex trajectory optimization problem from semantic mission requirements. Ultimately, this work highlights the potential of LLMs to bridge high-level intent and formal optimization models, enabling more flexible and efficient trajectory design of spacecraft.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="43aec04d58c2" data-article-url="https://arxiv.org/abs/2606.04126" data-article-title="HighTide: エージェントが厳選したオープンソース VLSI ベンチマーク スイート" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04126" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04126" target="_blank" rel="noopener">HighTide: エージェントが厳選したオープンソース VLSI ベンチマーク スイート</a></h3>
      <p class="summary">進化する AI 支援ベンチマーク スイートである HighTide を紹介します。具体的には、(i) 複数の設計言語とテクノロジ ノードにまたがる多様なオープンソース スイート、(ii) リモート キャッシュを備えた Bazel ベースの増分 RTL から GDS へのコンパイル、(iii) スイート全体の調整理論的根拠の長期記憶として機能する設計ごとの意思決定ログに裏付けられた、設計ライフサイクル、フロー最適化、ツール リファレンス、メタ メンテナンスをカバーする 12 のエージェント スキルによる AI 支援の設計キュレーション、および(iv) 安定リリース用の RTL コンパイル検証を備えたインフラストラクチャ。このスイートは一般公開されており、オープンソースのハードウェア エコシステムとともに成長するように設計されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">HighTide: An Agent-Curated Open-Source VLSI Benchmark Suite</p>
        <p class="orig-summary">We introduce HighTide, an evolving AI-assisted benchmark suite. Specifically, the contributions are: (i) a diverse open-source suite spanning multiple design languages and technology nodes, (ii) Bazel-based incremental RTL-to-GDS compilation with remote caching, (iii) AI-assisted design curation through twelve agent skills covering the design lifecycle, flow optimization, tool reference, and meta-maintenance, backed by per-design decision logs that serve as long-term memory of tuning rationale across the suite, and (iv) an infrastructure with RTL compilation verification for stable releases. The suite is publicly available and designed to grow with the open-source hardware ecosystem.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="af30cc9340e2" data-article-url="https://arxiv.org/abs/2606.04141" data-article-title="Caught in the Act(ivation): LLM エージェントによる資格情報漏洩の事前出力およびマルチターン検出に向けて" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04141" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04141" target="_blank" rel="noopener">Caught in the Act(ivation): LLM エージェントによる資格情報漏洩の事前出力およびマルチターン検出に向けて</a></h3>
      <p class="summary">LLM エージェントは多くの場合、機密認証情報を信頼できない取得コンテンツと同じコンテキスト ウィンドウに配置し、認証情報の漏洩を誘発する間接的なプロンプト インジェクションの直接パスを作成します。私たちは、3 つの相補的な防御を通じてこの障害モードを研究します。まず、出力トークンが発行される前に、アクティベーション プローブが資格情報へのアクセスを検出できるかどうかを尋ねます。次に、形式固有の文字モデルからハニートークンを構築し、分割等角予測で検出を調整します。 3 番目に、複数ターンにわたる漏洩を累積的な情報フロー問題として扱い、会話ターン全体での推定漏洩予算を追跡します。オープンウェイト モデルの制御された実験では、アクティベーション機能により、ホールドアウト エンコーディング変換下を含め、無害なプロンプトと認証情報を求めるプロンプトが高精度で分離されます。小規模な合成マルチターン スイートでは、累積アカウンティングにより、ターンごとの検出器が見逃した攻撃が検出されます。これらの結果は暫定的なものです。マルチターン ベンチマークは社内で小規模なものであり、アクティブ化方法にはホワイト ボックス アクセスが必要であり、情報推定ツールは正式な上限ではなく実用的なシグナルを提供します。それでも、この結果は、資格情報の漏洩防御には、テキストレベルの出力フィルターのみに依存するのではなく、出力前の監視、調整されたカナリア検出、および一時的な漏洩アカウンティングを組み合わせる必要があることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Caught in the Act(ivation): Toward Pre-Output and Multi-Turn Detection of Credential Exfiltration by LLM Agents</p>
        <p class="orig-summary">LLM agents often place sensitive credentials in the same context window as untrusted retrieved content, creating a direct path for indirect prompt injection to induce credential exfiltration. We study this failure mode through three complementary defenses. First, we ask whether activation probes can detect credential access before output tokens are emitted. Second, we construct honeytokens from format-specific character models and calibrate detection with split conformal prediction. Third, we treat multi-turn exfiltration as a cumulative information-flow problem and track an estimated leakage budget across conversation turns. In controlled experiments on open-weight models, activation features separate benign and credential-seeking prompts with high accuracy, including under held-out encoding transformations. In a small synthetic multi-turn suite, cumulative accounting detects attacks that per-turn detectors miss. These results are preliminary: the multi-turn benchmark is in-house and small, the activation method requires white-box access, and the information estimator provides a practical signal rather than a formal upper bound. Still, the results suggest that credential-exfiltration defenses should combine pre-output monitoring, calibrated canary detection, and temporal leakage accounting rather than relying only on text-level output filters.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="84262002238f" data-article-url="https://arxiv.org/abs/2606.04143" data-article-title="短期洪水予測のための物理学に基づいた機械学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04143" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04143" target="_blank" rel="noopener">短期洪水予測のための物理学に基づいた機械学習</a></h3>
      <p class="summary">正確な洪水予測は、災害リスクを軽減し、コミュニティを保護するために不可欠です。ただし、純粋にデータ駆動型の機械学習モデルは、データが不足している環境では苦労することが多く、基本的な水文学原則に違反する可能性があります。標準の Long Short-Term Memory (LSTM) ネットワークは、特に極端な気象条件を推定する場合に、物理的に矛盾した予測を生成する可能性があります。これらの制限に対処するために、私たちは、水文学的な知識を LSTM モデルの損失関数に直接組み込む、物理情報に基づく機械学習 (PIML) フレームワークを提案します。具体的には、トレンド アライメント制約により、降水量と流量の傾向間の方向性の不一致にペナルティが課され、複雑な流体力学方程式を必要とせずにモデルの堅牢性が向上します。この正則化により、トレーニング データが限られている場合でも、物理的に妥当な水路図の動作をモデルが学習できるようになり、洪水のピーク時の信頼性が向上します。実験結果は、提案された物理情報モデルがデータ不足の設定において標準の LSTM ベースラインを上回り、利用可能なデータのわずか 5% でトレーニングされた場合にナッシュ・サトクリフ効率 (NSE) が 0.20 から 0.23 に増加することを示しています。シミュレーションされた極端な気候シナリオでの追加のストレス テストでは、ベースライン モデルが不安定な挙動を示すのに対し、物理学に基づいたモデルは方向の一貫性と物理的妥当性を維持していることが実証されました。データが限られているため、極端なピークの大きさを正確に予測することは依然として困難ですが、提案されたアプローチは、純粋にデータ駆動型のモデルによくある非物理的な変動を大幅に軽減します。これらの発見は、単純な物理的制約によって、リアルタイム洪水予測のための深層学習モデルの信頼性が大幅に向上し、計測されていない盆地や進化する気候条件に対する実用的なソリューションを提供できることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Physics-Informed Machine Learning for Short-Term Flood Prediction</p>
        <p class="orig-summary">Accurate flood forecasting is essential for mitigating disaster risks and protecting communities. However, purely data-driven machine learning models often struggle in data-scarce environments and may violate fundamental hydrological principles. Standard Long Short-Term Memory (LSTM) networks can generate physically inconsistent predictions, particularly when extrapolating to extreme weather conditions. To address these limitations, we propose a Physics-Informed Machine Learning (PIML) framework that incorporates hydrological knowledge directly into the loss function of an LSTM model. Specifically, a Trend Alignment constraint penalizes directional inconsistencies between precipitation and discharge trends, improving model robustness without requiring complex hydrodynamic equations. This regularization encourages the model to learn physically plausible hydrograph behavior, even with limited training data, while enhancing reliability during peak flood events. Experimental results show that the proposed physics-informed model outperforms a standard LSTM baseline in data-scarce settings, increasing the Nash-Sutcliffe Efficiency (NSE) from 0.20 to 0.23 when trained on only 5% of the available data. Additional stress tests under simulated extreme climate scenarios demonstrate that the baseline model exhibits unstable behavior, whereas the physics-informed model maintains directional consistency and physical plausibility. Although accurately predicting extreme peak magnitudes remains challenging with limited data, the proposed approach substantially reduces unphysical fluctuations common in purely data-driven models. These findings demonstrate that simple physical constraints can significantly improve the reliability of deep learning models for real-time flood forecasting, offering a practical solution for ungauged basins and evolving climate conditions.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c53bf0c6498e" data-article-url="https://arxiv.org/abs/2606.04145" data-article-title="EvalStop: ワールド フィードバックを使用して、マルチテナント RLHF プラットフォームにおける報酬の過剰最適化を検出および修正する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04145" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04145" target="_blank" rel="noopener">EvalStop: ワールド フィードバックを使用して、マルチテナント RLHF プラットフォームにおける報酬の過剰最適化を検出および修正する</a></h3>
      <p class="summary">Cloud LLM 微調整プラットフォームは RLHF ワークロードにますます対応しており、学習された報酬モデルが人間の品質の代用として最適化されています。 Gao らのように(2023) は、このプロキシは、報酬の過剰最適化として知られる現象である持続的な最適化圧力の下で、世界のフィードバック (下流の評価指標) から乖離することを示しました。既存のプラットフォーム スケジューラはこの相違を無視しています。非千里眼スケジューラは品質信号なしで JCT を最適化し、SLAQ スタイルの品質認識スケジューラはトレーニング損失 (ハッキングによって単調に低下する弱いプロキシ) を使用し、古典的なジョブごとの早期停止では人間による監視が必要であり、共有 GPU を解放しません。私たちは、evalStop を提案します。これは、k 回連続して eval スコアが低下したときにジョブを終了し、GPU を解放し、最適なチェックポイントを保持し、任意のベース スケジューラに委任する、コンポーザブルなスケジューリング プリミティブです。私たちは、スケジューラレベルの早期停止を検出問題としてフレーム化し、RLHF ワークロードが報酬ハッキングと構造的に健全な実行を混合し、スケジューラから隠蔽されたグランドトゥルースラベルを使用した離散イベントシミュレータでそれを評価します。 RLHF の負荷が高いワークロード (RLHF 80%、GPU 64 基) では、EvalStop は精度 98% / リコール 99% / FPR 1.5% を達成し、SRTF-Est と比較して JCT を 9% 改善し、無駄なコンピューティングを 22% 削減します (p&lt;0.05)。些細な固定進捗と損失プラトーの競合他社は、健全な RLHF で 65% の FPR を被るか、真のハッキング ケースの半分以上を見逃すかのどちらかです。ゲインはテストされたすべてのベース スケジューラにわたって構成され (9 ～ 25% の JCT)、検出品質は評価ノイズ (ノイズ std &lt;= 0.05 で少なくとも 91% の精度) およびハッキングのベース レート (20 ～ 80% のハッキング部分で少なくとも 89% の精度) の下で安定しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">EvalStop: Using World Feedback to Detect and Correct Reward Overoptimization in Multi-Tenant RLHF Platforms</p>
        <p class="orig-summary">Cloud LLM fine-tuning platforms increasingly serve RLHF workloads, where a learned reward model is optimized as a proxy for human quality. As Gao et al. (2023) showed, this proxy diverges from world feedback (downstream eval metrics) under sustained optimization pressure, a phenomenon known as reward overoptimization. Existing platform schedulers ignore this divergence: non-clairvoyant schedulers optimize JCT without any quality signal, SLAQ-style quality-aware schedulers use training loss (a weaker proxy that drops monotonically through hacking), and classical per-job early stopping requires human monitoring and does not free shared GPUs. We propose EvalStop, a composable scheduling primitive that terminates jobs on k consecutive eval-score declines, releases GPUs, preserves the best checkpoint, and delegates to any base scheduler. We frame scheduler-level early stopping as a detection problem and evaluate it in a discrete-event simulator whose RLHF workload mixes reward-hacking and structurally healthy runs, with ground-truth labels hidden from schedulers. On RLHF-heavy workloads (80% RLHF, 64 GPUs), EvalStop achieves precision 98% / recall 99% / FPR 1.5% while improving JCT by 9% and cutting wasted compute by 22% over SRTF-Est (p&lt;0.05). Trivial fixed-progress and loss-plateau competitors either incur 65% FPR on healthy RLHF or miss over half of true hacking cases. Gains compose across every base scheduler tested (9-25% JCT) and detection quality stays stable under eval noise (precision at least 91% at noise std &lt;= 0.05) and hacking base rate (precision at least 89% across 20-80% hacking fractions).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="102cb45420d5" data-article-url="https://arxiv.org/abs/2606.04164" data-article-title="ADAPTOOD: 分布外 ECG 時系列モデルの不確実性を考慮した微調整" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04164" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04164" target="_blank" rel="noopener">ADAPTOOD: 分布外 ECG 時系列モデルの不確実性を考慮した微調整</a></h3>
      <p class="summary">トレーニングに使用されるデータ サンプルは、微調整や展開中に発生するデータ サンプルとは異なることが多く、ML モデルは有望ですが、注釈付きの小さなデータセットしか利用できない場合、そのパフォーマンスは依然として限定的です。さまざまなセンサー、母集団、アプリケーション設定によって引き起こされる分布の変化では、パフォーマンスが低下することがよくあります。事前トレーニングは役立ちますが、現実世界の設定ではモデルが分布外 (OOD) データに頻繁に遭遇し、堅牢性の低下につながります。既存の適応手法は通常、固定的な分布シフトを想定しており、複数の種類や重大度が発生した場合に困難を伴います。特に、彼らはシフトの重大性を見落としており、たとえば、慣れ親しんだ大規模なデータセットへの適応を、新しいタスクを伴う小規模なデータセットへの適応と同じように扱うため、一般化が制限されます。これに対処するために、データの不確実性を活用して分布シフトの深刻度を定量化し、時系列の微調整をガイドする新しいフレームワークである ADAPTOOD を提案します。この不確実性は、ターゲット展開分布からのサンプルがトレーニング前の分布からどれだけ強く逸脱しているかを測定し、OOD 重大度の直接的なシグナルを提供します。私たちのフレームワークは、この不確実性を低ランクのモデルの更新と適応型ハイパーパラメーターの最適化と組み合わせて、適応を改善します。 ADAPTOOD は、OOD タスクにおいて既存の方法よりも最大 7% 高い精度と 12.9% 高い精度を達成し、分布シフトの重大度が増加しても強力なパフォーマンスを維持することを示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ADAPTOOD: Uncertainty-Aware Fine-Tuning for Out-of-Distribution ECG Time Series Models</p>
        <p class="orig-summary">Data samples used for training often differ from those encountered during fine-tuning and deployment, and while ML models show promise, their performance remains limited when only small annotated datasets are available. Performance often degrades under distribution shifts caused by diverse sensors, populations, and application settings. Although pre-training helps, models frequently encounter out-of-distribution (OOD) data in real-world settings, leading to reduced robustness. Existing adaptation methods usually assume fixed distribution shifts and struggle when multiple types or severities occur. In particular, they overlook shift severity, for example treating adaptation to a large familiar dataset the same as adaptation to a small dataset with a new task, which limits generalisation. To address this, we propose ADAPTOOD, a novel framework that leverages data uncertainty to quantify distribution shift severity and guide fine-tuning for time series. This uncertainty measures how strongly samples from the target deployment distribution deviate from the pre-training distribution, providing a direct signal of OOD severity. Our framework combines this uncertainty with low-rank model updates and adaptive hyperparameter optimisation to improve adaptation. We show that ADAPTOOD achieves up to 7% higher accuracy and 12.9% higher precision than existing methods in OOD tasks, maintaining strong performance as distribution shift severity increases.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="74884beaa02b" data-article-url="https://arxiv.org/abs/2606.04167" data-article-title="ニューロンを使用しないスマートな交通 -- 表形式の強化学習による公平な地下鉄ネットワークの拡張" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04167" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04167" target="_blank" rel="noopener">ニューロンを使用しないスマートな交通 -- 表形式の強化学習による公平な地下鉄ネットワークの拡張</a></h3>
      <p class="summary">私たちは、交通需要を満たすために地下鉄システムを拡張することに焦点を当てた交通ネットワーク設計問題 (TNDP) のサブセットである地下鉄ネットワーク拡張問題 (MNEP) に取り組みます。従来の方法は、検索スペースを削減するために専門家が定義した制約を必要とする、正確でヒューリスティックなアプローチに依存しています。最近、複雑な逐次意思決定プロセスにおける有効性により、深層強化学習 (Deep RL) が登場しましたが、依然として計算コストと環境コストが高く、解釈するには追加のエンジニアリングが必要です。 MNEP 問題は、Deep RL 手法を必要としないほど十分に小さいことを示します。 MNEP を非マルコフ報酬決定プロセス (NMRDP) として再定式化し、表形式の RL を使用して、大幅に少ないトレーニング エピソードで同様のパフォーマンスを達成し、さらに優れた解釈可能性を提供します。さらに、報酬関数に社会的公平性の基準を組み込み、効率と公平性に重点を置き、手法の多用途性を強調しています。西安とアムステルダムの現実世界の設定で評価された私たちの方法は、Deep RL との競争力を維持しながら、総エピソード数を平均 18 分の 1、総二酸化炭素排出量を 12 分の 1 削減します。このアプローチは、他の組み合わせ最適化問題への潜在的なアプリケーションを備えた、複製可能、モジュール式、解釈可能な、リソース効率の高いソリューションを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Smart Transportation Without Neurons -- Fair Metro Network Expansion with Tabular Reinforcement Learning</p>
        <p class="orig-summary">We tackle the Metro Network Expansion Problem (MNEP), a subset of the Transport Network Design Problem (TNDP), which focuses on expanding metro systems to satisfy travel demand. Traditional methods rely on exact and heuristic approaches that require expert-defined constraints to reduce the search space. Recently, deep reinforcement learning (Deep RL) has emerged due to its effectiveness in complex sequential decision-making processes-it remains, however, computationally expensive, environmentally costly, and requires additional engineering to interpret. We show that MNEP problems are small enough to not require Deep RL methods. Reformulating the MNEP as a Non-Markovian Rewards Decision Process (NMRDP), we use tabular RL to achieve similar performance with significantly fewer training episodes, additionally offering greater interpretability. Additionally, we incorporate social equity criteria into the reward functions, focusing on efficiency and fairness, highlighting the versatility of our method. Evaluated in real-world settings-Xi&#x27;an and Amsterdam-our method reduces total episodes by a factor of 18 and total carbon emissions by a factor of 12 on average, while remaining competitive with Deep RL. This approach offers a replicable, modular, interpretable, and resource-efficient solution with potential applications to other combinatorial optimization problems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ac5d8a52ca3" data-article-url="https://arxiv.org/abs/2606.04171" data-article-title="MimeLens: バイナリ フラグメントの位置に依存しないコンテンツ タイプの検出" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04171" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04171" target="_blank" rel="noopener">MimeLens: バイナリ フラグメントの位置に依存しないコンテンツ タイプの検出</a></h3>
      <p class="summary">ファイル タイプの分類は、マルウェアのトリアージ、フォレンジック カービング、パケット インスペクション、ストレージ インデックス作成などの多くのワークフローの基礎となります。 Google の Magika などの学習型システムは、既知のオフセットでのファイル全体へのアクセスを前提としているため、単一パケットのペイロード、ヘッダーのない彫刻されたフラグメント、ランダムなディスク ブロック、またはチャンク アップロードなど、これらのタスクの多くが実際に生成する入力を中断します。 MimeLens は、標準コンテキストおよびショートコンテキストのバリアントで、各ファイル内の均一にランダムなオフセットでサンプリングされたウィンドウからのバイナリ コンテンツで事前トレーニングされた小さな BERT スタイル エンコーダ ファミリであり、特権的なファイル先頭位置はありません。バイト チャンクはファイル内のどこからでも入ります。ヘッダーも固定サイズも必要ありません。 libmagic の 125 の MIME ラベルの 1 つが出力されます。完全なファイルのクリーンヘッドでは、MimeLens は、libmagic ラベル付きデータで +10.7 pp のトップ 1 で Magika v1.1 を上回り、単一のミッドストリーム UDP パケットから、ランダムなミッドファイル ディスク ブロック上で libmagic と Magika の 2 倍以上の正確さで、Magicka ができない場所を分類し続けます。コストは遅延です。MimeLens は、消費者向け GPU やバッチでは同等ですが、CPU 上では Magika よりもサンプルごとにおよそ 1 ～ 2 桁遅く実行されます。トレーニングされたすべてのチェックポイントは、Hugging Face (mjbommar/mimelens-001-*) でリリースされます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MimeLens: Position-Agnostic Content-Type Detection for Binary Fragments</p>
        <p class="orig-summary">File-type classification underlies many workflows like malware triage, forensic carving, packet inspection, and storage indexing. Learned systems such as Google&#x27;s Magika assume whole-file access at a known offset, so they break on the inputs many of these tasks actually produce, like a single packet payload, a header-less carved fragment, a random disk block, or a chunked upload. We introduce MimeLens, a family of small BERT-style encoders pretrained on binary content from windows sampled at a uniformly random offset within each file, with no privileged head-of-file position, in standard- and short-context variants. A byte chunk goes in from anywhere in a file, no header needed and no fixed size; out comes one of libmagic&#x27;s 125 MIME labels. On the clean head of complete files, MimeLens beats Magika v1.1 by +10.7 pp top-1 on libmagic-labeled data, and it keeps classifying where Magika cannot: from a single mid-stream UDP packet, and more than twice as accurately as libmagic and Magika on random mid-file disk blocks. The cost is latency: MimeLens runs roughly one to two orders of magnitude slower per sample on CPU than Magika, though it matches on consumer GPUs or in batch. All trained checkpoints are released on Hugging Face (mjbommar/mimelens-001-*).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="066c0ae160f3" data-article-url="https://arxiv.org/abs/2606.04177" data-article-title="ドメインとモデルにわたる AI 生成テキスト検出における言語的特徴の系統的分析" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04177" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04177" target="_blank" rel="noopener">ドメインとモデルにわたる AI 生成テキスト検出における言語的特徴の系統的分析</a></h3>
      <p class="summary">解釈可能な言語特徴は、特に専門家でないユーザーにとって、特定のテキストが機械生成のように見える理由を説明するための有望なアプローチを提供します。ただし、LLM で生成されたテキストを特徴が確実に示しているという既存の調査結果は、特徴セット、モデル、テキスト ドメイン全体で断片化されたままです。このギャップに対処するために、AI が生成したテキストを特徴付けるための言語信号の堅牢性を評価する大規模な実証研究を実施します。私たちの分析では、クロスモデルおよびクロスドメイン一般化設定の下で、27 の LLM と 10 のテキスト ドメインからの出力にわたる 284 の解釈可能な言語特徴をカバーしています。言語的特徴のみに基づく分類器が、AI によって生成されたテキストと人間が書いたテキストを確実に区別できることを示します。ただし、これまでに提案された指標の多くは、語彙の豊富さの尺度を除いて、コンテキストに強く依存することが証明されており、モデル ファミリとテキスト ドメイン全体にわたって堅牢なシグナルのままです。これらの結果は、どの言語信号がコンテキスト全体で一般化するかを示し、AI 生成言語のより信頼性が高く解釈可能な分析の基盤を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models</p>
        <p class="orig-summary">Interpretable linguistic features offer a promising approach for explaining why a given text appears machine-generated, particularly for non-expert users. However, existing findings on which features reliably indicate LLM-generated text remain fragmented across feature sets, models, and text domains. To address this gap, we conduct a large-scale empirical study assessing the robustness of linguistic signals for characterizing AI-generated text. Our analysis covers 284 interpretable linguistic features across outputs from 27 LLMs and ten text domains under cross-model and cross-domain generalization settings. We show that classifiers based solely on linguistic features can reliably distinguish AI-generated from human-written text. However, many previously proposed indicators prove strongly context-dependent, with the exception of measures of lexical richness, which remain robust signals across model families and text domains. These results demonstrate which linguistic signals generalize across contexts and provide a foundation for more reliable, interpretable analyses of AI-generated language.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="30f35bf3b203" data-article-url="https://arxiv.org/abs/2606.04182" data-article-title="強化学習における正確なアンラーニング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04182" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04182" target="_blank" rel="noopener">強化学習における正確なアンラーニング</a></h3>
      <p class="summary">私たちは強化学習における \emph{正確なアンラーニング} の問題を定式化します。その目的は、削除リクエストに応じてユーザーのデータを削除できる効率的なフレームワークを設計することです。つまり、アンラーニング後のオンライン学習者の出力は、削除されたユーザーが学習者と対話しなかった場合に生成される出力と \emph{区別できません}。 $\rho &gt;0$ の場合、 $\rho$-TV 安定で、期待される計算コストがゼロから再学習する計算コストの $\rho \sqrt{\ln T}$ の一部にすぎない正確な非学習手順をサポートする強化学習 (RL) アルゴリズムが存在することを示します。我々は、表形式マルコフ決定プロセス（MDP）用の $\rho$-TV-stable RL アルゴリズムを構築します。これは $\mathcal{O}(H^2 \sqrt{SAT} + H^3 S^2 A + {H^{2.5} S^2 A}/{\rho})$ のリグレス限界を達成します。ここで、$S、A、H$、$T$ は状態数、アクション数、エピソード ホライズンを示します。とエピソード数がそれぞれ異なります。また、$\rho$-TV-stable RL アルゴリズムに対して $\Omega(H\sqrt{\!SAT}\! +\! {SAH}/{\rho})$ の下限も確立し、アルゴリズムがほぼミニマックス最適であることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Exact Unlearning in Reinforcement Learning</p>
        <p class="orig-summary">We formulate the problem of \emph{exact unlearning} in reinforcement learning, where the goal is to design an efficient framework that enables the removal of any user&#x27;s data upon deletion request, i.e., the online learner&#x27;s output after unlearning is \emph{indistinguishable} from what would have been produced had the deleted user never interacted with the learner. For any $\rho &gt;0$, we show that there exists a reinforcement learning (RL) algorithm that is $\rho$-TV-stable and supports an exact unlearning procedure whose expected computational cost is only a $\rho \sqrt{\ln T}$ fraction of the computational cost of retraining from scratch. We construct such a $\rho$-TV-stable RL algorithm for tabular Markov decision processes (MDPs), which achieves a regret bound of $\mathcal{O}(H^2 \sqrt{SAT} + H^3 S^2 A + {H^{2.5} S^2 A}/{\rho})$, where $S, A, H$, and $T$ denote the number of states, the number of actions, the episode horizon, and the number of episodes, respectively. We also establish a lower bound of $\Omega(H\sqrt{\!SAT}\! +\! {SAH}/{\rho})$ for $\rho$-TV-stable RL algorithms, showing that our algorithm is nearly minimax optimal.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fdfe0515fba6" data-article-url="https://arxiv.org/abs/2606.04188" data-article-title="2つのアドバンテージフィールド" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04188" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04188" target="_blank" rel="noopener">2つのアドバンテージフィールド</a></h3>
      <p class="summary">オフラインの目標条件付き強化学習では、長期的な到達可能性の推定とローカル アクションの比較の両方が必要です。デュアル目標表現は、グローバルな目標の到達可能性を取得する値フィールドを提供しますが、特定の状態でどのアクションが優先されるべきかを直接指定するものではありません。我々は、双線形二重値モデルをローカルアドバンテージ信号に変えるポリシー抽出手法であるデュアルアドバンテージフィールドを提案します。双線形双対パラメータ化では、目標の埋め込みは状態表現に対する値フィールドの勾配です。 DAF は、アクションによって引き起こされる割り引かれたフィーチャの変位を予測し、この変位と目標の方向との整合性によってアクションをスコア化するアクション効果モデルを学習します。実現可能なケースでは、このスコアは目標条件付きベルマンアドバンテージに等しく、標準的なローカル政策改善保証が得られます。 OGBench の移動、操作、パズルのタスクでは、DAF は集計 RLiable メトリクスを改善し、局所的に正しいアクションが最終目標に向かう直接的な動きとは異なる設定で強力にパフォーマンスを発揮します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Dual Advantage Fields</p>
        <p class="orig-summary">Offline goal-conditioned reinforcement learning requires both long-horizon reachability estimates and local action comparisons. Dual goal representations provide value fields that capture global goal reachability, but they do not directly specify which action should be preferred at a given state. We propose Dual Advantage Fields, a policy-extraction method that turns a bilinear dual value model into a local advantage signal. Under bilinear dual parameterization, the goal embedding is the gradient of the value field with respect to the state representation. DAF learns an action-effect model that predicts the discounted feature displacement induced by an action and scores actions by the alignment between this displacement and the goal direction. In the realizable case, this score equals the goal-conditioned Bellman advantage, yielding a standard local policy-improvement guarantee. On OGBench locomotion, manipulation, and puzzle tasks, DAF improves aggregate RLiable metrics and performs strongly in settings where locally correct actions differ from direct movement toward the final goal.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6594841403e" data-article-url="https://arxiv.org/abs/2606.04191" data-article-title="CTF4Science Lorenz Challenge のメトリクスを意識したハイブリッド予測" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04191" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04191" target="_blank" rel="noopener">CTF4Science Lorenz Challenge のメトリクスを意識したハイブリッド予測</a></h3>
      <p class="summary">CTF4Science Lorenz チャレンジに対するアプローチについて説明します。このベンチマークは、9 つ​​のタスク ペアにわたって、短期予測、長時間分布マッチング、軌道再構築を組み合わせたベンチマークです。重要な発見は、単一のモデル ファミリがすべての指標を支配していないということです。代わりに、各計量ファミリーに異なる予測子を割り当てる計量認識ハイブリッド システムを構築しました。(1) 全軌道再構築のための合成事前トレーニング済みデノイザー、(2) 最初の 20 予測ステップに対するローレンツ ODE フィッティングと軌道シューティング、(3) 長時間評価のための合成ローレンツ ライブラリを使用したヒストグラム テール置換。このシステム ファミリからの代表的な成熟した投稿は、公開リーダーボードで 83.83551 のスコアを獲得し、同じアイデアの小規模なフォローアップ スタックは 83.85529 に達しました。私たちがよりクリーンな中間システムに焦点を当てるのは、このシステムが完全なメソッドを捕捉しつつ、再現と分析が容易な一方で、最終的な提出は同じバックボーンの保守的な拡張として理解できるためです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Metric-Aware Hybrid Forecasting for the CTF4Science Lorenz Challenge</p>
        <p class="orig-summary">We describe our approach to the CTF4Science Lorenz challenge, a benchmark that mixes short-horizon forecasting, long-time distribution matching, and trajectory reconstruction across nine task pairs. The key discovery is that no single model family dominated all metrics. Instead, we built a metric-aware hybrid system that assigned a different predictor to each metric family: (1) synthetic-pretrained denoisers for full-trajectory reconstruction, (2) Lorenz ODE fitting and trajectory shooting for the first 20 forecast steps, and (3) histogram-tail substitution using synthetic Lorenz libraries for long-time evaluation. A representative mature submission from this system family scored 83.83551 on the public leaderboard, and a small follow-up stack of the same ideas reached 83.85529. We focus on the cleaner intermediate system because it captures the full method while remaining simple enough to reproduce and analyze, while the final submission can be understood as a conservative extension of the same backbone.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f13ae6e78a9e" data-article-url="https://arxiv.org/abs/2606.04193" data-article-title="公証されたエージェント: AI エージェントのアクションに対する受信者が証明した機密受領書" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04193" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04193" target="_blank" rel="noopener">公証されたエージェント: AI エージェントのアクションに対する受信者が証明した機密受領書</a></h3>
      <p class="summary">現在の AI エージェントの可観測性は構造的に危険にさらされています。アクティビティ ログを生成するエンティティは、アクティビティが記録されるエンティティと同じです。侵害されたエージェントまたはバグのあるエージェントは、自身のトレースを省略、変更、または捏造する可能性があり、エージェントを実行するオペレータには改ざんを検出する独自の方法がありません。私たちは、信頼境界を反転することでこれを解決するプロトコルのクラスを提案します。エージェントの呼び出しを受信するサービスは、独自のキーを使用して観察した内容の受信に署名し、エージェントの所有者に対して受信を暗号化し、それを公開の透明性ログに公開します。所有者は、エージェントやそのオペレーターを信頼せずに、改ざん証拠の証跡を再構築します。このクラスを Sello としてインスタンス化します。これは、現在のシステムには存在しない 4 つのプロパティを組み合わせたプロトコルです。(P1) 受信者側の署名、(P2) JWS 経由で認可トークンにバインドされた所有者公開鍵への HPKE 暗号化、(P3) 証人署名付きマークル ログへの公開、(P4) トークン参照による所有者側の検出です。私たちはプロトコルを説明し、エージェントとそのオペレーターを制御する敵対者の下でそのセキュリティを分析し、暗号操作のマイクロベンチマークを提示し、隣接する受信プロトコル作業 (Signet、AgentROA、Agent Passport System、draft-farley-acta、SCITT) の中に Sello を位置づけます。抑制攻撃、サービスの共謀、採用インセンティブの問題などの既知の制限について説明します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Notarized Agents: Receiver-Attested Confidential Receipts for AI Agent Actions</p>
        <p class="orig-summary">Current AI agent observability is structurally compromised: the entity producing the activity log is the same entity whose activity is being logged. A compromised or buggy agent can omit, alter, or fabricate its own traces, and the operator running the agent has no independent way to detect tampering. We propose a class of protocols that resolves this by inverting the trust boundary: the service that receives an agent&#x27;s call signs a receipt of what it observed using its own key, encrypts the receipt to the agent&#x27;s owner, and publishes it to a public transparency log. The owner reconstructs a tamper-evident trail without trusting the agent or its operator. We instantiate the class as Sello, a protocol combining four properties absent in any current system: (P1) receiver-side signing, (P2) HPKE encryption to an owner public key bound to the authorization token via JWS, (P3) publication to a witness-cosigned Merkle log, and (P4) owner-side discovery by token reference. We describe the protocol, analyze its security under an adversary that controls the agent and its operator, present microbenchmarks of the cryptographic operations, and situate Sello among adjacent receipt-protocol work (Signet, AgentROA, Agent Passport System, draft-farley-acta, SCITT). We discuss known limitations including the suppression attack, service collusion, and the adoption-incentive problem.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fb8b8dcb7f84" data-article-url="https://arxiv.org/abs/2606.04205" data-article-title="DetectZoo: テキスト、オーディオ、画像モダリティにわたる AI 生成コンテンツ検出のための統合ツールキット" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04205" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04205" target="_blank" rel="noopener">DetectZoo: テキスト、オーディオ、画像モダリティにわたる AI 生成コンテンツ検出のための統合ツールキット</a></h3>
      <p class="summary">生成モデルの人気と能力の高まりにより、人間が生成したコンテンツと機械が生成したコンテンツの区別がなくなり、テキスト、画像、音声にわたる検出に関する一連の研究が増えています。入手可能な検出器のほとんどは商用ソフトウェアであるか、オープンソースの場合は特注の前処理、評価プロトコル、評価メトリクスを備えた互換性のないコードベースが付属しているため、その採用、公正な比較、再現が非常に困難になっています。この重大なギャップに対処するために、テキスト、オーディオ、画像モダリティにわたる AI 生成コンテンツ検出のための統一インターフェイスを提供するように設計された、この種初の拡張可能なツールキットである DetectZoo を導入します。 DetectZoo は、データの取り込みと前処理からモデルの評価に至るまで、完全な経験的パイプラインを標準化し、最先端の検出器を体系的にベンチマークするための一貫したフレームワークを研究者に提供します。多様な公開データセットとベースライン検出アルゴリズムを単一の統一 API に統合することで、当社のツールキットは厳密で再現可能な評価を容易にします。 DetectZoo は、61 の検出器のリファレンス実装、22 のベンチマーク データセット用のネイティブ ローダー、および共通のインターフェイスを通じて複数のメトリクスを報告する標準化された評価パイプラインを提供します。各検出器は自己完結型ですが、同じインターフェイスからアクセスでき、事前トレーニングされた重みを自動的にキャッシュし、元の公開結果を再現します。 DetectZoo は、マルチモーダル AI フォレンジックの参入障壁を下げ、研究者がドメイン間のパフォーマンスのギャップを特定できるようにし、堅牢で汎用性のある検出技術の開発を加速します。オープンソース リポジトリと包括的なドキュメントは https://github.com/sadjadeb/DetectZoo で公開されており、パッケージは pip install detectzoo 経由でインストールできます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities</p>
        <p class="orig-summary">The growing popularity and capacity of generative models have eroded the distinction between human and machine-generated content, motivating a growing body of work on detection across text, images, and audio. Most available detectors are either commercial software or, if open-source, come with incompatible codebases with bespoke preprocessing, evaluation protocols, and evaluation metrics, which make their adoption, fair comparison, and reproduction quite difficult. To address this critical gap, we introduce DetectZoo, a first-of-its-kind, extensible toolkit designed to provide a unified interface for AI-generated content detection across text, audio, and image modalities. DetectZoo standardizes the complete empirical pipeline, from data ingestion and preprocessing to model assessment, offering researchers a cohesive framework to benchmark state-of-the-art detectors systematically. By integrating diverse public datasets and baseline detection algorithms under a single, unified API, our toolkit facilitates rigorous and reproducible evaluation. DetectZoo provides reference implementations of 61 detectors, native loaders for 22 benchmark datasets, and a standardized evaluation pipeline that reports multiple metrics through a common interface. Each detector is self-contained yet accessible through the same interface, automatically caches pretrained weights, and reproduces the original published results. DetectZoo lowers the barrier to entry for multi-modal AI forensics, enabling researchers to identify performance gaps across domains and accelerating the development of robust, generalizable detection techniques. The open-source repository and comprehensive documentation are publicly available at https://github.com/sadjadeb/DetectZoo, and the package can be installed via pip install detectzoo.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="15fbb49d0bed" data-article-url="https://arxiv.org/abs/2606.04226" data-article-title="PerceptTwin: 反復 LLM 計画と検証のためのセマンティック シーンの再構築" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04226" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04226" target="_blank" rel="noopener">PerceptTwin: 反復 LLM 計画と検証のためのセマンティック シーンの再構築</a></h3>
      <p class="summary">シミュレーション環境は、ロボット ポリシーの学習と計画の検証と検証の両方に役立ちます。従来、シミュレーションを作成するプロセスは面倒なものでした。ロボットが動作する個々の環境に合わせてオーダーメイドのシミュレーション環境を作成することは、まったく不可能でした。この研究では、ロボットの認識スタックによって生成されたセマンティック シーン表現から直接インタラクティブ シミュレーションを構築する完全自動パイプラインである PerceptTwin を紹介します。 PerceptTwin は、オープン語彙オブジェクト マップと 3D アセット生成、アフォーダンス予測、および常識的な条件チェックを組み合わせます。これらのインタラクティブなシミュレーションを使用すると、ロボット ハードウェアで実行される前に計画を検証し、改良することができます。 AI 調整の文献から借用して、計画の正確さと人間の好みとの調整を検証する LLM ジャッジも紹介します。実験では、PerceptTwin のフィードバックにより、LLM プランナーが計画を改良し、安全性を強化し、有害なブラックボックス プロンプト攻撃に抵抗できることが示されています。私たちの一連のタスクでは、PerceptTwin により、GPT5、GPT5Mini、および GPT5Nano プランナーの計画の成功率が平均約 39% 向上しました。さらに、PerceptTwin は、スキルの前提条件が満たされていないために失敗した計画について、人間による計画の検証を平均で最大 18% 改善します。私たちの結果は、より安全で信頼性の高いロボット計画の基盤として、ロボットの知覚からのオープンボキャブラリーシーンシミュレーションの可能性を実証しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PerceptTwin: Semantic Scene Reconstruction for Iterative LLM Planning and Verification</p>
        <p class="orig-summary">Simulation environments are useful for both robot policy learning and planning verification and validation. Traditionally, the process of creating a simulation was onerous. Creating a bespoke simulation environment for each individual environment that a robot would operate in was simply infeasible. In this work, we introduce PerceptTwin, a fully automatic pipeline that constructs interactive simulations directly from semantic scene representations produced by a robot&#x27;s perception stack. PerceptTwin combines open-vocabulary object maps with 3D asset generation, affordance prediction, and commonsense condition checking. These interactive simulations can be used to validate and refine plans before they are executed on the robot hardware. Borrowing from the AI alignment literature, we also introduce an LLM judge that verifies plan correctness and alignment with human preferences. Experiments show that PerceptTwin feedback allows LLM planners to refine plans, enhance safety, and resist harmful black-box prompting attacks. In our suite of tasks, PerceptTwin improves plan success by an average of approximately 39% for GPT5, GPT5Mini, and GPT5Nano planners. Additionally, PerceptTwin also improves human plan verification by up to 18% on average for plans that fail due to unfilled skill preconditions. Our results demonstrate the potential of open-vocabulary scene simulation from robot perception as a foundation for safer, more reliable robot planning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="582fdde4b27c" data-article-url="https://arxiv.org/abs/2606.04227" data-article-title="細胞複合体における増分層コホモロジー: 境界のあるローカル ジオメトリでの O(1)-in-n 遅延編集処理" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04227" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04227" target="_blank" rel="noopener">細胞複合体における増分層コホモロジー: 境界のあるローカル ジオメトリでの O(1)-in-n 遅延編集処理</a></h3>
      <p class="summary">我々は、有限次元の細胞層を備えた動的に進化する1次元細胞複合体上の最初の層コホモロジー $H^1(X; \mathcal{F})$ を増分的に維持するためのアルゴリズムフレームワークを提案します。共有境界行列の因数分解による $H^1$ の古典的な計算には $O(n^3)$ の時間が必要です。 $m$ の編集のストリームによって複雑さが進化すると、各編集後の完全な再計算には $O(mn^3)$ のコストがかかります。有界のローカル ジオメトリの仮定 (有界セル サイズ $v_{\max}$、有界ストーク寸法 $d$、有界神経次数 $D$) の下では、各編集 (頂点挿入、エッジ挿入、制限マップ更新) は、ローカル共有境界ブロックの有界セットにのみ影響します。したがって、このアルゴリズムは、複素数の合計サイズ $n$ に対して ($n$ から独立した定数として扱われるローカル ジオメトリ パラメーター $v_{\max}$、$d$、および $D$ のコスト多項式を使用して) 遅延ストリーミング編集を $O(1)$ 時間で処理し、ローカル固有ソルブと Mayer-Vietoris グローバル アセンブリを同期ポイント (フラッシュ) まで遅らせます。同期時に、維持される状態は、分割された層モデルの対応するバッチ アセンブリと一致します。すべてのバッチ検証された実行でゼロの測定ドリフトが観察されました ($V = 10^6$ による)。また、セル分解のための償却 $O(|E|)$ ストリーミング構造を与え、分割されていない非自明な層 ($d \geq 2$、非同一性制限マップ) が同じ局所性を認めないと主張する敵対的代数 RAM バリアについて議論します。最大 $5 \times 10^6$ の頂点と $1.7 \times 10^7$ のストリーミング編集を使用した Barabasi-Albert グラフの実験では、編集ごとの遅延更新レイテンシーの中央値が 35 $\mu$s (フラッシュを除く) であることがわかりました。クエリ時間 (同期時のグローバル アセンブリ) は、実装されたフルトラバーサル パスのフラッシュごとに $O(n)$ です。正確な同期コストは別途報告されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Incremental Sheaf Cohomology on Cellular Complexes: O(1)-in-n Lazy Edit Processing under Bounded Local Geometry</p>
        <p class="orig-summary">We present an algorithmic framework for incremental maintenance of first sheaf cohomology $H^1(X; \mathcal{F})$ on dynamically evolving 1-dimensional cellular complexes equipped with finite-dimensional cellular sheaves. The classical computation of $H^1$ via factorization of the coboundary matrix requires $O(n^3)$ time; when the complex evolves with a stream of $m$ edits, full recomputation after each edit costs $O(mn^3)$. Under a bounded local geometry assumption -- bounded cell size $v_{\max}$, bounded stalk dimension $d$, and bounded nerve degree $D$ -- each edit (vertex insertion, edge insertion, restriction map update) affects only a bounded set of local coboundary blocks. The algorithm therefore processes lazy streaming edits in $O(1)$ time with respect to the total complex size $n$ (with cost polynomial in the local geometry parameters $v_{\max}$, $d$, and $D$, which are treated as constants independent of $n$), deferring local eigensolves and Mayer-Vietoris global assembly to synchronization points (Flush). At synchronization, the maintained state agrees with the corresponding batch assembly of the partitioned sheaf model; we observe zero measured drift in all batch-verified runs (through $V = 10^6$). We also give an amortized $O(|E|)$ streaming construction for the cellular decomposition and discuss an adversarial algebraic-RAM barrier arguing that unpartitioned non-trivial sheaves ($d \geq 2$, non-identity restriction maps) do not admit the same locality. Experiments on Barabasi-Albert graphs with up to $5 \times 10^6$ vertices and $1.7 \times 10^7$ streaming edits show 35 $\mu$s median lazy per-edit update latency (excluding flush); query time (global assembly at synchronization) is $O(n)$ per flush in the implemented full-traversal path. Exact synchronization costs are reported separately.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="718f84d28788" data-article-url="https://arxiv.org/abs/2606.04231" data-article-title="MM-BizRAG: 汎用エンタープライズ Q&amp;A 向けのマルチモーダル検索拡張生成の再考" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04231" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04231" target="_blank" rel="noopener">MM-BizRAG: 汎用エンタープライズ Q&amp;A 向けのマルチモーダル検索拡張生成の再考</a></h3>
      <p class="summary">マルチモーダル検索拡張生成 (MM-RAG) の最近の進歩は、最小限の解析に移行し、検索埋め込みの生成と回答の生成にはページレベルの画像に依存しています。この傾向は効率的ではありますが、複雑な企業ドキュメント内の豊富で構造化された情報の明示的な処理を無視することが多く、その代わりに、そのような構造を暗黙的に捕捉する事前トレーニング済みの埋め込みまたはビジョン言語モデルに依存します。この作業では、より直接的なアプローチを採用しています。MM-BizRAG は、方向固有の取り込みパイプラインを通じてドキュメントを動的にルーティングするドキュメント構造認識分割を介してドキュメント構造をプロアクティブに抽出および表現し、垂直方向に構造化されたドキュメント (レポートなど) には明示的なレイアウト認識解析を適用し、水平方向に構造化されたドキュメント (スライド デッキなど) には全体的なページ レベルの表現を適用します。プレースホルダーベースの位置調整を備えた統合された LLM 駆動のアーティファクト変換パイプラインにより、自然な読み取り順序が維持される一方、推論時のマルチモーダル アセンブリにより検索表現が生成コンテキストから切り離され、微調整を必要とせずに、より豊富で根拠のある回答が可能になります。大規模で異種混合のエンタープライズ データセットと 2 つの公開ベンチマーク (SlideVQA および FinRAGBench-V) での実験を通じて、MM-BizRAG は常に最先端のビジョン中心のベースラインを最大 32% ポイント上回るパフォーマンスを示し、特にレポート スタイルのレイアウトで大幅な向上を実現しました。さらに、人間によるより強力な調整を実現しながら、RAGChecker のコストを半減する、きめ細かい生成呼び出しのためのシングルコール LLM ジャッジ メトリクスである FastRAGEval を導入します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MM-BizRAG: Rethinking Multimodal Retrieval-Augmented Generation for General Purpose Enterprise Q&amp;A</p>
        <p class="orig-summary">Recent advances in multimodal retrieval-augmented generation (MM-RAG) have shifted toward minimal parsing, relying on page-level images for producing retriever embeddings and for answer generation. While efficient, this trend often neglects explicit handling of the rich, structured information in complex enterprise documents, instead depending on pre-trained embeddings or vision-language models to implicitly capture such structure. In this work, we take a more direct approach: MM-BizRAG proactively extracts and represents document structure via a document structure-aware split that dynamically routes documents through orientation-specific ingestion pipelines, applying explicit layout-aware parsing for vertically structured documents (e.g., reports) and holistic page-level representations for horizontally structured documents (e.g., slide decks). A unified LLM-driven artifact transformation pipeline with placeholder-based positional alignment preserves natural reading order, while inference-time multimodal assembly decouples retrieval representations from generation context, enabling richer, more grounded answers without any finetuning requirement. Through experiments on a large, heterogeneous enterprise dataset and two public benchmarks (SlideVQA and FinRAGBench-V), MM-BizRAG consistently outperforms state-of-the-art vision-centric baselines by up to 32% points, with especially strong gains on report-style layouts. Furthermore, we introduce FastRAGEval, a single-call LLM Judge metric for fine-grained generative recall that halves RAGChecker&#x27;s cost while achieving stronger human alignment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="37e7ed0fe85c" data-article-url="https://arxiv.org/abs/2606.04236" data-article-title="高速拡散言語モデルのデコードをサポートするトークンの公開" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04236" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04236" target="_blank" rel="noopener">高速拡散言語モデルのデコードをサポートするトークンの公開</a></h3>
      <p class="summary">離散拡散言語モデルは、複数のマスクされた位置を並行して更新することでテキストを効率的に生成できますが、この並行性により品質と遅延のトレードオフが生じます。積極的なデコードでは相互に依存するトークンのコミットが早すぎる可能性がありますが、保守的なデコードでは多くのノイズ除去手順が必要になります。既存の方法では、信頼性または依存性の基準を使用して、どのトークンを公開しても安全であるかを判断することで、この緊張に対処しています。ただし、安全でないコミットを回避しても、残りのマスクされたシーケンスのデコードが容易になるとは限りません。不確実なトークンがマスクされたトークンに依存し、ノイズ除去ステップのボトルネックになる可能性があるためです。私たちは、拡散言語モデルの既存の並列デコード戦略の上に追加できる、トレーニング不要のモジュールである AXON を提案します。 AXON は、ベース デコーダを置き換えるのではなく、残りの不確実なマスクされたトークンを監視し、現在の状態が追加のコンテキストが必要であることを示唆する場合にのみ介入します。次に、どのトークンを公開するのが最も安全であるかという基準を、どの信頼できる公開が後のノイズ除去を最もよくサポートするかという基準に変更します。 AXON は、注意、不確実性、および信頼性のシグナルを使用して、不確実な位置が注目するアンカー、つまり不確実な位置が注目する自信のあるマスクされたトークンを選択します。複数の拡散言語モデルにわたる推論とコード生成のベンチマークに関する実験では、AXON が既存の並列デコーダーの品質と遅延のトレードオフを改善し、多くの場合、精度を維持または向上させながら関数評価の数を削減することが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Supportive Token Revealing for Fast Diffusion Language Model Decoding</p>
        <p class="orig-summary">Discrete diffusion language models can generate text efficiently by updating multiple masked positions in parallel, but this parallelism introduces a quality-latency trade-off. Aggressive decoding may commit mutually dependent tokens too early, while conservative decoding requires many denoising steps. Existing methods address this tension by deciding which tokens are safe to reveal using confidence or dependency criteria. However, avoiding unsafe commits does not necessarily make the remaining masked sequence easy to decode, since uncertain tokens may depend on masked tokens, creating a bottleneck for denoising steps. We propose AXON, a training-free module that can be added on top of existing parallel decoding strategies for diffusion language models. Rather than replacing the base decoder, AXON monitors the remaining uncertain masked tokens and intervenes only when their current state suggests that additional context is needed. It then shifts the criterion from which tokens are safest to reveal to which confident reveals would best support later denoising. AXON selects anchors, confident masked tokens that uncertain positions attend to, using attention, uncertainty, and confidence signals. Experiments on reasoning and code-generation benchmarks across multiple diffusion language models show that AXON improves the quality-latency trade-off of existing parallel decoders, often reducing the number of function evaluations while maintaining or improving accuracy.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="26d1c70b6461" data-article-url="https://arxiv.org/abs/2606.04238" data-article-title="Recover-LoRA for Aggressive Quantization: Reclaiming Accuracy in 2-Bit Language Models via Low-Rank Adaptation with Knowledge Distillation on Synthetic Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04238" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04238" target="_blank" rel="noopener">Recover-LoRA for Aggressive Quantization: Reclaiming Accuracy in 2-Bit Language Models via Low-Rank Adaptation with Knowledge Distillation on Synthetic Data</a></h3>
      <p class="summary">Aggressive weight quantization to 2-bit precision offers substantial throughput and memory gains for large language model (LLM) inference,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cffbfb86876f" data-article-url="https://arxiv.org/abs/2606.04240" data-article-title="Overview of the EReL@MIR 2025 Multimodal Document Retrieval Challenge (Track 1)" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04240" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04240" target="_blank" rel="noopener">Overview of the EReL@MIR 2025 Multimodal Document Retrieval Challenge (Track 1)</a></h3>
      <p class="summary">Retrieval over visually-rich documents, pages that interleave text with figures, tables, and charts, is essential for multimodal retrieval-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9072005a7f8e" data-article-url="https://arxiv.org/abs/2606.04262" data-article-title="Can I Take Another Dose? Evaluating LLM Decision-Making Under Temporal Uncertainty in OTC Dosing QA" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04262" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04262" target="_blank" rel="noopener">Can I Take Another Dose? Evaluating LLM Decision-Making Under Temporal Uncertainty in OTC Dosing QA</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly used for everyday health questions, including whether a user can safely take another dose of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cee92abba191" data-article-url="https://arxiv.org/abs/2606.04269" data-article-title="Instant-Fold: In-Context Imitation Learning for Deformable Object Manipulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04269" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04269" target="_blank" rel="noopener">Instant-Fold: In-Context Imitation Learning for Deformable Object Manipulation</a></h3>
      <p class="summary">Deformable object manipulation (DOM) is challenging due to high-dimensional, partially observable states that evolve through long-horizon,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8a6fc2e475fb" data-article-url="https://arxiv.org/abs/2606.04271" data-article-title="StandardE2E: A Unified Framework for End-to-End Autonomous Driving Datasets" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04271" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04271" target="_blank" rel="noopener">StandardE2E: A Unified Framework for End-to-End Autonomous Driving Datasets</a></h3>
      <p class="summary">Autonomous driving has shifted from modular perception-prediction-planning stacks toward end-to-end (E2E) models that map sensor inputs dir…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4104ba242f79" data-article-url="https://arxiv.org/abs/2606.04275" data-article-title="From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04275" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04275" target="_blank" rel="noopener">From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments</a></h3>
      <p class="summary">We present a novel theoretical framework for deep reinforcement learning (RL) in continuous environments by modeling the problem as a conti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9c262d524663" data-article-url="https://arxiv.org/abs/2606.04280" data-article-title="The Loss Is Not Enough: Sampling Conditions and Inductive Bias in Contrastive Representation Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04280" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04280" target="_blank" rel="noopener">The Loss Is Not Enough: Sampling Conditions and Inductive Bias in Contrastive Representation Learning</a></h3>
      <p class="summary">Contrastive learning has become a leading paradigm for self-supervised representation learning, yet the conditions under which it recovers…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="548003b2e2b8" data-article-url="https://arxiv.org/abs/2606.04284" data-article-title="Sparse Mixture-of-Experts Reward Models Learn Interpretable and Specialized Experts for Personalized Preference Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04284" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04284" target="_blank" rel="noopener">Sparse Mixture-of-Experts Reward Models Learn Interpretable and Specialized Experts for Personalized Preference Modeling</a></h3>
      <p class="summary">Preference modeling plays a central role in reinforcement learning from human feedback (RLHF), enabling large language models (LLMs) to ali…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c86cebb332f" data-article-url="https://arxiv.org/abs/2606.04287" data-article-title="Scaling Novel Graph Generation via Lightweight Structure-Guided Autoregressive Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04287" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04287" target="_blank" rel="noopener">Scaling Novel Graph Generation via Lightweight Structure-Guided Autoregressive Models</a></h3>
      <p class="summary">Generating realistic and diverse graphs is a key problem in machine learning, with applications in molecular discovery, circuit design, cyb…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="114f81752488" data-article-url="https://arxiv.org/abs/2606.04298" data-article-title="Anycast Performance in Context" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04298" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04298" target="_blank" rel="noopener">Anycast Performance in Context</a></h3>
      <p class="summary">IP anycast lets a service advertise one address from many physical sites, leaving BGP to map each client to a site. It is central to the DN…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="66649930ce83" data-article-url="https://arxiv.org/abs/2606.04320" data-article-title="OpenRFM: Dissecting Relational In-Context Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04320" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04320" target="_blank" rel="noopener">OpenRFM: Dissecting Relational In-Context Learning</a></h3>
      <p class="summary">Relational Foundation Models (RFMs) promise a single pre-trained predictor that, given any relational database, returns predictions in one…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3116f928dba3" data-article-url="https://arxiv.org/abs/2606.04326" data-article-title="Measuring What Matters: Synthetic Benchmarks for Concept Bottleneck Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04326" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04326" target="_blank" rel="noopener">Measuring What Matters: Synthetic Benchmarks for Concept Bottleneck Models</a></h3>
      <p class="summary">Concept bottleneck models predict outcomes from high-level concepts detected in inputs. Although concepts provide a simple way to reap bene…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d1156f72b8a5" data-article-url="https://arxiv.org/abs/2606.04327" data-article-title="A Geometric Characterization of the Stationary Plateau for Two-Layer Neural Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04327" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04327" target="_blank" rel="noopener">A Geometric Characterization of the Stationary Plateau for Two-Layer Neural Networks</a></h3>
      <p class="summary">We investigate the geometric structure of stationary plateaus that arise in the loss landscape of two-layer neural networks with smooth act…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="adf58678e5f2" data-article-url="https://arxiv.org/abs/2606.04328" data-article-title="Generalizable Multi-Task Learning for Wireless Networks Using Prompt Decision Transformers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04328" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04328" target="_blank" rel="noopener">Generalizable Multi-Task Learning for Wireless Networks Using Prompt Decision Transformers</a></h3>
      <p class="summary">Future wireless networks demand rapid adaptation to highly heterogeneous environments and dynamic task configurations, necessitating a shif…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a6fc80be7ff7" data-article-url="https://arxiv.org/abs/2606.04329" data-article-title="From Untrusted Input to Trusted Memory: A Systematic Study of Memory Poisoning Attacks in LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04329" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04329" target="_blank" rel="noopener">From Untrusted Input to Trusted Memory: A Systematic Study of Memory Poisoning Attacks in LLM Agents</a></h3>
      <p class="summary">Memory is a core component of AI agents, enabling them to accumulate knowledge across interactions and improve performance. However, persis…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c772aec42164" data-article-url="https://arxiv.org/abs/2606.04342" data-article-title="Expectations vs. Realities: The Cost of MSE-Optimal Forecasting Under Conditional Uncertainty" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04342" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04342" target="_blank" rel="noopener">Expectations vs. Realities: The Cost of MSE-Optimal Forecasting Under Conditional Uncertainty</a></h3>
      <p class="summary">Multi-step time series forecasting (MSF) is commonly evaluated using point-wise error metrics such as mean squared error (MSE), implicitly…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="00132bfa99db" data-article-url="https://arxiv.org/abs/2606.04345" data-article-title="HYolo: An Intelligent IoT-Based Object Detection System Using Hypergraph Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04345" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04345" target="_blank" rel="noopener">HYolo: An Intelligent IoT-Based Object Detection System Using Hypergraph Learning</a></h3>
      <p class="summary">This paper presents HYolo, an intelligent IoT-based object detection framework that integrates hypergraph learning into the YOLO architectu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e27132dcebe4" data-article-url="https://arxiv.org/abs/2606.04349" data-article-title="MorphoQuant: Modality-Aware Quantization for Omni-modal Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04349" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04349" target="_blank" rel="noopener">MorphoQuant: Modality-Aware Quantization for Omni-modal Large Language Models</a></h3>
      <p class="summary">Conventional Post-Training Quantization (PTQ) methods struggle with 4-bit Omni-modal Large Language Models (OLLMs) due to the extreme distr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f8cd4e6e9475" data-article-url="https://arxiv.org/abs/2606.04365" data-article-title="Multi-Granularity 3D Kidney Lesion Characterization from CT Volumes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04365" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04365" target="_blank" rel="noopener">Multi-Granularity 3D Kidney Lesion Characterization from CT Volumes</a></h3>
      <p class="summary">Radiology reports describe kidney lesions by type, size, enhancement, and attenuation, yet existing 3D methods predict only at the patient…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="11627b76bb11" data-article-url="https://arxiv.org/abs/2606.04373" data-article-title="Selective Coupling of Decoupled Informative Regions: Masked Attention Alignment for Data-Free Quantization of Vision Transformers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04373" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04373" target="_blank" rel="noopener">Selective Coupling of Decoupled Informative Regions: Masked Attention Alignment for Data-Free Quantization of Vision Transformers</a></h3>
      <p class="summary">Data-Free Quantization (DFQ) addresses data security concerns by synthesizing samples, without accessing real data. It has garnered increas…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="36b49569326b" data-article-url="https://arxiv.org/abs/2606.04374" data-article-title="DSIRM: Learning Query-Bridged Discrete Semantic Identifiers for E-commerce Relevance Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04374" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04374" target="_blank" rel="noopener">DSIRM: Learning Query-Bridged Discrete Semantic Identifiers for E-commerce Relevance Modeling</a></h3>
      <p class="summary">Despite rapid progress of continuous embeddings for e-commerce search relevance, a long-standing open problem is the difficulty in capturin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4e1c4f199ac2" data-article-url="https://arxiv.org/abs/2606.04381" data-article-title="From Symbolic to Geometric: Enabling Spatial Reasoning in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04381" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04381" target="_blank" rel="noopener">From Symbolic to Geometric: Enabling Spatial Reasoning in Large Language Models</a></h3>
      <p class="summary">Recent large language models (LLMs) often appear to exhibit spatial reasoning ability; however, this capability is largely \emph{symbolic},…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dd5c737f457d" data-article-url="https://arxiv.org/abs/2606.04382" data-article-title="LCSHBench: A Multilingual, Consensus-Grounded Benchmark for Library of Congress Subject Heading Assignment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-regulation">規制/政策</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04382" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04382" target="_blank" rel="noopener">LCSHBench: A Multilingual, Consensus-Grounded Benchmark for Library of Congress Subject Heading Assignment</a></h3>
      <p class="summary">Automated subject cataloging assigns controlledvocabulary headings to bibliographic records, but LCSH has no standard public benchmark. We…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d531a61aeeb0" data-article-url="https://arxiv.org/abs/2606.04387" data-article-title="Rethinking Sales Lead Scoring with LLM-based Hierarchical Preference Ranking" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04387" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04387" target="_blank" rel="noopener">Rethinking Sales Lead Scoring with LLM-based Hierarchical Preference Ranking</a></h3>
      <p class="summary">Sales lead conversion in high-stakes domains (e.g., automotive, real estate) differs fundamentally from e-commerce recommendation due to pr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bc20ffd92203" data-article-url="https://arxiv.org/abs/2606.04388" data-article-title="TITAN-FedAnil+: Trust-Based Adaptive Blockchain Federated Learning for Resource-Constrained Intelligent Enterprises" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04388" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04388" target="_blank" rel="noopener">TITAN-FedAnil+: Trust-Based Adaptive Blockchain Federated Learning for Resource-Constrained Intelligent Enterprises</a></h3>
      <p class="summary">Federated Learning (FL) has emerged as an effective paradigm for collaborative intelligence while preserving data privacy. However, data he…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec7d43dfdf67" data-article-url="https://arxiv.org/abs/2606.04405" data-article-title="Low-Rank Decay for Grokking in Scale-Invariant Transformers: A Spectral-Geometric View" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04405" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04405" target="_blank" rel="noopener">Low-Rank Decay for Grokking in Scale-Invariant Transformers: A Spectral-Geometric View</a></h3>
      <p class="summary">Modern Transformer architectures frequently employ normalization mechanisms such as RMSNorm and Query-Key Normalization, making parts of th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="602afd922860" data-article-url="https://arxiv.org/abs/2606.04408" data-article-title="An Ensembled Latent Factor Model via Differential Evolution and Gradient Descent Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04408" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04408" target="_blank" rel="noopener">An Ensembled Latent Factor Model via Differential Evolution and Gradient Descent Optimization</a></h3>
      <p class="summary">High-dimensional and incomplete (HDI) data are prevalent in many real-world big data scenarios. Latent factor models serve as a common repr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a7e7f0f6d41" data-article-url="https://arxiv.org/abs/2606.04409" data-article-title="An Empirical Study of Data Scale, Model Complexity, and Input Modalities in Visual Generalization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04409" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04409" target="_blank" rel="noopener">An Empirical Study of Data Scale, Model Complexity, and Input Modalities in Visual Generalization</a></h3>
      <p class="summary">Modern deep neural networks usually have large parameter scales and nonlinear hierarchical structures, and they have achieved strong perfor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8b0b0793a9f1" data-article-url="https://arxiv.org/abs/2606.04419" data-article-title="L-TGVN: Leveraging Longitudinal Priors for Personalized Rapid MRI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04419" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04419" target="_blank" rel="noopener">L-TGVN: Leveraging Longitudinal Priors for Personalized Rapid MRI</a></h3>
      <p class="summary">MRI provides excellent soft-tissue contrast without ionizing radiation, but long acquisition times increase patient discomfort while also r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b679220f5538" data-article-url="https://arxiv.org/abs/2606.04425" data-article-title="What If Prompt Injection Never Left? Exploring Cross-Session Stored Prompt Injection in Agentic Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04425" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04425" target="_blank" rel="noopener">What If Prompt Injection Never Left? Exploring Cross-Session Stored Prompt Injection in Agentic Systems</a></h3>
      <p class="summary">Modern agentic systems transform LLMs from session-bounded assistants into stateful systems that persist and evolve shared world state acro…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ef45e9f46f31" data-article-url="https://arxiv.org/abs/2606.04438" data-article-title="LoopMoE: Unifying Iterative Computation with Mixture-of-Experts for Language Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04438" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04438" target="_blank" rel="noopener">LoopMoE: Unifying Iterative Computation with Mixture-of-Experts for Language Modeling</a></h3>
      <p class="summary">Mixture-of-Experts (MoE) and looped architectures scale models along two orthogonal axes, namely parameter capacity and effective depth. Ho…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bdab3ece89d4" data-article-url="https://arxiv.org/abs/2606.04442" data-article-title="MemoryDocDataSet: A Benchmark for Joint Conversational Memory and Long Document Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04442" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04442" target="_blank" rel="noopener">MemoryDocDataSet: A Benchmark for Joint Conversational Memory and Long Document Reasoning</a></h3>
      <p class="summary">AI systems increasingly need to combine two demanding capabilities: navigating multi-session conversation history and performing deep readi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9073837fcf8c" data-article-url="https://arxiv.org/abs/2606.04445" data-article-title="RowNet: A Memory Transformer for Tabular Regression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04445" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04445" target="_blank" rel="noopener">RowNet: A Memory Transformer for Tabular Regression</a></h3>
      <p class="summary">Real estate valuation is a structured regression problem in which prices are governed by heterogeneous feature types, sparse regional effec…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4435940b227" data-article-url="https://arxiv.org/abs/2606.04459" data-article-title="Token Rankings are Unforgeable Language Model Signatures" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04459" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04459" target="_blank" rel="noopener">Token Rankings are Unforgeable Language Model Signatures</a></h3>
      <p class="summary">Language model parameters are known to impose unique (to each model) geometric constraints on their logit outputs, which serves as a signat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f3d3a110132b" data-article-url="https://arxiv.org/abs/2606.04460" data-article-title="CyberGym-E2E: Scalable Real-World Benchmark for AI Agents&#x27; End-to-End Cybersecurity Capabilities" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04460" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04460" target="_blank" rel="noopener">CyberGym-E2E: Scalable Real-World Benchmark for AI Agents&#x27; End-to-End Cybersecurity Capabilities</a></h3>
      <p class="summary">AI has the potential to transform cybersecurity by enabling systems that can autonomously detect, analyze, and remediate software vulnerabi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="077e8f03d6dc" data-article-url="https://arxiv.org/abs/2606.04465" data-article-title="SePO: Self-Evolving Prompt Agent for System Prompt Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04465" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04465" target="_blank" rel="noopener">SePO: Self-Evolving Prompt Agent for System Prompt Optimization</a></h3>
      <p class="summary">System prompt optimization improves agent behavior without modifying the underlying model, yielding human-readable, model-agnostic instruct…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c7c78d4db8a0" data-article-url="https://arxiv.org/abs/2606.04468" data-article-title="ParetoPilot: Zero-Surrogate Offline Multi-Objective Optimization via Infer-Perturb-Guide Diffusion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04468" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04468" target="_blank" rel="noopener">ParetoPilot: Zero-Surrogate Offline Multi-Objective Optimization via Infer-Perturb-Guide Diffusion</a></h3>
      <p class="summary">Offline multi-objective optimization (Offline MOO) aims to discover novel Pareto-optimal designs based on static datasets without expensive…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e003729ed0c7" data-article-url="https://arxiv.org/abs/2606.04469" data-article-title="Adaptive Calibration for Fair and Performant Facial Recognition" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04469" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04469" target="_blank" rel="noopener">Adaptive Calibration for Fair and Performant Facial Recognition</a></h3>
      <p class="summary">We introduce Adaptive Calibration (AC), a novel calibration strategy for facial recognition that maps cosine similarity between normalized…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d5062b94ed3a" data-article-url="https://arxiv.org/abs/2606.04473" data-article-title="ChessMimic: Per-Rating Transformer Models for Human Move, Clock, and Outcome Prediction in Online Blitz Chess" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04473" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04473" target="_blank" rel="noopener">ChessMimic: Per-Rating Transformer Models for Human Move, Clock, and Outcome Prediction in Online Blitz Chess</a></h3>
      <p class="summary">We present ChessMimic, a system of three small encoder-only transformers - for move, thinking-time, and outcome prediction - conditioned on…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3d8dd49e2c05" data-article-url="https://arxiv.org/abs/2606.04479" data-article-title="Evaluating Reasoning Fidelity in Visual Text Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04479" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04479" target="_blank" rel="noopener">Evaluating Reasoning Fidelity in Visual Text Generation</a></h3>
      <p class="summary">Recent text-to-image (T2I) models can render highly legible and well-structured text within images, enabling applications including documen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e62a9266fc33" data-article-url="https://arxiv.org/abs/2606.04493" data-article-title="SFMambaNet: Spectral-Frequency Enhanced Selective State Space Model for Correspondence Pruning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04493" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04493" target="_blank" rel="noopener">SFMambaNet: Spectral-Frequency Enhanced Selective State Space Model for Correspondence Pruning</a></h3>
      <p class="summary">Correspondence pruning aims to identify inliers from an initial set of correspondences. Most existing Graph Neural Network (GNN)-based meth…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="93dadda3548d" data-article-url="https://arxiv.org/abs/2606.04503" data-article-title="Smart Picks in the Dark: Towards Efficient RLVR for Reasoning via Tracing Metacognitive Pivots" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04503" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04503" target="_blank" rel="noopener">Smart Picks in the Dark: Towards Efficient RLVR for Reasoning via Tracing Metacognitive Pivots</a></h3>
      <p class="summary">Reinforcement learning with verifiable rewards (RLVR) has greatly advanced large reasoning models (LRMs), but it requires timely training o…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0dba22b7259d" data-article-url="https://arxiv.org/abs/2606.04507" data-article-title="Self-Evolving Deep Research via Joint Generation and Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04507" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04507" target="_blank" rel="noopener">Self-Evolving Deep Research via Joint Generation and Evaluation</a></h3>
      <p class="summary">Large Language Models (LLMs) have become increasingly adopted in daily applications, with deep research standing out as a particularly impo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2632531b870" data-article-url="https://arxiv.org/abs/2606.04516" data-article-title="GeoMin: Data-Efficient Semi-Supervised RLVR via Geometric Distribution Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04516" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04516" target="_blank" rel="noopener">GeoMin: Data-Efficient Semi-Supervised RLVR via Geometric Distribution Modeling</a></h3>
      <p class="summary">Reinforcement learning with verifiable rewards (RLVR) significantly advances LLM reasoning, yet it faces a dilemma: standard supervised sca…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="421594baf20b" data-article-url="https://arxiv.org/abs/2606.04517" data-article-title="Treat Traffic Like Trees: A Semantic-Preserving Hierarchical Graph-Based Expert Framework for Encrypted Traffic Analysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04517" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04517" target="_blank" rel="noopener">Treat Traffic Like Trees: A Semantic-Preserving Hierarchical Graph-Based Expert Framework for Encrypted Traffic Analysis</a></h3>
      <p class="summary">Graph-based deep learning methods have been widely employed in encrypted traffic analysis to exploit latent correlations across different g…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79c94fcf9b06" data-article-url="https://arxiv.org/abs/2606.04522" data-article-title="ANN Search: Recall What Matters" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04522" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04522" target="_blank" rel="noopener">ANN Search: Recall What Matters</a></h3>
      <p class="summary">Approximate nearest neighbor (ANN) search has become a core primitive in information retrieval and modern machine learning tasks, from clas…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c74fab430896" data-article-url="https://arxiv.org/abs/2606.04528" data-article-title="Optical-Guided Neural Collapse for SAR Few-Shot Class Incremental Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04528" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04528" target="_blank" rel="noopener">Optical-Guided Neural Collapse for SAR Few-Shot Class Incremental Learning</a></h3>
      <p class="summary">Few-shot class-incremental learning (FSCIL) in synthetic aperture radar imagery presents unique challenges due to severe data scarcity and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="49ca1a64f5f9" data-article-url="https://arxiv.org/abs/2606.04535" data-article-title="Dynamic Infilling Anchors for Format-Constrained Generation in Diffusion Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04535" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04535" target="_blank" rel="noopener">Dynamic Infilling Anchors for Format-Constrained Generation in Diffusion Large Language Models</a></h3>
      <p class="summary">Diffusion large language models (dLLMs) offer bidirectional attention and parallel generation, enabling them to exploit global context and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="12c2514b05ad" data-article-url="https://arxiv.org/abs/2606.04555" data-article-title="Temporal Order Matters for Agentic Memory: Segment Trees for Long-Horizon Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04555" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04555" target="_blank" rel="noopener">Temporal Order Matters for Agentic Memory: Segment Trees for Long-Horizon Agents</a></h3>
      <p class="summary">Long-horizon conversational agents need to interact with users through evolving events, tasks, and goals. Such histories are naturally temp…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a12c33826a9d" data-article-url="https://arxiv.org/abs/2606.04560" data-article-title="Rollout-Level Advantage-Prioritized Experience Replay for GRPO" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04560" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04560" target="_blank" rel="noopener">Rollout-Level Advantage-Prioritized Experience Replay for GRPO</a></h3>
      <p class="summary">Reinforcement learning from verifiable rewards with GRPO is a standard approach for post-training reasoning LLMs. It remains sample ineffic…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="93e6834e9764" data-article-url="https://arxiv.org/abs/2606.04581" data-article-title="Multi-SPIN: Multi-Access Speculative Inference for Cooperative Token Generation at the Edge" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04581" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04581" target="_blank" rel="noopener">Multi-SPIN: Multi-Access Speculative Inference for Cooperative Token Generation at the Edge</a></h3>
      <p class="summary">Speculative inference (SPIN) was originally developed as an efficient architecture to accelerate Large Language Models (LLMs). In this work…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="35af905920f9" data-article-url="https://arxiv.org/abs/2606.04592" data-article-title="Synthetic Personalities: How Well Can LLMs Mimic Individual Respondents Using Socio-Economic Microdata?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04592" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04592" target="_blank" rel="noopener">Synthetic Personalities: How Well Can LLMs Mimic Individual Respondents Using Socio-Economic Microdata?</a></h3>
      <p class="summary">LLM-based digital twins promise to scale and accelerate market research, but most published twins are either coarse persona bots conditione…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="59c9add8e9d7" data-article-url="https://arxiv.org/abs/2606.04594" data-article-title="Ekka: Automated Diagnosis of Silent Errors in LLM Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04594" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04594" target="_blank" rel="noopener">Ekka: Automated Diagnosis of Silent Errors in LLM Inference</a></h3>
      <p class="summary">LLM serving frameworks are quickly evolving with a complex software stack and a vast number of optimizations. The rapid development process…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="88338e771780" data-article-url="https://arxiv.org/abs/2606.04620" data-article-title="QuBLAST: A Framework for Quantizing Large Language Models with Block-Level Compression Approach and Activation Scaling Strategy" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04620" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04620" target="_blank" rel="noopener">QuBLAST: A Framework for Quantizing Large Language Models with Block-Level Compression Approach and Activation Scaling Strategy</a></h3>
      <p class="summary">LLMs have become the state-of-the-art algorithms for solving NLP tasks. However, they typically come at huge computational and memory costs…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8995a7c99283" data-article-url="https://arxiv.org/abs/2606.04646" data-article-title="QO-Bench: Diagnosing Query-Operator-Preserving Retrieval over Typed Event Tuples" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04646" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04646" target="_blank" rel="noopener">QO-Bench: Diagnosing Query-Operator-Preserving Retrieval over Typed Event Tuples</a></h3>
      <p class="summary">Many real-world questions over business, legal, and scientific corpora are natural-language versions of database-style queries over records…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1238167ccca2" data-article-url="https://arxiv.org/abs/2606.04656" data-article-title="Instance-Level Post Hoc Uncertainty Quantification in Object Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04656" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04656" target="_blank" rel="noopener">Instance-Level Post Hoc Uncertainty Quantification in Object Detection</a></h3>
      <p class="summary">Object detection is a safety-critical component of autonomous driving. It is essential to quantify the uncertainty in bounding-box predicti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6cca76e915da" data-article-url="https://arxiv.org/abs/2606.04662" data-article-title="Why Muon Outperforms Adam: A Curvature Perspective" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04662" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04662" target="_blank" rel="noopener">Why Muon Outperforms Adam: A Curvature Perspective</a></h3>
      <p class="summary">Muon improves training efficiency over Adam in large language-model training by about two times, but the local geometric source of this adv…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9cb478d4cba1" data-article-url="https://arxiv.org/abs/2606.04672" data-article-title="Learning Long Range Spatio-Temporal Representations over Continuous Time Dynamic Graphs with State Space Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04672" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04672" target="_blank" rel="noopener">Learning Long Range Spatio-Temporal Representations over Continuous Time Dynamic Graphs with State Space Models</a></h3>
      <p class="summary">Continuous-time dynamic graphs (CTDGs) provide a richer framework to capture fine-grained temporal patterns in evolving relational data. Lo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="419d7771b1ae" data-article-url="https://arxiv.org/abs/2606.04684" data-article-title="Real-Time Automatic License Plate Recognition Using YOLOv8, SORT Tracking, and Temporal Data Interpolation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04684" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04684" target="_blank" rel="noopener">Real-Time Automatic License Plate Recognition Using YOLOv8, SORT Tracking, and Temporal Data Interpolation</a></h3>
      <p class="summary">The real-time hardships of video processing seriously limit the usage of Automatic License Plate Recognition (ALPR) with application in dyn…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="abf120852471" data-article-url="https://arxiv.org/abs/2606.04699" data-article-title="Graph-Guided Universum Learning in Generalized Eigenvalue Proximal SVMs for Alzheimer&#x27;s Disease Classification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04699" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04699" target="_blank" rel="noopener">Graph-Guided Universum Learning in Generalized Eigenvalue Proximal SVMs for Alzheimer&#x27;s Disease Classification</a></h3>
      <p class="summary">Early and accurate detection of Alzheimer&#x27;s disease (AD) is important for timely intervention and disease management. Generalized Eigenvalu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c4c1a3b9054" data-article-url="https://arxiv.org/abs/2606.04705" data-article-title="Enhancing MedSAM with a Lightweight Box Predictor for Medical Image Segmentation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04705" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04705" target="_blank" rel="noopener">Enhancing MedSAM with a Lightweight Box Predictor for Medical Image Segmentation</a></h3>
      <p class="summary">Semantic segmentation in medical imaging is a critical yet challenging task due to data scarcity and high variability across modalities. Wh…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f9dff779020" data-article-url="https://arxiv.org/abs/2606.04708" data-article-title="VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04708" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04708" target="_blank" rel="noopener">VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training</a></h3>
      <p class="summary">Universal Manipulation Interface (UMI) enables scalable real-world robot data collection without hardware-specific teleoperation, yet lever…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="72fd54ca1281" data-article-url="https://arxiv.org/abs/2606.04718" data-article-title="CoRe-MoE: Contrastive Reweighted Mixture of Experts for Multi-Terrain Humanoid Locomotion with Gait Adaptation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04718" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04718" target="_blank" rel="noopener">CoRe-MoE: Contrastive Reweighted Mixture of Experts for Multi-Terrain Humanoid Locomotion with Gait Adaptation</a></h3>
      <p class="summary">Humans primarily rely on walking and running to traverse complex terrains, without resorting to unnecessarily complex motion patterns. Simi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9ad54108b804" data-article-url="https://arxiv.org/abs/2606.04735" data-article-title="Trace-Mediated Peak Bias: Bridging Temporal Credit Assignment and Cognitive Heuristics in Deep Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04735" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04735" target="_blank" rel="noopener">Trace-Mediated Peak Bias: Bridging Temporal Credit Assignment and Cognitive Heuristics in Deep Reinforcement Learning</a></h3>
      <p class="summary">Temporal credit assignment is central to both biological and artificial intelligence, yet its interaction with non-linear function approxim…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="141ac4410830" data-article-url="https://arxiv.org/abs/2606.04736" data-article-title="Curvature-aware dynamic precision approach for physics-informed neural networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04736" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04736" target="_blank" rel="noopener">Curvature-aware dynamic precision approach for physics-informed neural networks</a></h3>
      <p class="summary">Physics-informed neural networks (PINNs) have become a promising framework for simulating partial differential equations (PDEs) by embeddin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d0407a411c82" data-article-url="https://arxiv.org/abs/2606.04739" data-article-title="Revisiting Vul-RAG: Reproducibility and Replicability of RAG-based Vulnerability Detection with Open-Weight Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04739" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04739" target="_blank" rel="noopener">Revisiting Vul-RAG: Reproducibility and Replicability of RAG-based Vulnerability Detection with Open-Weight Models</a></h3>
      <p class="summary">Large language models (LLMs) have shown strong potential for automated software vulnerability detection, particularly in retrieval-augmente…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a9820968dda" data-article-url="https://arxiv.org/abs/2606.04743" data-article-title="TIDE: Proactive Multi-Problem Discovery via Template-Guided Iteration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04743" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04743" target="_blank" rel="noopener">TIDE: Proactive Multi-Problem Discovery via Template-Guided Iteration</a></h3>
      <p class="summary">Agents are widely deployed as assistants over documents, tools, and code. However, they typically act only on explicit user requests, which…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e4cfc66ea53c" data-article-url="https://arxiv.org/abs/2606.04752" data-article-title="An Empirical Audit of Input Encoders for Multi-Channel Signal Transformers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04752" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04752" target="_blank" rel="noopener">An Empirical Audit of Input Encoders for Multi-Channel Signal Transformers</a></h3>
      <p class="summary">Transformers consuming multi-channel scalar signals must embed $C$ simultaneous values into one $d_{\text{model}}$-dimensional vector per t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="13c5bd573e3f" data-article-url="https://arxiv.org/abs/2606.04755" data-article-title="Archi: Agentic Operations at the CMS Experiment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04755" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04755" target="_blank" rel="noopener">Archi: Agentic Operations at the CMS Experiment</a></h3>
      <p class="summary">We present Archi, an open-source, end-to-end framework for scientific collaborations that combines the systematic ingestion and organizatio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dce176a6b2ed" data-article-url="https://arxiv.org/abs/2606.04769" data-article-title="Description-Code Inconsistency in Real-world MCP Servers: Measurement, Detection, and Security Implications" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04769" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04769" target="_blank" rel="noopener">Description-Code Inconsistency in Real-world MCP Servers: Measurement, Detection, and Security Implications</a></h3>
      <p class="summary">The Model Context Protocol (MCP) has emerged as a critical standard empowering Large Language Models (LLMs) to utilize external tools. In t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0295f812911d" data-article-url="https://arxiv.org/abs/2606.04772" data-article-title="Coarse-to-fine Hierarchical Architecture with Sequential Mamba for Brain Reconstruction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04772" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04772" target="_blank" rel="noopener">Coarse-to-fine Hierarchical Architecture with Sequential Mamba for Brain Reconstruction</a></h3>
      <p class="summary">Understanding the relationship between deep visual representations and the human visual system is a fundamental challenge in computational…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0e61a74bb903" data-article-url="https://arxiv.org/abs/2606.04775" data-article-title="Activation Steering of Video Generation Models via Reduced-Order Linear Optimal Control" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04775" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04775" target="_blank" rel="noopener">Activation Steering of Video Generation Models via Reduced-Order Linear Optimal Control</a></h3>
      <p class="summary">Text-to-video (T2V) models trained on large-scale web data can generate undesired content, motivating interventions that reduce harmful out…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="db973afe2d6b" data-article-url="https://arxiv.org/abs/2606.04806" data-article-title="NoRA: Evaluating Grounded Reasonableness in Visual First-person Normative Action Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04806" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04806" target="_blank" rel="noopener">NoRA: Evaluating Grounded Reasonableness in Visual First-person Normative Action Reasoning</a></h3>
      <p class="summary">LLMs and agentic systems are increasingly deployed in social environments, making normative competence critical for safe and appropriate be…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f82b56c4090e" data-article-url="https://arxiv.org/abs/2606.04812" data-article-title="Scenario Generation for Risk-Aware Reinforcement Learning with Probably Approximately Safe Guarantees" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04812" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04812" target="_blank" rel="noopener">Scenario Generation for Risk-Aware Reinforcement Learning with Probably Approximately Safe Guarantees</a></h3>
      <p class="summary">Guaranteeing safety is critical to the deployment of reinforcement learning (RL) agents in the real-world, especially as policies learned u…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="86dca185ac4a" data-article-url="https://arxiv.org/abs/2606.04815" data-article-title="Learning While Acting: A Skill-Enhanced Test-Time Co-Evolution Framework for Online Lifelong Learning Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04815" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04815" target="_blank" rel="noopener">Learning While Acting: A Skill-Enhanced Test-Time Co-Evolution Framework for Online Lifelong Learning Agents</a></h3>
      <p class="summary">Lifelong learning is essential for Large Language Model (LLM) agents operating in dynamic, interactive environments. However, existing life…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="300b6f703ca6" data-article-url="https://arxiv.org/abs/2606.04820" data-article-title="OA-CutMix: Correcting the Label Bias of CutMix" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04820" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04820" target="_blank" rel="noopener">OA-CutMix: Correcting the Label Bias of CutMix</a></h3>
      <p class="summary">CutMix has become the de facto standard mixing augmentation, yet its label assignment rests on a flawed assumption: The area of the pasted…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0fc29b5e081d" data-article-url="https://arxiv.org/abs/2606.04833" data-article-title="Signed Dual Attention: Capturing Signed Dependencies in Time Series Forecasting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04833" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04833" target="_blank" rel="noopener">Signed Dual Attention: Capturing Signed Dependencies in Time Series Forecasting</a></h3>
      <p class="summary">Initially developed for natural language processing, Transformer architectures and attention mechanisms are now central to a wide range of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c39d8c94260a" data-article-url="https://arxiv.org/abs/2606.04850" data-article-title="Uncertainty-Aware End-to-End Co-Design of Neural Network Processors: From Training and Mapping to Fabrication" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04850" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04850" target="_blank" rel="noopener">Uncertainty-Aware End-to-End Co-Design of Neural Network Processors: From Training and Mapping to Fabrication</a></h3>
      <p class="summary">Designing a neural network processor is an end-to-end co-design problem: network architecture and training budget determine the inference w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="806235e5470c" data-article-url="https://arxiv.org/abs/2606.04860" data-article-title="Learning Empirically Admissible Neural Heuristics for Combinatorial Search" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04860" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04860" target="_blank" rel="noopener">Learning Empirically Admissible Neural Heuristics for Combinatorial Search</a></h3>
      <p class="summary">Finding optimal solution paths for combinatorial puzzles like the Rubik&#x27;s Cube, sliding tile puzzles, and Lights Out remains a classical ch…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ca324dcd5fba" data-article-url="https://arxiv.org/abs/2606.04877" data-article-title="Abduction Prover in Isabelle/HOL" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04877" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04877" target="_blank" rel="noopener">Abduction Prover in Isabelle/HOL</a></h3>
      <p class="summary">Proof assistants based on expressive logics suffer limited automation for proof search, raising the cost of formal verification based on pr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec637d90f307" data-article-url="https://arxiv.org/abs/2606.04881" data-article-title="DiverAge: Reliable Pluralistic Face Aging with Cross-Age Identity Relation Guidance" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04881" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04881" target="_blank" rel="noopener">DiverAge: Reliable Pluralistic Face Aging with Cross-Age Identity Relation Guidance</a></h3>
      <p class="summary">Face aging plays an important role in long-term biometric analysis, cross-age identity verification, and forensic identity analysis. Since…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="94e506aadee4" data-article-url="https://arxiv.org/abs/2606.04903" data-article-title="Provably Auditable and Safe LLM Agents from Human-Authored Ontologies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04903" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04903" target="_blank" rel="noopener">Provably Auditable and Safe LLM Agents from Human-Authored Ontologies</a></h3>
      <p class="summary">We introduce the LLM agent architecture Agentic Redux, intended for use with nontrivial problem domains that require linear auditability. U…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0314151984da" data-article-url="https://arxiv.org/abs/2606.04906" data-article-title="&#x27;Your AI Text is not Mine&#x27;: Redefining and Evaluating AI-generated Text Detection under Realistic Assumptions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04906" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04906" target="_blank" rel="noopener">&#x27;Your AI Text is not Mine&#x27;: Redefining and Evaluating AI-generated Text Detection under Realistic Assumptions</a></h3>
      <p class="summary">Although it is generally agreed that AI-generated text poses a broad societal risk, there is no common understanding in the AI-generated te…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ae8a1708aa85" data-article-url="https://arxiv.org/abs/2606.04922" data-article-title="Geometry-Aware Distillation for Prompt Tuning Biomedical Vision-Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04922" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04922" target="_blank" rel="noopener">Geometry-Aware Distillation for Prompt Tuning Biomedical Vision-Language Models</a></h3>
      <p class="summary">Current prompt-based and adapter-based tuning of vision-language models (VLMs) is attractive for medical imaging, where clinical data sensi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5527419a12d8" data-article-url="https://arxiv.org/abs/2606.04923" data-article-title="Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04923" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04923" target="_blank" rel="noopener">Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning</a></h3>
      <p class="summary">Rubric-based reinforcement learning (RL) uses an LLM-as-a-Judge (LaaJ) to score model outputs according to rubrics as rewards. However, pol…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d8d6628ffe9b" data-article-url="https://arxiv.org/abs/2606.04930" data-article-title="AdaKoop: Efficient Modeling of Nonlinear Dynamics from Nonstationary Data Streams with Koopman Operator Regression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04930" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04930" target="_blank" rel="noopener">AdaKoop: Efficient Modeling of Nonlinear Dynamics from Nonstationary Data Streams with Koopman Operator Regression</a></h3>
      <p class="summary">Real-time data analysis requires the ability to accurately and adaptively address nonlinear dynamics in a nonstationary data stream while p…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f144a0086597" data-article-url="https://arxiv.org/abs/2606.04967" data-article-title="From Prompt to Process: a Process Taxonomy and Comparative Assessment of Frameworks Supporting AI Software Development Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04967" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04967" target="_blank" rel="noopener">From Prompt to Process: a Process Taxonomy and Comparative Assessment of Frameworks Supporting AI Software Development Agents</a></h3>
      <p class="summary">AI tools for programming are no longer just autocomplete or chat assistants: they organize themselves as development frameworks, with proce…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="49a974def989" data-article-url="https://arxiv.org/abs/2606.04970" data-article-title="Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04970" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04970" target="_blank" rel="noopener">Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance</a></h3>
      <p class="summary">We envision a proactive multi-modal assistant system which gives users real-time step-by-step guidance on a procedural task, autonomously d…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="596b21ea0e66" data-article-url="https://arxiv.org/abs/2606.04987" data-article-title="DeliChess: A Multi-party Dialogue Dataset for Deliberation in Chess Puzzle Solving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04987" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04987" target="_blank" rel="noopener">DeliChess: A Multi-party Dialogue Dataset for Deliberation in Chess Puzzle Solving</a></h3>
      <p class="summary">Multi-party dialogue is a critical setting for studying collaborative reasoning and decision-making, yet existing datasets rarely focus on…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a6ec13062516" data-article-url="https://arxiv.org/abs/2606.04990" data-article-title="From Agent Traces to Trust: Evidence Tracing and Execution Provenance in LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.04990" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.04990" target="_blank" rel="noopener">From Agent Traces to Trust: Evidence Tracing and Execution Provenance in LLM Agents</a></h3>
      <p class="summary">Large language model (LLM)-based agents increasingly solve complex tasks by interacting with external tools, retrieval systems, memory modu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="13045a16df35" data-article-url="https://arxiv.org/abs/2606.05004" data-article-title="SharedRequest: Privacy-Preserving Model-Agnostic Inference for Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05004" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05004" target="_blank" rel="noopener">SharedRequest: Privacy-Preserving Model-Agnostic Inference for Large Language Models</a></h3>
      <p class="summary">With the widespread deployment of public large language models (LLMs) such as ChatGPT, protecting user prompt privacy has become an increas…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a21bb38d65bf" data-article-url="https://arxiv.org/abs/2606.05008" data-article-title="M$^3$Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05008" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05008" target="_blank" rel="noopener">M$^3$Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks</a></h3>
      <p class="summary">As multi-modal models advance towards long-form video understanding, memory emerges as a critical capability. Despite substantial efforts i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8ead47b66172" data-article-url="https://arxiv.org/abs/2606.05009" data-article-title="DAR: Deontic Reasoning with Agentic Harnesses" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05009" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05009" target="_blank" rel="noopener">DAR: Deontic Reasoning with Agentic Harnesses</a></h3>
      <p class="summary">Deontic reasoning is the task of answering questions by applying explicit rules and policies to case-specific facts, for example computing…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2d8053aaf23d" data-article-url="https://arxiv.org/abs/2606.05025" data-article-title="Invariant Gradient Alignment for Robust Reasoning Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05025" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05025" target="_blank" rel="noopener">Invariant Gradient Alignment for Robust Reasoning Distillation</a></h3>
      <p class="summary">Large language models (LLMs) suffer from shortcut learning: they systematically fail on out-of-distribution (OOD) inputs whose semantic sur…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c0194cdc522" data-article-url="https://arxiv.org/abs/2606.05037" data-article-title="Self-Reflective APIs: Structure Beats Verbosity for AI Agent Recovery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05037" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05037" target="_blank" rel="noopener">Self-Reflective APIs: Structure Beats Verbosity for AI Agent Recovery</a></h3>
      <p class="summary">When an AI agent calls an API and hits a validation error, it needs more than what went wrong -- it needs what to do next. A self-reflectiv…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ded8a4bebda4" data-article-url="https://arxiv.org/abs/2606.05058" data-article-title="UniCAD: A Unified Benchmark and Universal Model for Multi-Modal Multi-Task CAD" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05058" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05058" target="_blank" rel="noopener">UniCAD: A Unified Benchmark and Universal Model for Multi-Modal Multi-Task CAD</a></h3>
      <p class="summary">Computer-Aided Design (CAD) underpins modern engineering and manufacturing by enabling the creation of precise, editable 3D models. However…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3071054e3e86" data-article-url="https://arxiv.org/abs/2606.05085" data-article-title="Automatic Generation of Titles for Research Papers Using Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05085" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05085" target="_blank" rel="noopener">Automatic Generation of Titles for Research Papers Using Language Models</a></h3>
      <p class="summary">The title of a research paper conveys its primary idea and, occasionally, its conclusions in a clear and concise manner. Choosing an approp…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="190ddac5504c" data-article-url="https://arxiv.org/abs/2606.05106" data-article-title="Arithmetic Pedagogy for Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05106" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05106" target="_blank" rel="noopener">Arithmetic Pedagogy for Language Models</a></h3>
      <p class="summary">We investigate whether methods of human mathematics pedagogy can guide the training of language models toward arithmetic reasoning. Buildin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1e616a4ec588" data-article-url="https://arxiv.org/abs/2606.05107" data-article-title="Who Needs Labels? Adapting Vision Foundation Models With the Metadata You Already Have" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05107" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05107" target="_blank" rel="noopener">Who Needs Labels? Adapting Vision Foundation Models With the Metadata You Already Have</a></h3>
      <p class="summary">We propose a label-free approach to adapt powerful but generic vision foundation models to specialized scientific domains. Standard supervi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="10af44f002f7" data-article-url="https://arxiv.org/abs/2606.05115" data-article-title="Continual Visual and Verbal Learning Through a Child&#x27;s Egocentric Input" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05115" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05115" target="_blank" rel="noopener">Continual Visual and Verbal Learning Through a Child&#x27;s Egocentric Input</a></h3>
      <p class="summary">Children learn the meanings of words from a continuous, temporally structured stream of egocentric experience. Recent work shows that neura…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="426518b2a7c7" data-article-url="https://arxiv.org/abs/2606.05121" data-article-title="Audio Interaction Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05121" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05121" target="_blank" rel="noopener">Audio Interaction Model</a></h3>
      <p class="summary">Audio is an inherently interactive modality, yet today&#x27;s Large Audio Language Models (LALMs) are offline, and streaming audio models each h…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4051d969919b" data-article-url="https://arxiv.org/abs/2606.05130" data-article-title="Towards Efficient and Evidence-grounded Mobility Prediction with LLM-Driven Agent" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05130" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05130" target="_blank" rel="noopener">Towards Efficient and Evidence-grounded Mobility Prediction with LLM-Driven Agent</a></h3>
      <p class="summary">Individual-level mobility prediction is central to urban simulation, transportation planning, and policy analysis. Supervised sequence mode…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dbe016d64d6d" data-article-url="https://arxiv.org/abs/2606.05142" data-article-title="GeM-NR: Geometry-Aware Multi-View Editing for Nonrigid Scene Changes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05142" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05142" target="_blank" rel="noopener">GeM-NR: Geometry-Aware Multi-View Editing for Nonrigid Scene Changes</a></h3>
      <p class="summary">Recent developments in multi-view image editing with generative models have brought us a step closer toward general 3D content generation a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d75312895121" data-article-url="https://arxiv.org/abs/2606.05145" data-article-title="Failed Reasoning Traces Tell You What Is Fixable (But Not by Reading Them)" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05145" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05145" target="_blank" rel="noopener">Failed Reasoning Traces Tell You What Is Fixable (But Not by Reading Them)</a></h3>
      <p class="summary">When post-trained language models fail on reasoning problems, the common test-time-scaling response is to spend more compute on additional…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cd8f01b59235" data-article-url="https://arxiv.org/abs/2606.05150" data-article-title="Multi-Column RBF Neural Network Using Adaptive and Non-Adaptive Particle Swarm Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05150" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05150" target="_blank" rel="noopener">Multi-Column RBF Neural Network Using Adaptive and Non-Adaptive Particle Swarm Optimization</a></h3>
      <p class="summary">The radial basis function neural network (RBFN) trained with a gradient descending algorithm provides an effective fully connected structur…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="247507860744" data-article-url="https://arxiv.org/abs/2606.05152" data-article-title="Reinforcement Learning from Rich Feedback with Distributional DAgger" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05152" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05152" target="_blank" rel="noopener">Reinforcement Learning from Rich Feedback with Distributional DAgger</a></h3>
      <p class="summary">Reasoning models have advanced rapidly, but the dominant reinforcement learning from verifiable rewards (RLVR) recipe remains surprisingly…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dd1e47391d77" data-article-url="https://arxiv.org/abs/2606.05158" data-article-title="Streaming Communication in Multi-Agent Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.05158" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.05158" target="_blank" rel="noopener">Streaming Communication in Multi-Agent Reasoning</a></h3>
      <p class="summary">Multi-agent reasoning systems adopt a &quot;generate-then-transfer&quot; paradigm that forces end-to-end latency to scale linearly with pipeline dept…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f648934d2bf" data-article-url="https://arxiv.org/abs/2505.17315" data-article-title="Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.17315" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.17315" target="_blank" rel="noopener">Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning</a></h3>
      <p class="summary">Recent language models exhibit strong reasoning capabilities, yet the influence of long-context capacity on reasoning remains underexplored…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1ea440e8c075" data-article-url="https://arxiv.org/abs/2506.10912" data-article-title="Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.10912" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.10912" target="_blank" rel="noopener">Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification?</a></h3>
      <p class="summary">Toxicity remains a leading cause of early-stage drug development failure. Despite advances in molecular design and property prediction, the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="808a36b8826c" data-article-url="https://arxiv.org/abs/2510.01902" data-article-title="Constrained Adaptive Rejection Sampling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.01902" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.01902" target="_blank" rel="noopener">Constrained Adaptive Rejection Sampling</a></h3>
      <p class="summary">Language Models (LMs) are increasingly used in applications where generated outputs must satisfy strict semantic or syntactic constraints.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="27da600ad103" data-article-url="https://arxiv.org/abs/2510.11194" data-article-title="Aligning Deep Implicit Preferences by Learning to Reason Defensively" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.11194" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.11194" target="_blank" rel="noopener">Aligning Deep Implicit Preferences by Learning to Reason Defensively</a></h3>
      <p class="summary">Personalized alignment is crucial for enabling Large Language Models (LLMs) to engage effectively in user-centric interactions. However, cu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d57307a6f67c" data-article-url="https://arxiv.org/abs/2510.15416" data-article-title="Adaptive Minds: Empowering Agents with LoRA-as-Tools" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.15416" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.15416" target="_blank" rel="noopener">Adaptive Minds: Empowering Agents with LoRA-as-Tools</a></h3>
      <p class="summary">We investigate a framework in which LoRA adapters are treated as callable tools that a base language model can dynamically select and invok…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f859cbcdc237" data-article-url="https://arxiv.org/abs/2510.17064" data-article-title="BRAINCELL-AID: An Agentic AI Created Brain Cell Type Resource for Community Annotation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.17064" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.17064" target="_blank" rel="noopener">BRAINCELL-AID: An Agentic AI Created Brain Cell Type Resource for Community Annotation</a></h3>
      <p class="summary">Single-cell RNA sequencing has transformed our ability to identify diverse cell types and their transcriptomic signatures. However, annotat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4f72185beef" data-article-url="https://arxiv.org/abs/2510.24342" data-article-title="A Unified Geometric Space for Topological Alignment Between Transformer-Based Models and Human Brain Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.24342" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.24342" target="_blank" rel="noopener">A Unified Geometric Space for Topological Alignment Between Transformer-Based Models and Human Brain Networks</a></h3>
      <p class="summary">Prior brain-AI alignment studies are typically constrained by specific inputs and tasks, limiting their ability to capture organizational p…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bb6b1764781f" data-article-url="https://arxiv.org/abs/2511.07107" data-article-title="MENTOR: A Metacognition-Driven Self-Evolution Framework for Uncovering and Mitigating Implicit Domain Risks in LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.07107" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.07107" target="_blank" rel="noopener">MENTOR: A Metacognition-Driven Self-Evolution Framework for Uncovering and Mitigating Implicit Domain Risks in LLMs</a></h3>
      <p class="summary">Ensuring the safety of Large Language Models (LLMs) is critical for real-world deployment. However, current safety measures often fail to a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ea3b7d57dd7d" data-article-url="https://arxiv.org/abs/2601.13735" data-article-title="Reasoning or Fluency? Dissecting Probabilistic Confidence in Best-of-N Selection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.13735" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.13735" target="_blank" rel="noopener">Reasoning or Fluency? Dissecting Probabilistic Confidence in Best-of-N Selection</a></h3>
      <p class="summary">Probabilistic confidence metrics are increasingly adopted as proxies for reasoning quality in Best-of-N selection, under the assumption tha…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f7b5424eff25" data-article-url="https://arxiv.org/abs/2601.18175" data-article-title="Success Conditioning as Policy Improvement: The Optimization Problem Solved by Imitating Success" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.18175" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.18175" target="_blank" rel="noopener">Success Conditioning as Policy Improvement: The Optimization Problem Solved by Imitating Success</a></h3>
      <p class="summary">A widely used technique for improving policies is success conditioning, in which one collects trajectories, identifies those that achieve a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d603cd970839" data-article-url="https://arxiv.org/abs/2602.01146" data-article-title="PersistBench: When Should Long-Term Memories Be Forgotten by LLMs?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01146" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01146" target="_blank" rel="noopener">PersistBench: When Should Long-Term Memories Be Forgotten by LLMs?</a></h3>
      <p class="summary">Conversational assistants are increasingly integrating long-term memory with large language models (LLMs). This persistence of memories, e.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="72e02e93a360" data-article-url="https://arxiv.org/abs/2602.04101" data-article-title="Interfaze: The Future of AI is built on Task-Specific Small Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/grok/" data-entity="grok">Grok</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.04101" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.04101" target="_blank" rel="noopener">Interfaze: The Future of AI is built on Task-Specific Small Models</a></h3>
      <p class="summary">We present Interfaze, a native hybrid model that fuses task-specific deep neural networks (CNNs and DNNs) directly into a transformer decod…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ffcff406d1a" data-article-url="https://arxiv.org/abs/2602.07253" data-article-title="From Out-of-Distribution Detection to Hallucination Detection: A Geometric View" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.07253" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.07253" target="_blank" rel="noopener">From Out-of-Distribution Detection to Hallucination Detection: A Geometric View</a></h3>
      <p class="summary">Detecting hallucinations in large language models is a critical open problem with significant implications for safety and reliability. Whil…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="df5be25b7ee7" data-article-url="https://arxiv.org/abs/2603.01421" data-article-title="SciDER: Scientific Data-centric End-to-end Researcher" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.01421" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.01421" target="_blank" rel="noopener">SciDER: Scientific Data-centric End-to-end Researcher</a></h3>
      <p class="summary">While large language models accelerate scientific discovery, existing agents face severe limitations in adaptability, domain generalization…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="71989fa019ed" data-article-url="https://arxiv.org/abs/2603.18577" data-article-title="MedForge: Interpretable Medical Deepfake Detection via Forgery-aware Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.18577" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.18577" target="_blank" rel="noopener">MedForge: Interpretable Medical Deepfake Detection via Forgery-aware Reasoning</a></h3>
      <p class="summary">Text-guided image editors can now manipulate authentic medical scans with high fidelity, enabling lesion implantation/removal that threaten…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0cf65526425" data-article-url="https://arxiv.org/abs/2603.23420" data-article-title="Bilevel Autoresearch: Meta-Autoresearching Itself" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23420" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23420" target="_blank" rel="noopener">Bilevel Autoresearch: Meta-Autoresearching Itself</a></h3>
      <p class="summary">If autoresearch is itself a form of research, then autoresearch can be applied to research itself. We present Bilevel Autoresearch, a bilev…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a582aeab3d9" data-article-url="https://arxiv.org/abs/2603.24747" data-article-title="Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.24747" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.24747" target="_blank" rel="noopener">Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach</a></h3>
      <p class="summary">The emergence of large language model agents capable of invoking external tools has created urgent need for formal verification of agent pr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e41345484899" data-article-url="https://arxiv.org/abs/2604.07778" data-article-title="The Accountability Horizon: An Impossibility Theorem for Governing Human-Agent Collectives" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.07778" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.07778" target="_blank" rel="noopener">The Accountability Horizon: An Impossibility Theorem for Governing Human-Agent Collectives</a></h3>
      <p class="summary">Existing accountability frameworks for AI systems, legal, ethical, and regulatory, rest on a shared assumption: for any consequential outco…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f07fc7863dde" data-article-url="https://arxiv.org/abs/2604.09686" data-article-title="Belief-Aware VLM Model for Human-like Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.09686" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.09686" target="_blank" rel="noopener">Belief-Aware VLM Model for Human-like Reasoning</a></h3>
      <p class="summary">Traditional neural network models for intent inference rely heavily on observable states and struggle to generalize across diverse tasks an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3d642a7ca856" data-article-url="https://arxiv.org/abs/2604.27007" data-article-title="Binary Spiking Neural Networks as Causal Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.27007" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.27007" target="_blank" rel="noopener">Binary Spiking Neural Networks as Causal Models</a></h3>
      <p class="summary">We provide a causal analysis of Binary Spiking Neural Networks (BSNNs) to explain their behavior. We formally define a BSNN and represent i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bf53772a5ee6" data-article-url="https://arxiv.org/abs/2605.10246" data-article-title="SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.10246" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.10246" target="_blank" rel="noopener">SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems</a></h3>
      <p class="summary">AI scientist systems are increasingly deployed for autonomous research, yet their academic integrity has never been systematically evaluate…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="59608b3210a3" data-article-url="https://arxiv.org/abs/2605.14054" data-article-title="Bad Seeing or Bad Thinking? Rewarding Perception for Multimodal Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.14054" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.14054" target="_blank" rel="noopener">Bad Seeing or Bad Thinking? Rewarding Perception for Multimodal Reasoning</a></h3>
      <p class="summary">Achieving robust perception-reasoning synergy is a central goal for advanced Vision-Language Models (VLMs). Recent advancements have pursue…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d6ca2118dda3" data-article-url="https://arxiv.org/abs/2605.22240" data-article-title="Unlocking Proactivity in Task-Oriented Dialogue" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.22240" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.22240" target="_blank" rel="noopener">Unlocking Proactivity in Task-Oriented Dialogue</a></h3>
      <p class="summary">Proactive task-oriented dialogue (TOD), such as outbound sales, demands a persuasive agent that actively probes the user&#x27;s concerns and ste…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c09e5257097a" data-article-url="https://arxiv.org/abs/2605.28210" data-article-title="AI を介した結果的な決定を選択するという幻想" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28210" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28210" target="_blank" rel="noopener">AI を介した結果的な決定を選択するという幻想</a></h3>
      <p class="summary">ウルマン＝マルガリットの選択の概念（変革的で、取り消し不可能で、差し押さえられた代替案によって影が隠れる）を利用して、現在の AI システムが、既存の AI 倫理が完全には捉えていない深刻な倫理的問題を提起していることを示します。それは、個人やグループが、真に選択できるようになるために必要な主体が弱体化している間に、意味のある結果的な選択の欺瞞的な外観に遭遇する選択の幻想です。 AI を主に既に与えられた目的の最適化装置として扱うアプローチに対して、私たちは、AI システムは選択という幻想からメタ能力を保護し育成するかどうかによって評価されるべきだと主張します。メタ能力とは、手段と目的を形成し、異議を唱え、修正し、所有することができる、社会的および制度的に足場を築かれた主体的能力のことです。この再構成は、AI を介した経路が行動や行動を誤った方向に導いた場合に、選択するという幻想のコストを吸収することが最も困難な恵まれない人々にとって特に緊急です。私たちは、AI を介した結果的意思決定のための 3 つの規範的命令を提案します。それは、予測の限界を認める実存的誠実さです。生態学的合理性。不均質な生きた生態の中に指針を位置づけます。そして、反事実的賠償。AI を介した意思決定経路が失敗した場合に、差し押さえられた代替手段を認めて修復します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Illusion of Opting in AI-Mediated Consequential Decisions</p>
        <p class="orig-summary">Drawing on Ullmann-Margalit&#x27;s concept of opting (transformative, irrevocable, and shadowed by foreclosed alternatives), we show that current AI systems raise a profound ethical problem that existing AI ethics has not fully captured: the illusion of opting, in which persons and groups encounter the deceptive appearance of meaningful consequential choice while the agency needed to become genuinely capable of choosing is weakened. Against approaches that treat AI primarily as an optimizer of already given ends, we argue that AI systems should be evaluated by whether they protect and cultivate meta-capacity against the illusion of opting: the socially and institutionally scaffolded agentive capacity through which means and ends can be formed, contested, revised, and owned. This reframing is especially urgent for disadvantaged populations, who are least able to absorb the costs of the illusion of opting when AI-mediated pathways misdirect behavior and action. We propose three normative imperatives for AI-mediated consequential decisions: existential honesty, which acknowledges the limits of prediction; ecological rationality, which situates guidance within heterogeneous lived ecologies; and counterfactual reparation, which acknowledges and repairs foreclosed alternatives when AI-mediated decision-making pathways fail.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7eb747a8471c" data-article-url="https://arxiv.org/abs/2606.00732" data-article-title="SHARP: 長距離非定常時間パターン認識のための睡眠ベースの階層的加速再生" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00732" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00732" target="_blank" rel="noopener">SHARP: 長距離非定常時間パターン認識のための睡眠ベースの階層的加速再生</a></h3>
      <p class="summary">長距離の非定常時間パターンを学習することは、特に厳密なストリーミング設定において、現代のシーケンス モデルにとって依然として中心的な課題です。これらの設定では、データは順番に到着するため、過去の観測を同時に再検討することなく、単一パスで処理する必要があります。リカレント ニューラル ネットワークやトランスフォーマーを含む標準アーキテクチャは、時間軸全体にわたる切り詰められたバックプロパゲーション、または長距離クレジット割り当ての明示的な入力ウィンドウの長さによって制約されます。これらの制限に対処するために、私たちは、時間学習を 2 つの相補的なコンポーネントに分解するフレームワークである SHARP (Sleep-based Hierarchical Accelerated Replay) を提案します。1 つは過去の入力の構造化された履歴を蓄積するメモリ モジュール、もう 1 つはこのメモリ上で動作するパターン認識モジュールです。この分離により、長距離クレジット割り当ての多くのステップにわたる時間にわたるバックプロパゲーションの必要性がなくなり、非定常ダイナミクスへのリソース効率と計算効率の高い適応が可能になります。齧歯動物の徐波睡眠中に観察される再生の加速にヒントを得て、SHARP は、時間的に構造化された記憶追跡が加速された形で再生され、より高いレベルの記憶表現に統合されるオフライン (睡眠) フェーズを組み込んでおり、長距離のコンテキスト保持を向上させます。制御されたシミュレーションとアブレーション研究を通じて、提案されたフレームワークの主要な特性を特徴付けます。 text8 や PG-19 などのベンチマーク データセットでは、SHARP が、現在のストリームから学習を継続し、将来の未確認データに一般化しながら、以前に確認されたデータに対するネクスト トークン予測パフォーマンスを維持することにより、反復ベースラインよりも向上することを実証しました。これらの利点は、線形時間の計算コストのみで指数関数的に増加する効果的な時間コンテキストを生み出す階層構造によって実現されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SHARP: Sleep-based Hierarchical Accelerated Replay for Long Range Non-Stationary Temporal Pattern Recognition</p>
        <p class="orig-summary">Learning long-range non-stationary temporal patterns remains a core challenge for modern sequence models, particularly in strict streaming settings. In these settings, data arrive sequentially and must be processed in a single pass without simultaneously revisiting past observations. Standard architectures, including recurrent neural networks and transformers, are constrained by either truncated backpropagation through time horizon or explicit input window length for long range credit assignment. To address these limitations, we propose SHARP (Sleep-based Hierarchical Accelerated Replay), a framework that decomposes temporal learning into two complementary components: a memory module that accumulates a structured history of past inputs, and a pattern-recognition module that operates over this memory. This separation enables resource- and compute-efficient adaptation to non-stationary dynamics by eliminating the need for backpropagation through time across many steps for long-range credit assignment. Inspired by the accelerated replay observed in rodents during slow-wave sleep, SHARP incorporates offline (sleep) phases in which temporally structured memory traces are replayed in an accelerated form and integrated into higher-level memory representations, improving long-range context retention. Through controlled simulations and ablation studies, we characterize the key properties of the proposed framework. In benchmark datasets such as text8 and PG-19, we demonstrate that SHARP improves over recurrent baselines by retaining next-token predictive performance on previously seen data while continuing to learn from the current stream and generalizing to future unseen data. These gains are enabled by its hierarchical structure, which yields an exponentially increasing effective temporal context with only linear-time computational cost.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bdd9dc0b6039" data-article-url="https://arxiv.org/abs/2606.00995" data-article-title="サブリミナル学習はベクトル蒸留を操る" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00995" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00995" target="_blank" rel="noopener">サブリミナル学習はベクトル蒸留を操る</a></h3>
      <p class="summary">サブリミナル学習とは、教師の出力を微調整した場合に、出力が意味的にそれらの特性と無関係であるにもかかわらず、生徒の言語モデルが教師の特性 (システムが促すフクロウの好みなど) を獲得することを指します。セマンティックな意味を持たないデータがどのようにして特定のセマンティックな特徴を伝達できるのかについては、依然として十分に理解されていません。この研究では、サブリミナル学習が単一のステアリング ベクトル、つまりモデルの活性化に追加されるベクトルによって媒介されることを示します。 2 つのオープンソース モデル全体で、教師のシステム プロンプトはステアリング ベクトルによってよく近似されており、生徒の行動は微調整を通じて調整されたベクトルを学習することによって駆動されることがわかりました。ステアリング ベクトルによって適切に近似されていないシステム プロンプトは潜在的に学習されません。これは、ステアリング ベクトル蒸留の特殊なケースであり、ステアリングされた教師の出力で訓練された生徒が、そのステアリングを模倣することを学びます。一連のセマンティック ベクトルとランダム ベクトルに対するステアリング ベクトル蒸留を示します。モデルのアクティベーションにセマンティック ベクトルを追加すると、その動作にモデルに依存しない効果とモデル固有 (つまり、非セマンティック) の両方の効果が生じる可能性があるため、生成された非セマンティック データはセマンティック効果を持つベクトルを送信でき、サブリミナル学習が可能になります。これは、サブリミナル学習がモデル間で移行しない理由も説明します。言語モデルにおけるサブリミナル学習には適応オプティマイザーが必要であることがわかりました。ステアリングされたデータの活性化勾配はステアリング方向に沿って小さいながらも一貫した成分を運びますが、非適応オプティマイザーは外れ値の勾配が優勢になることを許可することでこれを妨げます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Subliminal Learning Is Steering Vector Distillation</p>
        <p class="orig-summary">Subliminal learning refers to a student language model acquiring a teacher&#x27;s traits (e.g. a system-prompted preference for owls) when fine-tuned on the teacher&#x27;s outputs, despite the outputs being semantically unrelated to those traits. It remains poorly understood how data without semantic meaning can transfer specific semantic traits. In this work, we show that subliminal learning is mediated by a single steering vector, i.e. a vector added to the model&#x27;s activations. Across two open-source models, we find that the teacher&#x27;s system prompt is well approximated by a steering vector, and that the student&#x27;s behavior is driven by learning an aligned vector over fine-tuning. System prompts that are not well approximated by steering vectors are not subliminally learned. This is a special case of steering vector distillation, in which a student trained on the outputs of a steered teacher learns to imitate that steering. We demonstrate steering vector distillation on a range of semantic and random vectors. Adding a semantic vector to a model&#x27;s activations can have both model-independent and model-specific (i.e. non-semantic) effects on its behavior, so generated data that is non-semantic can transmit a vector with semantic effects, enabling subliminal learning. This also explains why subliminal learning does not transfer between models. We find that adaptive optimizers are necessary for subliminal learning in language models: activation gradients on steered data carry a small but consistent component along the steering direction, and non-adaptive optimizers impede this by allowing outlier gradients to dominate.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="873bbb6ccaa9" data-article-url="https://arxiv.org/abs/2606.01961" data-article-title="AutoMedBench: Towards Medical AutoResearch with Agentic AI Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01961" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01961" target="_blank" rel="noopener">AutoMedBench: Towards Medical AutoResearch with Agentic AI Models</a></h3>
      <p class="summary">Autonomous agents are increasingly expected to support end-to-end medical-AI research workflows, moving beyond isolated prediction tasks or…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9d94ec5e5550" data-article-url="https://arxiv.org/abs/2606.02914" data-article-title="歯科医療における大規模 AI モデル: 汎用システムからドメイン固有の基盤モデルまで" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02914" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02914" target="_blank" rel="noopener">歯科医療における大規模 AI モデル: 汎用システムからドメイン固有の基盤モデルまで</a></h3>
      <p class="summary">背景: 口腔疾患は世界中で約 35 億人に影響を与えていますが、歯科における大規模 AI モデルの相対的な臨床的可能性は依然として十分に理解されていません。言語生成モデル、弁別視覚基礎モデル、歯科特有の基礎モデルという 3 つの異なるモデル カテゴリが出現しましたが、それらの関係や集合的な制限を検討する統一されたレビューはありません。方法: PRISMA-ScR ガイドラインに従って、4 つのデータベース (PubMed、Google Scholar、Scopus、arXiv) を体系的に検索し、2 人の査読者によって独立してスクリーニングされました。包含/除外基準を適用した後、97 件の研究 (2020 ～ 2026 年) が含まれました。建築パラダイムと歯科専門度によってモデルを整理する二次元分類フレームワークを提案します。結果: 言語生成モデルは、テキストベースのタスク (臨床推論、免許試験、患者とのコミュニケーション) には優れていますが、画像依存の診断では一貫性のないパフォーマンスを示します。適応された SAM および CLIP バリアントにより、強力な歯のセグメンテーションと病変検出結果が得られます。歯科専用モデル (DentVFM、DentVLM、OralGPT) は、複雑なマルチモーダルなタスクで最高のパフォーマンスを発揮します。統合されたパイプラインは、単一モデルのアプローチよりも常に優れたパフォーマンスを発揮します。データの非対称性が観察されます。歯科特有の事前トレーニングはほぼ完全に視覚領域に集中しており、大規模な歯科テキスト コーパスがほとんどないことを反映しています。結論: 汎用モデルと歯科専用モデルは補完的な役割を果たします。最も効果的なシステムは、構造化されたパイプライン内で両方を組み合わせたものです。安全な自律展開には、生成モデルにおける幻覚、注釈付き歯科データセットの制限、標準化された臨床評価ベンチマークの欠如という 3 つの永続的な障壁を解決する必要があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Large AI Models in Dental Healthcare: From General-Purpose Systems to Domain-Specific Foundation Models</p>
        <p class="orig-summary">Background: Oral diseases affect nearly 3.5 billion people worldwide, yet the comparative clinical potential of large-scale AI models in dentistry remains poorly understood. Three distinct model categories have emerged: language-generative models, discriminative vision foundation models, and dental-specific foundation models, with no unified review examining their relationships and collective limitations. Methods: Following PRISMA-ScR guidelines, we systematically searched four databases (PubMed, Google Scholar, Scopus, arXiv), screened independently by two reviewers. After applying inclusion/exclusion criteria, 97 studies (2020-2026) were included. We propose a two-dimensional classification framework organizing models by architectural paradigm and dental specialization degree. Results: Language-generative models excel at text-based tasks (clinical reasoning, licensing exams, patient communication) but show inconsistent performance on image-dependent diagnostics. Adapted SAM and CLIP variants achieve strong tooth segmentation and lesion detection results. Dental-specific models (DentVFM, DentVLM, OralGPT) demonstrate strongest performance on complex multimodal tasks. Integrated pipelines consistently outperform single-model approaches. A data asymmetry is observed: dental-specific pretraining concentrates almost entirely in the vision domain, reflecting scarce large-scale dental text corpora. Conclusions: General-purpose and dental-specific models play complementary roles; the most effective systems combine both within structured pipelines. Safe autonomous deployment requires resolving three persistent barriers: hallucination in generative models, limited annotated dental datasets, and absent standardized clinical evaluation benchmarks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="acad440d720e" data-article-url="https://arxiv.org/abs/2606.03303" data-article-title="LEAP: エージェント フレームワークを使用した形式数学用の LLM のスーパーチャージング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03303" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03303" target="_blank" rel="noopener">LEAP: エージェント フレームワークを使用した形式数学用の LLM のスーパーチャージング</a></h3>
      <p class="summary">大規模言語モデル (LLM) は強力な非公式数学的推論を示しますが、リーンのような形式言語では機械的に検証可能な証明を生成するのに苦労します。 LEAP は、汎用基礎​​モデルが自動化された形式定理証明で最先端のパフォーマンスを達成できるようにするエージェント フレームワークです。 LEAP は、非公式推論、指示に従って、反復的な自己改善などの基礎モデルの機能を活用します。複雑な問題をより小さな単位に分解することで、システムはリーン コンパイラーとの継続的な対話を通じて、正式な証明の構築と非公式のブループリントの橋渡しをします。ますます飽和しつつあるベンチマークを超えた厳密な評価を提供するために、リーンで形式化された IMO スタイルの問題のベンチマークである Lean-IMO-Bench を導入します。このベンチマークでは、短いステートメントでありながら非常に非日常的で、幅広い難易度にわたる複数ステップの証明が行われます。経験的に、北米の学部学生を対象とした毎年恒例の数学コンテストである最新の 2025 年のパトナム コンペティションでは、LEAP は 12 の問題すべてを解決し、フロンティアの正式な数学モデルによる最近の進歩と一致しています。 Lean-IMO-Bench では、LEAP は汎用 LLM のワンショット形式解決率を 10% 未満から 70% に引き上げ、特に金メダル級の専門化された IMO システムによって設定されたベンチマークの 48% を上回っています。さらに、偶数次ケイリーグラフのクヌースのハミルトニアン分解における重要な部分問題の検証された証明を含む、オープンな組み合わせ課題に対する複雑な証明を自律的に形式化することで、LEAP の研究レベルの有用性を実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks</p>
        <p class="orig-summary">Large Language Models (LLMs) exhibit strong informal mathematical reasoning but struggle to generate mechanically verifiable proofs in formal languages like Lean. We present LEAP, an agentic framework that enables general-purpose foundation models to achieve state-of-the-art performance on automated formal theorem proving. LEAP leverages foundation model capabilities, such as informal reasoning, instruction following, and iterative self-refinement. By decomposing complex problems into smaller units, the system bridges formal proof construction with informal blueprints through continuous interaction with the Lean compiler. To provide a rigorous evaluation beyond increasingly saturated benchmarks, we introduce Lean-IMO-Bench, a benchmark of IMO-style problems formalized in Lean, with short statements yet highly non-routine and multi-step proofs across a wide range of difficulty levels. Empirically, on the latest 2025 Putnam Competition, an annual mathematics competition for undergraduate students in North America, LEAP solves all 12 problems, matching recent breakthroughs by frontier formal mathematical models. On Lean-IMO-Bench, LEAP boosts the one-shot formal solve rate of general-purpose LLMs from below 10% to 70%, notably surpassing the 48% benchmark set by a specialized, gold-medal-caliber IMO system. Furthermore, we demonstrate LEAP&#x27;s research-level utility by autonomously formalizing complex proofs for open combinatorial challenges, including a verified proof for a key subproblem in Knuth&#x27;s Hamiltonian decomposition of even-order Cayley graphs.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1b6c4daf9ce7" data-article-url="https://arxiv.org/abs/2606.03660" data-article-title="答えから状態へ: 大規模言語モデルにおける化学推論の検証可能なプロセスレベルの評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03660" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03660" target="_blank" rel="noopener">答えから状態へ: 大規模言語モデルにおける化学推論の検証可能なプロセスレベルの評価</a></h3>
      <p class="summary">大規模な言語モデルが化学アシスタントとして使用されることが増えていますが、ほとんどの化学ベンチマークは依然として最終的な回答のみをスコアとしています。これにより、重大な故障モードが隠蔽されます。モデルは、その推論が化学ロジックに違反しているにもかかわらず、正しい分子、生成物、またはオプションを出力する可能性があります。 LLM ジャッジと人間のステップレベルのプロセス アノテーションはコストが高く、一貫性がなく、幻覚に対して脆弱であるため、既存のプロセス レベルの評価機能を拡張するのは困難です。 ChemCoTBench-V2 は、構造化され検証者がアドレス指定できる化学推論トレースを低コストで監査可能に評価するためのルール検証可能な診断ベンチマークです。これは、分子理解、分子編集、分子最適化、反応予測に及び、18 のレポートタスクにわたる 5,620 の評価サンプルを備えています。モデルは、専門家が設計したテンプレートで主要な中間ステップを公開する必要があり、それらのステップは決定論的な化学ルールでチェックされ、クローズドアンサータスクの場合は、別の LLM 審査員ではなく参照トレースが使用されます。オープンエンド分子最適化は、厳密なトレース マッチングではなく、Oracle で検証可能な状態制約を使用して評価されます。このベンチマークは、最終回答の正確性、テンプレートの遵守、専門家によって洗練された中間コミットメントに対する段階的な検証者の正確さという 3 つの個別のシグナルを報告します。フロンティア モデルの実験では、最終的な回答の成功と構造化推論の状態の一貫性の間には永続的なギャップがあることが明らかになりました。モデルは多くの場合、化学ステップ チェックに失敗しながらも要求された形式に従っているか、弱い裏付け推論で正しく回答することができます。 ChemCoTBench-V2 は、きめ細かいモデル比較を可能にし、トレースが最初に検証ツールに違反する具体的なステップを特定します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Answers to States: Verifiable Process-Level Evaluation of Chemical Reasoning in Large Language Models</p>
        <p class="orig-summary">Large language models are increasingly used as chemistry assistants, yet most chemistry benchmarks still score only final answers. This masks a critical failure mode: a model may output the correct molecule, product, or option while its reasoning violates chemical logic. Existing process-level evaluators are hard to scale because LLM judges and human step-level process annotation are costly, inconsistent, and vulnerable to hallucination. We introduce ChemCoTBench-V2, a rule-verifiable diagnostic benchmark for low-cost, auditable evaluation of structured, verifier-addressable chemical reasoning traces. It spans molecular understanding, molecule editing, molecular optimization, and reaction prediction, with 5,620 evaluation samples across 18 reporting tasks. Models must expose key intermediate steps in expert-designed templates, and those steps are checked with deterministic chemistry rules and, for closed-answer tasks, reference traces rather than another LLM judge. Open-ended molecular optimization is evaluated with oracle-verifiable state constraints rather than strict trace matching. The benchmark reports three separate signals: final-answer correctness, template adherence, and step-wise verifier correctness over expert-refined intermediate commitments. Experiments on frontier models reveal a persistent gap between final-answer success and structured-reasoning-state consistency: models often follow the requested format while failing chemical-step checks, or answer correctly with weak supporting reasoning. ChemCoTBench-V2 enables fine-grained model comparison and identifies the concrete step at which the trace first violates the verifier.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8d08a340ffb6" data-article-url="https://arxiv.org/abs/2606.03937" data-article-title="エントロピーだけでは不十分: ビジョンに基づいたトークン選択による視覚的推論のための効果的な強化学習のロックを解除する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03937" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03937" target="_blank" rel="noopener">エントロピーだけでは不十分: ビジョンに基づいたトークン選択による視覚的推論のための効果的な強化学習のロックを解除する</a></h3>
      <p class="summary">トークンレベルのエントロピーは、検証可能な報酬を伴うテキストのみの強化学習 (RLVR) における単位の割り当てに有効であると一般に認識されていますが、このメカニズムが視覚的推論に依然として適用されるかどうかは不明のままです。私たちの対照的な研究は、自然にエントロピーが低い視覚に敏感なトークンの省略により、視覚推論ではこのメカニズムが崩壊することを示しています。既存のマルチモーダル RL 手法は、視覚認識の重要性をますます認識していますが、体系的な視覚測定が欠けているか、トークンのエントロピーが主に意味論的探索を推進していることを見落としているため、正確な知覚基礎と意味論的推論を交互に配置するという固有の需要を満たすのに苦労しています。これに対処するために、原則的な乗算結合を介して視覚的感度とトークン エントロピーを明示的に統合する効果的な RL フレームワークである VEPO (ポリシー最適化のためのビジョン エントロピー トークン選択) を導入します。VEPO は、視覚的に根拠があり、同時に高度に情報を提供するトークンに勾配クレジットをリダイレクトします。広範な実験により、VEPO の優れたパフォーマンスが実証され、エントロピーのみのベースラインを 7B スケールで 2.28 ポイント、3B スケールで 3.15 ポイント上回りました。アブレーションは、私たちの方法の健全性をさらに実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Entropy Is Not Enough: Unlocking Effective Reinforcement Learning for Visual Reasoning via Vision-Anchored Token Selection</p>
        <p class="orig-summary">While token-level entropy is commonly recognized as effective for credit assignment in text-only reinforcement learning with verifiable rewards (RLVR), it remains unclear whether this mechanism still holds in visual reasoning. Our controlled study shows that this mechanism collapses in visual reasoning due to the omission of vision-sensitive tokens with naturally low entropy. Although existing multimodal RL methods increasingly acknowledge the importance of visual perception, they struggle to satisfy the inherent demand for interleaving precise perceptual grounding with semantic reasoning, either lacking systematic visual measurements or overlooking that token entropy primarily drives semantic exploration. To address this, we introduce VEPO (Vision-Entropy token-selection for Policy Optimization), an effective RL framework explicitly integrating visual sensitivity with token entropy via a principled multiplicative coupling, where VEPO redirects gradient credit toward tokens which are simultaneously visually grounded and highly informative. Extensive experiments demonstrate VEPO&#x27;s leading performance, significantly outperforming the entropy-only baseline by 2.28 points at 7B-scale and 3.15 points at 3B-scale. Ablations further substantiate the soundness of our method.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="04aa882e9a50" data-article-url="https://arxiv.org/abs/2606.03988" data-article-title="想像力の知覚トークンはマルチモーダル言語モデルの空間推論を強化します" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03988" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03988" target="_blank" rel="noopener">想像力の知覚トークンはマルチモーダル言語モデルの空間推論を強化します</a></h3>
      <p class="summary">ビジョン言語モデル (VLM) は多くのタスクに優れていますが、重要な情報が直接観察できない場合には空間推論に依然として苦労します。このような問題の多くは、目に見えない視点から何が見えるかを推測したり、遮蔽された空間を通る経路を追跡したり、部分的な観察を一貫した空間表現に統合したりするなど、想像力豊かな認識を必要とします。観察された入力との一貫性を保ちながら、代替の空間構成の下で VLM が知覚するものを外部化する中間的な知覚表現である想像的知覚トークン (IPT) を導入します。この機能を研究するために、透視図法取得 (PET)、パス トレーシング (PT)、およびマルチビュー カウンティング (MVC) という 3 つのタスクを定式化し、グラウンド トゥルースの想像力、回答、評価ベンチマークを含む約 20,000 例のデータセットを構築します。統合された VLM BAGEL をバックボーンとして使用することで、IPT 監視は空間推論を一貫して改善し、推論時に画像を生成しなくても、テキストによる思考連鎖トレーニングを上回ることがよくあります。 MVC では、IPT は精度を 3.4% 向上させ、PT 上の強力なクローズドソース モデルにより競争力のあるパフォーマンスを実現します。さらに、IPT とラベルのみの監視を組み合わせるとさらなる利益が得られる一方、テキストの思考連鎖はパフォーマンスを大幅に低下させる可能性があることがわかり、空間計算が言語を通じて強制される場合にはモダリティの不一致が示唆されます。全体として、IPT は、観察されていない空間構造について推論するための原則に基づいた監視信号を提供し、解釈可能な中間表現を生成しながら一般化を向上させます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models</p>
        <p class="orig-summary">Vision language models (VLMs) excel at many tasks but still struggle with spatial reasoning when critical information is not directly observable. Many such problems require imaginative perception: inferring what would be seen from an unseen viewpoint, tracing paths through occluded spaces, or integrating partial observations into a coherent spatial representation. We introduce Imaginative Perception Tokens (IPT), intermediate perceptual representations that externalize what a VLM would perceive under alternative spatial configurations while remaining consistent with the observed input. To study this capability, we formulate three tasks, Perspective Taking (PET), Path Tracing (PT), and Multiview Counting (MVC), and construct datasets of approximately 20K examples with ground truth imaginations, answers, and evaluation benchmarks. Using the unified VLM BAGEL as the backbone, IPT supervision consistently improves spatial reasoning and often outperforms textual chain of thought training, even without generating images at inference time. On MVC, IPT improves accuracy by 3.4% and achieves competitive performance with strong closed-source models on PT. We further find that combining IPT and label-only supervision yields additional gains, whereas textual chain of thought can substantially degrade performance, suggesting a modality mismatch when spatial computation is forced through language. Overall, IPT provides a principled supervision signal for reasoning about unobserved spatial structure, improving generalization while producing interpretable intermediate representations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bfac45cd0f60" data-article-url="https://arxiv.org/abs/2304.10891" data-article-title="Transformer-Based Autonomous Driving Models and Deployment-Oriented Compression: A Survey" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2304.10891" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2304.10891" target="_blank" rel="noopener">Transformer-Based Autonomous Driving Models and Deployment-Oriented Compression: A Survey</a></h3>
      <p class="summary">Transformer-based models are becoming a central paradigm in autonomous driving because they can capture long-range spatial dependencies, mu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1dc16fd902c8" data-article-url="https://arxiv.org/abs/2407.03884" data-article-title="ChatSOP: An SOP-Guided MCTS Planning Framework for Controllable LLM Dialogue Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2407.03884" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2407.03884" target="_blank" rel="noopener">ChatSOP: An SOP-Guided MCTS Planning Framework for Controllable LLM Dialogue Agents</a></h3>
      <p class="summary">Dialogue agents powered by Large Language Models (LLMs) show superior performance in various tasks. Despite the better user understanding a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f0ac27a5e15" data-article-url="https://arxiv.org/abs/2407.13922" data-article-title="CounterFace: A Synthetic Face Dataset for Fine-Grained Counterfactual Evaluation of Face Recognition Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2407.13922" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2407.13922" target="_blank" rel="noopener">CounterFace: A Synthetic Face Dataset for Fine-Grained Counterfactual Evaluation of Face Recognition Systems</a></h3>
      <p class="summary">Face recognition (FR) systems are widely deployed in critical applications, making their reliability and robustness across diverse populati…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="04660e29b72a" data-article-url="https://arxiv.org/abs/2411.05894" data-article-title="SSSD: Simply-Scalable Speculative Decoding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2411.05894" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2411.05894" target="_blank" rel="noopener">SSSD: Simply-Scalable Speculative Decoding</a></h3>
      <p class="summary">Speculative Decoding has emerged as a popular technique for accelerating inference in Large Language Models. However, most existing approac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c750d25b971" data-article-url="https://arxiv.org/abs/2411.19758" data-article-title="LaVIDE: Language-Prompted Satellite Change Detection via Map-Image Alignment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2411.19758" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2411.19758" target="_blank" rel="noopener">LaVIDE: Language-Prompted Satellite Change Detection via Map-Image Alignment</a></h3>
      <p class="summary">Remote sensing change detection based on a map reference and an up-to-date image boosts timely observation of the Earth&#x27;s surface when earl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f687da328cc5" data-article-url="https://arxiv.org/abs/2503.06525" data-article-title="From Motion Signals to Insights: A Unified Framework for Student Behavior Analysis and Feedback in Physical Education Classes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.06525" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.06525" target="_blank" rel="noopener">From Motion Signals to Insights: A Unified Framework for Student Behavior Analysis and Feedback in Physical Education Classes</a></h3>
      <p class="summary">Analyzing student behavior in educational scenarios is crucial for enhancing teaching quality and student engagement. Existing AI-based mod…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c02a64510640" data-article-url="https://arxiv.org/abs/2504.12329" data-article-title="Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2504.12329" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2504.12329" target="_blank" rel="noopener">Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time</a></h3>
      <p class="summary">Recent advances leverage post-training to enhance model reasoning performance, which typically requires costly training pipelines and still…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="155213fe644f" data-article-url="https://arxiv.org/abs/2505.11166" data-article-title="SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.11166" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.11166" target="_blank" rel="noopener">SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization</a></h3>
      <p class="summary">Despite advances in pretraining with extended context sizes, large language models (LLMs) still face challenges in effectively utilizing re…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0bf451786056" data-article-url="https://arxiv.org/abs/2505.19293" data-article-title="100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.19293" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.19293" target="_blank" rel="noopener">100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability?</a></h3>
      <p class="summary">Long-context capability is considered one of the most important abilities of LLMs, as a truly long context-capable LLM enables users to eff…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4c652b6b7396" data-article-url="https://arxiv.org/abs/2505.22988" data-article-title="Model-Preserving Adaptive Rounding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.22988" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.22988" target="_blank" rel="noopener">Model-Preserving Adaptive Rounding</a></h3>
      <p class="summary">The goal of quantization is to produce a compressed model whose output distribution is as close to the original model&#x27;s as possible. To do…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bd5780092f17" data-article-url="https://arxiv.org/abs/2506.05233" data-article-title="MesaNet: Sequence Modeling by Locally Optimal Test-Time Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.05233" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.05233" target="_blank" rel="noopener">MesaNet: Sequence Modeling by Locally Optimal Test-Time Training</a></h3>
      <p class="summary">Sequence modeling is currently dominated by causal transformer architectures that use softmax self-attention. Although widely adopted, tran…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6996c3b16d19" data-article-url="https://arxiv.org/abs/2506.06006" data-article-title="Can VLMs Predict Future States? Bootstrapping World Models from Inverse Dynamics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.06006" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.06006" target="_blank" rel="noopener">Can VLMs Predict Future States? Bootstrapping World Models from Inverse Dynamics</a></h3>
      <p class="summary">Can unified vision-language models (VLMs) perform forward dynamics prediction (FDP), i.e., predicting the future state (in image form) give…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6de29de74e6e" data-article-url="https://arxiv.org/abs/2506.10630" data-article-title="Time Series Forecasting as Reasoning: A Slow-Thinking Approach with Reinforced LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.10630" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.10630" target="_blank" rel="noopener">Time Series Forecasting as Reasoning: A Slow-Thinking Approach with Reinforced LLMs</a></h3>
      <p class="summary">To advance time series forecasting (TSF), various methods have been proposed to improve prediction accuracy, evolving from statistical tech…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a4bcd0d4102" data-article-url="https://arxiv.org/abs/2508.01815" data-article-title="From Graph Retrieval to Schema Realization: Counterfactual Validation for Text-to-SPARQL over Heterogeneous Knowledge Graphs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.01815" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.01815" target="_blank" rel="noopener">From Graph Retrieval to Schema Realization: Counterfactual Validation for Text-to-SPARQL over Heterogeneous Knowledge Graphs</a></h3>
      <p class="summary">Text-to-SPARQL maps natural-language questions to executable SPARQL queries over RDF knowledge graphs. While standard evaluations often fix…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8bb20580fa17" data-article-url="https://arxiv.org/abs/2508.08237" data-article-title="VGGSounder: Audio-Visual Evaluations for Foundation Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.08237" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.08237" target="_blank" rel="noopener">VGGSounder: Audio-Visual Evaluations for Foundation Models</a></h3>
      <p class="summary">The emergence of audio-visual foundation models underscores the importance of reliably assessing their multi-modal understanding. The VGGSo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1007a1203fb6" data-article-url="https://arxiv.org/abs/2508.14623" data-article-title="A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.14623" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.14623" target="_blank" rel="noopener">A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References</a></h3>
      <p class="summary">This paper examines the implications of using the Scale-Invariant Signal-to-Distortion Ratio (SI-SDR) as both evaluation and training objec…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5f8d8d2b88f3" data-article-url="https://arxiv.org/abs/2509.02655" data-article-title="BioBlue: Systematic runaway-optimiser-like LLM failure modes on biologically and economically aligned AI safety benchmarks for LLMs with simplified observation format" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.02655" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.02655" target="_blank" rel="noopener">BioBlue: Systematic runaway-optimiser-like LLM failure modes on biologically and economically aligned AI safety benchmarks for LLMs with simplified observation format</a></h3>
      <p class="summary">Many AI alignment discussions of &quot;runaway optimisation&quot; focus on RL agents: unbounded utility maximisers that over-optimise a proxy objecti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2c8dc287c933" data-article-url="https://arxiv.org/abs/2509.08846" data-article-title="Uncertainty Estimation using Variance-Gated Distributions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.08846" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.08846" target="_blank" rel="noopener">Uncertainty Estimation using Variance-Gated Distributions</a></h3>
      <p class="summary">Evaluation of per-sample uncertainty quantification from neural networks is essential for decision-making involving high-risk applications.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e896155fea3c" data-article-url="https://arxiv.org/abs/2509.15676" data-article-title="KITE: Kernelized and Information Theoretic Exemplars for In-Context Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.15676" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.15676" target="_blank" rel="noopener">KITE: Kernelized and Information Theoretic Exemplars for In-Context Learning</a></h3>
      <p class="summary">In-context learning (ICL) has emerged as a powerful paradigm for adapting large language models (LLMs) to new and data-scarce tasks using o…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d4b1ec99f8da" data-article-url="https://arxiv.org/abs/2509.25289" data-article-title="ClustRecNet: A Novel End-to-End Deep Learning Framework for Clustering Algorithm Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.25289" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.25289" target="_blank" rel="noopener">ClustRecNet: A Novel End-to-End Deep Learning Framework for Clustering Algorithm Recommendation</a></h3>
      <p class="summary">Identifying an effective clustering algorithm for a given dataset remains a fundamental unsupervised learning issue. We introduce ClustRecN…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6141635ef6ec" data-article-url="https://arxiv.org/abs/2510.03511" data-article-title="Platonic Transformers: A Solid Choice For Equivariance" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.03511" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.03511" target="_blank" rel="noopener">Platonic Transformers: A Solid Choice For Equivariance</a></h3>
      <p class="summary">While widespread, Transformers lack inductive biases for geometric symmetries common in science and computer vision. Existing equivariant m…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="61abaa6fe42c" data-article-url="https://arxiv.org/abs/2510.08647" data-article-title="Can Reasoning Path still be Effective as Input? Bridging Post-Reasoning to Chain-of-Thought Compression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.08647" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.08647" target="_blank" rel="noopener">Can Reasoning Path still be Effective as Input? Bridging Post-Reasoning to Chain-of-Thought Compression</a></h3>
      <p class="summary">Recent developments have enabled advanced reasoning in Large Language Models (LLMs) via long Chain-of-Thought (CoT), trading efficiency dur…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="48cbb083c4df" data-article-url="https://arxiv.org/abs/2510.13704" data-article-title="Simplicial Embeddings Improve Sample Efficiency in Actor-Critic Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.13704" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.13704" target="_blank" rel="noopener">Simplicial Embeddings Improve Sample Efficiency in Actor-Critic Agents</a></h3>
      <p class="summary">Recent works have proposed accelerating the wall-clock training time of actor-critic methods via the use of large-scale environment paralle…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="43aaa7046059" data-article-url="https://arxiv.org/abs/2510.26219" data-article-title="Test-time reward-guided alignment of language models by importance sampling on pre-logit space" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.26219" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.26219" target="_blank" rel="noopener">Test-time reward-guided alignment of language models by importance sampling on pre-logit space</a></h3>
      <p class="summary">Test-time alignment of large language models (LLMs) attracts attention because fine-tuning of LLMs requires high computational costs. In th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aedb6e5a2c42" data-article-url="https://arxiv.org/abs/2510.27191" data-article-title="Vectorized Online POMDP Planning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.27191" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.27191" target="_blank" rel="noopener">Vectorized Online POMDP Planning</a></h3>
      <p class="summary">Planning under partial observability is an essential capability of autonomous robots. The Partially Observable Markov Decision Process (POM…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c2dd4e96c423" data-article-url="https://arxiv.org/abs/2511.03304" data-article-title="Extending Fair Null-Space Projections for Continuous Attributes to Kernel Methods" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.03304" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.03304" target="_blank" rel="noopener">Extending Fair Null-Space Projections for Continuous Attributes to Kernel Methods</a></h3>
      <p class="summary">With the on-going integration of machine learning systems into the everyday social life of millions the notion of fairness becomes an ever…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="18442eaa797c" data-article-url="https://arxiv.org/abs/2511.05722" data-article-title="OckBench: Measuring the Efficiency of LLM Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.05722" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.05722" target="_blank" rel="noopener">OckBench: Measuring the Efficiency of LLM Reasoning</a></h3>
      <p class="summary">Large language models (LLMs) such as GPT-5 and Gemini 3 have pushed the frontier of automated reasoning and code generation. Yet current be…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8ef2d6994a86" data-article-url="https://arxiv.org/abs/2511.16624" data-article-title="SAM 3D: 3Dfy Anything in Images" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.16624" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.16624" target="_blank" rel="noopener">SAM 3D: 3Dfy Anything in Images</a></h3>
      <p class="summary">We present SAM 3D, a generative model for visually grounded 3D object reconstruction, predicting geometry, texture, and layout from a singl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="29a1d111c7e8" data-article-url="https://arxiv.org/abs/2511.18454" data-article-title="AttnRegDeepLab: A Two-Stage Decoupled Framework for Interpretable Embryo Fragmentation Grading" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.18454" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.18454" target="_blank" rel="noopener">AttnRegDeepLab: A Two-Stage Decoupled Framework for Interpretable Embryo Fragmentation Grading</a></h3>
      <p class="summary">Embryo fragmentation is a morphological indicator critical for evaluating developmental potential in In Vitro Fertilization (IVF). However,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2d89de32232" data-article-url="https://arxiv.org/abs/2512.03553" data-article-title="Dynamic Content Moderation in Livestreams: Combining Supervised Classification with MLLM-Boosted Similarity Matching" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.03553" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.03553" target="_blank" rel="noopener">Dynamic Content Moderation in Livestreams: Combining Supervised Classification with MLLM-Boosted Similarity Matching</a></h3>
      <p class="summary">Content moderation remains a critical yet challenging task for large-scale user-generated video platforms, especially in livestreaming envi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f3529f921a6c" data-article-url="https://arxiv.org/abs/2512.04668" data-article-title="Topology Matters: Measuring Memory Leakage in Multi-Agent LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.04668" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.04668" target="_blank" rel="noopener">Topology Matters: Measuring Memory Leakage in Multi-Agent LLMs</a></h3>
      <p class="summary">Graph topology is a fundamental determinant of memory leakage in multi-agent LLM systems, yet its effects remain poorly quantified. We intr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c0313d262f29" data-article-url="https://arxiv.org/abs/2512.05277" data-article-title="From Segments to Scenes: Temporal Understanding for Agentic Autonomous Driving via Vision-Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.05277" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.05277" target="_blank" rel="noopener">From Segments to Scenes: Temporal Understanding for Agentic Autonomous Driving via Vision-Language Models</a></h3>
      <p class="summary">Vision-Language Models (VLMs) are increasingly deployed as the perception and reasoning backbone of autonomous agents acting in the wild, w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="add3fb1b9fe8" data-article-url="https://arxiv.org/abs/2512.16919" data-article-title="DVGT: Driving Visual Geometry Transformer" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.16919" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.16919" target="_blank" rel="noopener">DVGT: Driving Visual Geometry Transformer</a></h3>
      <p class="summary">Perceiving and reconstructing 3D scene geometry from visual inputs is crucial for autonomous driving. However, there still lacks a driving-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c323d868ba79" data-article-url="https://arxiv.org/abs/2512.17678" data-article-title="You Only Train Once: Differentiable Subset Selection for Omics Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.17678" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.17678" target="_blank" rel="noopener">You Only Train Once: Differentiable Subset Selection for Omics Data</a></h3>
      <p class="summary">Selecting compact and informative gene subsets from single-cell transcriptomic data is essential for biomarker discovery, improving interpr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4c48edd085dc" data-article-url="https://arxiv.org/abs/2512.21917" data-article-title="Semiparametric Preference Optimization: Your Language Model is Secretly a Single-Index Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.21917" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.21917" target="_blank" rel="noopener">Semiparametric Preference Optimization: Your Language Model is Secretly a Single-Index Model</a></h3>
      <p class="summary">Policy alignment to preference data typically assumes a known link function between observed preferences and latent rewards (e.g., Bradley-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f93c9d83d350" data-article-url="https://arxiv.org/abs/2601.06196" data-article-title="Geometry-Aware Hallucination Detection in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.06196" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.06196" target="_blank" rel="noopener">Geometry-Aware Hallucination Detection in Large Language Models</a></h3>
      <p class="summary">Large language models (LLMs) frequently generate factually incorrect or unsupported content, commonly referred to as hallucinations. Prior…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f3ce2ffb0ea" data-article-url="https://arxiv.org/abs/2601.07036" data-article-title="Mid-Think: Training-Free Intermediate-Budget Reasoning via Token-Level Triggers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.07036" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.07036" target="_blank" rel="noopener">Mid-Think: Training-Free Intermediate-Budget Reasoning via Token-Level Triggers</a></h3>
      <p class="summary">Hybrid reasoning language models are commonly controlled through high-level Think/No-think instructions to regulate reasoning behavior, yet…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="832efa3bd468" data-article-url="https://arxiv.org/abs/2601.09719" data-article-title="Bounded Hyperbolic Tangent: A Stable and Efficient Alternative to Pre-Layer Normalization in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.09719" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.09719" target="_blank" rel="noopener">Bounded Hyperbolic Tangent: A Stable and Efficient Alternative to Pre-Layer Normalization in Large Language Models</a></h3>
      <p class="summary">Pre-Layer Normalization (Pre-LN) is the de facto choice for large language models (LLMs) and is crucial for stable pretraining and effectiv…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="da26736fe490" data-article-url="https://arxiv.org/abs/2601.09853" data-article-title="MedRedFlag: Investigating how LLMs Redirect Misconceptions in Real-World Health Communication" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.09853" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.09853" target="_blank" rel="noopener">MedRedFlag: Investigating how LLMs Redirect Misconceptions in Real-World Health Communication</a></h3>
      <p class="summary">Real-world health questions from patients often unintentionally embed false assumptions or premises. In such cases, safe medical communicat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb983e157e80" data-article-url="https://arxiv.org/abs/2601.15158" data-article-title="Outcome-Based RL Provably Leads Transformers to Reason, but Only With the Right Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.15158" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.15158" target="_blank" rel="noopener">Outcome-Based RL Provably Leads Transformers to Reason, but Only With the Right Data</a></h3>
      <p class="summary">Transformers trained via Reinforcement Learning (RL) with outcome-based supervision can spontaneously develop the ability to generate inter…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ff6af8588f92" data-article-url="https://arxiv.org/abs/2601.15828" data-article-title="Can professional translators identify machine-generated text?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.15828" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.15828" target="_blank" rel="noopener">Can professional translators identify machine-generated text?</a></h3>
      <p class="summary">This study investigates whether professional translators without prior specialized training can reliably identify short stories generated i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="354db8c92bc5" data-article-url="https://arxiv.org/abs/2601.17363" data-article-title="Do readers prefer AI-generated Italian short stories?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.17363" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.17363" target="_blank" rel="noopener">Do readers prefer AI-generated Italian short stories?</a></h3>
      <p class="summary">This study investigates whether readers prefer AI-generated short stories in Italian over one written by a renowned Italian author. In a bl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="57578efe34e8" data-article-url="https://arxiv.org/abs/2601.19921" data-article-title="Demystifying Multi-Agent Debate: The Role of Confidence and Diversity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.19921" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.19921" target="_blank" rel="noopener">Demystifying Multi-Agent Debate: The Role of Confidence and Diversity</a></h3>
      <p class="summary">Multi-agent debate (MAD) is widely used to improve large language model (LLM) performance through test-time scaling, yet recent work shows…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="50c57145375b" data-article-url="https://arxiv.org/abs/2601.20800" data-article-title="Conditional PED-ANOVA: Hyperparameter Importance in Hierarchical &amp; Dynamic Search Spaces" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.20800" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.20800" target="_blank" rel="noopener">Conditional PED-ANOVA: Hyperparameter Importance in Hierarchical &amp; Dynamic Search Spaces</a></h3>
      <p class="summary">We propose conditional PED-ANOVA (condPED-ANOVA), a principled framework for estimating hyperparameter importance (HPI) in conditional sear…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d2abf1f61102" data-article-url="https://arxiv.org/abs/2601.21461" data-article-title="L$^3$: Large Lookup Layers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.21461" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.21461" target="_blank" rel="noopener">L$^3$: Large Lookup Layers</a></h3>
      <p class="summary">Modern sparse language models typically achieve sparsity through Mixture-of-Experts (MoE) layers, which dynamically route tokens to dense M…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="635eef12504d" data-article-url="https://arxiv.org/abs/2601.22396" data-article-title="Culturally Grounded Personas in Large Language Models: Characterization and Alignment with Socio-Psychological Value Frameworks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.22396" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.22396" target="_blank" rel="noopener">Culturally Grounded Personas in Large Language Models: Characterization and Alignment with Socio-Psychological Value Frameworks</a></h3>
      <p class="summary">Despite the growing utility of Large Language Models (LLMs) for simulating human behavior, the extent to which these synthetic personas acc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1c4319d35108" data-article-url="https://arxiv.org/abs/2601.22450" data-article-title="Tuning the Implicit Regularizer of Masked Diffusion Language Models: Enhancing Generalization via Insights from $k$-Parity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.22450" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.22450" target="_blank" rel="noopener">Tuning the Implicit Regularizer of Masked Diffusion Language Models: Enhancing Generalization via Insights from $k$-Parity</a></h3>
      <p class="summary">Masked Diffusion Language Models have recently emerged as a powerful generative paradigm, yet their generalization properties remain unders…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="681edc7a3967" data-article-url="https://arxiv.org/abs/2602.00104" data-article-title="R3G: A Reasoning-Retrieval-Reranking Framework for Vision-Centric Answer Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.00104" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.00104" target="_blank" rel="noopener">R3G: A Reasoning-Retrieval-Reranking Framework for Vision-Centric Answer Generation</a></h3>
      <p class="summary">Vision-centric retrieval for VQA requires retrieving images to supply missing visual cues and integrating them into the reasoning process.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="348a2a0132b9" data-article-url="https://arxiv.org/abs/2602.01619" data-article-title="SUSD: Structured Unsupervised Skill Discovery through State Factorization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01619" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01619" target="_blank" rel="noopener">SUSD: Structured Unsupervised Skill Discovery through State Factorization</a></h3>
      <p class="summary">Unsupervised Skill Discovery (USD) aims to autonomously learn a diverse set of skills without relying on extrinsic rewards. One of the most…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eacb745a5298" data-article-url="https://arxiv.org/abs/2602.01658" data-article-title="Efficient Adversarial Attacks on High-dimensional Offline Bandits" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01658" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01658" target="_blank" rel="noopener">Efficient Adversarial Attacks on High-dimensional Offline Bandits</a></h3>
      <p class="summary">Bandit algorithms have recently emerged as a powerful tool for evaluating machine learning models, including generative image models and la…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d3ebe66083d6" data-article-url="https://arxiv.org/abs/2602.02405" data-article-title="Making Expert Reasoning Learnable with Self-Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02405" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02405" target="_blank" rel="noopener">Making Expert Reasoning Learnable with Self-Distillation</a></h3>
      <p class="summary">Improving the reasoning capabilities of large language models (LLMs) typically relies either on the model&#x27;s ability to sample a correct sol…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c1b7fa0d3463" data-article-url="https://arxiv.org/abs/2602.02834" data-article-title="What Structural Inductive Bias Helps Transformers Reason Over Knowledge Graphs? A Study with Tabula RASA" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02834" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02834" target="_blank" rel="noopener">What Structural Inductive Bias Helps Transformers Reason Over Knowledge Graphs? A Study with Tabula RASA</a></h3>
      <p class="summary">What structural inductive bias helps transformers reason over knowledge graphs? Through controlled ablations of a minimal transformer modif…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="be81162172c5" data-article-url="https://arxiv.org/abs/2602.06911" data-article-title="TamperBench: Systematically Stress-Testing LLM Safety Under Fine-Tuning and Tampering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.06911" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.06911" target="_blank" rel="noopener">TamperBench: Systematically Stress-Testing LLM Safety Under Fine-Tuning and Tampering</a></h3>
      <p class="summary">As increasingly capable open-weight large language models (LLMs) are deployed, improving their tamper resistance against unsafe modificatio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1194011e5a90" data-article-url="https://arxiv.org/abs/2602.09075" data-article-title="Learning to Remember, Learn, and Forget in Attention-Based Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.09075" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.09075" target="_blank" rel="noopener">Learning to Remember, Learn, and Forget in Attention-Based Models</a></h3>
      <p class="summary">In-Context Learning (ICL) in transformers acts as an online associative memory and is believed to underpin their high performance on comple…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="59115be34b47" data-article-url="https://arxiv.org/abs/2602.09464" data-article-title="AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.09464" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.09464" target="_blank" rel="noopener">AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms</a></h3>
      <p class="summary">Vericoding refers to the generation of formally verified code from rigorous specifications. Recent AI models show promise in vericoding, bu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e9bd3c10cb1a" data-article-url="https://arxiv.org/abs/2602.11189" data-article-title="MuCO: Generative Peptide Cyclization Empowered by Multi-stage Conformation Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.11189" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.11189" target="_blank" rel="noopener">MuCO: Generative Peptide Cyclization Empowered by Multi-stage Conformation Optimization</a></h3>
      <p class="summary">Modeling peptide cyclization is critical for the virtual screening of candidate peptides with desirable physical and pharmaceutical propert…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="36f1d4c42d9f" data-article-url="https://arxiv.org/abs/2602.12643" data-article-title="Unifying Model-Free Efficiency and Model-Based Representations via Latent Dynamics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.12643" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.12643" target="_blank" rel="noopener">Unifying Model-Free Efficiency and Model-Based Representations via Latent Dynamics</a></h3>
      <p class="summary">We present Unified Latent Dynamics (ULD), a novel reinforcement learning algorithm that unifies the efficiency of model-free methods with t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0c05467f5c5" data-article-url="https://arxiv.org/abs/2602.14117" data-article-title="Toward Autonomous O-RAN: A Multi-Scale Agentic AI Framework for Real-Time Network Control and Management" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.14117" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.14117" target="_blank" rel="noopener">Toward Autonomous O-RAN: A Multi-Scale Agentic AI Framework for Real-Time Network Control and Management</a></h3>
      <p class="summary">Open Radio Access Networks (O-RAN) promise flexible 6G network access through disaggregated, software-driven components and open interfaces…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e16eb88e5479" data-article-url="https://arxiv.org/abs/2602.15202" data-article-title="Tomography by Design: An Algebraic Approach to Low-Rank Quantum States" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.15202" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.15202" target="_blank" rel="noopener">Tomography by Design: An Algebraic Approach to Low-Rank Quantum States</a></h3>
      <p class="summary">We present an algebraic algorithm for quantum state tomography that leverages measurements of certain observables to estimate structured en…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2790fb6540fb" data-article-url="https://arxiv.org/abs/2602.16966" data-article-title="A Unified Framework for Locality in Scalable MARL" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.16966" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.16966" target="_blank" rel="noopener">A Unified Framework for Locality in Scalable MARL</a></h3>
      <p class="summary">Scalable methods for networked multi-agent reinforcement learning let each agent plan using only a small neighborhood of the agent graph. T…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1de1199adeac" data-article-url="https://arxiv.org/abs/2602.17907" data-article-title="DSL-Topic: Improving Topic Modeling by Distilling Soft Labelsfrom Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.17907" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.17907" target="_blank" rel="noopener">DSL-Topic: Improving Topic Modeling by Distilling Soft Labelsfrom Language Models</a></h3>
      <p class="summary">Traditional neural topic models are typically optimized by reconstructing the document&#x27;s Bag-of-Words (BoW) representations, overlooking co…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7e9b5c6ecc41" data-article-url="https://arxiv.org/abs/2602.19101" data-article-title="Value Entanglement: Conflation Between Different Kinds of Good In (Some) Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.19101" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.19101" target="_blank" rel="noopener">Value Entanglement: Conflation Between Different Kinds of Good In (Some) Large Language Models</a></h3>
      <p class="summary">Value alignment of Large Language Models (LLMs) requires us to empirically measure these models&#x27; actual, acquired representation of value.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dd8e3a28b4f6" data-article-url="https://arxiv.org/abs/2602.20971" data-article-title="Does Order Matter : Connecting The Law of Robustness to Robust Generalization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.20971" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.20971" target="_blank" rel="noopener">Does Order Matter : Connecting The Law of Robustness to Robust Generalization</a></h3>
      <p class="summary">Bubeck and Selke (2021) propose the connection between the Law of Robustness and robust generalization error as an open problem. The Law of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1bf18017c459" data-article-url="https://arxiv.org/abs/2602.23312" data-article-title="Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.23312" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.23312" target="_blank" rel="noopener">Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction</a></h3>
      <p class="summary">Leader-follower interaction is an important paradigm in human-robot interaction (HRI). Yet, assigning roles in real time remains challengin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8effe5b42fcf" data-article-url="https://arxiv.org/abs/2603.02697" data-article-title="ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.02697" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.02697" target="_blank" rel="noopener">ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling</a></h3>
      <p class="summary">This paper presents ShareVerse, a video generation framework enabling multi-agent shared world modeling, addressing the gap in existing wor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="371159648577" data-article-url="https://arxiv.org/abs/2603.03482" data-article-title="Beyond Pixel Histories: World Models with Persistent 3D State" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.03482" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.03482" target="_blank" rel="noopener">Beyond Pixel Histories: World Models with Persistent 3D State</a></h3>
      <p class="summary">Interactive world models continually generate video by responding to a user&#x27;s actions, enabling open-ended generation capabilities. However…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="524b850495e6" data-article-url="https://arxiv.org/abs/2603.04444" data-article-title="vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.04444" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.04444" target="_blank" rel="noopener">vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models</a></h3>
      <p class="summary">As large language models (LLMs) diversify across modalities, capabilities, and cost profiles, the problem of intelligent request routing: s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="056f11ec8405" data-article-url="https://arxiv.org/abs/2603.09170" data-article-title="ZeroWBC: Learning Natural Whole-Body Humanoid Interaction from Human Egocentric Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.09170" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.09170" target="_blank" rel="noopener">ZeroWBC: Learning Natural Whole-Body Humanoid Interaction from Human Egocentric Data</a></h3>
      <p class="summary">Achieving versatile and natural whole-body humanoid interaction control remains challenging due to the high cost of whole-body teleoperatio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="245076ee5b2e" data-article-url="https://arxiv.org/abs/2603.09391" data-article-title="Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.09391" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.09391" target="_blank" rel="noopener">Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis</a></h3>
      <p class="summary">Engine sounds originate from sequential exhaust pressure pulses rather than sustained harmonic oscillations. While neural synthesis methods…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cd9452db34e8" data-article-url="https://arxiv.org/abs/2603.09493" data-article-title="EvoPrompt: Guided Prompt Evolution for Vision-Language Models Adaptation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.09493" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.09493" target="_blank" rel="noopener">EvoPrompt: Guided Prompt Evolution for Vision-Language Models Adaptation</a></h3>
      <p class="summary">The adaptation of large-scale vision-language models (VLMs) to downstream tasks with limited labeled data remains a significant challenge.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5b04d807daf8" data-article-url="https://arxiv.org/abs/2603.10044" data-article-title="Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.10044" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.10044" target="_blank" rel="noopener">Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety</a></h3>
      <p class="summary">A safety score earned on a benchmark need not predict how the same model behaves once it is wrapped in an agentic scaffold the benchmark ne…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="700d943ff473" data-article-url="https://arxiv.org/abs/2603.10289" data-article-title="Quantum entanglement provides a competitive advantage in adversarial games" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.10289" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.10289" target="_blank" rel="noopener">Quantum entanglement provides a competitive advantage in adversarial games</a></h3>
      <p class="summary">Whether uniquely quantum resources confer advantages in fully classical, competitive environments remains an open question. Competitive zer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="07a0edb20fd4" data-article-url="https://arxiv.org/abs/2603.10971" data-article-title="ContactExplorer: Contact Coverage-Guided Exploration for General-Purpose Dexterous Manipulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.10971" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.10971" target="_blank" rel="noopener">ContactExplorer: Contact Coverage-Guided Exploration for General-Purpose Dexterous Manipulation</a></h3>
      <p class="summary">Reinforcement learning has achieved remarkable success in domains such as Atari games, navigation, and locomotion, where exploration can of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="55c065eb47d3" data-article-url="https://arxiv.org/abs/2603.12433" data-article-title="Revisiting Model Stitching In the Foundation Model Era" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.12433" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.12433" target="_blank" rel="noopener">Revisiting Model Stitching In the Foundation Model Era</a></h3>
      <p class="summary">Model stitching, connecting early layers of one model (source) to later layers of another (target) via a light stitch layer, has served as…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="54207ddad338" data-article-url="https://arxiv.org/abs/2603.13384" data-article-title="VulnAgent-R2: Evidence-Calibrated Multi-Agent Auditing for Repository-Level Vulnerability Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.13384" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.13384" target="_blank" rel="noopener">VulnAgent-R2: Evidence-Calibrated Multi-Agent Auditing for Repository-Level Vulnerability Detection</a></h3>
      <p class="summary">Software vulnerabilities often depend on cross-file data flow, build options, framework conventions, and runtime guards, so isolated functi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c60f256dd0f9" data-article-url="https://arxiv.org/abs/2603.13432" data-article-title="Spatial Transcriptomics as Images for Large-Scale Pretraining" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.13432" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.13432" target="_blank" rel="noopener">Spatial Transcriptomics as Images for Large-Scale Pretraining</a></h3>
      <p class="summary">Spatial Transcriptomics (ST) profiles thousands of gene expression values at discrete spots with precise coordinates on tissue sections, pr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="29703d19d68b" data-article-url="https://arxiv.org/abs/2603.19005" data-article-title="AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.19005" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.19005" target="_blank" rel="noopener">AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science</a></h3>
      <p class="summary">Data science plays a critical role in transforming complex data into actionable insights across numerous domains. Recent developments in la…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c8bdf2eb5b30" data-article-url="https://arxiv.org/abs/2603.19225" data-article-title="FinTradeBench: A Financial Reasoning Benchmark for LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.19225" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.19225" target="_blank" rel="noopener">FinTradeBench: A Financial Reasoning Benchmark for LLMs</a></h3>
      <p class="summary">Real-world financial decision-making is a challenging problem that requires reasoning over heterogeneous signals, including company fundame…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a524779d91ea" data-article-url="https://arxiv.org/abs/2603.22121" data-article-title="GenSpan: Generation-Calibrated Motion Span Priors for Multi-Verb Video Corpus Moment Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.22121" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.22121" target="_blank" rel="noopener">GenSpan: Generation-Calibrated Motion Span Priors for Multi-Verb Video Corpus Moment Retrieval</a></h3>
      <p class="summary">Video Corpus Moment Retrieval (VCMR) aims to retrieve both the correct video and its temporal segment corresponding to a natural-language q…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="de426060c4dc" data-article-url="https://arxiv.org/abs/2603.23841" data-article-title="PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Turn Roleplay" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23841" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23841" target="_blank" rel="noopener">PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Turn Roleplay</a></h3>
      <p class="summary">While Large Language Models (LLMs) are increasingly used as primary sources of information, their potential for political bias may impact t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9dc3dbd7477c" data-article-url="https://arxiv.org/abs/2603.28762" data-article-title="On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.28762" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.28762" target="_blank" rel="noopener">On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers</a></h3>
      <p class="summary">Modern Text-to-Image (T2I) diffusion models have achieved remarkable semantic alignment, yet they often suffer from a significant lack of v…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="50be05fdcf94" data-article-url="https://arxiv.org/abs/2604.00819" data-article-title="Emotion Entanglement and Bayesian Inference for Multi-Dimensional Emotion Understanding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.00819" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.00819" target="_blank" rel="noopener">Emotion Entanglement and Bayesian Inference for Multi-Dimensional Emotion Understanding</a></h3>
      <p class="summary">Understanding emotions in natural language is inherently a multi-dimensional reasoning problem, where multiple affective signals interact t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dbe45a85e01e" data-article-url="https://arxiv.org/abs/2604.04944" data-article-title="Inclusion-of-Thoughts: Mitigating Preference Instability via Purifying the Decision Space" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.04944" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.04944" target="_blank" rel="noopener">Inclusion-of-Thoughts: Mitigating Preference Instability via Purifying the Decision Space</a></h3>
      <p class="summary">Multiple-choice questions (MCQs) are widely used to evaluate large language models (LLMs). However, LLMs remain vulnerable to the presence…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bd7be66834ae" data-article-url="https://arxiv.org/abs/2604.11510" data-article-title="Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.11510" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.11510" target="_blank" rel="noopener">Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization</a></h3>
      <p class="summary">To encourage diverse exploration in reinforcement learning (RL) for large language models (LLMs) without compromising accuracy, we propose…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ac98b81db48f" data-article-url="https://arxiv.org/abs/2604.12645" data-article-title="Contextual Multi-Task Reinforcement Learning for Autonomous Reef Monitoring" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.12645" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.12645" target="_blank" rel="noopener">Contextual Multi-Task Reinforcement Learning for Autonomous Reef Monitoring</a></h3>
      <p class="summary">Although autonomous underwater vehicles promise the capability of marine ecosystem monitoring, their deployment is fundamentally limited by…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="beb1f4ef0e06" data-article-url="https://arxiv.org/abs/2604.14575" data-article-title="Generative Augmented Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.14575" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.14575" target="_blank" rel="noopener">Generative Augmented Inference</a></h3>
      <p class="summary">Large language models enable inexpensive AI-generated annotations, but using them reliably for causal inference remains challenging. Naivel…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dcb402a0213b" data-article-url="https://arxiv.org/abs/2604.25860" data-article-title="Luminol-AIDetect: Fast Zero-shot Machine-Generated Text Detection based on Perplexity under Text Shuffling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.25860" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.25860" target="_blank" rel="noopener">Luminol-AIDetect: Fast Zero-shot Machine-Generated Text Detection based on Perplexity under Text Shuffling</a></h3>
      <p class="summary">Machine-generated text (MGT) detection requires identifying structurally invariant signals across generation models, rather than relying on…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="34a19bbd6d31" data-article-url="https://arxiv.org/abs/2605.00242" data-article-title="MAEPose: Self-Supervised Spatiotemporal Learning for Human Pose Estimation on mmWave Video" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.00242" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.00242" target="_blank" rel="noopener">MAEPose: Self-Supervised Spatiotemporal Learning for Human Pose Estimation on mmWave Video</a></h3>
      <p class="summary">Millimetre-wave (mmWave) radar offers a more privacy-preserving alternative to RGB-based human pose estimation. However, existing methods t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f84f66db5645" data-article-url="https://arxiv.org/abs/2605.01910" data-article-title="Stochastic Sparse Attention for Memory-Bound Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.01910" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.01910" target="_blank" rel="noopener">Stochastic Sparse Attention for Memory-Bound Inference</a></h3>
      <p class="summary">Autoregressive decoding becomes bandwidth-limited at long contexts, as generating each token requires reading all $n_k$ key and value vecto…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f5c76f5d69d2" data-article-url="https://arxiv.org/abs/2605.03353" data-article-title="SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.03353" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.03353" target="_blank" rel="noopener">SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents</a></h3>
      <p class="summary">LLM agents increasingly rely on reusable skills (e.g., SKILL markdown files) to execute complex tasks, yet these artifacts lack portability…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2fa3637b941a" data-article-url="https://arxiv.org/abs/2605.04356" data-article-title="Efficiently Aligning Language Models with Online Natural Language Feedback" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.04356" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.04356" target="_blank" rel="noopener">Efficiently Aligning Language Models with Online Natural Language Feedback</a></h3>
      <p class="summary">Reinforcement learning with verifiable rewards has been used to elicit impressive performance from language models in many domains. But, br…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6efcdb1ece5d" data-article-url="https://arxiv.org/abs/2605.07032" data-article-title="A Systematic Investigation of RL-Jailbreaking in LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.07032" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.07032" target="_blank" rel="noopener">A Systematic Investigation of RL-Jailbreaking in LLMs</a></h3>
      <p class="summary">The evolution of generative models from next-token predictors to autonomous engines of complex systems necessitates rigorous safety hardeni…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="86b194211422" data-article-url="https://arxiv.org/abs/2605.07724" data-article-title="Curated Synthetic Data Doesn&#x27;t Have to Collapse: A Theoretical Study of Generative Retraining with Pluralistic Preferences" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.07724" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.07724" target="_blank" rel="noopener">Curated Synthetic Data Doesn&#x27;t Have to Collapse: A Theoretical Study of Generative Retraining with Pluralistic Preferences</a></h3>
      <p class="summary">Recursive retraining of generative models poses a critical representation challenge: when synthetic outputs are curated based on a fixed re…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="717693a216c6" data-article-url="https://arxiv.org/abs/2605.09081" data-article-title="FactoryNet: A Large-Scale Dataset toward Industrial Time-Series Foundation Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.09081" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.09081" target="_blank" rel="noopener">FactoryNet: A Large-Scale Dataset toward Industrial Time-Series Foundation Models</a></h3>
      <p class="summary">We introduce the first universal pretraining corpus for industrial time-series data: FactoryNet. 51M datapoints across 23k end-to-end task…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="88ad392890b1" data-article-url="https://arxiv.org/abs/2605.11130" data-article-title="HEPA: A Self-Supervised Horizon-Conditioned Event Predictive Architecture for Time Series" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.11130" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.11130" target="_blank" rel="noopener">HEPA: A Self-Supervised Horizon-Conditioned Event Predictive Architecture for Time Series</a></h3>
      <p class="summary">Critical events in multivariate time series, from turbine failures to cardiac arrhythmias, demand accurate prediction, yet labeled data is…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1a471c691dfc" data-article-url="https://arxiv.org/abs/2605.15152" data-article-title="Widening the Gap: Exploiting LLM Quantization via Outlier Injection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.15152" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.15152" target="_blank" rel="noopener">Widening the Gap: Exploiting LLM Quantization via Outlier Injection</a></h3>
      <p class="summary">LLM quantization has become essential for memory-efficient deployment. Recent work has shown that quantization schemes can pose critical se…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4347e682c8b5" data-article-url="https://arxiv.org/abs/2605.16301" data-article-title="Do LLMs Hold Their Values? MANTA: A Multi-Turn Adversarial Benchmark for Animal Welfare Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><a class="entity-tag" href="/entity/grok/" data-entity="grok">Grok</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.16301" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.16301" target="_blank" rel="noopener">Do LLMs Hold Their Values? MANTA: A Multi-Turn Adversarial Benchmark for Animal Welfare Reasoning</a></h3>
      <p class="summary">Evaluating animal welfare reasoning in LLMs remains an open challenge despite rapid deployment in consumer and professional contexts where…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f9f6a9fd88ad" data-article-url="https://arxiv.org/abs/2605.16331" data-article-title="Retrieval and competition: how a protein foundation model starts a protein" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.16331" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.16331" target="_blank" rel="noopener">Retrieval and competition: how a protein foundation model starts a protein</a></h3>
      <p class="summary">Protein language models are increasingly used to guide experimental and clinical decisions, yet it is often unclear whether a confident pre…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1706b1077bfb" data-article-url="https://arxiv.org/abs/2605.17273" data-article-title="Position: State-of-the-Art Claims Require State-of-the-Art Evidence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.17273" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.17273" target="_blank" rel="noopener">Position: State-of-the-Art Claims Require State-of-the-Art Evidence</a></h3>
      <p class="summary">State-of-the-Art (SOTA) claims pervade Artificial Intelligence (AI) and Machine Learning (ML) research. These claims rest on benchmark eval…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5fb8178aaa1c" data-article-url="https://arxiv.org/abs/2605.18879" data-article-title="ZeroUnlearn: Few-Shot Knowledge Unlearning in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.18879" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.18879" target="_blank" rel="noopener">ZeroUnlearn: Few-Shot Knowledge Unlearning in Large Language Models</a></h3>
      <p class="summary">Large language models inevitably retain sensitive information, defined as inputs that may induce harmful generations, due to training on ma…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dbe253ca9c42" data-article-url="https://arxiv.org/abs/2605.18931" data-article-title="Markov Chain Decoders Overcome the Heavy-Tail Limitations of Lipschitz Generative Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.18931" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.18931" target="_blank" rel="noopener">Markov Chain Decoders Overcome the Heavy-Tail Limitations of Lipschitz Generative Models</a></h3>
      <p class="summary">Heavy-tailed distributions are prevalent in performance evaluation, network traffic, and risk modeling. This behavior poses a fundamental c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="92c10fdcf87c" data-article-url="https://arxiv.org/abs/2605.19294" data-article-title="DEFLECT: Temporal Counterfactual Preference Learning for Delay-Robust Asynchronous VLAs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.19294" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.19294" target="_blank" rel="noopener">DEFLECT: Temporal Counterfactual Preference Learning for Delay-Robust Asynchronous VLAs</a></h3>
      <p class="summary">Vision-Language-Action (VLA) policies increasingly rely on asynchronous inference to hide large-model latency behind ongoing robot motion.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="07ecf082d3c2" data-article-url="https://arxiv.org/abs/2605.19398" data-article-title="Rebalancing Reference Frame Dominance to Improve Motion in Image-to-Video Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.19398" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.19398" target="_blank" rel="noopener">Rebalancing Reference Frame Dominance to Improve Motion in Image-to-Video Models</a></h3>
      <p class="summary">Image-to-video models often generate videos that remain overly static, compared to text-to-video models. While prior approaches mitigate th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a0f261346b7" data-article-url="https://arxiv.org/abs/2605.20654" data-article-title="REFLECTOR: Internalizing Step-wise Reflection against Indirect Jailbreak" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.20654" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.20654" target="_blank" rel="noopener">REFLECTOR: Internalizing Step-wise Reflection against Indirect Jailbreak</a></h3>
      <p class="summary">While Large Language Models (LLMs) demonstrate remarkable capabilities, they remain susceptible to sophisticated, multi-step jailbreak atta…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d34d676bbcbb" data-article-url="https://arxiv.org/abs/2605.21446" data-article-title="Lost in Fog: Sensor Perturbations Expose Reasoning Fragility in Driving VLAs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.21446" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.21446" target="_blank" rel="noopener">Lost in Fog: Sensor Perturbations Expose Reasoning Fragility in Driving VLAs</a></h3>
      <p class="summary">Interpretable autonomous driving planners depend not only on generating explanations, but also on those explanations remaining reliable und…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="47533c0d7a1f" data-article-url="https://arxiv.org/abs/2605.23595" data-article-title="メタ学習による費用対効果の高いモデル評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.23595" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.23595" target="_blank" rel="noopener">メタ学習による費用対効果の高いモデル評価</a></h3>
      <p class="summary">機械学習の急速な成長により、拡大し続けるモデルのエコシステムが生み出され、目に見えないラベルのないデータに対して新しくリリースされたモデルの信頼性を検証することがますます困難になっています。従来の評価パイプラインは、高価なアノテーション、繰り返しの微調整、またはモデル ファミリ間での転送ができない狭い仮定に依存しています。さまざまなアーキテクチャやモダリティにまたがる未確認のモデルをラベルなしで迅速に評価するための、コスト効率が高く、モデルに依存しないフレームワークである MetaEvaluator を紹介します。 MetaEvaluator は、参照モデルのプールに対するメタ学習を利用して転送可能な初期化を取得し、プール全体でコストを償却しながら、モデルごとの再トレーニングの必要性を排除しながら、新しいモデルの正確な評価を可能にします。私たちの知る限り、これは完全にラベルのないデータセットで新しいモデルを評価できる、モデルに依存しない最初のフレームワークです。広範な実験により、MetaEvaluator は従来のアプローチと比較して大幅にコストを削減しながら安定した正確なパフォーマンス推定値を生成し、ラベルのないデータに対する新しいモデルのスケーラブルなベンチマークを実用化できることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Learning to Evaluate: Cost-Effective Model Evaluation on Unlabeled Data with Meta-Learning</p>
        <p class="orig-summary">The rapid advancement of machine learning has led to an unprecedented expansion of model ecosystems, making it increasingly difficult to assess the reliability of newly released models on unseen and unlabeled data. Existing evaluation pipelines typically rely on costly annotation, repeated fine-tuning, or assumptions that do not generalize well to new models. We introduce MetaEvaluator, a cost-effective, model-agnostic framework for fast, label-free evaluation of unseen models across diverse architectures and modalities. MetaEvaluator meta-learns over a pool of reference models to acquire an effective initialization for accurate assessment of unseen models, thereby amortizing evaluation cost and eliminating the need for per-model retraining. To the best of our knowledge, this is the first model-agnostic framework that evaluates new models on unlabeled datasets. Extensive experiments demonstrate that MetaEvaluator delivers stable and accurate performance estimates at substantially lower cost than conventional approaches, enabling scalable benchmarking on unlabeled datasets for emerging models. The code is available at: https://github.com/phkhanhtrinh23/MetaEvaluator.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4cf6eca0dcc2" data-article-url="https://arxiv.org/abs/2605.24358" data-article-title="グラフデータに対するネットワーク効果の微分による治療効果の推定" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24358" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24358" target="_blank" rel="noopener">グラフデータに対するネットワーク効果の微分による治療効果の推定</a></h3>
      <p class="summary">観察グラフデータから個人治療効果（ITE）を推定することは、商業や医療などの分野での意思決定に不可欠です。この作業は、個々の結果が近隣の治療法や共変量によって影響を受ける可能性があるため、干渉が生じるため困難です。既存の方法は、正確な ITE 推定のためにそのような干渉をモデル化しようとしています。ただし、重要な問題は見落とされがちです。それは、差異化ネットワーク効果 (DNE) です。これは、重要性と規模が異なる近隣ネットワークで構成されるローカル ネットワークによって引き起こされる効果です。 DNE をキャプチャすることは不可欠です。そうしないと、干渉の誤った特性評価により ITE 推定が不正確になり、誤った決定を招く可能性があります。この課題に対処するために、2 つの部分注意メカニズムとメッセージ増幅器を組み込んだ新しい干渉モデリング メカニズムを提案します。パーシャル アテンション メカニズムは、干渉に寄与するさまざまな隣接ノードの重要性を自動的に推定します。一方、メッセージ アンプは隣接ノードのスケールに基づいて干渉モデリング メカニズムの結果を調整します。これらすべてにより、モデルが DNE をキャプチャできるようになります。 3 つの現実世界のグラフでの実験では、私たちの方法がグラフ データから ITE を推定する既存のアプローチよりも優れていることが実証されており、DNE を明示的にキャプチャすることの重要性が裏付けられています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Treatment Effect Estimation with Differentiated Networked Effect on Graph Data</p>
        <p class="orig-summary">Estimating individual treatment effect (ITE) from observational graph data is crucial for decision-making in the fields such as commerce and medicine. This task is challenging due to interference, where individual outcomes can be influenced by the treatments and covariates of their neighbors. Existing methods attempt to model such interference for accurate ITE estimation. However, a critical issue is often overlooked: differentiated networked effect (DNE), an effect caused by local networks consisting of neighbors with varying importance and scales. Capturing DNE is vital; otherwise, we will end up with imprecise ITE estimation due to an erroneous characterization of interference, which can result in misguided decisions. To address this challenge, we propose a novel interference modeling mechanism that incorporates two partial attention mechanisms and a message amplifier. The partial attention mechanisms automatically estimate the importance of different neighbors in contributing to interference, while the message amplifier adjusts the results of the interference modeling mechanism based on the scale of neighbors, all of which enables the model to capture DNE. Experiments on three real-world graphs demonstrate that our methods outperform existing approaches for ITE estimation from graph data, which corroborates the importance of explicitly capturing DNE.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="16067353af38" data-article-url="https://arxiv.org/abs/2605.24602" data-article-title="注意力の散漫によって引き起こされる視覚的なぼやけを修正して幻覚を軽減する: アルゴリズムと理論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24602" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24602" target="_blank" rel="noopener">注意力の散漫によって引き起こされる視覚的なぼやけを修正して幻覚を軽減する: アルゴリズムと理論</a></h3>
      <p class="summary">マルチモーダル大規模言語モデル (MLLM) は、物体の幻覚に悩まされることがよくありますが、この失敗の根底にある視覚知覚メカニズムはまだ十分に理解されていません。この研究では、幻覚が人間のような注意散漫現象と強く関連していることを明らかにしました。この現象では、分割焦点下にある人間は視覚の明瞭度が低下し、不正確な説明を生成しますが、モデルでは同じメカニズムが、複数頭の注意における空間的な不一致と、デコード中の画像トークンへの注意の一時的な薄れとして現れます。さらに、注意の分散によってモデルの複雑さが増大し、分類の一般化が低下するという理論的な洞察も提供します。これらの発見に動機づけられて、我々は、画像認識を改善するための注意集中アプローチ（AFIP）を提案します。これは、クロスヘッド注意の強化を通じて注意の散漫を修正し、動的な歴史的注意の強化を通じて視覚の基礎を強化します。複数のベンチマークとモデルに関する広範な実験により、追加のトレーニングなしで AFIP の有効性が検証されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Correcting Visual Blur Induced by Attention Distraction to Reduce Hallucinations: Algorithm and Theory</p>
        <p class="orig-summary">Multimodal large language models (MLLMs) frequently suffer from object hallucinations, yet the visual perceptual mechanism underlying this failure remains poorly understood. In this work, we reveal that hallucinations are strongly associated with a human-like attention distraction phenomenon, where humans under divided focus experience degraded visual clarity and produce inaccurate descriptions, while in models the same mechanism manifests as spatial inconsistency in multi-head attention and temporal fading of attention to image tokens during decoding. We further provide theoretical insights that attention dispersion increases model complexity and degrades classification generalization. Motivated by these findings, we propose an Attention-Focused Approach for Improved Image Perception (AFIP), which corrects attention distraction via cross-head attention enrichment and reinforces visual grounding through dynamic historical attention enhancement. Extensive experiments on multiple benchmarks and models validate the effectiveness of AFIP without additional training.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="89e1481733c2" data-article-url="https://arxiv.org/abs/2605.25402" data-article-title="Anatomy-Anchored Self-Supervision: Distilling Vision Foundation Models for Invariant Ultrasound Representation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25402" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25402" target="_blank" rel="noopener">Anatomy-Anchored Self-Supervision: Distilling Vision Foundation Models for Invariant Ultrasound Representation</a></h3>
      <p class="summary">Self-supervised pre-training paradigm has gained increasing prominence for learning transferable representations in medical imaging, yet ex…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a114fad6f0b5" data-article-url="https://arxiv.org/abs/2605.27488" data-article-title="Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27488" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27488" target="_blank" rel="noopener">Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels</a></h3>
      <p class="summary">Agentic systems increasingly run user-authored orchestration code that invokes tools, spawns subtasks, and delegates work across machines a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5145b89469ba" data-article-url="https://arxiv.org/abs/2605.28829" data-article-title="アリヤバータ 2: 高度な STEM 推論のための強化学習のスケーリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28829" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28829" target="_blank" rel="noopener">アリヤバータ 2: 高度な STEM 推論のための強化学習のスケーリング</a></h3>
      <p class="summary">JEE や NEET などの競争力のある STEM 試験では、複数段階の記号的推論、正確な数値計算、物理、化学、数学にわたる深い概念的理解が必要です。最近の大規模な言語モデルは、共通の推論ベンチマークでは優れたパフォーマンスを発揮しますが、大規模に展開することは依然として困難であり、学生の何百万もの疑問がドメイン固有の一貫した構造の問題解決を必要としています。 Aryabhata 2 は、トレーニング後の強化学習によってトレーニングされた、競争力のある STEM 試験用の推論に焦点を当てた言語モデルです。 PhysicsWallah の内部質問バンクを使用して、高品質のトレーニング カリキュラムを構築し、検証可能な報酬を伴う強化学習を通じて GPT-OSS-20B のポストトレーニングを構築します。トレーニングでは、長期にわたる強化学習と、段階的にロールアウト グループのサイズが大きくなることで広がる探索を組み合わせます。 JEE Main、JEE Advanced、NEET などの競合試験ベンチマークと、AIME、HMMT、MMLU-Pro、MMLU-Redux 2.0、GPQA などの配布外推論データセットで Aryabhata 2 を評価します。結果は、Aryabhata 2 が競合 STEM 推論において基本モデル GPT-OSS-20B を上回るパフォーマンスを示しながら、必要な出力トークンが大幅に少なくなる (最大 64\% 少ない) ことを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning</p>
        <p class="orig-summary">Competitive STEM examinations such as JEE and NEET require multi-step symbolic reasoning, precise numerical computation, and deep conceptual understanding across physics, chemistry, and mathematics. Recent large language models perform strongly on common reasoning benchmarks, yet they remain difficult to deploy at scale, where millions of student doubts demand domain-specific, consistently structured problem solving. We introduce Aryabhata 2, a reasoning-focused language model for competitive STEM examinations, trained via reinforcement-learning post-training. Using PhysicsWallah&#x27;s internal question banks, we construct a high-quality training curriculum and post-train GPT-OSS-20B through reinforcement learning with verifiable rewards. Training combines prolonged reinforcement learning with broadened exploration via progressively larger rollout group sizes. We evaluate Aryabhata 2 on competitive examination benchmarks, including JEE Main, JEE Advanced, and NEET, as well as out-of-distribution reasoning datasets such as AIME, HMMT, MMLU-Pro, MMLU-Redux 2.0, and GPQA. Results show that Aryabhata 2 outperforms its base model GPT-OSS-20B on competitive STEM reasoning while requiring substantially fewer output tokens (up to 64\% fewer).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e154200c20f6" data-article-url="https://arxiv.org/abs/2605.29076" data-article-title="構造化プロンプトの最適化と強化学習の融合により、複雑なテキストに対するグローバルおよびローカルの解釈可能性が実現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29076" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29076" target="_blank" rel="noopener">構造化プロンプトの最適化と強化学習の融合により、複雑なテキストに対するグローバルおよびローカルの解釈可能性が実現</a></h3>
      <p class="summary">LLM は高度なテキスト分類を備えていますが、既存のパラダイムはトレードオフに直面しています。教師付き (ラベルのみ) 微調整はスケーラブルですが、複雑なテキストに対する推論が限られており、広範なモデルの透明性に欠けています。一方、離散プロンプト最適化は人間が読める命令を提供しますが、パフォーマンスとスケーラビリティに苦労します。私たちは、3 つの段階的な段階を持つ eXTC (eXplainable Text Classifier) を導入します。(1) 新しい構造化プロンプト最適化アルゴリズムを介して、自然言語で標準操作手順 (SOP、またはルールブック) を学習します。 (2) SOP に基づいた推論を大規模な教師 LLM からコンパクトな LM に抽出します。 (3) 強化学習により、初期 SOP を超えて推論能力を拡張します。この設計により、eXTC は、(i) コンパクトな LM を介した高速推論、(ii) 学習したドメイン ルールのグローバルなモジュール式説明と並行した推論時のローカル推論トレースを提供できるようになり、(iii) 分類パフォーマンスと説明品質の両方において、さまざまなベンチマークにわたって既存のパラダイムを大幅に上回り、段階ごとに向上します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Structured Prompt Optimization Meets Reinforcement Learning for Global and Local Interpretability over Complex Text</p>
        <p class="orig-summary">LLMs have advanced text classification, yet existing paradigms face a trade-off: supervised (label only) fine-tuning is scalable but offers limited reasoning on complex text and lacks broader model transparency, while discrete prompt optimization offers human-readable instructions but struggles with performance and scalability. We introduce eXTC (eXplainable Text Classifier) with three progressive stages: (1) learning a Standard Operating Procedure (SOP, or rulebook) in natural language via a new Structured Prompt Optimization algorithm; (2) SOP-grounded reasoning distillation from a large teacher LLM into a compact LM; and (3) expanding reasoning capabilities beyond the initial SOP via reinforcement learning. This design enables eXTC to provide (i) fast inference via a compact LM, with (ii) inference-time local reasoning traces, alongside a global, modular explanation of its learned domain rules, while (iii) significantly outperforming existing paradigms across diverse benchmarks in both classification performance and explanation quality, with stage-by-stage gains.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9477e23fdebc" data-article-url="https://arxiv.org/abs/2605.29280" data-article-title="LoopFM: Learning frOm HistOrical RePresentations of Foundation Model for Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29280" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29280" target="_blank" rel="noopener">LoopFM: Learning frOm HistOrical RePresentations of Foundation Model for Recommendation</a></h3>
      <p class="summary">Knowledge distillation (KD) transfers a single scalar prediction from a large foundation model (FM) to compact vertical models (VMs), suffe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="85e0023df501" data-article-url="https://arxiv.org/abs/2605.29861" data-article-title="Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29861" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29861" target="_blank" rel="noopener">Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation</a></h3>
      <p class="summary">Large Language Models (LLMs) have advanced autonomous agents from deep search, which retrieves concise factual answers, to deep research, w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="73de66392a53" data-article-url="https://arxiv.org/abs/2605.29928" data-article-title="Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29928" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29928" target="_blank" rel="noopener">Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs</a></h3>
      <p class="summary">As AI-generated and AI-assisted content floods online spaces, source labels attached to such content can distort human reasoning judgments,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2a3f327aa52" data-article-url="https://arxiv.org/abs/2605.30120" data-article-title="No More K-means: Single-Stage Sparse Coding for Efficient Multi-Vector Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30120" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30120" target="_blank" rel="noopener">No More K-means: Single-Stage Sparse Coding for Efficient Multi-Vector Retrieval</a></h3>
      <p class="summary">Multi-vector retrieval (MVR) models, exemplified by ColBERT, have established new benchmarks in retrieval accuracy by preserving fine-grain…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3830de13636e" data-article-url="https://arxiv.org/abs/2605.31483" data-article-title="BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31483" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31483" target="_blank" rel="noopener">BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali</a></h3>
      <p class="summary">Despite Bengali being the sixth most spoken language in the world, no prior work has systematically evaluated hallucination in large langua…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bbc2c058a259" data-article-url="https://arxiv.org/abs/2606.00038" data-article-title="Beyond Tool Adoption: A Practical Five-Stage Developmental Continuum for AI Literacy in Higher Education" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00038" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00038" target="_blank" rel="noopener">Beyond Tool Adoption: A Practical Five-Stage Developmental Continuum for AI Literacy in Higher Education</a></h3>
      <p class="summary">We propose a five-stage AI Literacy Continuum for higher education consisting of Not Yet Engaged, Uncritical Use, Informed Use, Critical Ev…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a859c3e8cdc" data-article-url="https://arxiv.org/abs/2606.00747" data-article-title="SkyShield: Occupancy as a Safety Interface for Low-Altitude UAV Autonomy" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00747" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00747" target="_blank" rel="noopener">SkyShield: Occupancy as a Safety Interface for Low-Altitude UAV Autonomy</a></h3>
      <p class="summary">For low-altitude Unmanned Aerial Vehicle (UAV) autonomy, 3D spatial understanding is not merely a perception objective, but the safety inte…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="916dfedeed15" data-article-url="https://arxiv.org/abs/2606.01023" data-article-title="Data Collection for Training Quality-Control AI in Carpet Manufacturing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01023" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01023" target="_blank" rel="noopener">Data Collection for Training Quality-Control AI in Carpet Manufacturing</a></h3>
      <p class="summary">Visual inspection remains the dominant quality-control practice in woven and tufted carpet production, yet it is slow, subjective, and inco…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d1ab2bdd8d4a" data-article-url="https://arxiv.org/abs/2606.01138" data-article-title="memorywire: A Vendor-Neutral Wire Format for Agent Memory Operations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01138" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01138" target="_blank" rel="noopener">memorywire: A Vendor-Neutral Wire Format for Agent Memory Operations</a></h3>
      <p class="summary">Agent-memory frameworks -- mem0, Letta/MemGPT, Cognee, Zep/Graphiti, MemoryOS, MemTensor -- each ship their own SDK, storage layout, and op…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="375719e9be15" data-article-url="https://arxiv.org/abs/2606.01212" data-article-title="DiscourseFlip: An Oblique Discourse-Level Opinion Manipulation Attack against Black-box Retrieval-Augmented Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01212" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01212" target="_blank" rel="noopener">DiscourseFlip: An Oblique Discourse-Level Opinion Manipulation Attack against Black-box Retrieval-Augmented Generation</a></h3>
      <p class="summary">Retrieval-Augmented Generation (RAG) systems are widely deployed and increasingly influential, but their reliance on external corpora expos…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e8625d5b6c15" data-article-url="https://arxiv.org/abs/2606.01770" data-article-title="Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01770" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01770" target="_blank" rel="noopener">Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams</a></h3>
      <p class="summary">Auto-harness systems such as A-Evolve, GEPA, and Meta-Harness improve LLM agents by optimizing prompts, skills, tools, memories, and suppor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3ead520e9a0a" data-article-url="https://arxiv.org/abs/2606.02403" data-article-title="AutoForest: Automatically Generating Forest Plots from Biomedical Studies with End-to-End Evidence Extraction and Synthesis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02403" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02403" target="_blank" rel="noopener">AutoForest: Automatically Generating Forest Plots from Biomedical Studies with End-to-End Evidence Extraction and Synthesis</a></h3>
      <p class="summary">Systematic reviews rely on forest plots to synthesise quantitative evidence across biomedical studies, but generating them remains a fragme…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0547c8a245d6" data-article-url="https://arxiv.org/abs/2606.02636" data-article-title="Too Much of a Good Thing: When sim2real Efforts Impede Policy Learning (And What to Do About It)" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02636" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02636" target="_blank" rel="noopener">Too Much of a Good Thing: When sim2real Efforts Impede Policy Learning (And What to Do About It)</a></h3>
      <p class="summary">While sim2real efforts are necessary for effective policy transfer to hardware, there is such a thing as too much of a good thing. We argue…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="914ac75ef1f8" data-article-url="https://arxiv.org/abs/2606.02670" data-article-title="Anomalies in Multivariate Time Series Benchmarks Are Mostly Univariate" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02670" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02670" target="_blank" rel="noopener">Anomalies in Multivariate Time Series Benchmarks Are Mostly Univariate</a></h3>
      <p class="summary">Many recent multivariate time series anomaly detection (MTSAD) models incorporate cross-channel modeling, under the implicit assumption tha…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="76e1d2629fa6" data-article-url="https://arxiv.org/abs/2606.02886" data-article-title="Scalable Uncertainty Quantification for Extreme Weather Forecasting via Empirical Neural Tangent Kernels" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02886" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02886" target="_blank" rel="noopener">Scalable Uncertainty Quantification for Extreme Weather Forecasting via Empirical Neural Tangent Kernels</a></h3>
      <p class="summary">Deep learning weather models now match numerical weather prediction accuracy while running orders of magnitude faster, but produce determin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4179dd896cb" data-article-url="https://arxiv.org/abs/2606.03161" data-article-title="OpenAgenet/OAN: Open Infrastructure for Trusted Agent Interconnection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03161" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03161" target="_blank" rel="noopener">OpenAgenet/OAN: Open Infrastructure for Trusted Agent Interconnection</a></h3>
      <p class="summary">OpenAgenet, abbreviated as OAN, is an open infrastructure project for trusted Agent interconnection. It addresses a problem that becomes vi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7c70aeaf6546" data-article-url="https://arxiv.org/abs/2606.03163" data-article-title="OpenAgenet/OAN: Technical Architecture for Trust-Governed Agent Identity and Discovery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03163" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03163" target="_blank" rel="noopener">OpenAgenet/OAN: Technical Architecture for Trust-Governed Agent Identity and Discovery</a></h3>
      <p class="summary">This paper describes the technical architecture of OpenAgenet / OAN. OAN is a protocol-neutral trust layer for open Agent interconnection.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f50f3a38e9e1" data-article-url="https://arxiv.org/abs/2606.03201" data-article-title="Reinforcement Learning from Cross-domain Videos with Video Prediction Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03201" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03201" target="_blank" rel="noopener">Reinforcement Learning from Cross-domain Videos with Video Prediction Model</a></h3>
      <p class="summary">Reinforcement learning from expert videos across visually distinct domains is challenging due to the absence of reward signals and the pres…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="52257192787b" data-article-url="https://arxiv.org/abs/2606.03307" data-article-title="Generalizing Graph Foundation Models via Hyperbolic Retrieval-Augmented Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03307" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03307" target="_blank" rel="noopener">Generalizing Graph Foundation Models via Hyperbolic Retrieval-Augmented Generation</a></h3>
      <p class="summary">Graph foundation models (GFMs) emerged as a dominant paradigm in graph representation learning by leveraging large-scale pre-training for c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="92d0205e6908" data-article-url="https://arxiv.org/abs/2606.03323" data-article-title="Implement Kubernetes Pod-Level Remote Attestation for Confidential Workloads on dstack" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03323" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03323" target="_blank" rel="noopener">Implement Kubernetes Pod-Level Remote Attestation for Confidential Workloads on dstack</a></h3>
      <p class="summary">The rise of LLM-as-a-Service and other confidential cloud workloads demands cryptographic proof that user data is processed in a trusted, u…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="438c1e8a4e79" data-article-url="https://arxiv.org/abs/2606.03376" data-article-title="P$^2$-DPO: Grounding Hallucination in Perceptual Processing via Calibration Direct Preference Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03376" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03376" target="_blank" rel="noopener">P$^2$-DPO: Grounding Hallucination in Perceptual Processing via Calibration Direct Preference Optimization</a></h3>
      <p class="summary">Hallucination has recently garnered significant research attention in Large Vision-Language Models (LVLMs). Direct Preference Optimization…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="020ca88119bd" data-article-url="https://arxiv.org/abs/2606.03419" data-article-title="Optimizing Explicit Unit-Distance Lower-Bound Certificates" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03419" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03419" target="_blank" rel="noopener">Optimizing Explicit Unit-Distance Lower-Bound Certificates</a></h3>
      <p class="summary">The 2026 disproof of Erd\H{o}s&#x27;s unit-distance conjecture and Sawin&#x27;s subsequent explicit quantitative refinement show that the maximum num…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c73a22a4f4a" data-article-url="https://arxiv.org/abs/2606.03564" data-article-title="CR-Seg: Attention-Guided and CoT-Enhanced Coarse-to-Refined Reasoning Segmentation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03564" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03564" target="_blank" rel="noopener">CR-Seg: Attention-Guided and CoT-Enhanced Coarse-to-Refined Reasoning Segmentation</a></h3>
      <p class="summary">Reasoning segmentation aims to segment target objects described by complex language through joint visual-textual reasoning. Existing method…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="887f55c86a16" data-article-url="https://arxiv.org/abs/2606.03598" data-article-title="PHASER: Phase-Aware and Semantic Experience Replay for Vision-Language-Action Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03598" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03598" target="_blank" rel="noopener">PHASER: Phase-Aware and Semantic Experience Replay for Vision-Language-Action Models</a></h3>
      <p class="summary">Vision-Language-Action (VLA) models have achieved remarkable success in language-conditioned robotic manipulation. However, deploying these…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4e6ade48863" data-article-url="https://arxiv.org/abs/2606.03606" data-article-title="Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03606" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03606" target="_blank" rel="noopener">Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks</a></h3>
      <p class="summary">Large language models achieve strong performance on arithmetic reasoning benchmarks, and one common response to arithmetic brittleness is t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f64b9581ae53" data-article-url="https://arxiv.org/abs/2606.03631" data-article-title="AnchorMoE: Interpretable Time Series Classification via Anchor-Routed MoE" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03631" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03631" target="_blank" rel="noopener">AnchorMoE: Interpretable Time Series Classification via Anchor-Routed MoE</a></h3>
      <p class="summary">Multivariate time series classification (MTSC) is pivotal in high-stakes domains, such as clinical diagnosis and industrial fault detection…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6ee397660c9" data-article-url="https://arxiv.org/abs/2606.03746" data-article-title="Qwen-Image-Flash: Beyond Objective Design" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03746" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03746" target="_blank" rel="noopener">Qwen-Image-Flash: Beyond Objective Design</a></h3>
      <p class="summary">Few-step distillation has become an effective strategy for accelerating advanced visual generative models, yet prior work has largely focus…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7dc0d0292b94" data-article-url="https://arxiv.org/abs/2606.03810" data-article-title="Consistency Training Can Entrench Misalignment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03810" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03810" target="_blank" rel="noopener">Consistency Training Can Entrench Misalignment</a></h3>
      <p class="summary">Consistency training encourages a model to produce similar outputs across related inputs or sampling procedures. Such methods are simple, s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="50009f7c677f" data-article-url="https://arxiv.org/abs/2606.03892" data-article-title="Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03892" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03892" target="_blank" rel="noopener">Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments</a></h3>
      <p class="summary">Training LLMs to orchestrate multi-step tool calls is held back by three coupled obstacles: realistic stateful execution environments are c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7c0dc7e73195" data-article-url="https://arxiv.org/abs/2606.03938" data-article-title="q0: Primitives for Hyper-Epoch Pretraining" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03938" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03938" target="_blank" rel="noopener">q0: Primitives for Hyper-Epoch Pretraining</a></h3>
      <p class="summary">Multi-epoch training is becoming the standard now that compute is growing faster than the supply of high-quality text. But pretraining a si…</p>
    </div>
  </div>
</div>
</div>
</details>
</div>]]></content><author><name></name></author><summary type="html"><![CDATA[AIニュース 2026-06-04 — 403件のストーリーを出典・トピック・要約とともに掲載。]]></summary><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-06-04.png" /><media:content medium="image" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-06-04.png" xmlns:media="http://search.yahoo.com/mrss/" /></entry><entry><title type="html">AIニュース 2026-06-03</title><link href="https://ai-news-bot-henna.vercel.app/news/2026/06/2026-06-03/" rel="alternate" type="text/html" title="AIニュース 2026-06-03" /><published>2026-06-03T00:00:00+00:00</published><updated>2026-06-03T00:00:00+00:00</updated><id>https://ai-news-bot-henna.vercel.app/news/2026/06/2026-06-03</id><content type="html" xml:base="https://ai-news-bot-henna.vercel.app/news/2026/06/2026-06-03/"><![CDATA[<h1 id="aiニュース-2026-06-03">AIニュース 2026-06-03</h1>

<p class="auto-gen-note">自動生成: 2026-06-03 13:47 JST</p>

<p><a href="/">← トップに戻る</a></p>

<p>過去24時間以内に公開された記事を、同じ話題ごとに1つのストーリーカードへまとめ、出典・トピック・要約とともに掲載しています。要約は各フィード提供文の冒頭を整形したもので、本文は各リンク先をご覧ください。</p>

<section class="today-top" aria-labelledby="today-top-heading">
  <h2 id="today-top-heading" class="today-top-heading">📌 今日の要点 TOP7</h2>
  <ol class="today-top-list">
    <li class="today-top-item">
      <a class="today-top-link" href="https://openai.com/index/travelers" target="_blank" rel="noopener">Travelers deploys AI-powered claims countrywide with OpenAI</a><span class="today-top-source">OpenAI</span>
      <p class="today-top-snippet">Travelers built an AI-powered Claim Assistant with OpenAI to guide cu…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://openai.com/index/codex-for-every-role-tool-workflow" target="_blank" rel="noopener">Codex for every role, tool, and workflow</a><span class="today-top-source">OpenAI</span>
      <p class="today-top-snippet">Discover new Codex plugins, sites, and annotations that help analysts…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://openai.com/index/advancing-youth-safety-and-opportunity-through-global-leadership" target="_blank" rel="noopener">Advancing youth safety and opportunity through global leadership</a><span class="today-top-source">OpenAI</span>
      <p class="today-top-snippet">OpenAI calls for global action on youth AI safety, proposing an inter…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/2026/06/02/openai-launches-new-codex-tools-for-white-collar-work/" target="_blank" rel="noopener">OpenAI launches new Codex tools for white-collar work</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">OpenAI released a set of six plug-ins aimed at specific jobs: data an…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/news/articles/2606/03/news077.html" target="_blank" rel="noopener">Microsoft、自社開発した7つのAIモデル発表　画像編集や音声認識も</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">米Microsoftが自社開発した7つのAIモデル群「Microsoft AI Models」を発表しました。</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/news/articles/2606/03/news074.html" target="_blank" rel="noopener">Microsoft、AIエージェント用のカスタマイズ可能な分離環境「Microsoft Execution Containers」発表　OpenClawも動作</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">米MicrosoftがAIエージェントのためのカスタマイズ可能な分離環境「Microsoft Execution Containers」（…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/news/articles/2606/03/news068.html" target="_blank" rel="noopener">トランプ米大統領、AI安全保障に関する大統領令に署名　最先端モデルを公開30日前に政府が検査可能に</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">トランプ米大統領は、先進的AIのイノベーションと安全保障の促進に関する大統領令に署名した。戦争省やCISAによるサイバー防衛強化に加え、主…</p>
    </li>
  </ol>
</section>

<h2 id="トピック別件数">トピック別件数</h2>

<ul class="topic-summary">
  <li data-topic="研究/論文" data-slug="research"><a href="/topics/research/"><strong>研究/論文</strong> 192件</a></li>
  <li data-topic="LLM/生成AI" data-slug="llm"><a href="/topics/llm/"><strong>LLM/生成AI</strong> 190件</a></li>
  <li data-topic="エージェント" data-slug="agents"><a href="/topics/agents/"><strong>エージェント</strong> 115件</a></li>
  <li data-topic="画像/動画生成" data-slug="image-video"><a href="/topics/image-video/"><strong>画像/動画生成</strong> 55件</a></li>
  <li data-topic="ビジネス/資金調達" data-slug="business"><a href="/topics/business/"><strong>ビジネス/資金調達</strong> 35件</a></li>
  <li data-topic="ロボティクス" data-slug="robotics"><a href="/topics/robotics/"><strong>ロボティクス</strong> 25件</a></li>
  <li data-topic="ハードウェア/半導体" data-slug="hardware"><a href="/topics/hardware/"><strong>ハードウェア/半導体</strong> 12件</a></li>
  <li data-topic="その他" data-slug="others"><a href="/topics/others/"><strong>その他</strong> 9件</a></li>
  <li data-topic="規制/政策" data-slug="regulation"><a href="/topics/regulation/"><strong>規制/政策</strong> 4件</a></li>
</ul>

<div class="category-accordion">
<details class="category-block" open="">
<summary class="category-summary"><span class="category-name">日本語メディア</span><span class="category-count">12件</span></summary>
<div class="category-body">
<h3 class="source-section">ITmedia AI+ (日本語)</h3>
<div class="news-card" data-article-id="880b03027689" data-article-url="https://www.itmedia.co.jp/news/articles/2606/03/news077.html" data-article-title="Microsoft、自社開発した7つのAIモデル発表　画像編集や音声認識も" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">11:03 JST</span><span class="topic-badge p-others">その他</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/news/articles/2606/03/news077.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/news/articles/2606/03/cover_news077.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/news/articles/2606/03/news077.html" target="_blank" rel="noopener">Microsoft、自社開発した7つのAIモデル発表　画像編集や音声認識も</a></h3>
      <p class="summary">米Microsoftが自社開発した7つのAIモデル群「Microsoft AI Models」を発表しました。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e597f7bbf37e" data-article-url="https://www.itmedia.co.jp/news/articles/2606/03/news074.html" data-article-title="Microsoft、AIエージェント用のカスタマイズ可能な分離環境「Microsoft Execution Containers」発表　OpenClawも動作" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">11:02 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/news/articles/2606/03/news074.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/news/articles/2606/03/cover_news074.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/news/articles/2606/03/news074.html" target="_blank" rel="noopener">Microsoft、AIエージェント用のカスタマイズ可能な分離環境「Microsoft Execution Containers」発表　OpenClawも動作</a></h3>
      <p class="summary">米MicrosoftがAIエージェントのためのカスタマイズ可能な分離環境「Microsoft Execution Containers」（MXC）を発表しました。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1597557f436c" data-article-url="https://www.itmedia.co.jp/news/articles/2606/03/news068.html" data-article-title="トランプ米大統領、AI安全保障に関する大統領令に署名　最先端モデルを公開30日前に政府が検査可能に" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">09:42 JST</span><span class="topic-badge p-regulation">規制/政策</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/news/articles/2606/03/news068.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/news/articles/2606/03/cover_news068.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/news/articles/2606/03/news068.html" target="_blank" rel="noopener">トランプ米大統領、AI安全保障に関する大統領令に署名　最先端モデルを公開30日前に政府が検査可能に</a></h3>
      <p class="summary">トランプ米大統領は、先進的AIのイノベーションと安全保障の促進に関する大統領令に署名した。戦争省やCISAによるサイバー防衛強化に加え、主要企業の最先端AIモデルを政府が事前検証する任意の枠組みを構築する。政府は全面的な監視を否定しており、民間の開発自由度を維持しつつ安全保障の…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="736d1055ce43" data-article-url="https://monoist.itmedia.co.jp/mn/articles/2606/03/news013.html" data-article-title="シーメンス、AIでCFD設計探索を高速化　「Simcenter PhysicsAI」を発表" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">09:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://monoist.itmedia.co.jp/mn/articles/2606/03/news013.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/mn/articles/2606/03/cover_news013.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://monoist.itmedia.co.jp/mn/articles/2606/03/news013.html" target="_blank" rel="noopener">シーメンス、AIでCFD設計探索を高速化　「Simcenter PhysicsAI」を発表</a></h3>
      <p class="summary">シーメンスは「Simcenter」の新機能として、AIを活用した設計空間探索向けソフトウェア「Simcenter PhysicsAI」を発表した。CFDのシミュレーション結果からAIサロゲートモデルを構築し、数千もの設計バリエーションを短時間で評価できる。従来は数日を要していた…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="54ad5d56b95c" data-article-url="https://www.itmedia.co.jp/enterprise/articles/2606/03/news043.html" data-article-title="シャドーAIに「ログイン情報」を渡している割合は？　Oktaの実態調査で判明" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">08:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/enterprise/articles/2606/03/news043.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/enterprise/articles/2606/03/cover_news043.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/enterprise/articles/2606/03/news043.html" target="_blank" rel="noopener">シャドーAIに「ログイン情報」を渡している割合は？　Oktaの実態調査で判明</a></h3>
      <p class="summary">ある調査によると、経営幹部の95％は「従業員は責任を持ってAIを利用している」と確信しているが、シャドーAIを使っている従業員は過半数に上るという。さらに、シャドーAIを利用している従業員の中には情報漏えいにつながりかねない「危険な使い方」をしている人も一定数いる。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eab79d6fa45d" data-article-url="https://www.itmedia.co.jp/news/articles/2606/03/news066.html" data-article-title="Microsoft、AndroidベースのAIエージェント基盤「Solara」発表　Snapdragon搭載のバッジ型端末も披露" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">07:49 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/news/articles/2606/03/news066.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/news/articles/2606/03/cover_news066.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/news/articles/2606/03/news066.html" target="_blank" rel="noopener">Microsoft、AndroidベースのAIエージェント基盤「Solara」発表　Snapdragon搭載のバッジ型端末も披露</a></h3>
      <p class="summary">Microsoftは「Build 2026」で、AIエージェントの実行に特化した新プラットフォーム「Project Solara」を発表した。OSにはWindowsではなくAOSPベースのOSを採用。Qualcommと共同開発した社員証のようなデバイスと、MediaTekと共同…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ca478da7d6e9" data-article-url="https://www.itmedia.co.jp/business/articles/2606/03/news017.html" data-article-title="AI需要で半導体不足は「しばらく続く」　PCメーカー、デルの対応策は？" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">07:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/business/articles/2606/03/news017.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/business/articles/2606/03/cover_news017.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/business/articles/2606/03/news017.html" target="_blank" rel="noopener">AI需要で半導体不足は「しばらく続く」　PCメーカー、デルの対応策は？</a></h3>
      <p class="summary">AI需要による半導体不足は「しばらく続く」――PCメーカーのデル・テクノロジーズはこう予測する。同社はこの難局をどう乗り切るのか。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="954fbd50acbb" data-article-url="https://atmarkit.itmedia.co.jp/ait/articles/2606/03/news002.html" data-article-title="【Pythonで学ぶデータ分析】ベイズ統計の考え方をやさしく学ぶ ～ 初めてでも流れが分かる入門編" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">05:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://atmarkit.itmedia.co.jp/ait/articles/2606/03/news002.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/ait/articles/2606/03/cover_news002.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://atmarkit.itmedia.co.jp/ait/articles/2606/03/news002.html" target="_blank" rel="noopener">【Pythonで学ぶデータ分析】ベイズ統計の考え方をやさしく学ぶ ～ 初めてでも流れが分かる入門編</a></h3>
      <p class="summary">初歩から応用までステップアップしながら学んでいく『やさしいデータ分析』シリーズ第5弾はベイズ統計編。今回は、二項分布の確率についてベイズ的な手法で母数の推定や検定を行います。</p>
    </div>
  </div>
</div>
<div class="news-card" id="story-c8dbdf3bdfc1" data-article-id="c8dbdf3bdfc1" data-article-url="https://www.itmedia.co.jp/news/articles/2606/03/news063.html" data-article-title="Microsoft、NVIDIAのSoC搭載でAI特化のミニPC「Surface RTX Spark Dev Box」披露" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">04:50 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><span class="dup-badge">2件の関連記事</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/news/articles/2606/03/news063.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/news/articles/2606/03/cover_news063.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/news/articles/2606/03/news063.html" target="_blank" rel="noopener">Microsoft、NVIDIAのSoC搭載でAI特化のミニPC「Surface RTX Spark Dev Box」披露</a></h3>
      <p class="summary">Microsoftは「Build 2026」で、AI特化型デスクトップPC「Surface RTX Spark Dev Box」を発表した。NVIDIAの「RTX Spark」を搭載し、最大1ペタフロップスの演算性能と128GBのメモリにより、1200億パラメータ超のモデルのロ…</p>
      <div class="story-sources"><span class="story-sources-label">出典:</span><a class="source-badge" href="https://monoist.itmedia.co.jp/mn/articles/2606/03/news062.html" target="_blank" rel="noopener" title="NVIDIAの「RTX Spark」と搭載ノートPCがCOMUPTEX TAIPEIのMediaTekブースに集結">ITmedia AI+</a><a class="source-badge" href="https://www.itmedia.co.jp/news/articles/2606/03/news063.html" target="_blank" rel="noopener" title="Microsoft、NVIDIAのSoC搭載でAI特化のミニPC「Surface RTX Spark Dev Box」披露">ITmedia AI+</a></div>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="51b3de836475" data-article-url="https://www.itmedia.co.jp/aiplus/article/2606/03/2000000050/" data-article-title="Microsoft、初の自社推論モデル「MAI-Thinking-1」発表　蒸留なしでゼロから学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">21:45 JST</span><span class="topic-badge p-others">その他</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/aiplus/article/2606/03/2000000050/" target="_blank" rel="noopener"><img loading="lazy" src="https://www.itmedia.co.jp/aiplus/article/ogp/2606/03/2000000050/10000281/2048" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/aiplus/article/2606/03/2000000050/" target="_blank" rel="noopener">Microsoft、初の自社推論モデル「MAI-Thinking-1」発表　蒸留なしでゼロから学習</a></h3>
      <p class="summary">Microsoftは「Build 2026」で、自社開発AI「MAI」の新モデル群を発表した。中核となる初の推論モデル「MAI-Thinking-1」は350億パラメータを持ち、他モデルからの蒸留を行わないクリーンなデータで学習。競合モデルに匹敵する高い性能を示し、独自チップ「…</p>
    </div>
  </div>
</div>
<div class="news-card" id="story-a2a30b72581e" data-article-id="a2a30b72581e" data-article-url="https://www.itmedia.co.jp/aiplus/article/2606/03/2000000049/" data-article-title="Microsoft、自律エージェント「Scout」発表　OpenClawベースでMCP対応" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">20:50 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-others">その他</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><span class="dup-badge">2媒体が報道</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/aiplus/article/2606/03/2000000049/" target="_blank" rel="noopener"><img loading="lazy" src="https://www.itmedia.co.jp/aiplus/article/ogp/2606/03/2000000049/10000277/2048" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/aiplus/article/2606/03/2000000049/" target="_blank" rel="noopener">Microsoft、自律エージェント「Scout」発表　OpenClawベースでMCP対応</a></h3>
      <p class="summary">Microsoftは「Build 2026」で、自律型AIエージェントの新カテゴリ「Autopilots」と、その第一弾「Microsoft Scout」を発表した。Scoutは「OpenClaw」基盤で構築され、常時バックグラウンドで稼働して「Microsoft 365」のア…</p>
      <div class="story-sources"><span class="story-sources-label">出典:</span><a class="source-badge" href="https://www.itmedia.co.jp/aiplus/article/2606/03/2000000049/" target="_blank" rel="noopener" title="Microsoft、自律エージェント「Scout」発表　OpenClawベースでMCP対応">ITmedia AI+</a><a class="source-badge" href="https://techcrunch.com/2026/06/02/microsoft-launches-scout-an-openclaw-inspired-personal-assistant/" target="_blank" rel="noopener" title="Microsoft launches Scout, an OpenClaw-inspired personal assistant">TechCrunch AI</a></div>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="27af0f9af26b" data-article-url="https://www.itmedia.co.jp/aiplus/article/2606/02/2000000048/" data-article-title="AIモデル「ミュトス」のアクセス権拡大　新たに150組織が利用へ　Anthropic" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">14:56 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/aiplus/article/2606/02/2000000048/" target="_blank" rel="noopener"><img loading="lazy" src="https://www.itmedia.co.jp/aiplus/article/ogp/2606/02/2000000048/10000228/2048" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/aiplus/article/2606/02/2000000048/" target="_blank" rel="noopener">AIモデル「ミュトス」のアクセス権拡大　新たに150組織が利用へ　Anthropic</a></h3>
      <p class="summary">米Anthropicは、サイバーセキュリティプロジェクト「Project Glasswing」を拡大し、AIモデル「Claude Mythos Preview」のアクセス権を新たに約150の組織に与えると発表した。</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">海外メディア</span><span class="category-count">12件</span></summary>
<div class="category-body">
<h3 class="source-section">TechCrunch AI (英語)</h3>
<div class="news-card" data-article-id="be3fb0c6207f" data-article-url="https://techcrunch.com/2026/06/02/cyera-eyes-12b-valuation-at-80x-arr-multiple-despite-operating-losses/" data-article-title="Cyera eyes $12B valuation at 80x ARR multiple despite operating losses" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">07:50 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/02/cyera-eyes-12b-valuation-at-80x-arr-multiple-despite-operating-losses/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2024/01/Cybersecurity-padlocks-Getty.jpg?resize=1200,675" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/02/cyera-eyes-12b-valuation-at-80x-arr-multiple-despite-operating-losses/" target="_blank" rel="noopener">Cyera eyes $12B valuation at 80x ARR multiple despite operating losses</a></h3>
      <p class="summary">The cybersecurity company is nearing a $300 million round led by Evolution Equity Partners.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7f9fddadd6b6" data-article-url="https://techcrunch.com/2026/06/02/uber-caps-employee-ai-spending-after-blowing-through-budget-in-four-months/" data-article-title="Uber caps employee AI spending after blowing through budget in 4 months" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">04:11 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/02/uber-caps-employee-ai-spending-after-blowing-through-budget-in-four-months/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/03/claude-app-centered-in-ai-apps-GettyImages-2167861906.jpg?resize=1200,801" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/02/uber-caps-employee-ai-spending-after-blowing-through-budget-in-four-months/" target="_blank" rel="noopener">Uber caps employee AI spending after blowing through budget in 4 months</a></h3>
      <p class="summary">Uber&#x27;s cutback has occurred after the company had reportedly encouraged staff to use AI as much as possible.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="908f14555169" data-article-url="https://techcrunch.com/2026/06/02/new-microsoft-tool-lets-devs-spin-up-ai-behavior-tests-using-text-descriptions/" data-article-title="New Microsoft tool lets devs spin up AI behavior tests using text descriptions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">04:02 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/02/new-microsoft-tool-lets-devs-spin-up-ai-behavior-tests-using-text-descriptions/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/GettyImages-172665283.jpg?resize=1200,900" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/02/new-microsoft-tool-lets-devs-spin-up-ai-behavior-tests-using-text-descriptions/" target="_blank" rel="noopener">New Microsoft tool lets devs spin up AI behavior tests using text descriptions</a></h3>
      <p class="summary">Microsoft on Tuesday took the wraps off Adaptive Spec-driven Scoring for Evaluation and Regression Testing, an open source framework for sp…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="075926a9117b" data-article-url="https://techcrunch.com/2026/06/02/martin-scorsese-becomes-the-latest-and-most-unlikely-hollywood-voice-for-ai/" data-article-title="Martin Scorsese becomes the latest — and most unlikely — Hollywood voice for AI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">03:16 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/02/martin-scorsese-becomes-the-latest-and-most-unlikely-hollywood-voice-for-ai/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/GettyImages-2244067270.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/02/martin-scorsese-becomes-the-latest-and-most-unlikely-hollywood-voice-for-ai/" target="_blank" rel="noopener">Martin Scorsese becomes the latest — and most unlikely — Hollywood voice for AI</a></h3>
      <p class="summary">The caveat is that one of the world&#x27;s most famous living directors is using the tech solely for storyboarding.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e42dce6dd0ef" data-article-url="https://techcrunch.com/2026/06/02/google-rolls-out-fake-call-detection-to-protect-against-ai-deepfake-impersonation-scams/" data-article-title="Google rolls out fake call detection to protect against AI deepfake impersonation scams" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">03:00 JST</span><span class="topic-badge p-others">その他</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/02/google-rolls-out-fake-call-detection-to-protect-against-ai-deepfake-impersonation-scams/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/fake-call-detection.png?resize=1200,640" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/02/google-rolls-out-fake-call-detection-to-protect-against-ai-deepfake-impersonation-scams/" target="_blank" rel="noopener">Google rolls out fake call detection to protect against AI deepfake impersonation scams</a></h3>
      <p class="summary">As people increasingly refuse to answer calls from unknown numbers, scammers are shifting their tactics by spoofing trusted phone numbers a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="693c9d711865" data-article-url="https://techcrunch.com/2026/06/02/microsoft-offers-devs-a-better-way-to-control-ai-agent-behavior/" data-article-title="Microsoft offers devs a better way to control AI agent behavior" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">03:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/02/microsoft-offers-devs-a-better-way-to-control-ai-agent-behavior/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/GettyImages-2276155467.jpg?resize=1200,833" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/02/microsoft-offers-devs-a-better-way-to-control-ai-agent-behavior/" target="_blank" rel="noopener">Microsoft offers devs a better way to control AI agent behavior</a></h3>
      <p class="summary">The specification lets developer, compliance, and security teams define their own policies for agents to follow in portable policy files.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="51a6f2f1f6da" data-article-url="https://techcrunch.com/2026/06/02/amazon-faces-class-action-lawsuit-over-ring-facial-recognition-feature/" data-article-title="Amazon faces class action lawsuit over Ring facial-recognition feature" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">02:47 JST</span><span class="topic-badge p-regulation">規制/政策</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/02/amazon-faces-class-action-lawsuit-over-ring-facial-recognition-feature/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2022/08/GettyImages-621058316.jpg?resize=1200,930" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/02/amazon-faces-class-action-lawsuit-over-ring-facial-recognition-feature/" target="_blank" rel="noopener">Amazon faces class action lawsuit over Ring facial-recognition feature</a></h3>
      <p class="summary">The class action lawsuit, filed in Seattle by Virginia resident Charles Sigwalt, claims that Ring&#x27;s Familiar Faces feature stores images of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec28701a10d3" data-article-url="https://techcrunch.com/2026/06/02/trump-signs-narrower-executive-order-on-ai-oversight-after-industry-objections/" data-article-title="Trump signs narrower executive order on AI oversight after industry objections" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">01:23 JST</span><span class="topic-badge p-regulation">規制/政策</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/02/trump-signs-narrower-executive-order-on-ai-oversight-after-industry-objections/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/GettyImages-2277839095.jpg?w=1024" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/02/trump-signs-narrower-executive-order-on-ai-oversight-after-industry-objections/" target="_blank" rel="noopener">Trump signs narrower executive order on AI oversight after industry objections</a></h3>
      <p class="summary">After industry objections, President Trump signed a revised AI executive order requiring only voluntary prerelease government reviews of ad…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="31f39eabff83" data-article-url="https://techcrunch.com/2026/06/02/openai-launches-new-codex-tools-for-white-collar-work/" data-article-title="OpenAI launches new Codex tools for white-collar work" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">01:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/02/openai-launches-new-codex-tools-for-white-collar-work/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/openai-logo-code-background.jpg?resize=1200,798" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/02/openai-launches-new-codex-tools-for-white-collar-work/" target="_blank" rel="noopener">OpenAI launches new Codex tools for white-collar work</a></h3>
      <p class="summary">OpenAI released a set of six plug-ins aimed at specific jobs: data analytics, creative production, sales, product design, equity investing,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dcf96489a383" data-article-url="https://techcrunch.com/2026/06/02/anthropic-scales-claude-mythos-to-critical-infrastructure-in-15-countries/" data-article-title="Anthropic scales Claude Mythos  to critical infrastructure in 15+ countries" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:44 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/02/anthropic-scales-claude-mythos-to-critical-infrastructure-in-15-countries/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/04/GettyImages-2269811684.jpg?w=1024" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/02/anthropic-scales-claude-mythos-to-critical-infrastructure-in-15-countries/" target="_blank" rel="noopener">Anthropic scales Claude Mythos  to critical infrastructure in 15+ countries</a></h3>
      <p class="summary">Anthropic is expanding Project Glasswing, its security vulnerability program, and access to Mythos to 150 organizations across 15 countries…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ce28044b9514" data-article-url="https://techcrunch.com/2026/06/02/zerodrift-raises-10-million-to-protect-ai-models-from-themselves/" data-article-title="ZeroDrift raises $10M to protect AI models from themselves" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">21:32 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/02/zerodrift-raises-10-million-to-protect-ai-models-from-themselves/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/Kumesh-headshot.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/02/zerodrift-raises-10-million-to-protect-ai-models-from-themselves/" target="_blank" rel="noopener">ZeroDrift raises $10M to protect AI models from themselves</a></h3>
      <p class="summary">A new AI compliance service sits between AI models and end users to flag and replace any messages that might present a compliance problem.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5c441427ce07" data-article-url="https://techcrunch.com/2026/06/02/rocket-engine-startup-impulse-raises-500-million-to-hire-people-not-ai/" data-article-title="Rocket engine startup Impulse raises $500 million to hire people, not AI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">21:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/02/rocket-engine-startup-impulse-raises-500-million-to-hire-people-not-ai/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/Impulse-Mira-Spacecraft-In-Orbit-2.png?resize=1200,672" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/02/rocket-engine-startup-impulse-raises-500-million-to-hire-people-not-ai/" target="_blank" rel="noopener">Rocket engine startup Impulse raises $500 million to hire people, not AI</a></h3>
      <p class="summary">Engineering physical systems still depends on human talent, according to Impulse Space president Eric Romo.</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">公式ブログ</span><span class="category-count">3件</span></summary>
<div class="category-body">
<h3 class="source-section">OpenAI (英語)</h3>
<div class="news-card" data-article-id="6421a7340260" data-article-url="https://openai.com/index/travelers" data-article-title="Travelers deploys AI-powered claims countrywide with OpenAI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">21:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://openai.com/index/travelers" target="_blank" rel="noopener"><img loading="lazy" src="https://images.ctfassets.net/kftzwdyauwt9/1TKzfygwesdyzOr4VDrizK/11ece0fda61af10b34d4127f7a977eac/oai_Travelers_SEO.png?w=1600&amp;h=900&amp;fit=fill" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://openai.com/index/travelers" target="_blank" rel="noopener">Travelers deploys AI-powered claims countrywide with OpenAI</a></h3>
      <p class="summary">Travelers built an AI-powered Claim Assistant with OpenAI to guide customers through filing claims, provide 24/7 support, and scale operati…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="597005b4447f" data-article-url="https://openai.com/index/codex-for-every-role-tool-workflow" data-article-title="Codex for every role, tool, and workflow" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">18:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://openai.com/index/codex-for-every-role-tool-workflow" target="_blank" rel="noopener"><img loading="lazy" src="https://images.ctfassets.net/kftzwdyauwt9/4Dvw4ZQ90swvHAxpe8tf49/b38745978bd83b554ac8e4f5865cee37/16x9_SEO_Preview.png?w=1600&amp;h=900&amp;fit=fill" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://openai.com/index/codex-for-every-role-tool-workflow" target="_blank" rel="noopener">Codex for every role, tool, and workflow</a></h3>
      <p class="summary">Discover new Codex plugins, sites, and annotations that help analysts, marketers, designers, investors, and other teams get more done with…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="00e733aa1592" data-article-url="https://openai.com/index/advancing-youth-safety-and-opportunity-through-global-leadership" data-article-title="Advancing youth safety and opportunity through global leadership" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">16:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://openai.com/index/advancing-youth-safety-and-opportunity-through-global-leadership" target="_blank" rel="noopener"><img loading="lazy" src="https://images.ctfassets.net/kftzwdyauwt9/2IaU9HljDTpAUcw36nZL4C/d869594af4e3f9bbfbfa9797e393bcd4/oai_16x9__1_.png?w=1600&amp;h=900&amp;fit=fill" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://openai.com/index/advancing-youth-safety-and-opportunity-through-global-leadership" target="_blank" rel="noopener">Advancing youth safety and opportunity through global leadership</a></h3>
      <p class="summary">OpenAI calls for global action on youth AI safety, proposing an international institute to strengthen safeguards, standards, and opportunit…</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">論文</span><span class="category-count">440件</span></summary>
<div class="category-body">
<h3 class="source-section">arXiv cs.AI (英語)</h3>
<div class="news-card" data-article-id="2156fa8788e0" data-article-url="https://arxiv.org/abs/2606.02673" data-article-title="大規模言語モデルにおける構造推論のためのビジュアル グラフ スキャフォールド" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02673" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02673" target="_blank" rel="noopener">大規模言語モデルにおける構造推論のためのビジュアル グラフ スキャフォールド</a></h3>
      <p class="summary">グラフは、主にテスト時に外部知識ソースがモデルに提供されるため、構造化推論のための大規模言語モデル (LLM) を強化するために使用されてきました。この論文では、私たちは別の見方をします。LLM のグラフの価値は、情報を提供することだけでなく、推論を体系化することにもあります。人間がグラフ構造のマインドマップを使用して分岐や収束する思考を整理する方法に触発され、グラフが推論支援の内部形式として機能できるかどうかを問いかけます。私たちはこの質問をマルチホップ質問応答タスクで研究します。このタスクでは、教師が提供した推論トレースがグラフ マインド マップとして書き換えられ、生徒モデルのガイドに使用されます。私たちの実験では、明らかなモダリティのギャップが明らかになりました。グラフ構造がテキストに平坦化されると、直接的な答えのヒントが削除されると、その利点は限定的になります。この抽象的なガイダンス設定の下では、推論の効率と回答の質の両方が大幅に低下します。対照的に、視覚的なグラフ ガイダンスは、直接的な答えの手掛かりがなくても引き続き有効であり、その利点は教師付き微調整と KL ベースの蒸留の後も持続します。上記の発見は、グラフは LLM の外部知識構造としてだけでなく、推論を組織化するための視覚的な足場としても研究されるべきであるという主張を裏付けています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Visual Graph Scaffolds for Structural Reasoning in Large Language Models</p>
        <p class="orig-summary">Graphs have been used to enhance large language models (LLMs) for structured reasoning, mostly as external knowledge sources are provided to models at test time. In this paper, we take a different view: the value of graphs for LLMs lie not only in supplying information, but also in organizing reasoning. Inspired by how humans use graph-structured mind maps to organize branching and converging thoughts, we ask whether graphs can serve as an internal form of reasoning assistance. We study this question on multi-hop question answering tasks, where teacher-provided reasoning traces are rewritten as graph mind maps and used to guide a student model. Our experiments reveal a clear modality gap. When graph structures are flattened into text, their benefits become limited once direct answer hints are removed. Under this abstract guidance setting, both reasoning efficiency and answer quality degrade substantially. In contrast, visual graph guidance remains effective without direct answer clues, and its advantage persists after supervised fine-tuning and KL-based distillation. The above findings support the claim that graphs should be studied not only as external knowledge structures for LLMs, but also as visual scaffolds for organizing reasoning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cda844a5bb3d" data-article-url="https://arxiv.org/abs/2606.02775" data-article-title="AURA: 一定の VRAM でのロボット ポリシー用のアクション ゲート メモリ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02775" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02775" target="_blank" rel="noopener">AURA: 一定の VRAM でのロボット ポリシー用のアクション ゲート メモリ</a></h3>
      <p class="summary">KV キャッシュはデータセンターにとっては適切なメモリですが、ロボットにとっては不適切なメモリです。データセンターの推論は、多くの短いリクエストをバッチ化してリセットし、群衆全体での注意キャッシュを償却します。代わりに、身体化されたエージェントは、帯域幅が制限されたエッジ ハードウェアで、リセットされない長いエピソードを 1 つ実行します。このハードウェアでは、高帯域幅のメモリとフラッシュが不足し、フラッシュの書き込み耐久性が有限であり、コンピューティングではなくメモリ書き込みがバインド制約になる可能性があります。 AURA-Mem (Action-Utility Recurrent Adaptive Memory) は、この体制をターゲットとしています。これは、固定された視覚言語アクションのバックボーンを、一定サイズのリカレント メモリと、現在の観察によって次のアクションが変更される場合にのみ書き込む学習済みゲート、つまりいつ沈黙を保つべきかを認識するメモリでラップします。再構成ベースのメモリとは異なり、ゲートは閉ループのアクションエラー信号に対して直接トレーニングされます。その推論状態はホライズンに関係なく 4,224 バイトに固定されていますが、KV キャッシュは 100,000 ステップで 6,061 倍の大きさに増加します。制御された合成ベンチマークでは、AURA-Mem は精度において最高の O(1) ベースラインと一致し、書き込み回数は 5.19 ～ 6.13 倍少なく、より簡単な構成では最大 9.19 倍少なくなります。予算に合わせたランダムおよび定期的なスケジュールではこの利益は回復せず、アクションサプライズシグナルに対する利益が孤立します。 LIBERO-Long 上のトレーニングされた閉ループ OpenVLA-OFT 7B パネル (アームあたり n=60 エピソード) では、ゲートは成功に悪影響を及ぼしません。AURA-Mem は非ゲートの基本ポリシー (0.233) に一致し、常時書き込み KV アーム (0.217) をわずかに上回っていますが、使用する書き込み回数と定数メモリは 7.0 分の 1 です。また、方法論のデモンストレーションとして、近似情報状態の価値損失限界をインスタンス化します。この規模では、限界は保証ではなく空虚です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AURA: Action-Gated Memory for Robot Policies at Constant VRAM</p>
        <p class="orig-summary">The KV-cache is the right memory for datacenters but the wrong memory for robots. Datacenter inference batches many short requests and resets them, amortizing an attention cache across a crowd. Embodied agents instead run one long, non-resetting episode on bandwidth-limited edge hardware, where high-bandwidth memory and flash are scarce, flash has finite write endurance, and memory writes rather than compute can become the binding constraint. AURA-Mem (Action-Utility Recurrent Adaptive Memory) targets this regime. It wraps a frozen vision-language-action backbone with a constant-size recurrent memory and a learned gate that writes only when the current observation would change the next action: memory that knows when to stay silent. Unlike reconstruction-based memory, the gate is trained directly against a closed-loop action-error signal. Its inference state is fixed at 4,224 bytes regardless of horizon, while a KV-cache grows to 6,061 times larger at 100,000 steps. On a controlled synthetic benchmark, AURA-Mem matches the best O(1) baseline in accuracy while using 5.19-6.13 times fewer writes, and up to 9.19 times fewer writes on easier configurations. Budget-matched random and periodic schedules do not recover this gain, isolating the benefit to the action-surprise signal. On a trained closed-loop OpenVLA-OFT 7B panel on LIBERO-Long (n=60 episodes per arm), the gate does not hurt success: AURA-Mem matches the ungated base policy (0.233) and slightly exceeds an always-write KV arm (0.217), while using 7.0 times fewer writes and constant memory. We also instantiate an approximate-information-state value-loss bound as a methodology demonstration; at this scale, the bound is vacuous rather than a guarantee.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="110b88cf0090" data-article-url="https://arxiv.org/abs/2606.02791" data-article-title="計測されていない流域における予測のための変圧器と LSTM フレームワークの評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02791" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02791" target="_blank" rel="noopener">計測されていない流域における予測のための変圧器と LSTM フレームワークの評価</a></h3>
      <p class="summary">流域ネットワークは、複数の支流が下流の水路に合流する収束トポロジーを示し、上流の多様な水文学プロセスを統合します。計測されていない盆地では、直接観測がないため不確実性が増大し、極端な現象を予測する能力が制限されます。この研究では、NOAA National Water Model (NWM) の遡及的シミュレーションを使用して、限られた水文情報の下で上流流の推論において、エンコーダ専用の Transformer が LSTM よりも利点があるかどうかを評価します。アップストリームのみの構成と組み合わせた構成の両方で、LSTM は 2 つの構成全体で Transformer モデルよりも優れた全体的なパフォーマンスを示しました。下流情報を組み込むことで、すべてのモデルのパフォーマンスがさらに向上し、NNSE 中央値が 60% 以上増加しました。私たちは、これをリーダーボード形式の比較として扱うのではなく、水文学的順序推論に対する建築上の帰納的バイアスのテストとして実験を解釈します。結果は、エンコーダのみの Transformer よりもリカレント メモリがこの上流の再構成タスクとよりよく連携している一方、下流の水文コンテキストが強力な補助制約を提供し、アーキテクチャ全体での予測スキルを大幅に向上させることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Evaluating Transformer and LSTM Frameworks for Prediction in Ungauged Basins</p>
        <p class="orig-summary">Watershed networks exhibit convergent topologies in which multiple tributaries merge into downstream channels,integrating diverse upstream hydrological processes. In ungauged basins, the absence of direct observations increases uncertainty and limits the ability to anticipate extreme events. This study evaluates whether an encoder-only Transformer provides an advantage over an LSTM for upstream streamflow inference under limited hydrologic information, using retrospective simulations from the NOAA National Water Model (NWM). Across both upstream-only and combined configurations, the LSTM showed stronger overall performance than the Transformer model across the two configurations. Incorporating downstream information further boosted performance for all models, increasing median NNSE by more than 60%. Rather than treating this as a leaderboard-style comparison, we interpret the experiments as a test of architectural inductive bias for hydrologic sequence inference. The results indicate that recurrent memory remains better aligned with this upstream reconstruction task than an encoder-only Transformer, while downstream hydrologic context provides a strong auxiliary constraint that substantially improves prediction skill across architectures</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2bf756188bd" data-article-url="https://arxiv.org/abs/2606.02798" data-article-title="BehaviorBench: 行動追跡から現実世界のユーザーの意思決定をモデル化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02798" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02798" target="_blank" rel="noopener">BehaviorBench: 行動追跡から現実世界のユーザーの意思決定をモデル化</a></h3>
      <p class="summary">多くの意思決定支援設定では、個々のユーザーに適応するシステムが必要ですが、この問題に関する評価データは依然として限られています。ユーザー理解のための既存のベンチマークは、多くの場合、シミュレートされたユーザーやモデルで生成された動作に依存していますが、最近の研究では、モデルベースのシミュレーションが人間の動作から系統的に逸脱する可能性があると警告されています。現実世界の行動追跡からパーソナライズされた意思決定モデリングを評価するためのベンチマークである \textsc{BehaviorBench} を紹介します。 \textsc{BehaviorBench} は、観測された公開予測市場記録とオンチェーン記録からウォレットレベルの意思決定履歴を再構築し、それらを 2 つの補完的なタスク層に編成します。\emph{信念予測} は市場に対するユーザーの最終的なスタンスと自信を予測し、\emph{取引予測} は個々の取引の方向と金額を予測します。 2,000 の評価ウォレットにわたって、ベンチマークには 141,445 個の信念インスタンスと 1,485,972 個の取引インスタンスが含まれており、検索ベースの評価のための独立したサポート プールが含まれています。私たちは、パーソナライゼーションなし、直接の最近の履歴、生成されたユーザー プロファイル、および取得されたサポート ウォレットの証拠という 4 つの履歴インターフェイスの下で、フロンティアおよびオープンウェイト生成モデルを評価します。パーソナライゼーションにより、取引予測よりも一貫して信念予測が向上し、モデルのランキングがタスク レイヤーとメトリクスにわたって変化し、さまざまな履歴インターフェイスによりさまざまな障害モードが明らかになります。 \textsc{BehaviorBench} は、パーソナライズされたメソッドがシミュレートされたユーザーのみではなく現実世界の行動証拠を使用できるかどうかを研究するための評価設定を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BehaviorBench: Modeling Real-World User Decisions from Behavioral Traces</p>
        <p class="orig-summary">Many decision-support settings require systems that adapt to individual users, but evaluation data for this problem remain limited. Existing benchmarks for user understanding often rely on simulated users or model-generated behavior, even though recent work cautions that model-based simulations can diverge systematically from human behavior. We introduce \textsc{BehaviorBench}, a benchmark for evaluating personalized decision modeling from real-world behavioral traces. \textsc{BehaviorBench} reconstructs wallet-level decision histories from observed public prediction-market and on-chain records, and organizes them into two complementary task layers: \emph{Belief prediction}, which predicts a user&#x27;s final revealed stance and confidence in a market, and \emph{Trade prediction}, which predicts the direction and amount of individual transactions. Across 2,000 evaluation wallets, the benchmark contains 141,445 Belief instances and 1,485,972 Trade instances, with disjoint support pools for retrieval-based evaluation. We evaluate frontier and open-weight generative models under four history interfaces: no personalization, direct recent history, generated user profiles, and retrieved support-wallet evidence. Personalization improves Belief prediction more consistently than Trade prediction, model rankings change across task layers and metrics, and different history interfaces expose different failure modes. \textsc{BehaviorBench} provides an evaluation setting for studying whether personalized methods can use real-world behavioral evidence rather than simulated users alone.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7957e8ba23b4" data-article-url="https://arxiv.org/abs/2606.02802" data-article-title="ChatHealthAI: 電子医療記録の表現を大規模な言語モデルと連携させて、根拠のある臨床推論を実現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02802" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02802" target="_blank" rel="noopener">ChatHealthAI: 電子医療記録の表現を大規模な言語モデルと連携させて、根拠のある臨床推論を実現</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、臨床意思決定をサポートするための強力な自然言語推論能力を示しますが、構造化された長期的な電子医療記録 (EHR) を効果的にモデル化するのは困難です。対照的に、EHR 基盤モデルは、予測的な患者の表現を学習できますが、解釈可能な言語ベースの推論が欠けています。このギャップを埋めるために、私たちは、事前トレーニングされた EHR 基盤モデルからの構造化 EHR 表現を、タスク認識リサンプラーを通じてフリーズされた LLM の意味空間と整合させるマルチモーダル推論フレームワークである ChatHealthAI を提案します。 ChatHealthAI は、長期にわたる患者の表現と洗練された臨床事象の説明を統合することで、正確な患者予測を維持しながら、臨床に基づいた自然言語推論を可能にします。 EHRSHOT ベンチマークからの 3 つの臨床予測タスクについて ChatHealthAI を評価しました。結果は、ChatHealthAI が競争力のある予測パフォーマンスを維持しながら、推論の品質と解釈可能性を向上させることを示しています。これらの発見は、解釈可能な臨床予測のために、EHR 基礎モデルと事前トレーニングされた LLM を統合する可能性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ChatHealthAI: Aligning Electronic Health Record Representations with Large Language Models for Grounded Clinical Reasoning</p>
        <p class="orig-summary">Large language models (LLMs) exhibit strong natural-language reasoning abilities for clinical decision support, but struggle to effectively model structured longitudinal electronic health records (EHRs). In contrast, EHR foundation models can learn predictive patient representations, yet lack interpretable language-based reasoning. To bridge this gap, we propose ChatHealthAI, a multimodal reasoning framework that aligns structured EHR representations from a pretrained EHR foundation model with the semantic space of a frozen LLM through a task-aware resampler. By integrating longitudinal patient representations with refined clinical event descriptions, ChatHealthAI enables clinically grounded natural-language reasoning while maintaining accurate patient prediction. We evaluated ChatHealthAI on three clinical predictive tasks from the EHRSHOT benchmark. Results show that ChatHealthAI improves reasoning quality and interpretability while preserving competitive predictive performance. These findings highlight the potential of integrating EHR foundation models with pretrained LLMs for interpretable clinical prediction.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4a3fee274525" data-article-url="https://arxiv.org/abs/2606.02812" data-article-title="Traj-Evolve: 肺がんの早期発見における患者の軌跡モデリングのための自己進化型マルチエージェント システム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02812" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02812" target="_blank" rel="noopener">Traj-Evolve: 肺がんの早期発見における患者の軌跡モデリングのための自己進化型マルチエージェント システム</a></h3>
      <p class="summary">縦断的な電子医療記録 (EHR) から患者の軌跡をモデル化するには、まばらでノイズが多く、コンテキストの長いマルチモーダル シーケンスを推論する必要があります。既存の LLM ベースのマルチエージェント システムはコンテキストの長さに対処しますが、患者を個別に処理するため、臨床医が同様の過去の症例から蓄積された経験をどのように活用するかを反映できていません。我々は、2 つの相補的な進化メカニズムを備えた自己進化マルチエージェント システムである Traj-Evolve を紹介します。まず、エクスペリエンス プール (ExPool) はノンパラメトリック メモリとして機能し、拒絶反応でサンプリングされた推論トレースにインデックスを付けて、同様の患者を少数ショットのコンテキストとして取得します。 2 番目に、報酬ランク付き微調整によるマルチエージェント強化学習 (MARL) により、エージェント間およびエージェントとメモリのコラボレーションがパラメトリックに最適化されます。リーブワンアウトのクロス検索戦略は、この 2 つを統合し、検索拡張の下でトレーニング時間と推論時の動作を調整します。最長 5 年間のマルチモーダル EHR を利用した肺がん予測タスクにおいて、Traj-Evolve は、人口全体と困難な非喫煙者人口に対する 9 つの強力なベースラインを上回りました。進化するダイナミクスの分析により、次の 3 つの重要な発見が明らかになります。(1) ExPool の拡張により、最適な取得が多様なサンプルから特定のサンプルに移行します。 (2) MARL の下では、マネージャー エージェントの予測損失は迅速に収束しますが、ワーカー エージェントの時間的推論はより検証された患者から恩恵を受け続けます。 (3) 2 つのメカニズムは予測リスクに関して補完的であり、ExPool は特異性を向上させ、MARL は感度を向上させます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Traj-Evolve: A Self-Evolving Multi-Agent System for Patient Trajectory Modeling in Lung Cancer Early Detection</p>
        <p class="orig-summary">Modeling patient trajectories from longitudinal electronic health records (EHRs) requires reasoning over sparse, noisy, and long-context multimodal sequences. Existing LLM-based multi-agent systems address context length but process patients in isolation, failing to mirror how clinicians leverage accumulated experience from similar prior cases. We present Traj-Evolve, a self-evolving multi-agent system with two complementary evolving mechanisms. First, an Experience Pool (ExPool) acts as a non-parametric memory, indexing rejection-sampled reasoning traces to retrieve similar patients as few-shot contexts. Second, multi-agent reinforcement learning (MARL) via reward-ranked fine-tuning parametrically optimizes inter-agent and agent-memory collaboration. A leave-one-out cross-retrieval strategy unifies the two, aligning training- and inference-time behavior under retrieval augmentation. On a lung cancer prediction task utilizing up to five years of multimodal EHRs, Traj-Evolve outperforms 9 strong baselines on the overall population and a challenging never-smoker population. Analysis of the evolving dynamics highlights three key findings: (1) expanding the ExPool shifts optimal retrieval from diverse to specific samples; (2) under MARL, the manager agent&#x27;s prediction loss converges quickly while the worker agents&#x27; temporal reasoning continues to benefit from more verified patients; and (3) the two mechanisms are complementary on the predicted risk, where ExPool improves specificity while MARL improves sensitivity.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6bc487325a98" data-article-url="https://arxiv.org/abs/2606.02832" data-article-title="衝突ベースの敵形態生成の探求" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02832" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02832" target="_blank" rel="noopener">衝突ベースの敵形態生成の探求</a></h3>
      <p class="summary">プロシージャル コンテンツ生成 (PCG) に関する先行研究は数多くあるにもかかわらず、ビデオ ゲームの敵の生成について検討した先行研究は比較的少ないです。特に、ロボット工学における関連する形態生成作業が存在するにもかかわらず、敵の形態、基本的なボディプラン、またはゲーム内の敵の衝突情報を生成する作業はほとんどありません。この論文では、プレイヤーの衝突情報に基づいて敵の形態を生成するための 3 つの異なる新しいアプローチを検討します。各アプローチには異なる長所と短所がありますが、いずれも、以前のロボット形態学研究から適応された進化ベースラインと同等またはそれ以上のパフォーマンスがあることがわかりました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">An Exploration of Collision-based Enemy Morphology Generation</p>
        <p class="orig-summary">Despite a great deal of prior research into Procedural Content Generation (PCG), relatively little prior work has explored generating enemies for video games. In particular, there is almost no work on generating enemy morphologies, the basic body plan or collision information for in-game enemies, despite the existence of related morphology generation work in robotics. In this paper, we explore three different novel approaches to generate enemy morphologies based on player collision information. We found that each approach provides different strengths and weaknesses, but all had equivalent or better performance than an evolutionary baseline adapted from prior robotics morphology work.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d03b13910108" data-article-url="https://arxiv.org/abs/2606.02835" data-article-title="答えを超えた思考: 大規模な推論モデルにおける有害な過剰思考の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02835" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02835" target="_blank" rel="noopener">答えを超えた思考: 大規模な推論モデルにおける有害な過剰思考の評価</a></h3>
      <p class="summary">大規模推論モデル (LRM) は、テスト時間の計算量を増やして明示的な中間推論トレースを生成することでパフォーマンスを向上させますが、より長い推論が一貫して有益であるという前提は依然として十分に検討されていません。最近の証拠は、追加の推論がモデルの考えすぎにつながる可能性があることを示していますが、「モデルが正しい答えに到達した後、さらなる推論は解決策を改良するのか、それとも解から逸脱するのか?」と考えます。正解後のダイナミクスを研究するために、推論の十分性に基づいたプレフィックスレベルの軌道評価プロトコルを導入し、モデルが最初に正解を生成するために必要な最小推論バジェットを定義します。これにより、追加の推論は冗長だが無害である冗長な考えすぎと、推論を続けるとすでに正しい軌道が不安定になる有害な考えすぎを区別することができます。マルチモーダル ベンチマークから始めると、推論が集中していると考えられる多くのインスタンスでは、驚くほど推論が必要ないことがわかります。さらに、最初の正しい接頭辞で停止すると、標準推論よりも精度が最大 21% 向上します。これにより、現在のモデルは推論能力によって制限されるだけでなく、適切なタイミングで停止できないことによっても制限されることが明らかになりました。さらに、早期停止などの一般的な効率化戦略は、冗長な考えすぎを大幅に (最大 50%) 軽減しますが、有害な考えすぎを軽減することはできません。障害分析により、正確性の逸脱は主に論理的なずれと視覚的な再解釈によって引き起こされることが明らかになりました。最後に、私たちの調査結果が言語のみの推論ベンチマークに一般化されていることを示し、より広範な信頼性リスクとして有害な過剰思考を強調しています。コードは https://simonecaldarella.github.io/ Thinking-past-the-answer で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models</p>
        <p class="orig-summary">Large Reasoning Models (LRMs) improve performance by generating explicit intermediate reasoning traces through increased test-time compute, yet the assumption that longer reasoning is consistently beneficial remains under-examined. While recent evidence shows that additional reasoning can lead models to overthink, we ask: &quot;Once a model has reached the correct answer, does further reasoning refine the solution, or deviate from it?&quot; To study the dynamics after correctness, we introduce a prefix-level trajectory evaluation protocol grounded in reasoning sufficiency, defining the minimum reasoning budget required for a model to first generate the correct answer. This allows us to disentangle verbose overthinking, where additional reasoning is redundant but harmless, from harmful overthinking, where continued reasoning destabilizes an already-correct trajectory. Starting from multimodal benchmarks, we find that many instances considered reasoning-intensive require surprisingly little reasoning. Moreover, stopping at the first correct prefix improves accuracy over standard reasoning up to 21%, revealing that current models are limited not only by their ability to reason, but also by their inability to stop at the right time. Furthermore, while common efficiency strategies like early stopping substantially reduce verbose overthinking (up to 50%), they fail to mitigate harmful overthinking. Failure analysis reveals that correctness deviations are mainly driven by logical drift and visual reinterpretation. Finally, we show that our findings generalize to language-only reasoning benchmarks, highlighting harmful overthinking as a broader reliability risk. Code available at https://simonecaldarella.github.io/thinking-past-the-answer.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f76e934fd1d7" data-article-url="https://arxiv.org/abs/2606.02862" data-article-title="エッジの組み込み AI エージェント システムのモジュラー アーキテクチャに向けて" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02862" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02862" target="_blank" rel="noopener">エッジの組み込み AI エージェント システムのモジュラー アーキテクチャに向けて</a></h3>
      <p class="summary">大規模言語モデル (LLM) の台頭により、複雑な推論とツールの使用が可能なエージェント AI が可能になりました。ただし、組み込みマイクロコントローラーのメモリとエネルギーの厳しい制約により、このような自律性をパーベイシブ コンピューティング環境に展開することは依然として困難です。既存のフレームワークは通常、サーバークラスのリソースまたは継続的な接続を前提としており、深く組み込まれたシステムのためのギャップが残されています。この論文では、決定論的なリアルタイム制御とエージェント インテリジェンスの間の溝を埋める組み込みエージェント システム用のモジュール式リファレンス アーキテクチャを提案します。低遅延でプライバシーが重要なタスクのために高圧縮ニューラル ネットワークとルールベースのロジックを実行するオンデバイス エージェントを、より高レベルの推論と計画のために小型言語モデル (SLM) を利用するクラウド拡張エージェントから分離する階層型設計を導入します。主な貢献は、横断的なガバナンス層の統合であり、分散された自律デバイス群全体で可観測性、ポリシーの適用、安全性を確保します。純粋に経験的なベンチマークを提示するのではなく、リソースに制約のある環境でのレイテンシー、エネルギー、信頼性の高い実行に関するアーキテクチャ設計原則とトレードオフを分析します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Toward a Modular Architecture for Embedded AI Agent Systems at the Edge</p>
        <p class="orig-summary">The rise of Large Language Models (LLMs) has enabled agentic AI capable of complex reasoning and tool use; however, deploying such autonomy in pervasive computing environments remains challenging due to the strict memory and energy constraints of embedded microcontrollers. Existing frameworks typically assume server-class resources or continuous connectivity, leaving a gap for deeply embedded systems. This paper proposes a modular reference architecture for Embedded Agent Systems that bridges the divide between deterministic real-time control and agentic intelligence. We introduce a tiered design that decouples On-Device Agents - executing highly compressed neural networks and rule-based logic for low-latency, privacy-critical tasks - from Cloud-Augmented Agents that leverage Small Language Models (SLMs) for higher-level reasoning and planning. A key contribution is the integration of a cross-cutting Governance Layer, ensuring observability, policy enforcement, and safety across distributed fleets of autonomous devices. Rather than presenting purely empirical benchmarks, we analyze architectural design principles and trade-offs regarding latency, energy, and reliable execution in resource-constrained environments.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d5830782f2ff" data-article-url="https://arxiv.org/abs/2606.02863" data-article-title="ギャンブルはしないでください、GAMBLe: AI 主導の研究システムのための分析フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02863" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02863" target="_blank" rel="noopener">ギャンブルはしないでください、GAMBLe: AI 主導の研究システムのための分析フレームワーク</a></h3>
      <p class="summary">AI-Driven Research Systems (ADRS) -- LLM と自動評価を組み合わせてアルゴリズム、証明、設計を発見するシステム -- は最適化され、ドメイン全体で採用されていますが、それらを分析するツールは追いついていません。 ADRS のパフォーマンスはコンポーネントの相互作用に依存しますが、これらの相互作用は十分に理解されておらず、調査にコストがかかり、(ここで示しているように) 標準の収束保証では十分に把握されていません。これらの保証は、私たちが形式化した ADRS プロセスの下では成立しない構造的な仮定に依存しています。我々は、ADRS の動作を 4 つのパラメーター (ジェネレーター $G$、アセッサー $\mathcal{A}$、発見メカニズム $\mathcal{M}$、バジェット $B$) と 1 つの構成オブジェクト、効果的なランドスケープ $L_{\text{eff}} = \mathcal{A} \circ G$ に分解するフレームワークである GAMBLe を紹介します。これにより、異なるジェネレーターとアセッサーのペアが構造的に異なる問題ごとの最適化を引き起こすことが明らかになります。風景。私たちは、単一の LLM から動的適応アンサンブルに至るジェネレーター、貪欲な選択から共進化メタサーチに至るメカニズム、および評価者が連続スコアリングからクリフ関数に及ぶ 3 つの NP 困難問題に及ぶ 760 以上の反復実行 (&gt;46,000 反復) でフレームワークを実行します。実験では、ジェネレーターやメカニズムの完全な順序付けは明らかにされていません。フロンティア モデルはオープンソースの代替モデルよりもパフォーマンスが劣る可能性があり、最も単純なメカニズムが最先端のメタ検索を上回る場合もあります。結果は、限られた予算 (実行ごとに 60 回の反復) の下でも、適切なコンポーネントを選択することでパフォーマンスを 13 ～ 67%、検索効率を 6 ～ 39 倍改善できることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Don&#x27;t Gamble, GAMBLe: An Analytical Framework for AI-Driven Research Systems</p>
        <p class="orig-summary">AI-Driven Research Systems (ADRS) -- systems coupling LLMs with automated evaluation to discover algorithms, proofs, and designs -- are being optimized and adopted across domains, but the tools to analyze them have not kept pace. ADRS performance depends on component interactions that are poorly understood, expensive to explore, and (as we show) not well captured by standard convergence guarantees. These guarantees rely on structural assumptions that do not hold under the ADRS process we formalize. We introduce GAMBLe, a framework that decomposes ADRS behavior into four parameters (generator $G$, assessor $\mathcal{A}$, discovery mechanism $\mathcal{M}$, budget $B$) and one compositional object, the effective landscape $L_{\text{eff}} = \mathcal{A} \circ G$, which reveals that distinct generator-assessor pairs induce structurally different per-problem optimization landscapes. We exercise the framework on 760+ replicated runs (&gt;46,000 iterations) spanning generators from single LLMs to dynamically-adaptive ensembles, mechanisms from greedy selection to co-evolutionary meta-search, and three NP-hard problems whose assessors range from continuous scoring to cliff functions. The experiments reveal no total ordering of generators or mechanisms: frontier models can underperform open-source alternatives and the simplest mechanism sometimes outperforms state-of-the-art meta-search. Results show that even under limited budgets (60 iterations per run), the right component choices can improve performance by 13-67% and search efficiency by 6-39x.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="22029c8b5c7d" data-article-url="https://arxiv.org/abs/2606.02866" data-article-title="問題を解決する場合とその修正方法: データ クリーニングに関するマルチエージェントの議論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02866" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02866" target="_blank" rel="noopener">問題を解決する場合とその修正方法: データ クリーニングに関するマルチエージェントの議論</a></h3>
      <p class="summary">マルチエージェントの議論がデータのクリーニングに役立つのはどのような場合でしょうか?また、害を及ぼすのはどのような場合ですか? 3 つのベンチマーク、4 つのモデル ファミリ、および 6,000 を超えるタスクと条件のペアにわたって、ディベートの効果が符号を反転していることがわかりました。それは、ジェネレーターが無批判に受け入れる批評誘導性混乱 (CIC)、幻覚的な批評家フィードバックによって、4 つのモデルすべてで生成を低下させます (-1.6 ～ -15.5pp) が、エラー検出は向上します (+27.4pp F1、d=1.0)。私たちは議論の利益条件を導出します。つまり、間違った出力を救出する確率 (修正可能性によって重み付けされた批評家検証の確率) が正しい出力を破壊する確率を超える場合、議論は役立ちます。要因実験は、敵対的分離が不可欠であることを証明します。同一のツールを使用した自己検証は失敗しますが、コード実行の根拠と証拠ゲート型生成を備えた別個の批評家は、生成タスクにおいて単一エージェントを大幅に超える最初のディベート構成を生み出します (+5.3pp、p&lt;0.05)。この条件は、9 つ​​のタスク タイプすべてを正確に予測し、7 つのドメインで公開された 19 の比較全体で誤検知がゼロになるように一般化します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">When Helping Hurts and How to Fix It: Multi-Agent Debate for Data Cleaning</p>
        <p class="orig-summary">When does multi-agent debate help data cleaning, and when does it hurt? Across three benchmarks, four model families, and over 6,000 task-condition pairs, we find debate&#x27;s effect reverses sign: it degrades generation across all four models (-1.6 to -15.5pp) through critique-induced confusion (CIC), hallucinated Critic feedback that the Generator accepts uncritically, yet improves error detection (+27.4pp F1, d=1.0). We derive a debate benefit condition: debate helps when the probability of rescuing a wrong output (Critic verification odds weighted by fixability) exceeds the probability of destroying a correct one. A factorial experiment proves adversarial separation is essential: self-verification with identical tools fails, while a separate Critic with code-execution grounding and evidence-gated generation produces the first debate configuration to significantly exceed single-agent on a generative task (+5.3pp, p&lt;0.05). The condition correctly predicts all nine task types and generalizes with zero false positives across 19 published comparisons in seven domains.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3ae1fba7cd9a" data-article-url="https://arxiv.org/abs/2606.02875" data-article-title="引き継ぎ負債: コーディング エージェントが中断されたタスクを引き継ぐ場合の再検出コスト" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02875" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02875" target="_blank" rel="noopener">引き継ぎ負債: コーディング エージェントが中断されたタスクを引き継ぐ場合の再検出コスト</a></h3>
      <p class="summary">コーディング エージェント ベンチマークは、単一の中断のないエージェントがリポジトリの問題を解決できるかどうかを評価します。実際のソフトウェア作業はさらに面倒です。タスクは中断され、再割り当てされ、確認され、別のエージェントまたはエンジニアが残した部分的な状態から再開されます。私たちは、\emph{引き継ぎ負債}、つまり前任者の仕事が不透明または不完全な場合に課せられる再発見コストを通じて、この欠落している側面を研究します。私たちの引き継ぎプロトコルは、決定的なハンドオフ ポイントでコーディング エージェントを中断し、リポジトリをフリーズし、リポジトリの状態のみ、生のトレース、要約メモ、構造化メモの 4 つのハンドオフ ビューで後続エージェントを評価します。このプロトコルは、75 のソース タスクにわたって、後継モデルごとに 181 のハンドオフ ポイント タスクと 724 のテイクオーバー実行を生成します。 3 つの後継モデル全体で、コンテキストを伴うハンドオフは、リポジトリのみのテイクオーバーと比較して、エージェント イベントの中央値が 20 ～ 59\% 減少し、累積プロンプト トークンが 42 ～ 63\% 減少します。解決率の影響は小さく、モデルに依存しますが、効率の向上は一貫しています。これらの発見は、コーディング エージェントの評価では、タスクが解決されたかどうかだけでなく、別のエージェントがその作業を再開するのにどれだけのコストがかかるかを報告する必要があることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Handoff Debt: The Rediscovery Cost When Coding Agents Take Over Interrupted Tasks</p>
        <p class="orig-summary">Coding-agent benchmarks evaluate whether a single uninterrupted agent can resolve a repository issue. Real software work is messier: tasks are interrupted, reassigned, reviewed, and resumed from partial states left by another agent or engineer. We study this missing dimension through \emph{handoff debt}: the rediscovery cost imposed when a predecessor&#x27;s work is opaque or incomplete. Our takeover protocol interrupts a coding agent at deterministic handoff points, freezes the repository, and evaluates successor agents under four handoff views: repository state only, raw trace, summary notes, and structured notes. Across 75 source tasks, the protocol generates 181 handoff-point tasks and 724 takeover runs per successor model. Across three successor models, context-bearing handoffs reduce median agent events by 20--59\% and cumulative prompt tokens by 42--63\% relative to repository-only takeover. Solved-rate effects are smaller and model-dependent, but efficiency gains are consistent. These findings suggest that coding-agent evaluation should report not only whether a task is solved, but also how costly that work is for another agent to resume.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9d94ec5e5550" data-article-url="https://arxiv.org/abs/2606.02914" data-article-title="歯科医療における大規模 AI モデル: 汎用システムからドメイン固有の基盤モデルまで" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02914" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02914" target="_blank" rel="noopener">歯科医療における大規模 AI モデル: 汎用システムからドメイン固有の基盤モデルまで</a></h3>
      <p class="summary">背景: 口腔疾患は世界中で約 35 億人に影響を与えていますが、歯科における大規模 AI モデルの相対的な臨床的可能性は依然として十分に理解されていません。言語生成モデル、弁別視覚基礎モデル、歯科特有の基礎モデルという 3 つの異なるモデル カテゴリが出現しましたが、それらの関係や集合的な制限を検討する統一されたレビューはありません。方法: PRISMA-ScR ガイドラインに従って、4 つのデータベース (PubMed、Google Scholar、Scopus、arXiv) を体系的に検索し、2 人の査読者によって独立してスクリーニングされました。包含/除外基準を適用した後、97 件の研究 (2020 ～ 2026 年) が含まれました。建築パラダイムと歯科専門度によってモデルを整理する二次元分類フレームワークを提案します。結果: 言語生成モデルは、テキストベースのタスク (臨床推論、免許試験、患者とのコミュニケーション) には優れていますが、画像依存の診断では一貫性のないパフォーマンスを示します。適応された SAM および CLIP バリアントにより、強力な歯のセグメンテーションと病変検出結果が得られます。歯科専用モデル (DentVFM、DentVLM、OralGPT) は、複雑なマルチモーダルなタスクで最高のパフォーマンスを発揮します。統合されたパイプラインは、単一モデルのアプローチよりも常に優れたパフォーマンスを発揮します。データの非対称性が観察されます。歯科特有の事前トレーニングはほぼ完全に視覚領域に集中しており、大規模な歯科テキスト コーパスがほとんどないことを反映しています。結論: 汎用モデルと歯科専用モデルは補完的な役割を果たします。最も効果的なシステムは、構造化されたパイプライン内で両方を組み合わせたものです。安全な自律展開には、生成モデルにおける幻覚、注釈付き歯科データセットの制限、標準化された臨床評価ベンチマークの欠如という 3 つの永続的な障壁を解決する必要があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Large AI Models in Dental Healthcare: From General-Purpose Systems to Domain-Specific Foundation Models</p>
        <p class="orig-summary">Background: Oral diseases affect nearly 3.5 billion people worldwide, yet the comparative clinical potential of large-scale AI models in dentistry remains poorly understood. Three distinct model categories have emerged: language-generative models, discriminative vision foundation models, and dental-specific foundation models, with no unified review examining their relationships and collective limitations. Methods: Following PRISMA-ScR guidelines, we systematically searched four databases (PubMed, Google Scholar, Scopus, arXiv), screened independently by two reviewers. After applying inclusion/exclusion criteria, 97 studies (2020-2026) were included. We propose a two-dimensional classification framework organizing models by architectural paradigm and dental specialization degree. Results: Language-generative models excel at text-based tasks (clinical reasoning, licensing exams, patient communication) but show inconsistent performance on image-dependent diagnostics. Adapted SAM and CLIP variants achieve strong tooth segmentation and lesion detection results. Dental-specific models (DentVFM, DentVLM, OralGPT) demonstrate strongest performance on complex multimodal tasks. Integrated pipelines consistently outperform single-model approaches. A data asymmetry is observed: dental-specific pretraining concentrates almost entirely in the vision domain, reflecting scarce large-scale dental text corpora. Conclusions: General-purpose and dental-specific models play complementary roles; the most effective systems combine both within structured pipelines. Safe autonomous deployment requires resolving three persistent barriers: hallucination in generative models, limited annotated dental datasets, and absent standardized clinical evaluation benchmarks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="24273eb40da0" data-article-url="https://arxiv.org/abs/2606.02965" data-article-title="ベンチマークでは測れないもの: 自律エージェントの棄権能力を評価する事例" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02965" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02965" target="_blank" rel="noopener">ベンチマークでは測れないもの: 自律エージェントの棄権能力を評価する事例</a></h3>
      <p class="summary">自律エージェントのベンチマークは、エージェントがタスクを完了したかどうかを測定しますが、この枠組みでは、エージェントがそもそも続行すべきかどうかについてはシステム的に盲点です。ヒューマンフィードバックの目標に基づいて訓練されたエージェントは、安全に行動するための入力、証拠、または許可が不足している場合でも続行する構造的な傾向、つまりコンプライアンスバイアスと呼ばれる性質を身につけます。これは、報酬シグナルとベンチマークスコア体系の両方が、安全な行動の前提条件が存在するかどうかに関係なく、続行を正しいデフォルトとして扱うためです。私たちは 3 つの貢献を行っています。まず、コンプライアンス バイアスは人間によるフィードバック パイプライン内の報酬ハッキングに由来し、エージェントの一時停止に対してペナルティを課すか、原理的な一時停止とサイレント エラーを構造的に区別できない、著名なエージェント ベンチマークによって固定化されていることを示します。次に、棄権が保証されるシナリオの 3 つのギャップ分類法を導入します。これは、必要な情報が欠落している仕様のギャップ、世界の状態を確認できない検証のギャップ、および明示的な権限が与えられていない権限のギャップをカバーしており、これらが一緒になって棄権を認識するエージェントのベンチマークを構築するための原則的な基礎を提供します。最後に、棄権評価プロトコル (安全率、ユーザビリティ率、通知による拒否率) を提案し、144 のエンタープライズ エージェント シナリオと 5 つのモデル ファミリにわたる暫定結果を報告します。この中で、ランタイム強制棄権メカニズムは、許可されたシナリオで最大 89.2% の危険行為のブロックと 87.5% のユーザビリティを達成し、安全性とユーザビリティのトレードオフは固有のものではなく調整可能であり、その形状がモデル ファミリ間で大幅に異なることを示しています。私たちはこれを予備作業として扱い、その後の会話の出発点として分類法と複合指標を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">What Benchmarks Don&#x27;t Measure: The Case for Evaluating Abstention Competence in Autonomous Agents</p>
        <p class="orig-summary">Benchmarks for autonomous agents measure whether agents complete tasks, yet this framing is systematically blind to whether an agent should have proceeded at all. Agents trained under human-feedback objectives develop a structural tendency to proceed even when they lack the inputs, evidence, or authorization to act safely, a disposition we term compliance bias, because both the reward signal and the benchmark scoring regime treat proceeding as the correct default regardless of whether the preconditions for safe action are present. We make three contributions. We first show that compliance bias originates in reward hacking within human-feedback pipelines and is entrenched by prominent agent benchmarks, which either penalize agents for pausing or are architecturally unable to distinguish a principled pause from a silent failure. We then introduce a three-gap taxonomy of abstention-warranted scenarios, covering specification gaps where required information is absent, verification gaps where world state cannot be confirmed, and authority gaps where explicit authorization has not been given, which together provide a principled basis for constructing abstention-aware agent benchmarks. Finally, we propose abstention evaluation protocols (Safety Rate, Usability Rate, and Informed Refusal Rate) and report preliminary results across 144 enterprise agent scenarios and five model families, in which a runtime-enforced abstention mechanism achieves up to 89.2% hazardous-action blocking and 87.5% usability on authorized scenarios, demonstrating that the safety--usability tradeoff is tunable rather than inherent and that its shape varies substantially across model families. We treat this as preliminary work and offer the taxonomy and composite metrics as a starting point for further conversations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4a2be7024ebe" data-article-url="https://arxiv.org/abs/2606.02974" data-article-title="WISE-HAR: WiFi ベースの人間活動認識のための一般化可能なアンサンブル深層学習フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02974" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02974" target="_blank" rel="noopener">WISE-HAR: WiFi ベースの人間活動認識のための一般化可能なアンサンブル深層学習フレームワーク</a></h3>
      <p class="summary">WiFi 信号を使用した人間活動認識 (HAR) は、スマート ホーム、医療監視、セキュリティ システム、周囲支援生活のための革新的なテクノロジーとして登場しました。重大なプライバシー上の懸念を引き起こし、低照度条件で機能しない従来のカメラベースのシステムや、ユーザーのコンプライアンスを必要とするウェアラブル センサーとは異なり、WiFi ベースの HAR は非侵入的でプライバシーが保護され、コスト効率が高く、あらゆる照明条件でもシームレスに動作します。この論文では、Wallhack1.8k WiFi スペクトログラム データセットを使用して、「不在」(空の部屋)、「歩行」、「歩行 + 腕を振る」という 3 つの異なる人間の活動を認識するための包括的なアプローチを紹介します。 WiFi ベースの HAR の主な課題に対処するために、3 つの重要な改善点を提案します。まず、高パフォーマンスの分散に対処するために、5 つの異なる CNN アーキテクチャ (Deep CNN、 Wide CNN、MobileNetV2、ResNet50V2、および EfficientNetB0) を使用したアンサンブル学習を実装します。次に、小さいデータセット サイズの制限に対処するために、タイム ワーピング、周波数マスキング、ノイズの追加などの積極的なデータ拡張手法を適用します。 3 番目に、現実世界の汎化能力を評価するために、クロスシナリオ評価 (見通し内でのトレーニングと見通し外でのテスト) およびクロスアンテナ評価 (Biquad アンテナでのトレーニングと PIFA アンテナでのテスト) を実行します。当社のアンサンブル モデルは、Biquad アンテナを使用した LOS シナリオで 94.87% のテスト精度を達成し、最高の個別モデルを 0.66% 上回りました。データ拡張により、ランダム フォレストのパフォーマンスが 60% から 95% に向上しました。クロスシナリオ評価では、わずか 1.37% と 2.07% の最小限の精度低下が示され、強力な一般化機能が実証されました。結果は、提案されたアプローチが堅牢で信頼性が高く、異なるハードウェア構成を持つ多様な環境での実際の展開に適していることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">WISE-HAR: A Generalizable Ensemble Deep Learning Framework for WiFi-Based Human Activity Recognition</p>
        <p class="orig-summary">Human Activity Recognition (HAR) using WiFi signals has emerged as a transformative technology for smart homes, healthcare monitoring, security systems, and ambient assisted living. Unlike traditional camera-based systems that raise significant privacy concerns and fail in low-light conditions, or wearable sensors that require user compliance, WiFi-based HAR is non-intrusive, privacy-preserving, cost-effective, and works seamlessly in any lighting condition. This paper presents a comprehensive approach to recognize three distinct human activities: &quot;No Presence&quot; (empty room), &quot;Walking&quot;, and &quot;Walking + Arm-waving&quot; using the Wallhack1.8k WiFi spectrogram dataset. We propose three key improvements to address the main challenges in WiFi-based HAR. First, to address high performance variance, we implement ensemble learning with five different CNN architectures (Deep CNN, Wide CNN, MobileNetV2, ResNet50V2, and EfficientNetB0). Second, to address the small dataset size limitation, we apply aggressive data augmentation techniques including time-warping, frequency masking, and noise addition. Third, to evaluate real-world generalization capability, we perform cross-scenario evaluation (training on Line-of-Sight and testing on Non-Line-of-Sight) and cross-antenna evaluation (training on Biquad antenna and testing on PIFA antenna). Our ensemble model achieved a test accuracy of 94.87% on the LOS scenario with Biquad antenna, outperforming the best individual model by 0.66%. Data augmentation improved Random Forest performance from 60% to 95%. Cross-scenario evaluation showed minimal accuracy drops of only 1.37% and 2.07%, demonstrating strong generalization capabilities. The results indicate that the proposed approach is robust, reliable, and suitable for real-world deployment in diverse environments with different hardware configurations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9bf5e67a4e2c" data-article-url="https://arxiv.org/abs/2606.02994" data-article-title="エージェントの痕跡から推論プリミティブを誘導する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02994" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02994" target="_blank" rel="noopener">エージェントの痕跡から推論プリミティブを誘導する</a></h3>
      <p class="summary">ReAct スタイルの LLM エージェントは、多くの問題にわたって同じ推論ルーチンを再発見しますが、それらのルーチンは一時的なスクラッチパッドに閉じ込められたままになります。成功した ReAct トレースをマイニングし、反復する推論の動きをクラスター化し、最も頻繁に発生する動きを型指定された疑似ツールのコンパクトなライブラリに変換するシングルパス手法である Reasoning Primitive Induction を紹介します。各疑似ツールは、呼び出し時に LLM によって解釈される自然言語の docstring によって指定され、標準の ReAct ループによってテスト時にこれらのプリミティブが構成されます。中心的な結果は、誘導されたライブラリがそのトレースを生成したまさにエージェントよりも優れていることです。RuleArena NBA で +44pp (30 -&gt; 74)、MuSR チーム割り当てで +30pp (38 -&gt; 68)、NatPlan 会議計画で +22pp (7 -&gt; 29) でした。物語演繹、ルール適用、制約充足計画にわたる 5 つの比較可能なサブタスクにわたって、単一の固定構成により、すべてのサブタスクでゼロショットの思考連鎖よりも改善され、専門家が作成した分解と同等またはそれを上回り、より低い平均推論コストで AWM よりも優れたパフォーマンスを発揮します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Inducing Reasoning Primitives from Agent Traces</p>
        <p class="orig-summary">ReAct-style LLM agents often rediscover the same reasoning routines across problems, yet leave those routines trapped in transient scratchpads. We introduce Reasoning Primitive Induction, a single-pass method that mines successful ReAct traces, clusters recurrent reasoning moves, and converts the most frequent moves into a compact library of typed pseudo-tools. Each pseudo-tool is specified by a natural-language docstring interpreted by an LLM at invocation time, and a standard ReAct loop composes these primitives at test time. The central result is that induced libraries outperform the very agent that generated their traces: by +44pp on RuleArena NBA (30 -&gt; 74), +30pp on MuSR team allocation (38 -&gt; 68), and +22pp on NatPlan meeting planning (7 -&gt; 29). Across five comparable subtasks spanning narrative deduction, rule application, and constraint-satisfaction planning, a single fixed configuration improves over zero-shot Chain-of-Thought on every subtask, matches or surpasses expert-authored decompositions, and outperforms AWM at lower average inference cost.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c5c5b1805fbb" data-article-url="https://arxiv.org/abs/2606.03031" data-article-title="AUDITFLOW: 構造化財務報告検証のための実行可能なシンボリック環境" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03031" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03031" target="_blank" rel="noopener">AUDITFLOW: 構造化財務報告検証のための実行可能なシンボリック環境</a></h3>
      <p class="summary">正確性はテキストだけではなく構造化された証拠に依存するため、言語モデルエージェントにとって構造化された財務監査の検証は困難です。モデルは、監査ルールを適用する前に、報告された事実を分類概念にリンクし、計算または次元関係を調べ、期待値を再計算する必要があります。私たちは、適応的な検索を決定論的な検証から分離する、グラフに基づいたマルチエージェント フレームワークである AuditFlow を提案します。 AuditFlow は、静的な US-GAAP タクソノミー グラフと動的な XBRL ファイリング グラフからシンボリック環境を構築し、ファクト検索、タクソノミー トラバーサル、数値チェック、およびルール評価のための型付きツールを通じてそれを公開します。 2 人のジュニア監査人が規制と証拠の観点から各ケースを検査し、上級監査人が意見の相違を解決し、さらなる調査を要求することができます。最終レポートは証拠の集約を通じて統合され、監査評決、期待値、証拠痕跡、および信頼性スコアが生成されます。 FinAuditing 由来の FinMR サンプルでは、​​AuditFlow は GPT-5.5 に基づく共同監査精度 82.09% に達し、最も強力なベースラインを 14.93 ポイント上回りました。決定論的チェックを削除すると精度が 17.91% に低下し、モデルでは確実に置き換えることができない検証ステップがシンボリック環境によって実行されることがわかります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AUDITFLOW: Executable Symbolic Environments for Structured Financial Reporting Verification</p>
        <p class="orig-summary">Structured financial audit verification is difficult for language-model agents because correctness depends on structured evidence rather than text alone. A model must link reported facts to taxonomy concepts, traverse calculation or dimensional relations, and recompute expected values before applying an audit rule. We propose AuditFlow, a graph-grounded multi-agent framework that separates adaptive search from deterministic verification. AuditFlow builds a symbolic environment from a static US-GAAP taxonomy graph and a dynamic XBRL filing graph, and exposes it through typed tools for fact retrieval, taxonomy traversal, numerical checking, and rule evaluation. Two junior auditors inspect each case from regulatory and evidentiary views, while a senior auditor resolves disagreements and can request further investigation. The final reports are fused through evidential aggregation to produce an audit verdict, expected value, evidence trail, and trustworthiness score. On a FinAuditing-derived FinMR sample, AuditFlow reaches 82.09% joint audit accuracy under GPT-5.5, outperforming the strongest baseline by 14.93 points. Removing deterministic checks drops accuracy to 17.91%, showing that the symbolic environment performs the verification step that the model cannot reliably replace.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e1c02e2cf173" data-article-url="https://arxiv.org/abs/2606.03036" data-article-title="TriEval: LLM バイアス、毒性、真実性評価のためのリソース効率の高いパイプライン" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03036" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03036" target="_blank" rel="noopener">TriEval: LLM バイアス、毒性、真実性評価のためのリソース効率の高いパイプライン</a></h3>
      <p class="summary">LLM は、基本的なチャットボットから AI エコシステムのバックボーンに進化し、現在では医療、学校、政府サービスで広く使用されています。 LLM をドメイン全体に導入するには、その安全性と公平性を確保するために継続的な評価が必要です。 LLM の導入後に発生する一般的な問題には、一貫性のない出力や誤った情報の幻覚などがあります。 LLM 評価ツールは多数存在しますが、そのほとんどは一度に 1 つのパラメータのテストに限定されているか、ほとんどの研究者がアクセスできない膨大な計算リソースを必要とします。 TriEval は、コンピューティング リソースを最小限に抑えながら、バイアス、有害性、真実性を含む複数のパラメータにわたって LLM 出力を評価することで、これらの課題に対処します。このパイプラインは、オープンソース モデルとクローズドソース モデルの両方と互換性があり、GPU クラスターのない標準的なラップトップで実行されます。 TriEval は、Llama 3 8B、Mistral 7B、Gemma 2 9B、および Claude Haiku の 4 つのモデルでテストされています。結果は、特に毒性と真実性の点で、オープンソース モデルとクローズドソース モデルの明らかな違いを示しています。 TriEval は、限られた計算リソースを持つ研究者がより広範にアクセスできるようにするために、オープンソースとしてリリースされています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TriEval: A Resource-Efficient Pipeline for LLM Bias, Toxicity, and Truthfulness Assessment</p>
        <p class="orig-summary">LLMs have evolved from basic chatbots to the backbone of the AI ecosystem, now widely used in healthcare, schools, and government services. The domain-wide adoption of LLMs necessitates continuous evaluation to ensure their safety and fairness. Common issues encountered after deploying LLMs include inconsistent outputs and hallucinations of incorrect information. Although numerous LLM evaluation tools exist, most are limited to testing a single parameter at a time or require massive computational resources that are not accessible to most researchers. TriEval addresses these challenges by evaluating LLM outputs across multiple parameters, including bias, toxicity, and truthfulness together, while minimizing computing resources. The pipeline is compatible with both open- and closed-source models and runs on a standard laptop without a GPU cluster. TriEval has been tested on four models: Llama 3 8B, Mistral 7B, Gemma 2 9B, and Claude Haiku. The results show clear differences between open-source and closed-source models, especially in terms of toxicity and truthfulness. TriEval is being released as open source to enable broader access for researchers with limited computational resources.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d103c89de9ef" data-article-url="https://arxiv.org/abs/2606.03040" data-article-title="RelGT-AC: リレーショナル データベースのオートコンプリート タスク用のリレーショナル グラフ トランスフォーマー" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03040" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03040" target="_blank" rel="noopener">RelGT-AC: リレーショナル データベースのオートコンプリート タスク用のリレーショナル グラフ トランスフォーマー</a></h3>
      <p class="summary">リレーショナル データベースは、現代の企業システム、科学システム、医療システムを支えていますが、そのようなデータに対する予測機械学習は、データベースが複数のテーブル、異種混合、および時間構造であるため、依然として困難です。リレーショナル ディープ ラーニング (RDL) は、データベースを異種グラフとして表現し、グラフ ニューラル ネットワーク (GNN) を直接適用することで、この問題に対処します。 RelBench v2 は最近、オートコンプリート タスクを導入しました。これは、インテリジェントなフォーム入力アシスタントに似た、リレーショナル コンテキストから既存の列の値を予測することを目的とした実用的なタスク タイプです。我々は、RelGT-AC (Relational Graph Transformer for Autocomplete) を提案し、次の 3 つのターゲットを絞った貢献によって RelGT アーキテクチャを拡張します。 (2) 単一モデル内でバイナリ分類、マルチクラス分類、および回帰オートコンプリート タスクをサポートする統合タスク ヘッド。 (3) TF-IDF テキスト エンコーダは、フリーテキスト列を自動的に検出してエンコードし、カテゴリカル エンコーダが廃棄する強力な語彙信号を復元します。 3 つの RelBench v2 データセット (rel-trial、rel-f1、rel-stack) にわたる 7 つのタスクにわたって、RelGT-AC は 3 つの回帰オートコンプリート タスクすべてで GraphSAGE ベースラインを上回り、テキストの多い適格性タスクで TF-IDF エンコーダーを介して最大 +10 AUROC ポイントを達成しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">RelGT-AC: A Relational Graph Transformer for Autocomplete Tasks in Relational Databases</p>
        <p class="orig-summary">Relational databases underpin modern enterprise, scientific, and healthcare systems, yet predictive machine learning on such data remains challenging due to their multi-table, heterogeneous, and temporal structure. Relational Deep Learning (RDL) addresses this by representing databases as heterogeneous graphs and applying graph neural networks (GNNs) directly. RelBench v2 recently introduced autocomplete tasks -- a practically motivated task type where the goal is to predict an existing column value from relational context, analogous to an intelligent form-filling assistant. We propose RelGT-AC (Relational Graph Transformer for Autocomplete), extending the RelGT architecture with three targeted contributions: (1) a column masking strategy that prevents trivial solutions by masking the target column during subgraph encoding; (2) a unified task head supporting binary classification, multiclass classification, and regression autocomplete tasks within a single model; and (3) a TF-IDF text encoder that automatically detects and encodes free-text columns, recovering strong lexical signal that categorical encoders discard. Across 7 tasks spanning 3 RelBench v2 datasets (rel-trial, rel-f1, rel-stack), RelGT-AC outperforms the GraphSAGE baseline on all 3 regression autocomplete tasks and achieves up to +10 AUROC points on text-heavy eligibility tasks via the TF-IDF encoder.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8ffcba1e1bf4" data-article-url="https://arxiv.org/abs/2606.03054" data-article-title="ToolGate: ツール拡張視覚言語エージェント向けのトークン効率の良い通話前制御" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03054" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03054" target="_blank" rel="noopener">ToolGate: ツール拡張視覚言語エージェント向けのトークン効率の良い通話前制御</a></h3>
      <p class="summary">ツール拡張視覚言語エージェントは、OCR、検出、セグメンテーション、その他のツールを通じて外部の知覚証拠を取得できますが、提案されたツール呼び出しをすべて実行するのはコストがかかり、場合によっては不必要です。呼び出し前の制御の問題を研究します。ReAct スタイルの VLM エージェントが知覚ツール呼び出しを提案した後、その呼び出しは実行されるべきか、その出力がコンテキストに入る前にスキップされるべきか? 5 つのベンチマーク全体で、ベースライン エージェントのローカル選択性が低いことがわかりました。有益なコールと有害なコールは同様の割合 (11.8% 対 9.9%) で発生しますが、ほとんどのコールは即時強制応答の予測を変更しません。軌道テキストと単純な構造特徴から実行/スキップの決定を予測する軽量の外部コントローラーである ToolGate を紹介します。 ToolGate は、2 つの Qwen3-VL バックボーン全体で、クロスドメイン設定の平均精度を維持しながら、トークン コストを無制限の ReAct ベースラインの 64 ～ 69% に削減します。 Qwen3-VL-30B でのマッチド ドメイン軌道トレーニングにより、平均精度がさらに 1.65 ポイント向上しました。これらの結果は、ツール拡張 VLM エージェントが、より優れた知覚ツールからだけでなく、ツールの出力がいつ支払う価値があるかを明示的に制御することからも恩恵を受けることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ToolGate: Token-Efficient Pre-Call Control for Tool-Augmented Vision-Language Agents</p>
        <p class="orig-summary">Tool-augmented vision-language agents can acquire external perceptual evidence through OCR, detection, segmentation, and other tools, but executing every proposed tool call is costly and sometimes unnecessary. We study the pre-call control problem: after a ReAct-style VLM agent proposes a perceptual tool call, should the call be executed, or skipped before its output enters the context? Across five benchmarks, we find that the baseline agent exhibits poor local selectivity: helpful and harmful calls occur at similar rates (11.8% vs. 9.9%), while most calls do not change the immediate forced-answer prediction. We introduce ToolGate, a lightweight external controller that predicts execute/skip decisions from trajectory text and simple structural features. Across two Qwen3-VL backbones, ToolGate reduces token cost to 64-69% of the unrestricted ReAct baseline while preserving average accuracy in cross-domain settings. With matched-domain trajectory training on Qwen3-VL-30B, it further improves average accuracy by 1.65 points. These results show that tool-augmented VLM agents benefit not only from better perceptual tools, but also from explicit control over when tool outputs are worth paying for.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="edf1a97b62bd" data-article-url="https://arxiv.org/abs/2606.03056" data-article-title="SkillDAG: 大規模な LLM スキル選択のための自己進化型型スキル グラフ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03056" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03056" target="_blank" rel="noopener">SkillDAG: 大規模な LLM スキル選択のための自己進化型型スキル グラフ</a></h3>
      <p class="summary">LLM エージェントが大規模なスキル ライブラリを採用するにつれて、適切なサブセットの選択は、類似性の一致の問題ではなく、構造的な問題になります。つまり、スキルは相互に依存、競合、特殊化、または重複するため、完全な列挙と類似性の埋め込みの両方には見えない構造になります。 SkillDAG は、スキル間の関係を型付き有向グラフとしてモデル化し、それを推論時のエージェント呼び出し可能な構造検索インターフェイスとして LLM エージェントに公開します。固定の検索パイプラインに組み込まれるのではなく、実行中にクエリされて展開されます。各検索では、ベクトル一致、型付きエッジ近傍、競合信号が返され、提案後コミット プロトコルにより、エージェントは実行に裏打ちされたエッジを登録できるため、グラフはエピソード全体で構造を蓄積します。 ALFWorld と MiniMax-M2.7 を使用した SkillsBench では、SkillDAG は 67.1% の成功と 27.3% の報酬に達し、報告されている最も強力なスキルのグラフのベースラインを +12.8 ポイントと +8.6 ポイント上回りました。アドバンテージは gpt-5.2-codex に移植され、固有の SkillsBench Ret@K は、一致したクエリの下で 65.5 から 78.2 に上昇します。これらの利点は、固定シード拡散パイプラインが劣化するプールが 10 倍に成長しても頑健性を維持する候補ランキング、および以前のヒットを排除することなくグラウンドトゥルースの再現を拡大するセットモノトーンのオンライン編集など、分離可能なメカニズムに由来します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SkillDAG: Self-Evolving Typed Skill Graphs for LLM Skill Selection at Scale</p>
        <p class="orig-summary">As LLM agents adopt large skill libraries, selecting the right subset becomes a structural problem rather than a similarity-matching one: skills depend on, conflict with, specialize, or duplicate one another, a structure invisible to both full enumeration and embedding similarity. We present SkillDAG, which models inter-skill relationships as a typed directed graph and exposes it to an LLM agent as an inference-time, agent-callable structural retrieval interface, queried and evolved during execution rather than baked into a fixed retrieval pipeline: each search returns vector matches, typed-edge neighbors, and conflict signals, and a propose-then-commit protocol lets the agent register execution-backed edges so the graph accumulates structure across episodes. On ALFWorld and SkillsBench with MiniMax-M2.7, SkillDAG reaches 67.1% success and 27.3% reward, exceeding the strongest reported Graph-of-Skills baseline by +12.8 and +8.6 points; the advantage ports to gpt-5.2-codex, and intrinsic SkillsBench Ret@K rises from 65.5 to 78.2 under matched queries. These gains trace to isolable mechanisms: candidate ranking that stays robust as the pool grows 10x where a fixed seeding-diffusion pipeline degrades, and set-monotone online edits that enlarge ground-truth recall without evicting prior hits.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="154e83c71264" data-article-url="https://arxiv.org/abs/2606.03066" data-article-title="コア: 一般的なマルチモーダル操作検出のための競合指向推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03066" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03066" target="_blank" rel="noopener">コア: 一般的なマルチモーダル操作検出のための競合指向推論</a></h3>
      <p class="summary">生成型 AI の急速な台頭により、マルチモーダルなフェイク ニュースがますます現実的かつ蔓延し、国民の信頼と社会の安定に重大な脅威を与えています。既存の検出方法は、操作固有のモデルと大規模なラベル付けされたデータに大きく依存しているため、新しい操作タイプへの一般化が不十分です。私たちは、操作された誤った情報の本質は、その本質的な矛盾、つまりモダリティ間または世界共通知識との意味的または物理的な矛盾にあることを観察しました。この観察に触発されて、私たちは、マルチモーダル大規模言語モデル (MLLM) に明示的な競合キャプチャ機能を与えることを学習する効果的なパラダイムである \textbf{C}onflict-\textbf{O}riented \textbf{RE}asoning (\textbf{CORE}) フレームワークを提案します。この目的を達成するために、CORE はまず、紛争要因と原因のきめ細かい注釈を備えた紛争帰属コーパス (CAC) を構築し、その後の紛争認識トレーニングに不可欠なデータ サポートを提供します。 CORE は、CAC に基づいて競合指向の表現強化と推論を実行することで、堅牢かつ一般化可能な競合検出を実現し、少数のサンプルやゼロショット設定でも、目に見えない操作タイプに効果的かつ迅速に適応します。広範な実験により、CORE が最先端のモデルを上回ることが実証されました。データセットとコードは https://github.com/shen8424/CORE で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CORE: Conflict-Oriented Reasoning for General Multimodal Manipulation Detection</p>
        <p class="orig-summary">The rapid rise of generative AI has made multimodal fake news increasingly realistic and pervasive, posing severe threats to public trust and social stability. Existing detection methods rely heavily on manipulation-specific models and large-scale labeled data, resulting in poor generalization to emerging manipulation types. We observed that the essence of manipulated misinformation lies in its intrinsic conflicts, \textbf{i.e.,} semantic or physical inconsistencies either across modalities or with common world knowledge. Inspired by this observation, we propose \textbf{C}onflict-\textbf{O}riented \textbf{RE}asoning (\textbf{CORE}) framework, an effective paradigm that learns to endows multimodal large language models (MLLMs) with explicit conflict-capturing capability. To this end, CORE first constructs the Conflict Attribution Corpus (CAC) with fine-grained annotations of conflict factors and sources, providing essential data support for subsequent conflict perception training. By performing conflict-oriented representation enhancement and reasoning based on CAC, CORE achieves robust and generalizable conflict detection, effectively and rapidly adapting to unseen manipulation types with a few samples or in even zero-shot settings. Extensive experiments demonstrate that CORE surpasses state-of-the-art models. The dataset and code are publicly available at https://github.com/shen8424/CORE.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="81b70d6fe872" data-article-url="https://arxiv.org/abs/2606.03083" data-article-title="DELTAMEM: 残存ツリーによる LLM エージェントの増分エクスペリエンス メモリ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03083" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03083" target="_blank" rel="noopener">DELTAMEM: 残存ツリーによる LLM エージェントの増分エクスペリエンス メモリ</a></h3>
      <p class="summary">大規模言語モデル (LLM) ベースのエージェントは、継続的な対話を通じて経験から学習するために、ますます記憶に依存しています。ただし、経験を独立したフラットな単位として保存すると、類似したエピソードが重複するコンテンツを繰り返したり、微妙なシーンの変化が検索された記憶に矛盾したガイダンスを提供したりするため、実質的な冗長性と検索の競合が発生します。これに対処するために、新たに獲得した経験は多くの場合、既存の知識の増分変化であると仮定して、残留経験を導入します。私たちは、経験記憶を 2 つの独立した残差ツリーに編成するフレームワークである DeltaMem を提案します。1 つは再利用可能なスキルとして目標条件付けされたタスクの経験を保存し、もう 1 つはシーンレベルの環境知識として保存します。各ツリーは、一般化された基本エクスペリエンスにルート ノードを使用し、後続のバリエーションに増分デルタ ノードを使用して、関連するエクスペリエンスが重複することなく共通の基盤を共有できるようにします。検索では、失敗ペナルティ付きの類似性スキャンによって最適な一致が特定され、ルートから一致までのチェーン構成を通じて完全なエクスペリエンスが再構築されます。自律的な統合メカニズムにより、高周波パスが新しいルート ノードに抽出され、一般的なヒューリスティックから特殊なバリアントまでツリーが自己組織化できるようになります。多様なインタラクティブ環境での実験では、DeltaMem が既存のベースラインを常に上回るパフォーマンスを示しています。将来の研究を容易にするために、https://github.com/import-myself/DeltaMem でコードをリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DELTAMEM: Incremental Experience Memory for LLM Agents via Residual Trees</p>
        <p class="orig-summary">Large Language Model (LLM)-based agents increasingly rely on memory to learn from experiences over continual interactions. However, storing experiences as independent, flat units leads to substantial redundancy and retrieval conflicts, as similar episodes repeat overlapping content and subtle scene variations cause retrieved memories to offer contradictory guidance. To address this, we introduce residual experience, positing that newly acquired experience is often an incremental variation of existing knowledge. We propose DeltaMem, a framework that organizes experience memory into two independent residual trees, one storing goal-conditioned task experience as reusable skills and another for scene-level environment knowledge. Each tree uses a root node for generalized base experiences and incremental delta nodes for subsequent variations, allowing related experiences to share a common foundation without duplication. For retrieval, a failure-penalized similarity scan locates the best match, reconstructing the full experience via root-to-match chain composition. An autonomous consolidation mechanism distills high-frequency paths into new root nodes, enabling the trees to self-organize from general heuristics to specialized variants. Experiments across diverse interactive environments show that DeltaMem consistently outperforms existing baselines. To facilitate future research, we release the code at https://github.com/import-myself/DeltaMem.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5f481c988649" data-article-url="https://arxiv.org/abs/2606.03092" data-article-title="推論の影の代償: LLM への最適な予算配分に関する経済的観点" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03092" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03092" target="_blank" rel="noopener">推論の影の代償: LLM への最適な予算配分に関する経済的観点</a></h3>
      <p class="summary">推論時間のスケーリングは、大規模言語モデルのパフォーマンスを向上させるための重要な手段として浮上していますが、実際の展開は厳しい計算予算によって制限されています。この研究では、推論予算の割り当てを、経済原則に支配されるグローバルな制約付き最適化問題として定式化します。シフトサージ関数を使用してクエリごとの推論ユーティリティをモデル化することにより、リソース不足の下で限界ユーティリティを平衡化するグローバルシャドープライスに基づいた最適な割り当てポリシーを導き出します。この理論に基づいて、推論のための制約付き潜在効用均衡配分 (CLEAR) を提案します。合理的な放棄を実行し、破綻したクエリから出現しきい値に近い解決可能なクエリにリソースを再割り当てします。さまざまなトラフィック ストリームを使用したいくつかの推論タスクに関する広範な実験により、CLEAR が総トークン コストと平均精度のパレート フロンティアを大幅に向上させることが実証されました。リソースが不足している状況では、CLEAR は均一な割り当てと比較して、グローバル精度で最大 3 倍の向上を達成します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Shadow Price of Reasoning: Economic Perspective on Optimal Budget Allocation for LLMs</p>
        <p class="orig-summary">Inference-time scaling has emerged as a critical avenue for enhancing Large Language Models&#x27; performance, yet real-world deployment is constrained by strict computational budgets. In this work, we formulate inference budget allocation as a global constrained optimization problem governed by economic principles. By modeling per-query reasoning utility with a shifted-surge function, we derive an optimal allocation policy based on a global shadow price that equilibrates marginal utility under resource scarcity. Based on this theory, we propose Constrained Latent-utility Equilibrium Allocation for Reasoning (CLEAR). It performs rational abandonment and reallocates resources from insolvent queries to solvable queries near their emergence thresholds. Extensive experiments on several reasoning tasks with different traffic streams demonstrate that CLEAR significantly improves the Pareto frontier of total token cost versus mean accuracy. In resource-scarce regimes, CLEAR achieves up to a 3x improvement in global accuracy compared to uniform allocation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4122dc6a6cf4" data-article-url="https://arxiv.org/abs/2606.03093" data-article-title="プロンプトがどのように行動を導くのかを分解する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03093" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03093" target="_blank" rel="noopener">プロンプトがどのように行動を導くのかを分解する</a></h3>
      <p class="summary">プロンプトは重みを更新せずに大規模言語モデル (LLM) とビジョン言語モデル (VLM) を制御しますが、命令の変更がどのように内部表現を再形成して動作を生成するのかは不明のままです。プロンプトを、プロンプトに続くコンテンツの表現ジオメトリの変換として扱う、ネストされた幾何学的分解フレームワークを導入します。プロンプトのペアごとに、ますます表現力の高い刺激不変マップ (変換、均一スケーリングによる剛体変換、逐次軸スケーリング、アフィン変換、非線形変換) を使用して、2 つのプロンプトの下で同じ刺激の表現を整列させます。次に、単一レイヤーのプロンプト A のホールドアウト刺激に対する隠れ状態を、対応するマッピングされた状態に置き換え、プロンプト B の表現ジオメトリと動作の回復を測定することによって、各マップを因果的にテストします。 3 つの LLM、3 つの VLM、およびスタイル、感情、シーンの内容、数字にわたる 6 つのテキストまたは画像データセットにわたって、指示されたタスク構造に向けて表現を一貫して再形成するよう促します。交差検証された分散分解により、プロンプトによって引き起こされるアクティベーション変化の多くが、形状保持マップ、特に均一スケーリングによる変換と剛体変換によって捕捉されることが示され、一方、層プロファイルは、層全体にわたるモデルおよびタスク固有のルーティング戦略を明らかにします。重要なのは、変換層と固定層によってすでに動作の一致が改善されているが、アフィン変換はターゲット プロンプト タスクのジオメトリをほぼ回復する最初の層であり、対応する動作のゲインが得られることです。これは、次元を越えた線形混合が、指示されたタスク構造に向けてプロンプトの表現を再編成する重要なメカニズムであることを示唆しています。私たちのフレームワークは、プロンプトによって引き起こされる表現変化を解釈可能な幾何学的コンポーネントに分解し、モデルがタスク関連構造をルーティングしてプロンプト駆動型の動作を生成する方法を明らかにします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Decomposing how prompting steers behavior</p>
        <p class="orig-summary">Prompting steers large language models (LLMs) and vision-language models (VLMs) without weight updates, but it remains unclear how instruction changes reshape internal representations to produce behavior. We introduce a nested geometric decomposition framework that treats prompting as a transformation of the representational geometry of the content following the prompt. For each prompt pair, we align representations of the same stimuli under two prompts using increasingly expressive stimulus-invariant maps: translation, rigid transformation with uniform scaling, sequential axis scaling, affine transformation, and nonlinear transformation. We then causally test each map by replacing a single layer&#x27;s prompt-A hidden state for held-out stimuli with its mapped counterpart and measuring recovery of prompt-B representational geometry and behavior. Across three LLMs, three VLMs, and six text or image datasets spanning style, emotion, scene content, and number, prompts consistently reshape representations toward the instructed task structure. Cross-validated variance decomposition shows that much prompt-induced activation change is captured by shape-preserving maps, especially translation and rigid transformation with uniform scaling, while tier profiles reveal model- and task-specific routing strategies across layers. Crucially, although translation and rigid tiers already improve behavioral agreement, affine transformation is the first tier to nearly recover target-prompt task geometry and yields corresponding behavioral gains. This suggests that cross-dimensional linear mixing is a key mechanism by which prompts reorganize representations toward instructed task structure. Our framework decomposes prompt-induced representational change into interpretable geometric components and reveals how models route task-relevant structure to produce prompt-driven behavior.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8ac052188178" data-article-url="https://arxiv.org/abs/2606.03097" data-article-title="長いニュースから正確な予測まで: 時系列予測のための重要性を意識した融合と PRM に基づく反映" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03097" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03097" target="_blank" rel="noopener">長いニュースから正確な予測まで: 時系列予測のための重要性を意識した融合と PRM に基づく反映</a></h3>
      <p class="summary">時系列予測にニュースを組み込むことは魅力的です。ニュースは、歴史的価値だけでは回復できない突然の外生的出来事を明らかにする可能性があるからです。ただし、既存の LLM ベースのニュース予測パイプラインは、2 つの実際的な制限に直面しています。1 つは、関連するニュース記事がモデルのコンテキスト ウィンドウを超えることが多く、補足ニュースの反復取得は一般にガイドなしであり、冗長な更新と遅い収束につながります。私たちは、重要性を意識したニュース圧縮とプロセスレベルの検索監視を組み合わせた新しいフレームワークでこれらの問題に対処します。まず、各記事の予測有用性を推定する重要度報酬モデルをトレーニングし、この信号を使用して逐次ペアワイズ融合中に圧縮予算を割り当て、固定コンテキスト制限内で有益なコンテンツを維持します。次に、現在のエラー プロファイルと以前に選択された記事の履歴に基づいて複数の補足ニュース候補をランク付けするプロセス報酬モデル (PRM) を導入し、ワンショットのブラインド検索を品質管理された選択に置き換えます。どちらのコンポーネントも、グラウンド トゥルースを備えた履歴データを使用してオフラインでトレーニングされます。推論では、リフレクション ループを使用せずに、凍結されたフィルタリング ロジックと圧縮モジュールを使用します。金融、エネルギー、トラフィック、ビットコインの予測ベンチマークに関する実験では、私たちの方法が強力なベースラインに対して予測精度を向上させ、反復ベースラインと比較して改良反復回数を大幅に削減し、関連する記事が数千のトークンにまたがる場合でも効果を維持できることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Long News to Accurate Forecast: Importance-Aware Fusion and PRM-Guided Reflection for Time Series Forecasting</p>
        <p class="orig-summary">Incorporating news into time series forecasting is appealing because news can reveal abrupt exogenous events that historical values alone cannot recover. However, existing LLM-based news-forecasting pipelines face two practical limitations: relevant news articles often exceed the model&#x27;s context window, and iterative retrieval of supplementary news is typically unguided, leading to redundant updates and slow convergence. We address these issues with a novel framework that combines importance-aware news compression and process-level retrieval supervision. First, we train an importance reward model that estimates the forecasting utility of each article and uses this signal to allocate compression budgets during sequential pairwise fusion, preserving informative content within a fixed context limit. Second, we introduce a process reward model (PRM) that ranks multiple supplementary-news candidates conditioned on the current error profile and the history of previously selected articles, replacing one-shot blind retrieval with quality-controlled selection. Both components are trained offline using historical data with ground truth; inference uses the frozen filtering logic and compression modules without any reflection loop. Experiments on finance, energy, traffic, and bitcoin forecasting benchmarks show that our method improves prediction accuracy over strong baselines, significantly reduces the number of refinement iterations compared to the iterative baseline, and remains effective when relevant articles span thousands of tokens.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4ec22f7dae81" data-article-url="https://arxiv.org/abs/2606.03103" data-article-title="DeskCraft: プロフェッショナルなワークフローと人間参加型コラボレーションに関するデスクトップ エージェントのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03103" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03103" target="_blank" rel="noopener">DeskCraft: プロフェッショナルなワークフローと人間参加型コラボレーションに関するデスクトップ エージェントのベンチマーク</a></h3>
      <p class="summary">専門的なクリエイティブおよびエンジニアリング ソフトウェアでの実際のプロフェッショナル デスクトップ ワークフローは長期にわたって展開され、多くの場合、人間による調整が必要になります。そこでは、エージェントが積極的に必要な情報を探し、ユーザーはタスクの進行に応じて追加の指示、説明、フィードバック、または修正を提供します。しかし、既存のデスクトップ GUI ベンチマークでは、ほとんどの場合、この設定は、すべてのユーザー指示が事前に提供される、短く単純化されたタスクに削減されます。この問題に対処するために、長期にわたるクリエイティブおよびエンジニアリングのワークフローとプロアクティブなヒューマン エージェント コラボレーションを対象としたデスクトップ GUI ベンチマークである DeskCraft を紹介します。 DeskCraft はタスクをマルチレベルの難易度分類に整理しており、長期にわたるタスクには 50 以上の実行ステップが必要で、デザイン、ビデオ、オーディオ、3D 作成にわたるプロフェッショナルなクリエイティブ ソフトウェアをカバーしています。さらに、DeskCraft は人間とエージェントのコラボレーションを、ターン中およびターン後のやり取りをカバーする対話プロトコルに形式化します。ターン途中のインタラクションでは、不確実性の下でエージェントが開始した説明と、実行中にユーザーが開始した中断の両方がキャプチャされ、ターン後のインタラクションは、エージェントが完了の合図をした後のユーザー主導のフィードバックに対応し、現実的なコラボレーション パターンの全領域にまたがります。 18 の独自のオープンソース エージェントを 538 のタスクで評価したところ、GPT-5.4 は標準タスクで 31.6%、対話型タスクで 27.6% に達していることがわかりました。さらに分析を進めると、長期にわたるワークフローの提供と事前の明確化における継続的な失敗が明らかになります。すべての評価コード、タスク、データを https://github.com/mrwwk/DeskCraft でオープンソース化します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DeskCraft: Benchmarking Desktop Agents on Professional Workflows and Human-in-the-Loop Collaboration</p>
        <p class="orig-summary">Real-world professional desktop workflows in specialized creative and engineering software unfold over long horizons and often require human-in-the-loop coordination, where agents proactively seek necessary information and users provide additional instructions, clarifications, feedback, or corrections as the task progresses. Yet existing desktop GUI benchmarks mostly reduce this setting to short, simplified tasks with all user instructions provided upfront. To address this issue, we introduce DeskCraft, a desktop GUI benchmark targeting long horizon creative and engineering workflows and proactive human-agent collaboration. DeskCraft organizes tasks into a multilevel difficulty taxonomy, with long horizon tasks requiring over 50 execution steps, and covers professional creative software across design, video, audio, and 3D creation. Furthermore, DeskCraft formalizes human-agent collaboration into an interaction protocol covering mid-turn and post-turn exchanges. Mid-turn interaction captures both agent-initiated clarification under uncertainty and user-initiated interruption during execution, while post-turn interaction accommodates user-driven feedback after the agent signals completion, together spanning the full space of realistic collaboration patterns. We evaluate 18 proprietary and open source agents on 538 tasks and find that GPT-5.4 reaches 31.6% on standard tasks and 27.6% on interactive tasks. Further analyses reveal persistent failures in long horizon workflow delivery and proactive clarification. We will open-source all evaluation codes, tasks, and data at https://github.com/mrwwk/DeskCraft.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="271e4f6ee430" data-article-url="https://arxiv.org/abs/2606.03108" data-article-title="EvoTrainer: 自律的なエージェント強化学習のための共同進化する LLM ポリシーとトレーニング ハーネス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03108" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03108" target="_blank" rel="noopener">EvoTrainer: 自律的なエージェント強化学習のための共同進化する LLM ポリシーとトレーニング ハーネス</a></h3>
      <p class="summary">自律 LLM トレーニングはレシピ検索として組み立てられることが多く、トレーニング ハーネスはほとんど静的なままになります。この制限はエージェント RL ではさらに顕著になり、ボトルネックの変化とスカラー報酬によってさまざまな障害モードが隠蔽されます。 EvoTrainer は、実証的なフィードバックを通じて LLM ポリシーとトレーニング側の活用を共進化させる自律型トレーニング フレームワークです。これは、ロールアウト レベルの証拠を診断し、診断を修正し、介入をバックテストし、再利用可能なスキルを蓄積します。数学的推論、競合プログラミング コード生成、およびリポジトリ レベルのソフトウェア エンジニアリングで評価された EvoTrainer は、同じデータ、コードベース、評価プロトコルの下で人間が設計した RL 参照と同等またはそれを上回り、長期的なエージェント SWE で最大の利益をもたらします。軌跡分析により、保持された戦略がドメイン間で分岐し、進化する診断により無効な高スコア分岐の昇格が防止され、再利用可能なスキルが後の検索を形成することが示されました。自律 LLM RL は、レシピ検索を超えて、ポリシーとそれを解釈するトレーニング ハーネスの共同進化に向けて進む必要があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">EvoTrainer: Co-Evolving LLM Policies and Training Harnesses for Autonomous Agentic Reinforcement Learning</p>
        <p class="orig-summary">Autonomous LLM training is often framed as recipe search, which leaves the training harness largely static. This limitation sharpens in agentic RL, where shifting bottlenecks and scalar rewards mask diverse failure modes. We introduce EvoTrainer, an autonomous training framework that co-evolves LLM policies and training-side harnesses through empirical feedback: it diagnoses rollout-level evidence, revises diagnostics, backtests interventions, and accumulates reusable skills. Evaluated on mathematical reasoning, competitive-programming code generation, and repository-level software engineering, EvoTrainer matches or exceeds the human-engineered RL references under the same data, codebase, and evaluation protocol, with the largest gain on long-horizon agentic SWE. Trajectory analyses show that retained strategies diverge across domains, evolving diagnostics prevent invalid high-scoring branches from being promoted, and reusable skills shape later search. Autonomous LLM RL should move beyond recipe search toward joint evolution of policies and the training harnesses that interpret them.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec4bb36ce269" data-article-url="https://arxiv.org/abs/2606.03135" data-article-title="情報獲得による LLM エージェントの不確実性認識の明確化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03135" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03135" target="_blank" rel="noopener">情報獲得による LLM エージェントの不確実性認識の明確化</a></h3>
      <p class="summary">Large Language Model (LLM) エージェントは、多くの場合、不明確なユーザー指示に従って動作し、ユーザーの意図に対する潜在的な不確実性がツールの誤った動作につながります。この課題に対処するために、明確化の動作を曖昧さの解決と連携させる、目標指向の明確化フレームワークを提案します。私たちのアプローチの中心となるのは、情報獲得報酬です。これは、説明の交換によって引き起こされるグラウンドトゥルースの目標に向けたベイジアン信念の更新を測定することによって、説明の質問の有用性を定量化する指標です。この報酬を使用して明確化者 (LLM) をトレーニングし、高い情報獲得を最適化します。これにより、明確化によって効果的に不確実性が軽減され、エージェント、ツール、ユーザーの環境内でタスクの完了が向上します。私たちは、5つの異種バックボーンにわたるクロスエージェント評価を実施し、明確化を強化した $\tau$-Bench 環境内でフレームワークを検証します。経験的な結果は、私たちの方法が、平均して合計 0.3 のインタラクション ステップのみを追加しながら、明確化なしのベースラインよりも成功率を一貫して 3.7% 向上させることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Uncertainty-Aware Clarification in LLM Agents with Information Gain</p>
        <p class="orig-summary">Large Language Model (LLM) agents often operate under underspecified user instructions, where latent uncertainty over user intent leads to erroneous tool actions. To address this challenge, we propose a goal-oriented clarification framework that aligns clarification behavior with ambiguity resolution. Central to our approach is the Information Gain Reward, a metric that quantifies the utility of clarification questions by measuring the Bayesian belief update towards the ground-truth goal induced by the clarification exchange. We train the clarifier (LLM) using this reward to optimize for high information gain, ensuring that clarifications effectively reduce uncertainty and improve task completion within the agent-tool-user environment. We validate our framework within a clarification-enhanced $\tau$-Bench environment, conducting cross-agent evaluations across five heterogeneous backbones. Empirical results demonstrate that our method consistently improves the success rate by 3.7\% over the no-clarification baseline, while adding only 0.3 total interaction steps on average.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e4b77e3a36fb" data-article-url="https://arxiv.org/abs/2606.03137" data-article-title="話す前に考える: マルチエージェント社会シミュレーションにおける内部評価から公の表現まで" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03137" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03137" target="_blank" rel="noopener">話す前に考える: マルチエージェント社会シミュレーションにおける内部評価から公の表現まで</a></h3>
      <p class="summary">LLM ベースのマルチエージェント シミュレーションは、社会的相互作用、熟慮、集団的な意見のダイナミクスを研究するための有望な方法を提供します。しかし、既存の対話シミュレーション フレームワークの多くは、対話を主に観察可能なターン交換または集約された出力として表現しており、沈黙、発言意図、公的表現の背後にある内部評価プロセスを調査することが困難なままになっています。エージェントの私的な推論を公的発話の生成から分離する、インターバルベースのマルチエージェント シミュレーション フレームワークである TBS (Think-Before-Speak) を紹介します。各間隔で、すべてのエージェントは共有された対話履歴と自身の記憶に基づいて構造化された内部状態を更新します。これらの状態には、不協和音関連の評価、認識された世論環境、認識された孤立リスク、対応戦略、および発言意欲が含まれます。その後、オーケストレーターは競合する発言意図を解決し、1 つの発言を公開対話にコミットし、内部評価と公開対話が時間の経過とともに共進化できるようにします。私たちは、気候関連の政策問題に関するタウンホールでの議論を模擬して TBS を評価します。結果は、TBS が一貫した内部状態トレースを生成し、これらのトレースがターン割り当て、沈黙、メモリ条件全体にわたって体系的に変化することを示しています。不協和音関連の評価はエージェントの発言意欲を高めますが、沈黙の圧力評価はそれを低下させます。発言の意図が形成されると、公の場での表現は主に順番の割り当てルールによって形成されます。これらの発見は、TBS が内部評価から公的表現への経路を観察可能かつ分析可能にすることで、メカニズムに敏感な社会シミュレーションをサポートしていることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Think-Before-Speak: From Internal Evaluation to Public Expression in Multi-Agent Social Simulation</p>
        <p class="orig-summary">LLM-based multi-agent simulation offers a promising way to study social interaction, deliberation, and collective opinion dynamics. However, many existing dialogue simulation frameworks represent interaction mainly as observable turn exchange or aggregated outputs, leaving the internal evaluative processes behind silence, speaking intention, and public expression difficult to examine. We introduce TBS (Think-Before-Speak), an interval-based multi-agent simulation framework that separates agents&#x27; private reasoning from public utterance generation. At each interval, all agents update structured internal states based on the shared dialogue history and their own memory. These states include dissonance-related appraisal, perceived opinion climate, perceived isolation risk, response strategy, and willingness to speak. The orchestrator then resolves competing speaking intentions and commits one utterance to the public dialogue, allowing internal evaluation and public interaction to co-evolve over time. We evaluate TBS in simulated town hall discussions on a climate-related policy issue. Results show that TBS produces coherent internal-state traces and that these traces vary systematically across turn-allocation, silence, and memory conditions. Dissonance-related appraisal increases agents&#x27; willingness to speak, whereas silence-pressure appraisal decreases it. Once speaking intention is formed, public expression is shaped mainly by turn-allocation rules. These findings suggest that TBS supports mechanism-sensitive social simulation by making the pathway from internal evaluation to public expression observable and analyzable.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="232bd74b5594" data-article-url="https://arxiv.org/abs/2606.03144" data-article-title="GTBench: グラフ理論における数学研究アシスタントとしての LLM を評価するための、カリキュラムに基づいたベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03144" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03144" target="_blank" rel="noopener">GTBench: グラフ理論における数学研究アシスタントとしての LLM を評価するための、カリキュラムに基づいたベンチマーク</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、技術分野の自習アシスタントとして使用されることが増えていますが、数学的推論アシスタントとしての信頼性は依然として十分に理解されていません。 GTBench は、グラフ理論の数学的研究アシスタントとして LLM を評価するためのカリキュラムに基づいたベンチマークです。GTBench は、学部レベルの定義と基本特性 (グループ 1)、アルゴリズム トレースと構造推論 (グループ 2)、大学院レベルの証明構築 (グループ 3) の、難易度が高くなる 3 つのグループに分類された 63 の問題で構成されています。問題は、Diestel のグラフ理論などの検証済みの学術資料から出典されています。私たちは 5 つのフロンティア モデル (GPT-5、Claude Sonnet 4.6、Gemini 2.5 Flash-Lite、Llama 3.3 70B、および Mistral Large 3) をゼロショットおよび思考連鎖プロンプトの下で評価します。グループ 1 と 2 には完全一致および LLM による審査員としての評価を使用し、グループ 3 にはハイブリッド人間エキスパートおよび LLM による審査員としてのプロトコルを使用しました。私たちの結果は顕著なパフォーマンスを明らかにしています。階層: GPT-5 はグループ 1 (95.8% ゼロショット) で上限に近づき、卒業証明 (82%) で有意な精度を維持していますが、他のすべてのモデルは大幅に低下し、困難を伴い、Llama はグループ 3 ゼロショットで人間の評価で 0% に達しています。失敗モード分析では、正しいアルゴリズム、間違った実行エラーがグループ 1 と 2 で優勢である一方、グループ 3 ではさらに不完全な推論の失敗が表面化し、特に冗長な証明またはほぼ完全な証明に関して、人間の評価者と自動判定者の間の体系的な不一致が明らかになりました (人間のペア全体でカッパ = 0.48 ～ 0.83)。 GTBench は、数学教育や科学研究における AI ツールのガバナンスに直接的な影響を与える、LLM におけるグラフ理論推論のための初のカリキュラムに基づいた評価フレームワークを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GTBench: A Curriculum-Grounded Benchmark for Evaluating LLMs as Mathematical Research Assistants in Graph Theory</p>
        <p class="orig-summary">Large language models (LLMs) are increasingly used as self-study assistants in technical disciplines, yet their reliability as mathematical reasoning assistants remains poorly understood. We introduce GTBench, a curriculum-grounded benchmark for evaluating LLMs as mathematical research assistants in graph theory, comprising 63 problems organized into three groups of increasing difficulty: undergraduate definitions and basic properties (Group 1), algorithm tracing and structural reasoning (Group 2), and graduate-level proof construction (Group 3). Problems are sourced from verified academic materials including Diestel&#x27;s Graph Theory. We evaluate five frontier models -- GPT-5, Claude Sonnet 4.6, Gemini 2.5 Flash-Lite, Llama 3.3 70B, and Mistral Large 3 -- under zero-shot and chain-of-thought prompting, using exact-match and LLM-as-judge evaluation for Groups 1 and 2, and a hybrid human expert and LLM-as-judge protocol for Group 3. Our results reveal a pronounced performance hierarchy: GPT-5 approaches ceiling on Group 1 (95.8% zero-shot) and maintains meaningful accuracy on graduate proofs (82%), while all other models degrade substantially with difficulty, with Llama achieving 0% under human evaluation on Group 3 zero-shot. Failure mode analysis shows that correct algorithm, wrong execution errors dominate Groups 1 and 2, while Group 3 additionally surfaces incomplete reasoning failures and reveals systematic disagreement between human evaluators and the automated judge, particularly on verbose or near-complete proofs (kappa = 0.48-0.83 across human pairs). GTBench provides the first curriculum-grounded evaluation framework for graph-theoretic reasoning in LLMs, with direct implications for the governance of AI tools in mathematical education and scientific research.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a6359a863c6" data-article-url="https://arxiv.org/abs/2606.03157" data-article-title="ClinicalMC: 大規模な言語モデルを使用した複数コースの臨床意思決定のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03157" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03157" target="_blank" rel="noopener">ClinicalMC: 大規模な言語モデルを使用した複数コースの臨床意思決定のベンチマーク</a></h3>
      <p class="summary">大規模言語モデル (LLM) は医療分野で広く採用されていますが、複雑な臨床意思決定シナリオでは依然として大きな課題に直面しています。既存のベンチマークは主に単一コース設定での LLM パフォーマンスを評価しており、患者の状態が時間の経過とともに変化する複数コースのシナリオでの体系的な評価が欠けています。このギャップに対処するために、私たちは複数コースの臨床意思決定のベンチマークである ClinicalMC を提案します。これには、入院から退院までの 4 つの段階にわたる 1,275 の中国語と 5,804 の英語のサンプルが含まれています。これらの段階には、トリアージ、最初のコースの検査/診断/治療、その後の複数コースの検査/評価/治療、および最終診断が含まれます。 ClinicalMC では、英語のデータセットの患者は平均 5.11 の臨床コースを受けますが、中国のデータセットの患者は平均 3.42 の臨床コースを受けます。 LLM のパフォーマンスを評価するために、患者、検査官、医師エージェントを含むマルチエージェント評価フレームワークを構築します。ベンチマークとフレームワークに基づいて、シングルターン静的設定とマルチターン動的設定の 2 つの実験設定を設計し、LLM の 3 つのカテゴリを評価します。1) GPT5-mini などのクローズドソース LLM。 2) DeepSeek-V3.2 のようなオープンソース LLM。 3) HuatuoGPT-o1 などの医療 LLM。広範な評価を通じて、医療分野における LLM のパフォーマンスをより深く理解し、医療分野での LLM の効果的な展開をサポートすることを目指しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ClinicalMC: A Benchmark for Multi-Course Clinical Decision-Making with Large Language Models</p>
        <p class="orig-summary">Large language models (LLMs) have been widely adopted in healthcare, yet they still encounter significant challenges in complex clinical decision-making scenarios. Existing benchmarks primarily assess LLM performance in single-course settings and lack systematic evaluation in multi-course scenarios, where a patient&#x27;s condition evolves over time. To address this gap, we propose ClinicalMC, a benchmark for multi-course clinical decision-making. It includes 1,275 Chinese and 5,804 English samples across four stages from admission to discharge. These stages cover triage, first-course examination/diagnosis/treatment, subsequent multi-course examination/assessment/treatment, and final diagnosis. In ClinicalMC, patients in the English dataset undergo an average of 5.11 clinical courses, whereas those in the Chinese dataset undergo 3.42. To assess LLM performance, we construct a multi-agent evaluation framework that includes patient, examiner, and doctor agents. Based on the benchmark and framework, we design two experimental settings -- a single-turn static setting and a multi-turn dynamic setting -- and assess three categories of LLMs: 1) closed-source LLMs like GPT5-mini; 2) open-source LLMs like DeepSeek-V3.2; and 3) medical LLMs like HuatuoGPT-o1. Through extensive evaluation, we aim to better understand LLM performance in the medical domain and support its effective deployment in healthcare.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="beba02809d1e" data-article-url="https://arxiv.org/abs/2606.03203" data-article-title="MedCUA-Bench: 臨床コンピューター使用エージェント向けのスクリーンショットのみのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03203" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03203" target="_blank" rel="noopener">MedCUA-Bench: 臨床コンピューター使用エージェント向けのスクリーンショットのみのベンチマーク</a></h3>
      <p class="summary">コンピュータを使用するエージェントは、画面ベースの反復的な臨床作業を自動化できる可能性がありますが、医療用グラフィカル ユーザー インターフェイスにおけるエージェントの信頼性はほとんど検証されていません。既存のベンチマークは、一般的な Web タスクやデスクトップ タスクに焦点を当てており、ドメイン知識が必要で、主流のアプリケーションとは著しく異なる UI デザインを示し、公開テスト環境がなく、タスクの完了を超えた安全性の検証が必要な医療ソフトウェアの割合が過小評価されています。臨床コンピューター使用エージェントの対話型ベンチマークである MedCUA-Bench を紹介します。 10 の医療分野にわたる 18 の臨床シナリオをカバーしており、実際の製品マニュアルとオープンソースの医療システムから再構築され、ライセンスとプライバシーの制約を回避しながら本物の臨床インターフェースをキャプチャします。各タスクには、臨床推論を UI 実行から切り離すための、意図レベルとステップレベルの目標のペアが付属しており、タスクの完了と 5 つの臨床安全性の側面について決定論的チェッカーによって評価されます。 23 のエージェント全体で、最高のクローズドソース モデルの厳密な成功率は 54.2% に達していますが、実際の OpenEMR ではすべてのモデルが 9% 未満にとどまっています。オープンソース エージェントの平均はわずか 2.5% で、最高のエージェントは 16.2% に達します。 MedCUA-Bench は、現在の薬剤と信頼できる臨床ソフトウェアの使用との間のギャップを明らかにし、将来の研究のための再現可能なテストベッドを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MedCUA-Bench: A Screenshot-Only Benchmark for Clinical Computer-Use Agents</p>
        <p class="orig-summary">Computer-use agents could automate repetitive screen-based clinical work, but their reliability in medical graphical user interfaces remains largely unvalidated. Existing benchmarks focus on general web or desktop tasks and underrepresent medical software, which requires domain knowledge, exhibits markedly different UI design from mainstream applications, lacks public testing environments, and demands safety validation beyond task completion. We introduce MedCUA-Bench, an interactive benchmark for clinical computer-use agents. It covers 18 clinical scenarios across 10 medical domains, reconstructed from real product manuals and open-source medical systems to capture authentic clinical interfaces while avoiding licensing and privacy constraints. Each task ships with paired intent- and step-level goals to disentangle clinical reasoning from UI execution, and is evaluated by a deterministic checker over task completion and five clinical safety dimensions. Across 23 agents, the best closed-source model reaches 54.2% strict success, while all models remain below 9% on the real OpenEMR. Open-source agents average only 2.5%, with the best reaching 16.2%. MedCUA-Bench exposes the gap between current agents and reliable clinical software use, providing a reproducible testbed for future research.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f08646e42d5c" data-article-url="https://arxiv.org/abs/2606.03214" data-article-title="皮膚病変の分類に対する人口統計の偏りの影響" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03214" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03214" target="_blank" rel="noopener">皮膚病変の分類に対する人口統計の偏りの影響</a></h3>
      <p class="summary">この研究では、ResNet ベースの畳み込みモデルを使用して、トレーニング データにおける人口統計上の偏り、特に患者の性別と年齢の変動の影響に焦点を当てて、皮膚病変分類のパフォーマンスを評価します。線形計画法を使用して、制御された人口統計特性を持つデータセットを生成し、バイアス効果の体系的な調査を可能にします。シングルタスク モデル、強化マルチタスク モデル、敵対的学習スキームの 3 つの学習戦略が評価されます。私たちの性別ベースの分析は、性別固有のトレーニング データセットがモデルのパフォーマンスを最適化することを示しています。特に、トレーニング データに男性患者を含めることで、女性が多数を占めるケースであっても、男性サブグループのパフォーマンスが向上しました。敵対的な学習スキームを強化することで、バランスの取れた女性多数のデータセットにおけるバイアスギャップが縮小または排除されました。しかし、これらの戦略は男性が多数派の環境では効果が低いことが判明し、モデルは女性よりも男性の方が優れたパフォーマンスを示し続けました。 2 つの学習スキームは、主に男性の患者集団においてベースライン モデルと比較して限界バイアスの減少を示しました。年齢ベースの分析では、3 つのモデル アプローチ全体で同等のベースライン パフォーマンスが示されており、年齢カテゴリーごとにパフォーマンスが低下しています。若いグループは、トレーニング データの分布に関係なく、一貫して最高のパフォーマンスを達成します。バランスの取れたトレーニングは最年少の年齢カテゴリーでは最適な結果をもたらしますが、それより上の年齢カテゴリーではパフォーマンスが低下します。性バイアスは主にデータの不均衡から生じる一方、年齢バイアスは分布に関係なく一貫して若いグループに有利であることがわかりました。これらの異なるメカニズムには、対象を絞った緩和戦略が必要です。さらに、2 つの外部データセットに対するデータセット間検証により、ドメインのシフトがパフォーマンスと人口統計上の偏りのパターンに顕著な影響を与えることが明らかになりました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Effect of Demographic Bias on Skin Lesion Classification</p>
        <p class="orig-summary">In this study, we evaluate the performance of skin lesion classification using ResNet-based convolutional models, focusing on the impact of demographic bias in training data, particularly variations in patient sex and age. We use linear programming to generate datasets with controlled demographic characteristics, allowing systematic investigation of bias effects. Three learning strategies are evaluated: a single-task model, a reinforcing multi-task model, and an adversarial learning scheme. Our sex-based analysis indicates that sex-specific training datasets optimise model performance. Notably, including male patients in the training data improved performance for the male subgroup, even in female-majority cases. Reinforcing and adversarial learning schemes narrowed or eliminated bias gaps in balanced and female-majority datasets. However, these strategies proved less effective in male-majority settings, where models continued to perform better for males than females. The two learning schemes showed marginal bias reduction compared to the baseline model in predominantly male patient populations. Age-based analysis demonstrates comparable baseline performance across the three model approaches, with performance declining across age categories. Younger groups consistently achieve the highest performance, regardless of training data distribution. Although balanced training yields optimal results for the youngest age category, performance decreases in older categories. We find that sex biases arise mainly from data imbalances, while age biases consistently favour younger groups regardless of distribution. These distinct mechanisms require targeted mitigation strategies. Additionally, cross-dataset validation on two external datasets revealed that domain shifts notably affect performance and patterns of demographic bias.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0d8f9c814adc" data-article-url="https://arxiv.org/abs/2606.03236" data-article-title="推論前に認識: 効率的で信頼性の高いプロアクティブなモバイル エージェントのための推論前の認識フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03236" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03236" target="_blank" rel="noopener">推論前に認識: 効率的で信頼性の高いプロアクティブなモバイル エージェントのための推論前の認識フレームワーク</a></h3>
      <p class="summary">マルチモーダル大規模言語モデル (MLLM) は、モバイル エージェントを大幅に進化させていますが、エージェントは支援の \emph{方法} を決定する前に、介入する \emph{いつ} を決定する必要があるため、プロアクティブなモバイル支援は依然として課題となっています。既存のシステムでは、統合された MLLM ベースのパイプライン内でこれら 2 つの決定が実装されることが多く、保守的な介入フィルタリングと包括的な支援生成の間で目標の不整合が発生したり、エージェントが沈黙を保つ必要がある場合の冗長な推論が発生したりします。これらの制限に対処するために、私たちは、推論前の知覚に基づいて構築された 2 段階のフレームワークである \textbf{推論前知覚フレームワーク (PRPF)} を提案します。 PRPF は、介入ゲートとコンテキスト圧縮のための軽量のマルチモーダル プロアクティブ パーセプター (MPP) を導入し、介入が正当な場合にのみプロアクティブ エージェント リーズナー (PAR) をアクティブにします。 ProactiveMobile ベンチマークの実験では、PRPF が ProactiveMobile ベースラインよりも成功率 (SR) と推論効率を向上させながら、誤トリガー率 (FTR) を大幅に削減することが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Perceive Before Reasoning: A Pre-Reasoning Perception Framework for Efficient and Reliable Proactive Mobile Agents</p>
        <p class="orig-summary">Multimodal large language models (MLLMs) have substantially advanced mobile agents, yet proactive mobile assistance remains challenging because agents must decide \emph{when} to intervene before determining \emph{how} to assist. Existing systems often implement these two decisions within a unified MLLM-based pipeline, leading to goal misalignment between conservative intervention filtering and comprehensive assistance generation, as well as redundant inference when the agent should remain silent. To address these limitations, we propose the \textbf{Pre-Reasoning Perception Framework (PRPF)}, a two-stage framework built on perceiving before reasoning. PRPF introduces a lightweight Multimodal Proactive Perceptor (MPP) for intervention gating and context compression, and activates the Proactive Agent Reasoner (PAR) only when intervention is warranted. Experiments on the ProactiveMobile benchmark show that PRPF substantially reduces false trigger rates (FTR) while improving success rates (SR) and inference efficiency over the ProactiveMobile baseline.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec671e491be9" data-article-url="https://arxiv.org/abs/2606.03237" data-article-title="独我論的な超知性は協力的である可能性が低い" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03237" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03237" target="_blank" rel="noopener">独我論的な超知性は協力的である可能性が低い</a></h3>
      <p class="summary">AI の中心的な課題は、機能から共存への移行です。 AI 研究における支配的なパラダイムは、世界を外生的かつ定常的なフィードバック源として扱う強力なエージェントの開発に焦点を当てています。 AI設計へのそのような独我論的アプローチから生まれた非常に有能なタスク解決手段であるスーパーインテリジェンスは、協調的である可能性は低いと我々は主張する。 AI システムを導入すると内生的な非定常性が誘発され、その結果、学習、テスト、導入のギャップが生じ、過去の分布が導入コンテキストから乖離します。これを、一方的な最適化の自己弱体化特性と呼びます。このギャップを埋めるには、協力に参加する AI が必要です。これは、複数の主体が相互依存関係をナビゲートする平衡選択プロセスです。私たちは、協力を解決すべき課題としてアプローチするのではなく、この相互依存を中核となる設計原理として扱う非独我論的研究パラダイムを求めます。これには、適応的なカウンターパーティを巻き込んだ動的な評価テストベッドの構築、制度を設計プリミティブとして扱うこと、構築するシステムの構造的特徴として人間の主体性を維持することが必要となります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Solipsistic Superintelligence is Unlikely to be Cooperative</p>
        <p class="orig-summary">AI&#x27;s central challenge is shifting from capability to coexistence. The dominant paradigm in AI research focuses on developing powerful agents that treat the world as an exogenous and stationary source of feedback. We contend that superintelligence, an extremely capable task solver, born out of such a solipsistic approach to AI design, is unlikely to be cooperative. Deploying AI systems induces endogenous non-stationarity, resulting in a train-test-deploy gap where historical distributions diverge from the deployment context. We refer to this as the self-undermining property of unilateral optimization. Closing this gap requires AI that participates in cooperation: the equilibrium-selection process through which multiple actors navigate their interdependence. We call for a non-solipsistic research paradigm that treats this interdependence as a core design principle rather than approaching cooperation as a task to solve. This entails building dynamic evaluation testbeds involving adaptive counterparties, treating institutions as design primitives, and preserving human agency as a structural feature of the systems we build.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="321f7bae94ad" data-article-url="https://arxiv.org/abs/2606.03251" data-article-title="現実世界のデータセットには自然実験が含まれていますか?原因特徴選択を用いた実証研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03251" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03251" target="_blank" rel="noopener">現実世界のデータセットには自然実験が含まれていますか?原因特徴選択を用いた実証研究</a></h3>
      <p class="summary">自然界では、一部の個人やグループには影響を与えるが、他のグループには影響を及ぼさない出来事は暗黙の介入を構成し、自然実験として知られています。たとえば、新型コロナウイルス感染症のパンデミックは、新型コロナウイルスに感染した亜集団に対するコロナウイルスによる介入でした。既存の実世界のデータセットで自然実験は行われるのでしょうか? 「はい」の場合、どのように治療すればよいでしょうか?データ内の自然実験を検出するには、因果発見を使用して基礎となる因果グラフを復元し、因果関係に基づいて特徴の選択を実行します。データを観察的ではなく介入的として扱うことで下流のパフォーマンスが向上する場合、これはデータセットに自然実験が含まれていることを示唆していると私たちは主張します。まず、合成グラフを使用して自然実験の有無にかかわらずデータセットをシミュレートすることで、この仮説を検証します。次に、現実世界の大規模なデータセットに対して体系的な経験的評価を実行します。私たちの結果は、現実世界のデータセットには自然実験が含まれており、因果推論を使用してそれらの自然実験を利用してモデルのパフォーマンスを向上できることを示しています。私たちの研究はこの分野への最初の進出であり、限られた範囲内での予備調査を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Do Real-World Datasets Contain Natural Experiments? An Empirical Study Using Causal Feature Selection</p>
        <p class="orig-summary">In nature, events that affect some individuals or groups but not others constitute an implicit intervention and are known as natural experiments. For example, the COVID-19 pandemic was an intervention by the coronavirus on the sub-population infected with COVID. We ask, do natural experiments occur in existing real-world datasets? If yes, how should we treat them? To detect natural experiments in data, we use causal discovery to recover the underlying causal graph and perform feature selection based on causal links. If downstream performance improves by treating the data as interventional rather than observational, we argue that this suggests the dataset contains natural experiments. We first validate this hypothesis by simulating datasets with and without natural experiments using synthetic graphs. We then perform a systematic empirical evaluation on a large suite of real-world datasets. Our results indicate that real-world datasets do contain natural experiments and we can take advantage of those natural experiments to improve model performance using causal inference. Our work represents the initial foray into this area, offering a preliminary exploration within a limited scope.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c41f37483ce" data-article-url="https://arxiv.org/abs/2606.03269" data-article-title="神経象徴的な視覚的質問応答のための LLM からの回答セット プログラミング ルールの抽出" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03269" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03269" target="_blank" rel="noopener">神経象徴的な視覚的質問応答のための LLM からの回答セット プログラミング ルールの抽出</a></h3>
      <p class="summary">Visual Question Answering (VQA) は、画像に関する質問に答えるタスクであり、マルチモーダルな入力と推論の統合が必要です。論理ベースの表現を推論コンポーネントに組み込むモジュール式のアプローチは、特に解釈可能性の点で、エンドツーエンドのトレーニング済みシステムに比べて明らかな利点を提供します。ただし、タスク要件が変化したときにこれらの表現を適応または拡張すると、開発者に大きな負担がかかる可能性があります。この課題に対処するために、大規模言語モデル (LLM) からルールを抽出するアプローチを紹介します。私たちの方法は、LLM に、タスクの新しい要件を満たすために、答えセット プログラムとして表現された初期 VQA 推論理論を拡張するよう促します。 VQA データセットの例は、LLM をガイドし、結果を検証し、ASP ソルバーからのフィードバックを活用して誤ったルールを修正するのに役立ちます。私たちのアプローチが多様な VQA データセット全体で効果的であることを実証します。特に、LLM から正しいルールを導き出すために必要な例はほんの数個だけです。私たちの実験は、LLM からのルールの抽出が、従来のデータ駆動型のルール学習アプローチに代わる有望な代替手段であることを示唆しています。論理プログラミングの理論と実践 (TPLP) で検討中。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Distilling Answer-Set Programming Rules from LLMs for Neurosymbolic Visual Question Answering</p>
        <p class="orig-summary">Visual Question Answering (VQA) is the task of answering questions about images, requiring the integration of multimodal input and reasoning. Modular approaches that incorporate logic-based representations into the reasoning component offer clear advantages over end-to-end trained systems, particularly in terms of interpretability. However, adapting or extending these representations when task requirements change can place a significant burden on developers. To address this challenge, we present an approach for distilling rules from Large Language Models (LLMs). Our method prompts an LLM to extend an initial VQA reasoning theory, expressed as an answer-set program, to meet new requirements of the task. Examples from VQA datasets guide the LLM, validate the results, and help correct erroneous rules by leveraging feedback from the ASP solver. We demonstrate that our approach is effective across diverse VQA datasets. Notably, only a few examples are needed to elicit correct rules from LLMs. Our experiments suggest that rule distillation from LLMs is a promising alternative to traditional data-driven rule learning approaches. Under consideration in Theory and Practice of Logic Programming (TPLP).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cbbc72189c30" data-article-url="https://arxiv.org/abs/2606.03280" data-article-title="Pythia マルチホップ設定でのクロスモデル アクティベーション転送の否定的な結果" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03280" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03280" target="_blank" rel="noopener">Pythia マルチホップ設定でのクロスモデル アクティベーション転送の否定的な結果</a></h3>
      <p class="summary">最近の研究では、言語モデルがトレーニング中に生成されたデータ内の隠れたシグナルを通じて行動特性を伝達できることが示されています。私たちは、より直接的でより厳密なチャネルも実行可能であるかどうかを尋ねます。ある言語モデルは、自然言語テキストを渡すのではなく、隠れたアクティベーションを翻訳して挿入することによって、推論時に有用な中間推論状態を別の言語モデルに伝達できるでしょうか。この質問を、制御された Pythia-160M から Pythia-410M へのマルチホップ推論設定でテストします。線形変換層は、シード全体で 0.97 近くの正規化コサイン類似度を備えた、送信側と受信側の隠れ状態間の強力な正規化空間マップを学習します。ただし、変換されたアクティベーションが推論時に受信機に注入される場合、ダウンストリームの応答は改善されません。低強度の添加剤の注入は、注入なしのベースライン付近に留まり、信頼区間はゼロと交差します。置換スタイルの注入は一貫して破壊的であり、変換されたベクトルを受信側の隠れ状態の標準に再スケーリングしてもパフォーマンスは回復しません。したがって、結果はスコープ付きの否定的な結果になります。この設定では、オフラインの表現的調整は、受信機内部での有用な因果関係の通信には十分ではありません。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Negative Result on Cross-Model Activation Transfer in a Pythia Multi-Hop Setting</p>
        <p class="orig-summary">Recent work shows that language models can transmit behavioural traits through hidden signals in generated data during training. We ask whether a more direct and stricter channel is also viable: can one language model communicate useful intermediate reasoning state to another at inference time by translating and injecting hidden activations, rather than by passing natural-language text? We test this question in a controlled Pythia-160M to Pythia-410M multi-hop reasoning setting. A linear translation layer learns a strong normalized-space map between sender and receiver hidden states, with normalized cosine similarity near 0.97 across seeds. However, when the translated activations are injected into the receiver at inference time, they do not improve downstream answering. Low-strength additive injection remains near the no-injection baseline, with confidence intervals that cross zero. Replacement-style injection is consistently destructive, and rescaling translated vectors to the receiver hidden-state norm does not rescue performance. The result is therefore a scoped negative result: in this setting, offline representational alignment is not sufficient for useful causal communication inside the receiver.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="acad440d720e" data-article-url="https://arxiv.org/abs/2606.03303" data-article-title="LEAP: エージェント フレームワークを使用した形式数学用の LLM のスーパーチャージング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03303" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03303" target="_blank" rel="noopener">LEAP: エージェント フレームワークを使用した形式数学用の LLM のスーパーチャージング</a></h3>
      <p class="summary">大規模言語モデル (LLM) は強力な非公式数学的推論を示しますが、リーンのような形式言語では機械的に検証可能な証明を生成するのに苦労します。 LEAP は、汎用基礎​​モデルが自動化された形式定理証明で最先端のパフォーマンスを達成できるようにするエージェント フレームワークです。 LEAP は、非公式推論、指示に従って、反復的な自己改善などの基礎モデルの機能を活用します。複雑な問題をより小さな単位に分解することで、システムはリーン コンパイラーとの継続的な対話を通じて、正式な証明の構築と非公式のブループリントの橋渡しをします。ますます飽和しつつあるベンチマークを超えた厳密な評価を提供するために、リーンで形式化された IMO スタイルの問題のベンチマークである Lean-IMO-Bench を導入します。このベンチマークでは、短いステートメントでありながら非常に非日常的で、幅広い難易度にわたる複数ステップの証明が行われます。経験的に、北米の学部学生を対象とした毎年恒例の数学コンテストである最新の 2025 年のパトナム コンペティションでは、LEAP は 12 の問題すべてを解決し、フロンティアの正式な数学モデルによる最近の進歩と一致しています。 Lean-IMO-Bench では、LEAP は汎用 LLM のワンショット形式解決率を 10% 未満から 70% に引き上げ、特に金メダル級の専門化された IMO システムによって設定されたベンチマークの 48% を上回っています。さらに、偶数次ケイリーグラフのクヌースのハミルトニアン分解における重要な部分問題の検証された証明を含む、オープンな組み合わせ課題に対する複雑な証明を自律的に形式化することで、LEAP の研究レベルの有用性を実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks</p>
        <p class="orig-summary">Large Language Models (LLMs) exhibit strong informal mathematical reasoning but struggle to generate mechanically verifiable proofs in formal languages like Lean. We present LEAP, an agentic framework that enables general-purpose foundation models to achieve state-of-the-art performance on automated formal theorem proving. LEAP leverages foundation model capabilities, such as informal reasoning, instruction following, and iterative self-refinement. By decomposing complex problems into smaller units, the system bridges formal proof construction with informal blueprints through continuous interaction with the Lean compiler. To provide a rigorous evaluation beyond increasingly saturated benchmarks, we introduce Lean-IMO-Bench, a benchmark of IMO-style problems formalized in Lean, with short statements yet highly non-routine and multi-step proofs across a wide range of difficulty levels. Empirically, on the latest 2025 Putnam Competition, an annual mathematics competition for undergraduate students in North America, LEAP solves all 12 problems, matching recent breakthroughs by frontier formal mathematical models. On Lean-IMO-Bench, LEAP boosts the one-shot formal solve rate of general-purpose LLMs from below 10% to 70%, notably surpassing the 48% benchmark set by a specialized, gold-medal-caliber IMO system. Furthermore, we demonstrate LEAP&#x27;s research-level utility by autonomously formalizing complex proofs for open combinatorial challenges, including a verified proof for a key subproblem in Knuth&#x27;s Hamiltonian decomposition of even-order Cayley graphs.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bbd50bb75f80" data-article-url="https://arxiv.org/abs/2606.03305" data-article-title="ベンチマーク監査における信頼性ギャップ: 汚染検出の障害モードとしての分布のシフトとスケール" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03305" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03305" target="_blank" rel="noopener">ベンチマーク監査における信頼性ギャップ: 汚染検出の障害モードとしての分布のシフトとスケール</a></h3>
      <p class="summary">評価例がモデルのトレーニング データに現れるベンチマーク汚染は、LLM 評価の妥当性を脅かします。トレーニング データのメンバーシップを検出するための統計ツールは存在しますが、ほぼ独占的に管理された学術体制、つまり大規模で均質な事前トレーニング コーパスと透明な単一ステージ トレーニング パイプラインでのみ検証されています。これらの方法が現実的な監査シナリオにおいて信頼性を維持できるかどうかは、依然として不明です。私たちは、十分に研究されていない 2 つの障害モードを特定します。1 つは、疑わしいセットと検証セットが IID の仮定に違反する場合に発生する分布シフト、もう 1 つは、ベンチマークがトレーニング前のコーパスよりも桁違いに小さいために発生するスケール制約です。私たちは、複数のファミリー (Pythia、OLMo~2、特殊な文化的および医療的 LLM を含む) およびスケール (最大 27B) からの 27 のモデルにわたって、LLM データセット推論、ポストホック データセット推論、CoDeC という 3 つの主要なパラダイムを体系的に評価します。次に、分析を最先端の業界モデルにさらに拡張します。 335 件の評価のうち、正しい結果が得られたのは 199 件のみでした。 LLM データセット推論では、分布シフトの下で偽陽性が発生し、ポストホック データセット推論はベンチマーク スケールでは能力が不足し、CoDeC は個々のベンチマーク分割を検証するには不十分な粗い出所信号しか提供しません。私たちの結果は、管理された検証と実際のベンチマーク監査の間に体系的な信頼性のギャップがあることを明らかにし、統計的検出がまだ透明なデータ来歴に取って代わることができないことを示しています。私たちはさらなる研究のためにベンチマークをオープンソースにしています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Reliability Gap in Benchmark Auditing: Distribution Shift and Scale as Failure Modes of Contamination Detection</p>
        <p class="orig-summary">Benchmark contamination, where evaluation examples appear in a model&#x27;s training data, threatens the validity of LLM assessment. Statistical tools for detecting training-data membership exist, but have been validated almost exclusively in controlled academic regimes: large, homogeneous pre-training corpora and transparent, single-stage training pipelines. Whether these methods remain reliable in realistic auditing scenarios remains unclear. We identify two under-studied failure modes: distribution shift, which arises when suspect and validation sets violate the IID assumption, and scale constraints, which arise because benchmarks are orders of magnitude smaller than pre-training corpora. We systematically evaluate three leading paradigms: LLM Dataset Inference, Post-Hoc Dataset Inference, and CoDeC across 27 models from multiple families (including Pythia, OLMo~2, and specialised cultural and medical LLMs) and scales (up to 27B). We then further extend our analysis to frontier industry models. Across 335 evaluations, only 199 yield correct outcomes. LLM Dataset Inference results in false positives under distribution shift, Post-Hoc Dataset Inference is underpowered at benchmark scale, and CoDeC provides only coarse provenance signals that are insufficient to verify individual benchmark splits. Our results reveal a systematic reliability gap between controlled validation and practical benchmark auditing, and show that statistical detection cannot yet replace transparent data provenance. We open-source our benchmark for further research.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e53fdc99df1e" data-article-url="https://arxiv.org/abs/2606.03326" data-article-title="違反状況パターン: コンプライアンス違反のナレッジグラフ パターン" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03326" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03326" target="_blank" rel="noopener">違反状況パターン: コンプライアンス違反のナレッジグラフ パターン</a></h3>
      <p class="summary">コンプライアンス パイプラインは、違反を一時的なクエリ結果として検出し、違反自体をレビュー状態、影響を受けるエンティティ、または監査履歴を含む永続的なグラフ オブジェクトとして保持しません。違反状況パターン (VSP) は、このギャップを埋めます。 Ganemi と Mega の状況パターンに基づいて、VSP は、検出された各違反を、ルール識別子、時間的有効期間、ライフサイクル状態、および関係するエンティティへの証拠リンクを備えたグラフ ノードとして具体化します。ライフサイクルの遷移は不変の PROV-O で調整されたイベントとして保存されるため、監査履歴はグラフの走査となります。法人および契約ライフサイクル プロパティ グラフで VSP をインスタンス化し、FCL-&gt;Cypher-&gt;MERGE パイプラインを通じて 4 つの義務ルール (V1 未承認の署名、V2 期限切れの委任、V3 機密保持条項の欠落、V4 違反通知条項の欠落) を運用可能にします。 BODACC の会社役員の出版物に対して V1 と V2 をチェックし、73 件の GDPRhub 施行決定に基づいて V4 を評価し、V3 と V4 に対して SHACL クロスフォーマリズム チェックを実行します。中心的な発見は、ルール本体の独立性です。V4 を条項の存在から期限チェックまで拡張すると、F1 が 0.312 から 0.602 に上昇しますが、パターンのアイデンティティ、ライフサイクル、および証拠のセマンティクスは変わりません。これにより、パターンの寄与と検出器の寄与が分離されるため、蓄積された監査履歴を無効にすることなく検出ロジックを進化させることができます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Violation Situation Pattern: A Knowledge-Graph Pattern for Compliance Violations</p>
        <p class="orig-summary">Compliance pipelines detect violations as transient query results and do not keep the violation itself as a persistent graph object with review state, affected entities, or audit history. The Violation Situation Pattern (VSP) closes this gap. Building on the Situation pattern of Gangemi and Mika, VSP reifies each detected violation as a graph node with a rule identifier, a temporal validity interval, a lifecycle state, and evidence links to the entities involved. Lifecycle transitions are stored as immutable, PROV-O-aligned events, so audit history is a graph traversal. We instantiate VSP in a legal entity and contract lifecycle property graph and operationalize four deontic rules (V1 unauthorized signature, V2 expired mandate, V3 missing confidentiality clause, V4 missing breach-notification clause) through an FCL-&gt;Cypher-&gt;MERGE pipeline. We check V1 and V2 against BODACC corporate-officer publications, evaluate V4 on 73 GDPRhub enforcement decisions, and run a SHACL cross-formalism check on V3 and V4. The central finding is rule-body independence: extending V4 from clause-presence to deadline checking raises F1 from 0.312 to 0.602, while the pattern&#x27;s identity, lifecycle, and evidence semantics stay the same. This separates a pattern contribution from a detector contribution, so detection logic can evolve without invalidating accumulated audit history.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="74073dbac358" data-article-url="https://arxiv.org/abs/2606.03329" data-article-title="InfoMem: 回答条件付き情報獲得によるロングコンテキスト記憶エージェントのトレーニング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03329" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03329" target="_blank" rel="noopener">InfoMem: 回答条件付き情報獲得によるロングコンテキスト記憶エージェントのトレーニング</a></h3>
      <p class="summary">長いコンテキストのタスクでは、LLM が大規模なコンテキストから回答関連情報を識別して保存する必要があります。チャンク単位のメモリ エージェントは、ドキュメントのチャンクを順番に読み取り、コンパクトなメモリを更新し、蓄積されたメモリから最終的な回答を生成することで、この問題に対処します。ただし、既存の RL ベースのチャンクごとのエージェントは、スパースな最終回答報酬に依存するか、記憶および検索アクションに語彙的な中間報酬を使用します。これらの信号はタスクの成功または局所的なオーバーラップを監視しますが、最終的なメモリが真実の答えをサポートしているかどうかを直接評価しません。我々は、回答条件付き情報を使用して最終メモリの有用性を評価する、チャンク単位の記憶エージェントをトレーニングするための報酬メカニズムである InfoMem を提案します。 InfoMem は、最終メモリがモデルのグラウンドトゥルースの答えのトークンごとの対数尤度をどの程度増加させるかを測定します。 RL の最適化を安定させるために、InfoMem はこの信号を成功した軌跡にのみ適用し、報酬を合成する前に正規化します。同じ GRPO フレームワークとトレーニング予算の下で、InfoMem は、同等のメモリ エージェント RL ベースラインよりもロング コンテキストのメモリ エージェントのパフォーマンスを向上させます。分析の結果、効果的な最終記憶報酬は成功の軌跡に基づいて動作し、報酬を合成する前に正規化され、クエリではなく回答に基づいて条件付けされる必要があることが示されています。私たちのコードは https://github.com/GenSouKa1/InfoMem で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">InfoMem: Training Long-Context Memory Agents with Answer-Conditioned Information Gain</p>
        <p class="orig-summary">Long-context tasks require LLMs to identify and preserve answer-relevant information from large contexts. Chunk-wise memory agents address this issue by sequentially reading document chunks, updating a compact memory, and generating the final answer from the accumulated memory. However, existing RL-based chunk-wise agents either rely on sparse final-answer rewards or use lexical intermediate rewards for memory and retrieval actions. These signals supervise task success or local overlap, but do not directly evaluate whether the final memory supports the ground-truth answer. We propose InfoMem, a reward mechanism for training chunk-wise memory agents that evaluates final-memory utility using answer-conditioned information. InfoMem measures how much the final memory increases the model&#x27;s per-token log-likelihood of the ground-truth answer. To stabilize RL optimization, InfoMem applies this signal only to successful trajectories and normalizes it before reward composition. Under the same GRPO framework and training budget, InfoMem improves long-context memory-agent performance over comparable memory-agent RL baselines. Analyses show that effective final-memory rewards should operate on successful trajectories, be normalized before reward composition, and be conditioned on the answer rather than the query. Our code is available at https://github.com/GenSouKa1/InfoMem.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1042f1fe015e" data-article-url="https://arxiv.org/abs/2606.03435" data-article-title="CP-Agent: 化学的摂動下での細胞形態学的プロファイリングのためのコンテキスト認識型マルチモーダル推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03435" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03435" target="_blank" rel="noopener">CP-Agent: 化学的摂動下での細胞形態学的プロファイリングのためのコンテキスト認識型マルチモーダル推論</a></h3>
      <p class="summary">Cell Painting は、多重蛍光染色、ハイコンテンツ イメージング、定量分析を組み合わせて高次元の表現型の読み取り値を生成し、作用機序 (MoA) 推論、毒性予測、薬物疾患アトラスの構築などのさまざまな下流タスクをサポートします。しかし、既存のワークフローは時間がかかり、コストがかかり、解釈が困難です。薬物スクリーニングモデリングのアプローチは主に分子表現の学習に焦点を当てていますが、実際の実験状況（細胞株、投与スケジュールなど）は無視されており、一般化と MoA の解決が制限されています。我々は、薬物摂動下での細胞の形態的変化について、機構に関連した人間が解釈可能な理論的根拠を生成できるエージェント性マルチモーダル大言語モデル (MLLM) である CP-Agent を紹介します。 CP-Agent はその中核として、コンテキスト認識アライメント モジュール CP-CLIP を活用し、高コンテンツの画像と実験的なメタデータを共同で埋め込み、堅牢な処理と MoA 識別 (最大 F1 スコア 0.896 を達成) を可能にします。 CP-CLIP の出力をエージェント ツールの使用法と推論と統合することで、CP-Agent は理論的根拠を構造化レポートにまとめ、実験計画と仮説の洗練を導きます。これらの機能は、より解釈可能でスケーラブルでコンテキストを認識した表現型スクリーニングを可能にし、創薬における仮説生成の反復サイクルを合理化し、創薬を加速する CP-Agent の可能性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CP-Agent: Context-Aware Multimodal Reasoning for Cellular Morphological Profiling under Chemical Perturbations</p>
        <p class="orig-summary">Cell Painting combines multiplexed fluorescent staining, high-content imaging, and quantitative analysis to generate high-dimensional phenotypic readouts to support diverse downstream tasks such as mechanism-of-action (MoA) inference, toxicity prediction, and construction of drug-disease atlases. However, existing workflows are slow, costly and difficult to interpret. Approaches for drug screening modeling predominantly focus on molecular representation learning, while neglecting actual experimental context (e.g., cell line, dosing schedule, etc.), limiting generalization and MoA resolution. We introduce CP-Agent, an agentic multimodal large language model (MLLM) capable of generating mechanism-relevant, human-interpretable rationales for cell morphological changes under drug perturbations. At its core, CP-Agent leverages a context-aware alignment module, CP-CLIP, that jointly embeds high-content images and experimental metadata to enable robust treatment and MoA discrimination (achieving a maximum F1-score of 0.896). By integrating CP-CLIP outputs with agentic tool usage and reasoning, CP-Agent compiles rationales into a structured report to guide experimental design and hypothesis refinement. These capabilities highlight CP-Agent&#x27;s potential to accelerate drug discovery by enabling more interpretable, scalable, and context-aware phenotypic screening -- streamlining iterative cycles of hypothesis generation in drug discovery.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2a10caa8d3b9" data-article-url="https://arxiv.org/abs/2606.03461" data-article-title="インタラクション軌跡がターミナルエージェントのトレーニングに効果的となる理由は何ですか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03461" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03461" target="_blank" rel="noopener">インタラクション軌跡がターミナルエージェントのトレーニングに効果的となる理由は何ですか?</a></h3>
      <p class="summary">一般に、より強力なコード エージェントはトレーニング後の教師として優れていると考えられていますが、この仮定はタスクの難易度、ハーネスの設計、生徒の能力から十分に解きほぐされていないままです。私たちは、マルチドメインの現実世界の問題を環境で検証されたエージェント タスクに変換するスケーラブルなパイプラインである Terminal-Lego を使用して、この教育的リンクを調査します。驚くべきことに、スタンドアロンのパフォーマンスは指導の有効性を左右しません。Claude Opus 4.6 は Terminal-Bench 2.0 でより高いスコアを達成しましたが、スコアの低いエージェントである DeepSeek-V3.2 からの軌道で微調整された生徒は、非常に強力な一般化を示しました。私たちは、この「教育的パラドックス」は環境に基づいた監督（EGS）によるものであると考えています。ハーネスと可視の相互作用を通じて、検査、行為、検証の動作を明示的に明らかにする軌跡により、生徒は脆弱な行動シーケンスではなく、堅牢な問題解決ルーチンを内面化することができます。スケーリング分析により、卓越したデータ効率が明らかになりました。たとえば、わずか 15.3k の Terminal-Lego 軌道で、Qwen3-32B は Terminal-Bench 2.0 で 24.3% のスコアを達成し、30 倍以上のデータ量で確立された以前の SOTA パフォーマンスに匹敵します。私たちの結果は、エージェントのポストトレーニングのフロンティアが単なる結果のマッチングを超えたところにあり、焦点を「ハーネスエンジニアリング」に移すことを示唆しています。そこでは、環境に基づいた相互作用構造の体系的な設計が、再現可能で一般化可能なエージェントインテリジェンスの主な触媒として機能します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">What Makes Interaction Trajectories Effective for Training Terminal Agents?</p>
        <p class="orig-summary">Stronger code agents are commonly assumed to be superior teachers for post-training, yet this assumption remains poorly disentangled from task difficulty, harness design, and student capacity. We investigate this pedagogical link using Terminal-Lego, a scalable pipeline that transforms multi-domain real-world issues into environment-verified agentic tasks. Surprisingly, standalone performance does not dictate teaching efficacy: while Claude Opus 4.6 achieves higher scores on Terminal-Bench 2.0, students fine-tuned on trajectories from DeepSeek-V3.2, a lower-scoring agent, exhibit significantly stronger generalization. We attribute this &quot;pedagogical paradox&quot; to Environment-Grounded Supervision (EGS): trajectories that explicitly expose inspect-act-verify behaviors through harness-visible interactions allow students to internalize robust problem-solving routines rather than fragile action sequences. Scaling analysis reveals exceptional data efficiency: with only 15.3k Terminal-Lego trajectories, for example, Qwen3-32B achieves a 24.3% score on Terminal-Bench 2.0, rivaling previous SOTA performance established with over 30x the data volume. Our results suggest that the frontier of agent post-training lies beyond mere outcome-matching, shifting the focus toward &quot;Harness Engineering&quot;, where the systematic design of environment-grounded interaction structures serves as the primary catalyst for reproducible and generalizable agentic intelligence.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6977ff42b1bf" data-article-url="https://arxiv.org/abs/2606.03463" data-article-title="DMF: 会話型 AI エージェントのための決定論的メモリ フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03463" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03463" target="_blank" rel="noopener">DMF: 会話型 AI エージェントのための決定論的メモリ フレームワーク</a></h3>
      <p class="summary">会話型 AI エージェントには、スケーラブルであり、長い対話期間にわたって意味的に一貫性のあるメモリ システムが必要です。既存のアプローチは主に、書き込み時の大規模言語モデル (LLM) ベースの要約に依存しているため、非決定性が生じ、トークン コストが増大し、枝刈りの決定が不透明になります。決定論的メモリ フレームワーク (DMF) を紹介します。これは、生成メモリ圧縮を、古典的な NLP 分析、ベクトル ジオメトリ、数学的スコアリングに基づいた完全に決定論的なパイプラインに置き換える CPU ファーストのアプローチです。 DMF は、各会話インタラクションに、確定的なコンテンツ信号、会話の手がかり、構造化された来歴をロジスティック投影によって組み合わせて計算された生存スコア $\Omega$ を割り当てます。 $\Omega_{\mathrm{eff}}(\Delta n)$ として示されるインタラクション数の減衰則は、新しいターンが到来するにつれて関連性がどのように進化するかを制御します。$\Delta n$ は実時間ではなく新しいインタラクションの数であり、完全な決定論が維持されます。 DMF の数学的定式化、その構造化されたリコール パイプライン、枝刈りの決定手順、および評価プロトコルを紹介します。実験は、LoCoMo および LongMemEval データセットを使用して、専用のベンチマークで実行されます。 DMF と、AI エージェントによく使われるメモリ層である Mem0 を比較します。 DMF は、メモリ コンテキストの準備にゼロ トークンを使用しながら、会話全体で 5 倍から 242 倍少ないトークンを使用しながら、同等の精度を実現します。これらの結果は、メモリ管理ループから LLM 呼び出しを排除し、トークン コストをほぼゼロに削減し、会話型 AI エージェントの決定論的メモリ システムを可能にすることが可能であることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DMF: A Deterministic Memory Framework for Conversational AI Agents</p>
        <p class="orig-summary">Conversational AI agents require memory systems that are both scalable and semantically coherent across long interaction horizons. Existing approaches rely predominantly on large language model (LLM)-based summarisation at write time, which introduces non-determinism, escalating token costs, and opacity in pruning decisions. We present the Deterministic Memory Framework (DMF), a CPU-first approach that replaces generative memory compression with a fully deterministic pipeline grounded in classical NLP analysis, vector geometry, and mathematical scoring. DMF assigns each conversational interaction a Survival Score $\Omega$ computed from deterministic content signals, conversational cues, and structured provenance, combined through a logistic projection. An interaction-count decay law, denoted as $\Omega_{\mathrm{eff}}(\Delta n)$, governs how relevance evolves as new turns arrive, where $\Delta n$ is the number of newer interactions rather than wall-clock time, preserving full determinism. We present the mathematical formulation of DMF, its structured recall pipeline, the pruning decision procedure, and the evaluation protocol. Experiments are conducted on a purpose-built benchmark using the LoCoMo and LongMemEval datasets. We compare DMF against Mem0, a popular memory layer for AI agents. DMF achieves comparable accuracy while using zero tokens to prepare the memory context and 5x to 242x fewer tokens over the entire conversation. These results show that it is possible to eliminate LLM calls from the memory-management loop, reducing token costs to nearly zero and enabling deterministic memory systems for conversational AI agents.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b1d71245d1cc" data-article-url="https://arxiv.org/abs/2606.03467" data-article-title="StepFinder: マルチエージェント システムにおける障害の原因を特定するための時間的セマンティック フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03467" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03467" target="_blank" rel="noopener">StepFinder: マルチエージェント システムにおける障害の原因を特定するための時間的セマンティック フレームワーク</a></h3>
      <p class="summary">LLM ベースのマルチエージェント システムは、複雑な複数ステップのタスクにおいて優れた共同作業能力を発揮します。ただし、これらのシステムは、エージェントの対話を通じて伝播し、連鎖的な障害につながる可能性のあるシングルステップ実行エラーに対して非常に敏感です。障害の原因を理解し、システムの信頼性を向上させるために、障害の原因となる根本原因のステップを自動的に特定することを目的としたタスクとして、障害の原因特定が導入されました。既存の障害帰属手法は、主に LLM に依存して元の実行軌跡を推論します。これにより、高い推論コストと遅延が発生するだけでなく、冗長でノイズの多い実行ログによって引き起こされる干渉の影響を受け、LLM が真の根本原因ステップを正確に特定するのに苦労します。これに対処するために、軽量の障害属性フレームワークである StepFinder を提案します。私たちは、実行ログを時間的意味シーケンスにエンコードするために、機能構築フェーズ中にのみ LLM を使用します。続いて、時間モデリングと注意モジュールのパラメーター効率の高い組み合わせを適用して、軌道の逐次進化とステップ間の依存関係を捕捉します。最後に、ステップレベルのエラースコアは、マルチスケールの差分と位置の偏りによって調整され、正確な根本原因の特定が可能になります。 Who&amp;When ベンチマークの実験結果では、StepFinder がステップ レベルの障害の原因特定において LLM ベースの手法を上回り、大幅に高い推論効率を達成し、最速の LLM ベースの手法と比較して推論時間を 79% 削減し、テキスト生成のオーバーヘッドがないことが実証されました。私たちのコードは https://github.com/taiyu-zhu/StepFinder で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">StepFinder: A Temporal Semantic Framework for Failure Attribution in Multi-Agent Systems</p>
        <p class="orig-summary">LLM-based multi-agent systems exhibit remarkable collaborative capabilities in complex multi-step tasks. However, these systems are highly sensitive to single-step execution errors that can propagate through agent interactions and lead to cascading failures. To understand the causes of failure and improve system reliability, failure attribution has been introduced as a task that aims to automatically identify the root cause step responsible for a failure. Existing failure attribution methods mainly rely on LLMs to reason over original execution trajectories, which not only incur high inference costs and latency, but also suffer from interference caused by redundant and noisy execution logs, causing LLMs to struggle in accurately identifying the true root cause step. To address this, we propose StepFinder, a lightweight failure attribution framework. We use LLMs solely during the feature construction phase to encode execution logs into temporal semantic sequences. Subsequently, a parameter-efficient combination of temporal modeling and attention modules is applied to capture the sequential evolution and cross-step dependencies of the trajectories. Finally, the step-level error score is refined through multi-scale differences and position bias, enabling precise root cause identification. Experimental results on the Who&amp;When benchmark demonstrate that StepFinder outperforms LLM-based methods in step-level failure attribution while achieving substantially higher inference efficiency, reducing inference time by 79% compared with the fastest LLM-based method, with no text generation overhead. Our code is available at https://github.com/taiyu-zhu/StepFinder.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f4c7527905e" data-article-url="https://arxiv.org/abs/2606.03471" data-article-title="心の機械理論の正式な定義とメタモデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03471" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03471" target="_blank" rel="noopener">心の機械理論の正式な定義とメタモデル</a></h3>
      <p class="summary">この論文は、認知心理学、神経科学、人工知能からの証拠によって裏付けられた原則に基づいて、心の機械理論の概念の厳密で正式な定義を初めて提案し、上記のことをレンズとして使用して、この分野における最先端の現在の取り組みを検討し、問題を「解決」できるさらなる研究の潜在的な議題を推進します。また、心の機械理論の一般的な全体的なメタモデルを発展させ、そのようなモデルを経験的にベンチマークする際の最先端の状況を調査します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A formal definition and meta-model for a machine theory of mind</p>
        <p class="orig-summary">This paper proposes, for the first time, a rigorous formal definition of the concept of Machine Theory of Mind, based on principles supported by evidence from cognitive psychology, neuroscience and artificial intelligence, and uses the above as a lens to examine state-of-the-art and current efforts in the field, driving a potential agenda for further research there able to &quot;crack&quot; the problem. It also advances a general holistic meta-model for Machine Theory of Mind, and examines the state of the art when it comes to empirically benchmarking such models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a85e9beec2da" data-article-url="https://arxiv.org/abs/2606.03503" data-article-title="ThoughtFold: 内省的な好み学習による推論チェーンの折りたたみ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03503" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03503" target="_blank" rel="noopener">ThoughtFold: 内省的な好み学習による推論チェーンの折りたたみ</a></h3>
      <p class="summary">大規模推論モデル (LRM) は、思考連鎖 (CoT) に関する検証可能な報酬を伴う強化学習 (RLVR) のおかげで目覚ましい進歩を遂げました。しかし、長い CoT には当然ながら試行錯誤が含まれており、主流の RLVR アプローチは暗記のために結果的に正しい CoT 軌道を選択するため、長い CoT での冗長な探索が必然的に強化され、その結果 LRM の考えすぎの問題が生じます。この問題を解決するためのこれまでの試みでは、主に短い軌道に大きな利点が与えられていましたが、その学習信号は依然として結果ベースであり、長い CoT での冗長な探索の記憶を減らすことはできません。したがって、私たちは、効率的な推論のために冗長な探索を軽減するために、きめの細かい選好学習を活用するフレームワークである ThoughtFold を提案します。 ThoughtFoldは、内省的な戦略を採用して、それぞれの正しい軌道内の冗長性を特定し、候補となるサブ軌道のスペクトルを生成します。このスペクトルを活用して、冗長な探索に明示的にペナルティを課し、モデルが本質的な推論セグメントを直接橋渡しし、その推論チェーンをより簡潔なパスに効果的に折り畳むことを奨励する、マスクされた優先順位の最適化目標を導入します。広範な実験により、ThoughtFold が効率を大幅に向上させることが示されています。最先端の精度を維持しながら、DeepSeek-R1-Distill-Qwen-7B のトークン使用量を約 56% 削減します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ThoughtFold: Folding Reasoning Chains via Introspective Preference Learning</p>
        <p class="orig-summary">Large Reasoning Models (LRMs) have achieved remarkable progress thanks to Reinforcement Learning with Verifiable Rewards (RLVR) on Chain-of-Thoughts (CoTs). However, since long CoTs naturally contain trial and errors and mainstream RLVR approaches choose outcome-correct CoT trajectories for memorization, the redundant explorations in long CoTs are inevitably reinforced, which results in the over-thinking issues of LRMs. Previous attempts to resolve this issue mainly give more advantage to shorter trajectories, yet their learning signals are still outcome-based and cannot reduce the memorization of redundant explorations in long CoTs. Therefore, we propose ThoughtFold, a framework that leverages fine-grained preference learning to mitigate redundant explorations for efficient reasoning. ThoughtFold employs an introspective strategy to identify redundancy within each correct trajectory, which yields a spectrum of candidate sub-trajectories. Leveraging this spectrum, we introduce a masked preference optimization objective that explicitly penalizes redundant explorations and encourages the model to directly bridge essential reasoning segments, effectively folding its reasoning chains into a more concise path. Extensive experiments show that ThoughtFold significantly enhances efficiency. It reduces the token usage of DeepSeek-R1-Distill-Qwen-7B by approximately 56% while maintaining state-of-the-art accuracy.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a4e000366c00" data-article-url="https://arxiv.org/abs/2606.03518" data-article-title="オーバーレイ ガバナンス: Agentic AI の委任とスコープのための構成的承認フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03518" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03518" target="_blank" rel="noopener">オーバーレイ ガバナンス: Agentic AI の委任とスコープのための構成的承認フレームワーク</a></h3>
      <p class="summary">AI システムがパッシブ モデルから、アクションの開始、共同作業、およびタスクの委任ができる自律的なアクティブ エージェントに進化するにつれて、ソフトウェア システムの従来の境界があいまいになります。固定プリンシパル、明示的なリクエスト、静的スコープを中心に構築された従来の承認および委任フレームワークでは、エージェント システムを管理するには不十分です。 Agentic AI は、より豊富な承認セマンティクスを要求します。エージェントは、アクセス許可を継承および委任し、期限付きの権限の下で動作し、共有プロトコルを通じて調整する必要があります。既存の ID およびアクセス管理 (IAM) システムは、この代理店の概念を完全に捉えることができず、再帰的な委任、コンテキスト境界、および実行可能なガバナンス基本要素としての動的スコープのメカニズムが欠けています。 OAuth 2.0 などのアクセス委任標準とは異なり、当社では委任を単なる静的なトークンベースの同意資格情報ではなく、契約条件として扱います。本稿では、エージェント型 AI に不可欠なプリミティブを導入した構成的ガバナンスのフレームワークを提案します。委任の種類とその権限および説明責任への影響を定義し、バインドされたエージェント アクセス エンベロープに対するリソース スコープの減衰の概念を導入します。これらの概念は、既存の認可ドメイン (金融システムなど) に組み込むことができる一般的なリレーショナル定義として表現されます。この構成を運用可能にするために、再帰的な委任チェーンなどの新しいエージェント セマンティクスを、既存のリレーショナル ポリシーを書き換えることなくオーバーレイする構成演算子を定義します。私たちはこのフレームワークを正式な証明と経験的評価を通じて実証し、このフレームワークがエージェント AI システムにおける責任ある承認のための正式かつ実用的な基盤を提供することを示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Overlaying Governance: A Compositional Authorization Framework for Delegation and Scope in Agentic AI</p>
        <p class="orig-summary">As AI systems evolve from passive models into autonomous active agents capable of initiating actions, collaborating, and delegating tasks, the traditional boundaries of software systems blur. Traditional authorization and delegation frameworks, built around fixed principals, explicit requests, and static scopes, are insufficient to govern agentic systems. Agentic AI demands richer authorization semantics: agents must inherit and delegate permissions, act under time-limited authority, and coordinate through shared protocols. Existing Identity and Access Management (IAM) systems fail to fully capture this notion of agency, lacking mechanisms for recursive delegation, contextual boundaries, and dynamic scoping as executable governance primitives. Unlike access delegation standards such as OAuth 2.0, we treat delegation as a contractual term rather than merely a static token-based consent credential. This paper proposes a compositional governance framework that introduces primitives indispensable for agentic AI. We define types of delegation and their permissions and accountability implications, and we introduce a notion of resource scope attenuation to bound agentic access envelopes. These concepts are expressed as general relational definitions that can be composed into existing authorization domains (e.g., financial systems). To operationalize this composition, we define a compositional operator that overlays new agentic semantics, such as recursive delegation chains, onto existing relational policies without rewriting them. We substantiate this framework through formal proofs and empirical evaluation, showing that it provides a formal yet practical foundation for accountable authorization in agentic AI systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="916bf6f48dee" data-article-url="https://arxiv.org/abs/2606.03544" data-article-title="SAGE: エージェント生態系における社会化進化の定量的評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03544" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03544" target="_blank" rel="noopener">SAGE: エージェント生態系における社会化進化の定量的評価</a></h3>
      <p class="summary">自己改善型言語エージェントは通常、単独で評価されます。エージェントはタスクを試み、フィードバックを受け取り、繰り返し自身の動作を改善します。しかし、エージェントは、戦略と結果が公に公開されている同僚と協力して活動することが増えています。このことから、十分に研究されていない疑問が生じます。共有された経験が、自己改善だけでは達成できない改善をもたらすのはいつでしょうか? 2 つのコンピューティングが一致する条件を比較する評価フレームワークである SAGE (ソーシャル エージェント グループ エボリューション) を紹介します。SocialEvo では、5 つの異なるモデル ファミリのエージェントがすべてのピアの履歴にアクセスしながら共同進化します。そして、SelfEvo では、各エージェントは同じ回数のタスク試行を受けますが、自分自身の過去のみを見ることができます。これは、自己改善エージェントの研究では一般的です。私たちは、オープンエンドの ML 研究、長期的な経済計画、戦略的なマルチプレイヤー プレイの 3 つの分野で SAGE をインスタンス化し、複数の進化ラウンドにわたって評価します。私たちは、グループの歴史が普遍的な増幅器ではないことを発見しました。つまり、最も強力なエージェントは自己進化の上限を超えることはありません。ただし、自己改善が停滞しているエージェントでも、同僚の経験があれば、大きな進歩を遂げることができます。競争環境では、反事実的なコントロールにより、エージェントが対戦相手固有の戦略を開発するのではなく、全体的に向上することが明らかになります。さまざまな形式の共有履歴にわたって、フィルタリングされたピアトレースやリフレクションサマリーは生のログよりもパフォーマンスが優れていることが多く、社会的利益は露出量ではなく抽象化に依存していることを示しています。これらの発見は、ピア履歴の獲得がエージェント固有、アリーナ依存であり、公開された痕跡から譲渡可能な知識を抽象化する能力に依存していることを明らかにしています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SAGE: A Quantitative Evaluation of Socialized Evolution in Agent Ecosystems</p>
        <p class="orig-summary">Self-improving language agents are typically evaluated in isolation: an agent attempts a task, receives feedback, and iteratively refines its own behavior. Yet agents increasingly operate alongside peers whose strategies and outcomes are publicly visible. This raises an under-studied question: when does shared experience produce improvements that self-improvement alone cannot achieve? We introduce SAGE (Social Agent Group Evolution),an evaluation framework that compares two compute-matched conditions: SocialEvo, where agents from five distinct model families co-evolve with access to all peers&#x27; histories; and SelfEvo, where each agent receives the same number of task attempts but sees only its own past, which is conventional in self-improving agent studies. We instantiate SAGE in three arenas: open-ended ML research, long-horizon economic planning, and strategic multiplayer play, evaluated across multiple evolutionary rounds. We find that group history is not a universal amplifier: the strongest agent does not exceed its self-evolution ceiling. However, agents that plateau under self-improvement can achieve significant breakthroughs when peer experience is available. In competitive settings, counterfactual controls reveal that agents improve generally rather than developing opponent-specific strategies. Across different forms of shared history, filtered peer traces and reflective summaries often outperform raw logs, indicating that social gains depend on abstraction rather than exposure volume. These findings reveal that peer-history gains are agent-specific, arena-dependent, and contingent on the capacity to abstract transferable knowledge from public traces.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c78b0900fdbc" data-article-url="https://arxiv.org/abs/2606.03557" data-article-title="プロンプトからサービスまで: AI 主導の仮想世界向けの SLM ベースのエージェント オーケストレーション ゲートウェイ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03557" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03557" target="_blank" rel="noopener">プロンプトからサービスまで: AI 主導の仮想世界向けの SLM ベースのエージェント オーケストレーション ゲートウェイ</a></h3>
      <p class="summary">生成 AI 機能が拡大するにつれて、AI 主導の仮想世界は増大するアーキテクチャ上の課題に直面しています。ユーザーはインワールド インターフェイスを通じてマルチモーダルな方法で対話しますが、そのリクエストには根本的に異なる AI バックエンド モデルと計算リソースが必要です。これらの機能を仮想世界システムに直接組み込むと、拡張性が低下し、メンテナンスが複雑になり、エッジおよびクラウド インフラストラクチャ全体に分散されたサービスを調整する機能が制限されます。このペーパーでは、SLM ベースのエージェント オーケストレーション ゲートウェイについて説明します。これは、インテント駆動型のサービス ルーティングを通じて、仮想世界のクライアントを異種 AI バックエンドから切り離す軽量のランタイム調整メカニズムです。エッジ展開された SLM は各ユーザー プロンプトの意味論的な意図を分類し、構成可能なサービス レジストリはルーティングの決定を検証して解決します。選択されたバックエンドは透過的に呼び出され、クライアント アプリケーションを変更することなく新しい AI 機能を仮想世界に導入できます。ゲートウェイは、InterownedXR 仮想博物館テストベッド内で実装および評価されます。この評価では、コンパクト SLM がエッジ ハードウェア上で信頼性の高いインテント ルーターとして機能し、タスク固有の微調整により 10 億未満のパラメータ モデルを実用的な低遅延ルーターに変換できることが示されました。ルータとして微調整された 10 億未満のパラメータ モデルと会話応答生成のためのより大きな SLM を組み合わせた階層化構成は、ミッドレンジ エッジ ハードウェアに展開可能であり、両方の役割を 1 つのモデルに委任するよりも効率的であることが示されています。この調査結果は、SLM が仮想世界における実用的な AI サービス オーケストレーションをサポートできることを示しており、この研究はスケーラブルで拡張可能でエッジサポートされた AI インタラクションのための評価済みアーキテクチャに貢献し、仮想エージェントが分散型生成 AI サービスへのアクセス ポイントになることを可能にします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Prompt to Service: An SLM-Based Agent Orchestration Gateway for AI-Driven Virtual Worlds</p>
        <p class="orig-summary">As generative AI capabilities expand, AI-driven virtual worlds face a growing architectural challenge. Users interact through in-world interfaces in multimodal ways, yet their requests demand fundamentally different AI backend models and computational resources. Embedding these capabilities directly into virtual world systems reduces extensibility, complicates maintenance, and limits the ability to coordinate services distributed across edge and cloud infrastructure. This paper presents an SLM-based Agent Orchestration Gateway, a lightweight runtime coordination mechanism that decouples a virtual world client from heterogeneous AI backends through intent-driven service routing. An edge-deployed SLM classifies the semantic intent of each user prompt, a configurable service registry validates and resolves the routing decision, and the selected backend is invoked transparently, enabling new AI capabilities to be introduced in the virtual world without modifying the client application. The gateway is implemented and evaluated within the InterwovenXR virtual museum testbed. The evaluation shows that compact SLMs can serve as reliable intent routers on edge hardware, and that task-specific fine-tuning can transform sub-billion-parameter models into practical, low-latency routers. A layered configuration pairing a fine-tuned sub billion-parameter model as router with a larger SLM for conversational response generation is shown to be deployable on mid-range edge hardware and more efficient than delegating both responsibilities to a single model. The findings show that SLMs can support practical AI service orchestration in virtual worlds and the work contributes an evaluated architecture for scalable, extensible, and edge-supported AI interaction, enabling virtual agents become access points to distributed generative AI services.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e01356364925" data-article-url="https://arxiv.org/abs/2606.03618" data-article-title="言語を超えたトークン アービトラージ: ローカル LLM 前処理によるコード エージェント コンテキスト ウィンドウの最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03618" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03618" target="_blank" rel="noopener">言語を超えたトークン アービトラージ: ローカル LLM 前処理によるコード エージェント コンテキスト ウィンドウの最適化</a></h3>
      <p class="summary">AI 支援コーディング エージェントは、入力トークンのコストがボトルネックとなります。人間による生の入力の 2 つの病理が、このオーバーヘッドの多くを引き起こします。それは、英語以外のテキストのトークン化の非効率性と、会話プロンプトの構造的エントロピーです。既存のアプローチは、すでに肥大化したコンテキストを圧縮したり、障害が発生した後に介入したりすることで、事後的に動作します。開発者とクラウド エージェントの間で動作する、プリフライトのエッジ側プロンプト書き換えミドルウェアを導入します。ローカルの Llama 3.2 (3B) モデルは、英語への言語間翻訳、コンパクトなタスク指向形式への構造の書き換え、および正規表現で検証されたフォールバック付き書き換えセーフガードを実行して、最適化されたプロンプトが元のプロンプトより大きくならないようにします。私たちは、トルコ語、アラビア語、中国語、およびコードスイッチ仕様にまたがる多言語コーディング ベンチマークである OMH-Polyglot で評価します。このミドルウェアは、3 つの商用 LLM バックエンド全体で、タスクの精度を維持または向上させながら、プロンプト トークンを 34 ～ 47 パーセント削減し、合計トークンを最大 18.8 パーセント削減します。アブレーション研究では、単純な関数名の抽出ではなく、主に書き換え段階から利益が生じることが示されています。同等の圧縮率での LLMLingua-2 と比較して、私たちの方法は、評価されたすべてのバックエンドにわたって一貫して優れた OckScore パフォーマンスを達成します。これらの結果は、プロアクティブなプロンプト最適化により、コーディング品質を犠牲にすることなく推論コストを大幅に削減できることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Cross-Lingual Token Arbitrage: Optimizing Code Agent Context Windows via Local LLM Preprocessing</p>
        <p class="orig-summary">AI-assisted coding agents are bottlenecked by input-token cost. Two pathologies of raw human input drive much of this overhead: tokenization inefficiency for non-English text and structural entropy in conversational prompts. Existing approaches act reactively by compressing already-bloated contexts or intervening after failures occur. We introduce a pre-flight, edge-side prompt-rewriting middleware that operates between the developer and the cloud agent. A local Llama 3.2 (3B) model performs cross-lingual translation into English, structural rewriting into a compact task-oriented format, and regex-validated rewrite-with-fallback safeguards to ensure the optimized prompt is never larger than the original. We evaluate on OMH-Polyglot, a multilingual coding benchmark spanning Turkish, Arabic, Chinese, and code-switched specifications. Across three commercial LLM backends, the middleware reduces prompt tokens by 34-47 percent and total tokens by up to 18.8 percent while preserving or improving task accuracy. Ablation studies show that gains arise primarily from the rewriting stage rather than simple function-name extraction. Compared with LLMLingua-2 at matched compression rates, our method consistently achieves superior OckScore performance across all evaluated backends. These results demonstrate that proactive prompt optimization can substantially reduce inference costs without sacrificing coding quality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="74e7872eec8c" data-article-url="https://arxiv.org/abs/2606.03624" data-article-title="大規模な推論モデルでの命令を解決するための補助制約のブリッジ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03624" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03624" target="_blank" rel="noopener">大規模な推論モデルでの命令を解決するための補助制約のブリッジ</a></h3>
      <p class="summary">大規模推論モデル (LRM) は、多くのタスクで優れた機能を実証していますが、個々の制約を満たせなかったり、競合する制約を同時にバランスさせるのに苦労したりするため、複数の命令に確実に従うことが困難です。私たちはこの課題を制約遵守問題 (CAP) として形式化します。この論文では、命令を制約の構造化知識グラフとして表現することで CAP に対処する新しいフレームワークを紹介します。私たちのアプローチである Constraint Relationship Graph Completion (CRGC) は、制約間の関係を明示的にモデル化し、遵守の課題を特定し、モデルが要件に焦点を合わせて調整するのに役立つ「ブリッジ制約」を発見します。ブリッジ制約は、主制約をより顕著にし、互換性を持たせる補助的な命令として機能します。一般的なトレーニング方法を通じて指導のフォローを強化する既存のアプローチとは異なり、CRGC は、モデル自体の知識を活用して生成のためのより良い経路を作成することにより、特に制約満足度を向上させます。データセットに従う 3 つの一般的な命令を対象とした実験では、私たちのアプローチが、大規模な推論モデルの推論能力を維持しながら、標準的なプロンプトと比較して制約違反を 39% 削減することが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Bridging Auxiliary Constraints to Resolve Instruction Following in Large Reasoning Models</p>
        <p class="orig-summary">Large Reasoning Models (LRMs) have demonstrated impressive capabilities in many tasks, yet they struggle with reliably following multiple instructions, either by failing to satisfy individual constraints or by struggling to balance competing constraints simultaneously. We formalize this challenge as the Constraint Adherence Problem (CAP). This paper introduces a novel framework that addresses CAP by representing instructions as a structured knowledge graph of constraints. Our approach, Constraint Relationship Graph Completion (CRGC), explicitly models relationships between constraints, identifies adherence challenges, and discovers ``bridge constraints&#x27;&#x27; that help the model better focus on and reconcile requirements. Bridge constraints act as auxiliary instructions that make primary constraints more salient and compatible. Unlike existing approaches that enhance instruction following through general training methods, CRGC specifically improves constraint satisfaction by leveraging the model&#x27;s own knowledge to create better pathways for generation. Experiments across three popular instruction following datasets demonstrate that our approach reduces constraint violations by 39% compared to standard prompting while maintaining reasoning abilities of large reasoning models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="de151a63c01e" data-article-url="https://arxiv.org/abs/2606.03629" data-article-title="TSQAgent: 専用のエージェント推論による時系列データ品質の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03629" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03629" target="_blank" rel="noopener">TSQAgent: 専用のエージェント推論による時系列データ品質の評価</a></h3>
      <p class="summary">時系列 (TS) データの品質の評価は基本的なものですが、品質の側面には多面的な性質があるため、本質的に困難です。最近、大規模言語モデル (LLM) が、ペアごとの比較と次元ごとの評価による TS 品質評価の有望なパラダイムとして浮上しています。ただし、既存のアプローチは、手動で事前定義された品質次元と純粋にテキストベースの推論に依存しているため、LLM が本当に関連する品質次元を特定できるか、根拠のある定量的な品質比較を実行できるかどうかは不明のままです。これを調査するために、TSQBench を構築します。TSQBench は、(i) 関連する品質次元の理解と特定、(ii) 特定の次元での品質比較の実行という 2 つの進歩的な機能に基づいて LLM を評価するための専用ベンチマークです。私たちの分析により、現在の LLM は次元の特定と証拠に基づく品質比較の両方に常に苦労していることが明らかになりました。これらの制限に対処するために、我々は TSQAgent を提案します。TSQAgent は TS 品質評価のための新しいエージェント推論フレームワークであり、3 つの協調的な役割で構成されます。焦点を絞った次元選択を行うパーシーバー、次元ごとの定量分析を行うインスペクター、そして最終的な判断を集約して洗練する審査員です。特に、最も関連性の高い品質側面を特定して優先順位を付ける能力を浸透させるエージェント推論戦略を導入し、さらに、選択した側面にわたる正確な定量的比較を可能にする外部分析ツールを備えたエージェント ワークフローを提案します。提案されたベンチマークと 11 個の実世界のデータセットの両方での実験により、私たちのフレームワークが LLM の品質理解と定量的比較の能力を大幅に向上させるだけでなく、これらの向上をより品質を意識したデータ選択に効果的に変換し、ダウンストリームのパフォーマンスとデータ効率の向上につながることが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TSQAgent: Rating Time Series Data Quality via Dedicated Agentic Reasoning</p>
        <p class="orig-summary">Assessing the quality of time series (TS) data is fundamental yet inherently challenging due to the multifaceted nature of quality dimensions. Recently, large language models (LLMs) have emerged as a promising paradigm for TS quality assessment via pairwise comparison and per-dimension evaluation. However, existing approaches rely on manually predefined quality dimensions and purely text-based reasoning, leaving it unknown whether LLMs can identify truly relevant quality dimensions or perform grounded and quantitative quality comparisons. To investigate this, we construct TSQBench, a dedicated benchmark for evaluating LLMs on two progressive capabilities: (i) understanding and identifying relevant quality dimensions, and (ii) performing quality comparison under specific dimensions. Our analysis reveals that current LLMs consistently struggle with both dimension identification and evidence-grounded quality comparison. To address these limitations, we propose TSQAgent, a novel agentic reasoning framework for TS quality rating consisting of three collaborative roles: Perceiver for focused dimension selection, Inspector for dimension-wise quantitative analysis, and Adjudicator that aggregates and refines the final judgment. In particular, we introduce an agentic reasoning strategy that instills the ability to identify and prioritize the most relevant quality dimensions, and further propose an agent workflow equipped with external analytical tools to enable precise quantitative comparisons over selected dimensions. Experiments on both the proposed benchmark and eleven real-world datasets demonstrate that our framework not only substantially improves LLMs&#x27; capabilities in quality understanding and quantitative comparison but also effectively translates these improvements into better quality-aware data selection, leading to enhanced downstream performance and data efficiency.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a23d97feff46" data-article-url="https://arxiv.org/abs/2606.03641" data-article-title="LLM 医療トリアージにおける性別に応じた診断代替: 同じ症状、不均等な緊急性" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03641" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03641" target="_blank" rel="noopener">LLM 医療トリアージにおける性別に応じた診断代替: 同じ症状、不均等な緊急性</a></h3>
      <p class="summary">私たちは、患者の表明された性別と年齢のみが異なる場合に、大規模言語モデルが同一の神経学的症状に対して異なる医療トリアージ推奨を生成するかどうかを調査します。 3 つのモデル ファミリ (Gemini 3.5 Flash、Claude Sonnet 4.6、および GPT-5.4-mini) を使用して、7 つの人口統計条件にわたる標準化された症状プロファイル (持続的な頭痛、かすみ目、朝の吐き気、視覚障害) を提示します: 3 つの年齢グループ (25、38、65) x 2 つの性別 (男性、女性)、および性別不特定のベースライン (モデルごとに条件ごとに n = 30、合計 630)トライアル）。私たちは、性別に依存したトリアージの明らかな体系的な格差を発見しました。若い女性は、同年齢の男性よりも緊急治療室（ER）への紹介率が著しく低いことがわかりました（ジェミニ: 0% 対 23.3%、クロード: 6.7% 対 96.7%、GPT: 6.7% 対 66.7%、すべて p &lt; 0.001）。すべてのモデルで 65 歳になると格差はなくなります。主なメカニズムは診断代替である。モデルは性別に関連した診断に基づいており、疫学的に出産適齢期の女性に関連する疾患である特発性頭蓋内圧亢進症（IIH）の若い女性を優先的に分類する一方、鑑別領域に空間を占める病変を伴う一般的な頭蓋内圧亢進を有する男性を診断する。この診断的閉鎖により、同等の重症度評価（7～9/10）にもかかわらず、女性患者は緊急性の低いケア（外来医師の予約）に誘導されます。私たちの調査結果は、臨床 LLM が疫学的な事前情報を使用してトリアージの緊急性を抑制することによって、文書化された人間の臨床バイアスを再現することを示しており、AI トリアージ エンジンが緊急性の評価を確率的な診断の事前情報から切り離す必要があることを示唆しています。すべてのコード、プロンプト、生の結果をリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Gender-Dependent Diagnostic Substitution in LLM Medical Triage: Same Symptoms, Unequal Urgency</p>
        <p class="orig-summary">We investigate whether large language models produce different medical triage recommendations for identical neurological symptoms when only the patient&#x27;s stated gender and age vary. Using three model families--Gemini 3.5 Flash, Claude Sonnet 4.6, and GPT-5.4-mini--we present a standardized symptom profile (persistent headache, blurred vision, morning nausea, visual disturbances) across seven demographic conditions: three age groups (25, 38, 65) x two genders (male, female), plus a gender-unspecified baseline (n = 30 per condition per model, 630 total trials). We find a stark, systemic gender-dependent triage disparity: young women receive significantly lower emergency room (ER) referral rates than age-matched men (Gemini: 0% vs. 23.3%; Claude: 6.7% vs. 96.7%; GPT: 6.7% vs. 66.7%, all p &lt; 0.001). The disparity disappears at age 65 for all models. The primary mechanism is diagnostic substitution: the models anchor on a gender-associated diagnosis, preferentially classifying young women with Idiopathic Intracranial Hypertension (IIH)--a condition epidemiologically linked to women of childbearing age--while diagnosing men with generic increased intracranial pressure with space-occupying lesions in the differential. This diagnostic closure routes female patients to lower-urgency care (outpatient doctor appointments) despite comparable severity ratings (7-9/10). Our findings demonstrate that clinical LLMs replicate documented human clinical biases by using epidemiological priors to suppress triage urgency, suggesting that AI triage engines must decouple urgency assessment from probabilistic diagnostic priors. We release all code, prompts, and raw results.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="75b5e19a0883" data-article-url="https://arxiv.org/abs/2606.03655" data-article-title="命題否定可能な立場の論理における非単調含意に向けて" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03655" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03655" target="_blank" rel="noopener">命題否定可能な立場の論理における非単調含意に向けて</a></h3>
      <p class="summary">反証可能な推論における最近の研究では、Kraus らのスタイルで優先意味論と含意の概念が見られました。モーダルロジックに適用されます。ただし、この分野の研究は主に充足可能性のチェックと、推論的に弱い可能性がある含意の単調な概念に焦点を当ててきました。これが導入された特定の様相論理の 1 つは、命題的立場の論理であり、様相はさまざまな視点のビューを表現できます。これにより、提案的実行不可能な立場の論理 (PDSL) が形式化されました。この論文では、(非単調な)合理的含意関係のクラスを伝統的な KLM スタイルの推論から PDSL のフラグメントに持ち上げる手段を提案します。そうするために、状況に応じた立場の条件文を介して PDSL の表現力を拡張し、特定の立場のコンテキストで実行可能な条件付き保持について話すことができるようにします。これにより、PDSL の構文を状況に応じた条件文の観点から再特徴付けることができ、PDSL の大きなフラグメントが一連の状況に応じた条件文として表現可能であることがわかります。次に、このフラグメントの非単調含意の特徴付けに焦点を当て、ランキングに基づく含意関係を命題ケースから PDSL ケースに移す方法を定義します。これは、最初に一般的なケースで説明され、次に合理的クロージャと辞書編集的クロージャの特定のケースで検討され、各推論を PDSL に忠実に翻訳します。また、PDSL のこのフラグメントにおける含意チェックは、主に命題事例のアルゴリズムを使用して、複雑さの限界を維持しながら実行できることも示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Towards Non-Monotonic Entailment in Propositional Defeasible Standpoint Logic</p>
        <p class="orig-summary">Recent work in defeasible reasoning has seen notions of preferential semantics and entailment in the style of Kraus et al. applied to modal logics. However, work in this field has focussed primarily on satisfiability checking, and monotonic notions of entailment, which may be inferentially weak. One particular modal logic where this has been introduced is propositional standpoint logics, where modalities can express the views of different viewpoints. This has resulted in the formalisation of propositional defeasible standpoint logic (PDSL). In this paper, we propose a means of lifting the class of (non-monotonic) rational entailment relations from traditional KLM-style reasoning to a fragment of PDSL. In order to do so, we extend the expressivity of PDSL via situated standpoint conditionals, allowing us to talk about a defeasible conditional holding in the context of a given standpoint. This allows us to re-characterise the syntax of PDSL in terms of situated conditionals, and shows that a large fragment of PDSL is expressible as a set of situated conditionals. We then focus on characterising non-monotonic entailment in this fragment, defining a method to transport any ranking-based entailment relation from the propositional case into the PDSL case. This is first described in the general case and then considered in the specific cases of rational and lexicographic closures, providing a faithful translation of each inference into PDSL. We also show that entailment-checking in this fragment of PDSL can be done largely using algorithms from the propositional case, while preserving complexity bounds.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f6c5c0d4407" data-article-url="https://arxiv.org/abs/2606.03657" data-article-title="LLM ツール使用における知識ギャップの診断: 新しい API 取得のためのエージェント ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03657" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03657" target="_blank" rel="noopener">LLM ツール使用における知識ギャップの診断: 新しい API 取得のためのエージェント ベンチマーク</a></h3>
      <p class="summary">コード生成のための大規模な言語モデルでは、多くの場合、事前トレーニング データに含まれていない API を使用する必要があります。これには、関数名を思い出すだけでは不十分です。モデルは、シグネチャ、モジュール パス、入出力コントラクト、セマンティクス、および実行可能ファイルの使用パターンを調整する必要があります。既存の新規 API ベンチマークは通常、静的であり、大まかな合否メトリクスに依存しているか、実際のライブラリの進化を反映していない可能性がある合成 API を使用しています。 NovelAPIBench は、あらゆるベース モデルおよびターゲット ライブラリに対して、新しい API を検出し、分解された知識バンドルを抽出し、実行可能なコーディング タスクを生成し、失敗したサンプルを 6 つの診断カテゴリに割り当てる、完全に自動化された動的ベンチマークです。約 1.9K のタスク、4 つの基本モデル、5 つのドメインにわたって、検索を通じて注入された知識と、パラメトリック適応を通じて内面化された知識を比較します。ナレッジコンポーネントは互換性がないことがわかりました。使用例は最も強力なスタンドアロンシグナルですが、最良の 2 コンポーネント設定は、ドメインとバックボーンに応じてメカニズムまたはサンプルのいずれかとシグネチャを組み合わせます。コンテキスト、特にソース コードを追加すると、インポート パスのエラーが増加して問題が発生する可能性があります。また、パラメトリック適応は、外部知識が除去された場合には検索に代わるものではありません。むしろ、微調整は主に提供されたバンドルの使用方法をモデルに教え、この機能は保持されたライブラリに転送されます。これらの結果は、取得とチューニングが補完的な役割を果たすことを示唆しています。取得は揮発性の API コンテンツを提供し、チューニングは手続き上の統合を改善します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Diagnosing Knowledge Gaps in LLM Tool Use: An Agentic Benchmark for Novel API Acquisition</p>
        <p class="orig-summary">Large language models for code generation often need to use APIs that are absent from their pretraining data. This requires more than recalling a function name: models must coordinate signatures, module paths, input-output contracts, semantics, and executable usage patterns. Existing novel-API benchmarks are typically static, rely on coarse pass/fail metrics, or use synthetic APIs that may not reflect real library evolution. We introduce NovelAPIBench, a fully automated dynamic benchmark that, for any base model and target library, discovers novel APIs, extracts decomposed knowledge bundles, generates executable coding tasks, and assigns failed samples to six diagnostic categories. Across about 1.9K tasks, four base models, and five domains, we compare knowledge injected through retrieval with knowledge internalized through parametric adaptation. We find that knowledge components are not interchangeable: usage examples are the strongest standalone signal, while the best two-component setting pairs signatures with either mechanisms or examples depending on the domain and backbone. Adding more context, especially source code, can hurt by increasing import-path errors. Parametric adaptation also does not replace retrieval once external knowledge is removed; rather, fine-tuning mainly teaches models how to use provided bundles, and this ability transfers to held-out libraries. These results suggest that retrieval and tuning play complementary roles: retrieval supplies volatile API content, while tuning improves procedural integration.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1b6c4daf9ce7" data-article-url="https://arxiv.org/abs/2606.03660" data-article-title="答えから状態へ: 大規模言語モデルにおける化学推論の検証可能なプロセスレベルの評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03660" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03660" target="_blank" rel="noopener">答えから状態へ: 大規模言語モデルにおける化学推論の検証可能なプロセスレベルの評価</a></h3>
      <p class="summary">大規模な言語モデルが化学アシスタントとして使用されることが増えていますが、ほとんどの化学ベンチマークは依然として最終的な回答のみをスコアとしています。これにより、重大な故障モードが隠蔽されます。モデルは、その推論が化学ロジックに違反しているにもかかわらず、正しい分子、生成物、またはオプションを出力する可能性があります。 LLM ジャッジと人間のステップレベルのプロセス アノテーションはコストが高く、一貫性がなく、幻覚に対して脆弱であるため、既存のプロセス レベルの評価機能を拡張するのは困難です。 ChemCoTBench-V2 は、構造化され検証者がアドレス指定できる化学推論トレースを低コストで監査可能に評価するためのルール検証可能な診断ベンチマークです。これは、分子理解、分子編集、分子最適化、反応予測に及び、18 のレポートタスクにわたる 5,620 の評価サンプルを備えています。モデルは、専門家が設計したテンプレートで主要な中間ステップを公開する必要があり、それらのステップは決定論的な化学ルールでチェックされ、クローズドアンサータスクの場合は、別の LLM 審査員ではなく参照トレースが使用されます。オープンエンド分子最適化は、厳密なトレース マッチングではなく、Oracle で検証可能な状態制約を使用して評価されます。このベンチマークは、最終回答の正確性、テンプレートの遵守、専門家によって洗練された中間コミットメントに対する段階的な検証者の正確さという 3 つの個別のシグナルを報告します。フロンティア モデルの実験では、最終的な回答の成功と構造化推論の状態の一貫性の間には永続的なギャップがあることが明らかになりました。モデルは多くの場合、化学ステップ チェックに失敗しながらも要求された形式に従っているか、弱い裏付け推論で正しく回答することができます。 ChemCoTBench-V2 は、きめ細かいモデル比較を可能にし、トレースが最初に検証ツールに違反する具体的なステップを特定します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Answers to States: Verifiable Process-Level Evaluation of Chemical Reasoning in Large Language Models</p>
        <p class="orig-summary">Large language models are increasingly used as chemistry assistants, yet most chemistry benchmarks still score only final answers. This masks a critical failure mode: a model may output the correct molecule, product, or option while its reasoning violates chemical logic. Existing process-level evaluators are hard to scale because LLM judges and human step-level process annotation are costly, inconsistent, and vulnerable to hallucination. We introduce ChemCoTBench-V2, a rule-verifiable diagnostic benchmark for low-cost, auditable evaluation of structured, verifier-addressable chemical reasoning traces. It spans molecular understanding, molecule editing, molecular optimization, and reaction prediction, with 5,620 evaluation samples across 18 reporting tasks. Models must expose key intermediate steps in expert-designed templates, and those steps are checked with deterministic chemistry rules and, for closed-answer tasks, reference traces rather than another LLM judge. Open-ended molecular optimization is evaluated with oracle-verifiable state constraints rather than strict trace matching. The benchmark reports three separate signals: final-answer correctness, template adherence, and step-wise verifier correctness over expert-refined intermediate commitments. Experiments on frontier models reveal a persistent gap between final-answer success and structured-reasoning-state consistency: models often follow the requested format while failing chemical-step checks, or answer correctly with weak supporting reasoning. ChemCoTBench-V2 enables fine-grained model comparison and identifies the concrete step at which the trace first violates the verifier.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5315bf5df2fb" data-article-url="https://arxiv.org/abs/2606.03678" data-article-title="EvoDrive: 自己改善型 LLM エージェントによるセーフティ クリティカルな自動運転のパレート進化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03678" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03678" target="_blank" rel="noopener">EvoDrive: 自己改善型 LLM エージェントによるセーフティ クリティカルな自動運転のパレート進化</a></h3>
      <p class="summary">安全性が重要なシナリオの生成は、自動運転システムの検証と改善に不可欠ですが、現実性を維持しながら障害を明らかにするには、本質的に敵対性を最大限に高める必要があります。既存の手法は通常、手作りのヒューリスティックによってこのトレードオフを管理し、生成を既知の事前分布に限定し、探索されていないパターンを見逃しています。最近のオープンエンドのエージェント進化はこの限界を押し上げる可能性がありますが、制約のない一般エージェントはシミュレーターの厳密な基礎を欠いており、多目的の緊張を単一スカラーの最大化に崩壊させる傾向があります。ここでは、多目的シナリオ生成のための初の自動化された LLM ベースのエージェント進化フレームワークである EvoDrive を紹介します。 EvoDrive は、シミュレータベースのアクター - クリティカル アーキテクチャを採用しており、メモリ主導のアクターがジェネレーターの改善を繰り返し提案し、クリティカルがありそうもない候補を除外し、自己進化するワールド エバリュエーターが有望な提案をルーティングしてシミュレーション予算を最適化します。 EvoDrive はさらに、評価された候補のパレート アーカイブを維持して、攻撃と現実性のさまざまなトレードオフを維持し、シミュレーション フィードバックを通じて将来の進化を導きます。 MetaDrive と CARLA のベンチマーク結果は、EvoDrive がさまざまなジェネレーターにわたってパレート フロンティアを大幅に拡大するだけでなく、ポリシー トレーニングのための貴重なシナリオも生成することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">EvoDrive: Pareto Evolution for Safety-Critical Autonomous Driving via Self-Improving LLM Agents</p>
        <p class="orig-summary">Generating safety-critical scenarios is essential for validating and improving autonomous driving systems, yet it inherently requires maximizing adversariality to expose failures while preserving realism. Existing methods usually manage this trade-off with handcrafted heuristics, confining generation to known priors and overlooking underexplored patterns. While recent open-ended agentic evolution can push this limit, unconstrained general agents lack strict simulator grounding and tend to collapse the multi-objective tension into single-scalar maximization. Here we present EvoDrive, the first automated, LLM-based agentic evolution framework for multi-objective scenario generation. EvoDrive employs a simulator-grounded actor-critic architecture where a memory-driven actor iteratively proposes improvements to the generators and critics filter out implausible candidates, and a self-evolving world evaluator routes promising proposals to optimize simulation budgets. EvoDrive further maintains a Pareto archive of evaluated candidates to preserve diverse attack-realism trade-offs and guide future evolution via simulation feedback. Benchmark results on MetaDrive and CARLA show that EvoDrive not only significantly expands the Pareto frontier across various generators, but also produces valuable scenarios for policy training.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d6605947af74" data-article-url="https://arxiv.org/abs/2606.03686" data-article-title="DeepSpeak-Agentic データセット" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03686" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03686" target="_blank" rel="noopener">DeepSpeak-Agentic データセット</a></h3>
      <p class="summary">私たちは、人間と身体化された AI エージェントの間の 37 時間以上の半構造化された会話で構成されるビデオのデータセットである DeepSpeak-Agentic を紹介します。私たちはこのデータセットを使用して、AI エージェントの自動フォレンジック識別 (音声、ビデオ、またはテキスト) を評価し、人間とエージェントの相互作用の性質を研究し、具現化された AI エージェントを強化する大規模言語モデルと AI によって生成された音声と顔の将来の進歩のためのベンチマークを提供します。また、エージェントを作成し、人間のクラウド ワーカーと自動的にペアリングし、指定されたシナリオ全体で視聴覚会話を記録し、結合されたストリーム内で人間とエージェントを識別して分離する、スケーラブルなデータ キャプチャ システムにも貢献します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The DeepSpeak-Agentic Dataset</p>
        <p class="orig-summary">We present DeepSpeak-Agentic, a dataset of videos comprising over 37 hours of semi-structured conversations between a human and an embodied AI agent. We use this dataset to evaluate the automatic forensic identification (audio, video, or text) of AI agents, study the nature of human-agent interactions, and provide a benchmark for future advances in the large-language models and AI-generated voices and faces that power embodied AI agents. We also contribute a scalable data-capture system that creates agents, automatically pairs them with human crowd workers, records audiovisual conversations across specified scenarios, and identifies and separates the human and agent in the combined stream.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="400674e13e2c" data-article-url="https://arxiv.org/abs/2606.03692" data-article-title="SkillPyramid: 自己進化エージェントのための階層型スキル統合フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03692" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03692" target="_blank" rel="noopener">SkillPyramid: 自己進化エージェントのための階層型スキル統合フレームワーク</a></h3>
      <p class="summary">最近の AI エージェントは、複雑なタスクを解決するためにスキルを柔軟に呼び出すことができますが、体系的なスキルの構築、蓄積、伝達が欠如しているため、その長期的な改善には根本的な制約があります。特に、スキルを統合するための統一されたフレームワークがないと、エージェントは異なるタスクにわたって同様の機能を重複して構築する傾向があり、経験を再利用可能な資産に効果的に変換できず、タスク固有のスキルを新しいシナリオに一般化するのに苦労します。この制限に対処するために、既存のスキル経験を再利用してより広範なタスクを一般化するスキル統合フレームワークである SkillPyramid を提案します。 SkillPyramid は、階層型スキル トポロジで動作し、エージェントがタスクの実行中に新しいスキルを作成、検証、組み込むことを可能にする自己進化メカニズムをさらに導入します。 4 つのバックボーン モデルにわたる ALFWorld、WebShop、および ScienceWorld の実験では、SkillPyramid が平均報酬を 38.0% 大幅に増加させ、実行ステップを 27.7% 削減することが示されました。全体として、私たちの方法は、スキルのコレクションを静的なリソースプールから動的な進化システムに変換します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SkillPyramid: A Hierarchical Skill Consolidation Framework for Self-Evolving Agents</p>
        <p class="orig-summary">Recent AI agents can flexibly invoke skills to solve complex tasks, but their long-term improvement is fundamentally constrained by a lack of systematic skill construction, accumulation, and transfer. In particular, without a unified framework for skill consolidation, agents tend to redundantly construct similar capabilities across different tasks, are unable to effectively transform experience into reusable assets, and struggle to generalize task-specific skills to novel scenarios. To address this limitation, we propose SkillPyramid, a skill consolidation framework that reuses existing skill experience for broader task generalization. Operating on a hierarchical skill topology, SkillPyramid further introduces a self-evolution mechanism that enables agents to compose, validate, and incorporate new skills during task execution. Experiments on ALFWorld, WebShop, and ScienceWorld across four backbone models show that SkillPyramid substantially increases the average reward by 38.0% and reduces execution steps by 27.7%. Overall, our method transforms a skill collection from a static resource pool into a dynamic evolution system.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="866b7117ee0e" data-article-url="https://arxiv.org/abs/2606.03704" data-article-title="財務上の意思決定のためのセーフガードとLLM監視による動的な目標の選択" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03704" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03704" target="_blank" rel="noopener">財務上の意思決定のためのセーフガードとLLM監視による動的な目標の選択</a></h3>
      <p class="summary">株式の推奨やポートフォリオの配分などの財務上の意思決定タスクでは、通常、将来のリターンとリスクを見積もり、投資家向けの取引や配分を選択します。多くの場合、選択された最適化目標によって実現パフォーマンスが決まります。ただし、市場の状況は時間の経過とともに変化するため、固定された目標はレジーム全体で最適ではない可能性があり、一方で、潜在的なレジームの推定に依存するレジーム切り替えパイプラインにはノイズが多かったり遅延したりする可能性があり、切り替えが頻繁になると売上高が増加し、運用が不安定になる可能性があります。この論文では、中間レジーム変数を導入せずに、最近のリターンの解釈可能な統計的要約から各時点での意思決定に関連する目的関数を直接選択し、少数の候補セット（例：リターン追求型、損失回避型、リスク調整型）の中から選択する、学習ベースのセレクターであるDOSS（セーフガード付き動的目標選択）を提案します。 DOSS は、目的の選択を目的にわたる分類問題として定式化し、ローリング ウィンドウで逐次更新を実行して、一時的な漏れなく将来を見据えた選択を行うと同時に、各提案の信頼スコアも出力します。導入時の選択ミスや過剰なスイッチングを軽減するために、DOSS は、信頼性の低い提案を保守的なデフォルトに上書きし、スイッチング周波数に関連付けられた明示的な制御を強制するフェールセーフを備えた信頼性を認識したゲーティングを適用します。大規模言語モデル (LLM) を新しい目標の生成器ではなく監視コンポーネントとして位置付けることにより、ガバナンスをさらに統合します。LLM は、提案された目標を受け入れるか、事前定義された安全なデフォルトにオーバーライドするように制限されており、必要に応じてオーバーライドをトリガーする決定論的なルールベースの制約が使用されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Dynamic Objective Selection with Safeguards and LLM Oversight for Financial Decision-Making</p>
        <p class="orig-summary">Financial decision-making tasks such as stock recommendation and portfolio allocation typically estimate future return and risk and then select trades or allocations for an investor, and the chosen optimization objective often determines realized performance. However, because market conditions evolve over time, a fixed objective can be suboptimal across regimes, while regime-switching pipelines that rely on latent regime estimates can be noisy or delayed and frequent switching can increase turnover and operational instability. In this paper, we propose DOSS (Dynamic Objective Selection with Safeguards), a learning-based selector that directly chooses the decision-relevant objective function at each time point from interpretable statistical summaries of recent returns, selecting among a small set of candidates (e.g., return-seeking, loss-averse, and risk-adjusted) without introducing intermediate regime variables. DOSS formulates objective selection as a classification problem over objectives and performs sequential updates with a rolling window to make forward-looking selections without temporal leakage, while also outputting a confidence score for each proposal. To mitigate misselection and excessive switching in deployment, DOSS applies confidence-aware gating with a fail-safe that overrides low-confidence proposals to a conservative default and enforces explicit controls tied to switching frequency. We further integrate governance by positioning a Large Language Model (LLM) as an oversight component rather than a generator of new objectives: the LLM is restricted to accept a proposed objective or override it to a predefined safe default, with deterministic rule-based constraints triggering overrides when needed.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a33422e492f" data-article-url="https://arxiv.org/abs/2606.03705" data-article-title="コード・オン・グラフ: ナレッジ・グラフ上の大規模言語モデルを介した反復的なプログラムによる推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03705" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03705" target="_blank" rel="noopener">コード・オン・グラフ: ナレッジ・グラフ上の大規模言語モデルを介した反復的なプログラムによる推論</a></h3>
      <p class="summary">ナレッジ グラフ (KG) は、古い知識や幻覚などの大規模言語モデル (LLM) の制限を軽減するために広く使用されています。既存の LLM-KG 統合フレームワークは通常、事前定義された演算子に依存して、KG から事実の知識を取得し、それを回答生成のプロンプトに挿入します。このパラダイムは、2 つの重大なボトルネックに直面しています。 1) 柔軟性のなさ: 事前定義された演算子の範囲が限られているため、KG の質問で必要とされる複雑な意味論を完全に捉えるための十分な構成表現力が不足しています。 2) 非スケーラビリティ: 事実の知識をプロンプトに直接挿入すると、大規模な事実の知識を処理する際のスケーラビリティが制限されます。これら 2 つのボトルネックに対処するために、LLM-KG 統合のためのプログラム推論フレームワークである Code-on-Graph (CoG) を提案します。具体的には、各推論ステップで取得された事実の知識が与えられると、CoG はまず対応する KG スキーマを特定し、これらのスキーマを Python クラスとして表現します。Python クラスは、取得された事実への抽象インターフェイスとして機能します。次に、これらのクラスに基づいた実行可能コードを生成し、取得したファクトは実行中に対応するクラスのオブジェクトとしてインスタンス化されます。この設計により、プロンプトへの大規模な事実知識の直接注入を回避しながら、柔軟なコードベースの推論が可能になります。 WebQSP、CWQ、および GrailQA の実験では、CoG が以前の最先端のモデルよりも最大 10.5% 優れていることが実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Code-on-Graph: Iterative Programmatic Reasoning via Large Language Models on Knowledge Graphs</p>
        <p class="orig-summary">Knowledge Graphs (KGs) are widely used to mitigate the limitations of Large Language Models (LLMs), such as outdated knowledge and hallucinations. Existing LLM-KG integration frameworks typically rely on predefined operators to retrieve factual knowledge from KGs and inject it into prompts for answer generation. This paradigm faces two critical bottlenecks: 1) Inflexibility: The predefined operators are limited in scope and thus lack sufficient compositional expressiveness to fully capture the complex semantics required by KG questions. 2) Unscalability: Direct injection of factual knowledge into prompts limits scalability in handling large-scale factual knowledge. To address these two bottlenecks, we propose Code-on-Graph (CoG), a programmatic reasoning framework for LLM-KG integration. Specifically, given the factual knowledge retrieved at each reasoning step, CoG first identifies the corresponding KG schemas and represents these schemas as Python classes, which serve as abstract interfaces to the retrieved facts. It then generates executable code grounded in these classes, with the retrieved facts instantiated as objects of the corresponding classes during execution. This design enables flexible code-based reasoning while avoiding the direct injection of large-scale factual knowledge into prompts. Experiments on WebQSP, CWQ, and GrailQA demonstrate that CoG outperforms prior state-of-the-art models by up to 10.5%.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="995ab5d3e17c" data-article-url="https://arxiv.org/abs/2606.03719" data-article-title="微積分推論の構造を導出グラフで明らかにする" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03719" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03719" target="_blank" rel="noopener">微積分推論の構造を導出グラフで明らかにする</a></h3>
      <p class="summary">do-calculus は介入クエリの一般的な推論システムを定義し、そのルールを連続的に適用することで因果量を変換できるようにします。このプロセスにより、同等の介入表現の豊富な空間が誘導されますが、これらのルールを組み合わせて順序付けることは依然として困難です。この研究では、do-calculus ルールがどのように適用され結合されるかを表す導出グラフを導入し、do-calculus の下で等価な観察確率と介入確率の全空間を特徴付けます。これらのグラフの構造により、do-calculus ルールの最大 4 つの適用を使用する単純な手順が得られます。最後に、同定アルゴリズムを等価因果クエリに適用すると、同じ因果量に対して複数の有効な推定値が生成され、最終的により効率的な推定量が得られる方法を示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Unveiling the Structure of Do-Calculus Reasoning via Derivation Graphs</p>
        <p class="orig-summary">The do-calculus defines a general system of inference for interventional queries, allowing causal quantities to be transformed through successive applications of its rules. This process induces a rich space of equivalent interventional expressions, but combining and ordering these rules remains challenging. In this work, we introduce derivation graphs, which represent how do-calculus rules are applied and combined, and characterize the full space of observational and interventional probabilities which are equivalent under the do-calculus. The structure of these graphs yields a simple procedure that uses at most four applications of do-calculus rules. Finally, we show how applying identification algorithms to equivalent causal queries produces multiple valid estimands for the same causal quantity, eventually yielding more efficient estimators.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="711e17e3087e" data-article-url="https://arxiv.org/abs/2606.03741" data-article-title="いつ再計画するか: 階層的潜在推論におけるサブゴールの永続性" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03741" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03741" target="_blank" rel="noopener">いつ再計画するか: 階層的潜在推論におけるサブゴールの永続性</a></h3>
      <p class="summary">長期的な推論では、システムが硬直化することなく中期的な目的にコミットする必要があります。再計画が頻繁に行われすぎると、計算が複数ステップの構造にまとまることはありません。コミットが長すぎると計画が古くなってしまいます。私たちは、この安定性と適応性のトレードオフを潜在推論設定で研究します。この設定では、複数ステップの計算が外部化されたトークン トレースではなく隠れた状態の内部で発生します。私たちは、階層的推論モデル (HRM) を封建的なスタイルのマネージャーとワーカーのインターフェイスで拡張します。遅い高レベルのモジュールは、P 個の低レベル ステップの間持続する正規化された方向サブゴールを定期的に発行し、ワーカーの隠れ状態の更新にバイアスをかけ、固有のコサイン アラインメント損失を提供します。 ARC と ConceptARC では、サブゴールの持続性 (サブゴールの注入だけではなく) が中心のノブであることが分かりました。[3, 6] の中程度の期間 P は、非常に頻繁な (P=1) と非常に長い期間の両方を一貫して上回っており、P=3 で明らかに最小の LM 損失が見られます (P=1、1.640 ベースラインで 1.544 対 1.674、平均 1.595、標準値で 5 つのシードで複製) 0.045）。固有のアライメント重みラムダは、相補的な狭い最適値 (ラムダ約 0.05) を示します。過去のスイートスポットラムダでの制御されたアブレーションは、アライメント信号が最適値を超えたときに、アーキテクチャ上の容量や補助損失だけではなく、学習された指向性構造を干渉源として分離します。これらの発見を総合すると、潜在推論システムにおける構成計画の設計原則が示唆されます。つまり、中程度の地平線の意図は、構成構造を形成するのに十分な計算ステップにわたって首尾一貫していなければなりません。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">When to Re-Plan: Subgoal Persistence in Hierarchical Latent Reasoning</p>
        <p class="orig-summary">Long-horizon reasoning requires a system to commit to medium-horizon intent without becoming rigid: re-plan too often and computation never coheres into multi-step structure; commit too long and the plan goes stale. We study this stability-adaptivity tradeoff in the latent reasoning setting, where multi-step computation occurs inside hidden state rather than externalized token traces. We extend the Hierarchical Reasoning Model (HRM) with a feudal-style manager-worker interface: a slow high-level module periodically emits a normalized directional subgoal that persists for P low-level steps, biasing the worker&#x27;s hidden-state updates and supplying an intrinsic cosine alignment loss. On ARC and ConceptARC, we find that subgoal persistence -- not subgoal injection alone -- is the central knob: moderate periods P in [3, 6] consistently outperform both very frequent (P=1) and very long horizons, with a clear minimum LM loss at P=3 (1.544 vs. 1.674 at P=1, 1.640 baseline; replicated over 5 seeds at mean 1.595, std 0.045). The intrinsic alignment weight lambda shows a complementary narrow optimum (lambda approximately 0.05). A controlled ablation at past-sweet-spot lambda isolates learned directional structure -- not architectural capacity or auxiliary loss alone -- as the source of interference when the alignment signal exceeds its optimum. Together these findings implicate a design principle for compositional planning in latent reasoning systems: medium-horizon intent must be coherent across enough computational steps for compositional structure to form.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4a3677b013d5" data-article-url="https://arxiv.org/abs/2606.03743" data-article-title="プルーフ リファクタリング: 生成された正式なプルーフをモジュール型アーティファクトにリファクタリングする" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03743" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03743" target="_blank" rel="noopener">プルーフ リファクタリング: 生成された正式なプルーフをモジュール型アーティファクトにリファクタリングする</a></h3>
      <p class="summary">大規模言語モデル (LLM) は形式的な証明の生成において優れたパフォーマンスを示していますが、その出力は多くの場合、成熟した形式的な数学ライブラリの証明に比べて可読性、モジュール性、保守性、再利用性が劣ります。私たちは、このギャップの一部は、ほとんどの証明生成パイプラインに暗黙的に含まれるコンパイル優先の目的に起因しており、ライブラリ品質のアーティファクトではなく、モノリシックまたはアドホック証明スクリプトを奨励していると主張します。証明品質を向上させるための既存のアプローチは、多くの場合、明示的で計算可能な最適化目標に依存しています。ただし、実際には、最も扱いやすく、実験的に検証された目標は主に長さに基づくものですが、可読性、モジュール性、保守性、再利用性などのより高いレベルの品質を信頼できる自動メトリクスに還元するのは困難です。単一のプロキシ メトリクスに対して証明の改善を最適化するのではなく、人間による証明のリファクタリング ワークフローからインスピレーションを得た、プロセスに基づいたアプローチを採用します。私たちは、証明リファクタリングを 4 つのフェーズに分解するエージェント フレームワーク $\textbf{Proof-Refactor}$ を提案します。候補となる証明フラグメントの抽出、ヘルパー宣言の設計、抽出および設計されたコンポーネントの正式な証明、検証されたコンポーネントを使用した元の証明の修復です。 PutnamBench および Putnam2025 から生成されたリーン証明では、Proof-Refactor は、強力なクロード コード リファクタリング ベースラインよりもルーブリック ベースのリファクタリング スコアを改善し、署名の品質と人間の可読性が最大の向上をもたらします。これらの結果は、プロセスガイド付きリファクタリングにより、証明長を主な目的として扱うことなく証明構造を改善できることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Proof-Refactor: Refactoring Generated Formal Proofs into Modular Artifacts</p>
        <p class="orig-summary">While Large Language Models (LLMs) have shown strong performance in generating formal proofs, their outputs often remain less readable, modular, maintainable, and reusable than proofs in mature formal mathematics libraries. We argue that this gap stems in part from the compile-first objective implicit in most proof-generation pipelines, which encourages monolithic or ad hoc proof scripts rather than library-quality artifacts. Existing approaches to proof-quality improvement often rely on explicit, computable optimization objectives. In practice, however, the most tractable and experimentally validated objectives are largely length-based, while higher-level qualities such as readability, modularity, maintainability, and reusability are difficult to reduce to reliable automatic metrics. Instead of optimizing proof improvement against a single proxy metric, we take a process-guided approach inspired by human proof-refactoring workflows. We propose an agentic framework $\textbf{Proof-Refactor}$ that decomposes proof refactoring into four phases: extracting candidate proof fragments, designing helper declarations, formally proving the extracted and designed components, and repairing the original proof using the verified components. On generated Lean proofs from PutnamBench and Putnam2025, Proof-Refactor improves rubric-based refactoring scores over a strong Claude Code refactoring baseline, with the largest gains in signature quality and human readability. These results suggest that process-guided refactoring can improve proof structure without treating proof length as the primary objective.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bf6369903fb4" data-article-url="https://arxiv.org/abs/2606.03755" data-article-title="LAP: 自律科学のためのエージェントから機器へのプロトコル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03755" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03755" target="_blank" rel="noopener">LAP: 自律科学のためのエージェントから機器へのプロトコル</a></h3>
      <p class="summary">自律科学はデモンストレーションからインフラストラクチャへと移行しています。現在、大規模な言語モデル エージェントが実験を計画し、自動運転研究所がそれを実行しています。しかし、そのようなシステムはすべて、確率的で目標指向のエージェントではなく、断片化されたベンダー SDK や決定論的なソフトウェア クライアント向けに構築された標準に対して、推論エージェントと物理的機器の間のリンクをゼロから再構築します。最近のエージェント相互運用プロトコルは、エージェント エコシステムの 3 つのエッジのうち 2 つを明確にしています (Anthropic の Model Context Protocol (MCP) はエージェントからツールへのエッジを標準化し、Google の Agent2Agent (A2A) はエージェントからエージェントへのエッジを標準化しています) が、どちらもエージェントから機器へのエッジをモデル化していません。操作はステートフルで、安全性が重要で、排他的に所有され、物理的に具体化され、ユニット、校正、および測定を生成します。不確実性。このギャップを埋めるプロトコル設計である Lab Agent Protocol (LAP) を紹介します。 LAP は、A2A のピアツーピア、ディスカバリーファースト、タスクライフサイクル構造を維持し、次の 4 つの物理世界プリミティブを追加します。(i) InstrumentCard、署名された機能と物理制限の記述。 (ii) 専用機器およびサンプルロックのファーストクラス予約。 (iii) 特定のタスクとそのパラメータに暗号的にバインドされたオペレータ確認トークンを使用したセーフティ フェンス ハンドシェイク。危険で不可逆的な操作をゲートします。 (iv) すべての結果を物理的に型付け (QUDT/UCUM) し、キャリブレーションに固定され、不確実性を保持し、構築によって再現可能にする MeasurementResult スキーマ。役割、6 層アーキテクチャ、JSON-RPC メソッド セット、タスクおよび安全性ステート マシン、エラー モデル、および研究室間のフェデレーションを指定し、プロトコルのエンドツーエンドで閉ループ自律キャンペーンを実行します。 LAP は、A2A/MCP エコシステムとトランスポート互換性があり、SiLA 2 や OPC-UA などの既存のデバイス標準を置き換えるのではなく、カプセル化します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LAP: An Agent-to-Instrument Protocol for Autonomous Science</p>
        <p class="orig-summary">Autonomous science is moving from demonstration to infrastructure. Large language model agents now plan experiments, and self-driving laboratories execute them. Yet every such system rebuilds the link between the reasoning agent and the physical instrument from scratch, against fragmented vendor SDKs and standards built for deterministic software clients rather than probabilistic, goal-directed agents. Recent agent-interoperability protocols clarify two of the three edges of an agentic ecosystem (Anthropic&#x27;s Model Context Protocol (MCP) standardizes the agent-to-tool edge, and Google&#x27;s Agent2Agent (A2A) the agent-to-agent edge), but neither models the agent-to-instrument edge, where operations are stateful, safety-critical, exclusively owned, physically embodied, and produce measurements with units, calibration, and uncertainty. We present the Lab Agent Protocol (LAP), a protocol design that fills this gap. LAP retains A2A&#x27;s peer-to-peer, discovery-first, task-lifecycle structure and adds four physical-world primitives: (i) the InstrumentCard, a signed capability and physical-limit description; (ii) first-class reservation for exclusive instrument and sample locking; (iii) a safety-fence handshake with operator-confirmation tokens cryptographically bound to a specific task and its parameters, gating hazardous and irreversible operations; and (iv) a MeasurementResult schema that makes every result physically typed (QUDT/UCUM), calibration-anchored, uncertainty-bearing, and reproducible by construction. We specify roles, a six-layer architecture, the JSON-RPC method set, the task and safety state machines, the error model, and cross-laboratory federation, and walk a closed-loop autonomous campaign through the protocol end-to-end. LAP is transport-compatible with the A2A/MCP ecosystem and encapsulates rather than replaces existing device standards such as SiLA 2 and OPC-UA.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e081331104b4" data-article-url="https://arxiv.org/abs/2606.03777" data-article-title="管理境界から保険金請求まで: CER フレームワークによる AI 媒介損失の再構築" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03777" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03777" target="_blank" rel="noopener">管理境界から保険金請求まで: CER フレームワークによる AI 媒介損失の再構築</a></h3>
      <p class="summary">被保険組織の生成 AI システムまたはエージェント AI システムを通じて発生する AI 損失には、システムが推論、取得、ツールの呼び出し、および動作を行うにつれて関連する状態が変化するため、単なるイベントの再構築ではなく、状態の再構築が必要になります。関連する問題は、どのような損失が発生したかだけでなく、システムに何が許可され、実際に何をしたか、そしてその再構築された損失が保険金請求の回復をサポートできるかどうかです。このペーパーでは、プロンプト インジェクション、取得拡張世代 (RAG) ポイズニング、悪意のあるツールの出力、資格情報の悪用、データ ポイズニングなどの外部から引き起こされる障害を含む、被保険者の AI システムが因果関係にある損失について取り上げます。 Specifically, this paper introduces CER, a use-case-level diagnostic for AI residual risk transfer. C (control boundary) asks whether the system had an enforceable operating envelope. E (evidence reconstruction) asks whether the system state and causal chain can be reconstructed from retained artifacts. R (保険応答) は、再構築された損失に保険が適用されているかどうか、つまり、保険金請求の回復をサポートするために必要な証拠とともに、保険が市場で利用可能で被保険者に提供されているかどうかを尋ねます。この論文は 3 つの貢献を行っています。AI 固有の再構築問題を定義し、CER を通じてその問題を運用可能にし、AI 再構築のためのクレームグレードの証拠を指定しています。公的な例としては、報告された PocketOS および Replit エージェントによるデータベース削除事件や、裁定された出力/依存事件としてのモファット対エア・カナダ事件が挙げられます。 Keywords: AI systems; CER framework; residual risk transfer; agentic AI; generative AI; AI insurance; evidence reconstruction.</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Control Boundary to Insurance Claim: Reconstructing AI-Mediated Losses Through the CER Framework</p>
        <p class="orig-summary">AI losses that arise through an insured organization&#x27;s generative or agentic AI system require state reconstruction, not merely event reconstruction, because the relevant state changes as the system reasons, retrieves, calls tools, and acts. The relevant question is not only what loss occurred, but what the system was allowed to do, what it actually did, and whether that reconstructed loss can support insurance claim recovery. This paper addresses losses in which the insured&#x27;s AI system is in the causal chain, including externally triggered failures such as prompt injection, retrieval-augmented generation (RAG) poisoning, malicious tool output, credential misuse, and data poisoning. Specifically, this paper introduces CER, a use-case-level diagnostic for AI residual risk transfer. C (control boundary) asks whether the system had an enforceable operating envelope. E (evidence reconstruction) asks whether the system state and causal chain can be reconstructed from retained artifacts. R (insurance response) asks whether the reconstructed loss is insured: whether insurance coverage is available in the market and placed for the insured, together with the proof needed to support insurance claim recovery. The paper makes three contributions: it defines the AI-specific reconstruction problem, operationalizes that problem through CER, and specifies claim-grade evidence for AI reconstruction. Public examples include the reported PocketOS and Replit agentic database-deletion incidents and Moffatt v. Air Canada as an adjudicated output/reliance case. Keywords: AI systems; CER framework; residual risk transfer; agentic AI; generative AI; AI insurance; evidence reconstruction.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a0fe450b92f" data-article-url="https://arxiv.org/abs/2606.03812" data-article-title="エージェントによる対話による危険特定分析による操業の安全性の向上" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03812" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03812" target="_blank" rel="noopener">エージェントによる対話による危険特定分析による操業の安全性の向上</a></h3>
      <p class="summary">産業用プロセス制御、自律型システム、安全性が重要なシステムなど、一か八かの分野における運用の安全性には、信頼性の高い危険性の特定が必要です。大規模言語モデル (LLM) は、安全分析タスクの自動化に有望であることが示されていますが、シングルターンのモノリシック推論は脆弱です。安全エンジニアが繰り返し適用する自己修正、検討、状況に応じた改良が欠けています。この論文では、構造化されたエージェント対話、マルチエージェント、マルチターン インタラクションが、シングルパス ベースラインよりも NLP ベースのハザード特定の質を向上させるかどうかを調査するフレームワークである HAZDIAL を紹介します。我々は、敵対的な議論と建設的な議論という 2 つの対話様式を系統的に比較し、アルゴリズムベースのエージェント相互作用の最適化を提案します。標準的な分類指標 (精度、精度、再現率、F1) と新しい対話指標を使用して、厳選されたゴールデン データセットに対してすべての構成を評価します。この研究は、対話システム、マルチエージェント推論、AI の安全性の交差点を前進させ、対話主導型の危険分析の経験的証拠を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Enhancing Operational Safety via Agentic Dialogue Hazard Identification Analysis</p>
        <p class="orig-summary">Operational safety in high-stakes domains such as industrial process control, autonomous, and safety-critical systems, demand reliable hazard identification. While large language models (LLMs) have shown promise in automating safety analysis tasks, single-turn, monolithic inference is brittle: it lacks the self-correction, deliberation, and contextual refinement that safety engineers apply iteratively. In this paper, we introduce HAZDIAL, a framework that investigates whether structured agentic dialogue-multi-agent, multi-turn interactions improves the quality of NLP- based hazard identification over single-pass baselines. We systematically compare two dialogue modalities: adversarial debate and constructive discussion, and propose an algorithm-based agentic interaction optimization. We evaluate all configurations against a curated golden dataset using standard classification metrics (accuracy, precision, recall, F1) and novel dialogue metrics. This work advances the intersection of dialogue systems, multi-agent reasoning, and AI safety, providing an empirical evidence for dialogue-driven hazard analysis.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="76a212510999" data-article-url="https://arxiv.org/abs/2606.03814" data-article-title="BART を活用して、ルーブリックベースの基準を使用して CS1 C++ プログラミング課題を評価する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03814" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03814" target="_blank" rel="noopener">BART を活用して、ルーブリックベースの基準を使用して CS1 C++ プログラミング課題を評価する</a></h3>
      <p class="summary">この論文では、汎用 LLM よりも講師の採点行動をよりよく反映した成績予測を生成することを目的として、C++ プログラミング入門課題の自動採点のためのトランスフォーマー モデルのルーブリック対応のマルチタスク微調整について調査します。複数学期の CS1 データを使用して、学生の提出物は数値スコア、レターグレード バケット、課題ルーブリックと組み合わせられ、トランスフォーマー入力用の統一されたシーケンスに前処理されます。 LoRA 適応を備えた BART エンコーダ/デコーダは、数値成績と成績バケットを共同で予測するようにトレーニングされ、予測された成績分布と経験的な成績分布を一致させる分布一致項で強化されています。これは、従来の研究では見落とされがちな評価次元でした。実験では、追加の T5 およびペアワイズ事前トレーニングのバリアントを使用して、シングルタスクとマルチタスクのトレーニング、ハード ワンホットとファジーおよび境界ベースのソフト ラベル、ルーブリックとノールーブリック条件を比較します。結果は、境界ベースのソフトラベルとルーブリックコンテキストを備えたマルチタスク BART が、シングルタスク、ハードラベル、またはコードのみのベースラインよりも低い平均絶対誤差と強力な成績分布の調整を達成することを示しています。完全に微調整された T5 により分布の忠実度がさらに向上し、ペアワイズ事前トレーニングにより少数派クラスの感度を犠牲にして数値誤差が削減されます。総合すると、この調査結果は、校正を意識したルーブリックガイド付きトレーニングの方が、精度を最適化した代替トレーニングよりも、よりインストラクターらしい採点行動を生み出すことを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Leveraging BART to Assess CS1 C++ Programming Assignments using Rubric-based Criteria</p>
        <p class="orig-summary">This paper investigates rubric-aware, multitask fine-tuning of transformer models for automated grading of introductory C++ programming assignments, with the goal of producing grade predictions that better reflect instructor grading behavior than general-purpose LLMs. Using multi-semester CS1 data, student submissions are paired with numeric scores, letter-grade buckets, and assignment rubrics, then preprocessed into unified sequences for transformer input. A BART encoder-decoder with LoRA adaptation is trained to jointly predict numeric grades and grade buckets, augmented with a distribution-matching term to align predicted and empirical grade distributions, an evaluation dimension often overlooked in prior work. Experiments compare single-task and multitask training, hard one-hot versus fuzzy and boundary-based soft labels, and rubric versus no-rubric conditions, with additional T5 and pairwise-pretrained variants. Results show that multitask BART with boundary-based soft labels and rubric context achieves lower mean absolute error and stronger grade-distribution alignment than single-task, hard-label, or code-only baselines. Fully fine-tuned T5 further improves distributional fidelity, while pairwise pretraining reduces numeric error at the cost of minority-class sensitivity. Collectively, the findings suggest that calibration-aware, rubric-guided training produces more instructor-like grading behavior than accuracy-optimized alternatives.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d68cffb0fa81" data-article-url="https://arxiv.org/abs/2606.03823" data-article-title="遺伝的最適化によるまばらな道路観察からの都市交通シミュレーションの校正" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03823" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03823" target="_blank" rel="noopener">遺伝的最適化によるまばらな道路観察からの都市交通シミュレーションの校正</a></h3>
      <p class="summary">都市交通シミュレーションは、電気自動車の充電ステーションの配置を含むインフラ計画にとって重要なツールです。しかし、多くの都市にわたる現実的な交通シミュレーションは、2 つの基本的なデータ制限によって妨げられています。1 つは、詳細な現実世界の交通測定が、ほとんどの都市の道路セグメントのごく一部でしか利用できないこと、もう 1 つは、通勤交通のモデリングに重要な雇用分布データが、シミュレーションに必要な解像度で利用できることがほとんどないことです。この論文では、両方の制限に直接対処し、詳細な勤務場所データを必要とせずに、まばらな道路観察から都市交通シミュレーションを調整する遺伝的アルゴリズムベースのフレームワークを紹介します。ノースカロライナ州グリーンズボロの SUMO 交通シミュレーション プラットフォームを使用する当社のアプローチでは、ジョブの分布とゲート交通パラメータを最適化し、既知の交通流量を持つ道路の少数のサンプルとシミュレートされた交通を調整します。我々は、このアプローチが現実世界の測定値とよく相関するシミュレートされた交通量を生成し、トレーニングから除外された道路セグメントに一般化し、その雇用データに基づいて直接トレーニングしたことがないにもかかわらず、国勢調査の雇用データと確実に質的一致を示す雇用分布を生成することを実証します。この研究は、現実的な都市交通シミュレーションが最小限の実世界の観察から実現できることを実証し、多様な都市にわたって交通モデルを展開する際の障壁を減らす、スケーラブルでデータライトのシミュレーション キャリブレーション アプローチを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Calibrating Urban Traffic Simulation from Sparse Road Observations via Genetic Optimization</p>
        <p class="orig-summary">Urban traffic simulation is a critical tool for infrastructure planning, including the placement of electric vehicle charging stations. However, realistic traffic simulation across many cities is hindered by two fundamental data limitations: detailed real-world traffic measurements are available for only a small fraction of road segments in most cities, and employment distribution data critical for modeling commuter traffic is rarely available at the resolution needed for simulation. This paper presents a genetic algorithm-based framework that directly addresses both limitations, calibrating urban traffic simulations from sparse road observations without requiring detailed job location data. Using the SUMO traffic simulation platform for Greensboro, North Carolina, our approach optimizes job distributions and gate-traffic parameters to align simulated traffic with a small sample of roads with known traffic-flow rates. We demonstrate that this approach produces simulated traffic that correlates well with real-world measurements, generalizes to road segments withheld from training, and produces job distributions that show promising qualitative agreement with census employment data despite never directly training on that employment data. This work demonstrates that realistic urban traffic simulation can be achieved from minimal real-world observations, offering a scalable and data-light approach to simulation calibration that reduces the barrier to deploying traffic models across diverse cities.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b061a77dc17e" data-article-url="https://arxiv.org/abs/2606.03829" data-article-title="BigFinanceBench: 金融調査エージェント向けのワークフローに基づいたベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03829" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03829" target="_blank" rel="noopener">BigFinanceBench: 金融調査エージェント向けのワークフローに基づいたベンチマーク</a></h3>
      <p class="summary">財務調査の回答は、他のアナリストがその回答がどのように作成されたか、つまりどの情報源が選択されたか、どの期間と会計定義が使用されたか、どのような仮定が行われたか、および計算がどのように実行されたかを監査できる場合にのみ、意思決定に関連します。既存の財務ベンチマークは主に、個別のサブスキルまたは最終的な回答を評価しており、監査可能な導出自体は十分に評価されていません。 BigFinanceBench は、オープンエンドの金融調査タスクの 928 項目の専門家が作成したベンチマークです。このベンチマークでは、各項目が、真実の参照回答と、導出を独立してチェック可能なステップに分解するポイント加重ルーブリックとが組み合わされます。 BigFinanceBench は、最終出力だけではなく完全な導出を評価するという点でワークフローに基づいています。このベンチマークは、36,241 のルーブリック ポイントにわたって、部分信用評価とアナリストのワークフロー全体での失敗の局所特定をサポートします。現在のフロンティアおよびオープンウェイト エージェント 10 社を評価したところ、かなりの余裕があることがわかりました。最高のシステムでもルーブリック スコアは 58.8% にすぎず、最終回答の精度は有用ですが、導出品質の損失が大きく、モデルの能力は財務ワークフロー全体で不均一に異なります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BigFinanceBench: A Workflow-Grounded Benchmark for Financial-Research Agents</p>
        <p class="orig-summary">Financial-research answers are decision-relevant only when another analyst can audit how they were produced: which source was chosen, which period and accounting definition were used, which assumptions were made, and how the calculation was performed. Existing finance benchmarks largely evaluate isolated subskills or final answers, leaving the auditable derivation itself under-measured. We introduce BigFinanceBench, a 928-item expert-authored benchmark of open-ended financial-research tasks in which each item pairs a ground-truth reference answer with a point-weighted rubric that decomposes the derivation into independently checkable steps. BigFinanceBench is workflow-grounded in that it evaluates the full derivation rather than only the final output. Across 36,241 rubric points, the benchmark supports partial-credit evaluation and localization of failures across the analyst workflow. Evaluating ten current frontier and open-weight agents, we find substantial headroom: the best system reaches only 58.8% rubric score, final-answer accuracy is a useful but lossy proxy for derivation quality, and model capability varies non-uniformly across financial workflows.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b49983565c1b" data-article-url="https://arxiv.org/abs/2606.03841" data-article-title="EvoDS: スキル学習とコンテキスト管理を備えた自己進化する自律型データ サイエンス エージェント" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03841" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03841" target="_blank" rel="noopener">EvoDS: スキル学習とコンテキスト管理を備えた自己進化する自律型データ サイエンス エージェント</a></h3>
      <p class="summary">大規模言語モデル (LLM) エージェントの最近の進歩により、自動データ サイエンスにおける有望な進歩が可能になりました。しかし、既存のアプローチは、静的なアクション セットと原則に基づいた長期的なコンテキスト管理の欠如によって根本的に制限されたままであり、タスク全体で再利用可能なエクスペリエンスを蓄積し、多段階の反復的なデータ サイエンス パイプラインで確実に動作する能力を妨げています。これらの課題に対処するために、エージェント強化学習を通じてスキルを拡張し、長期的なコンテキストを適応的に管理することを学習する、自己進化する自律型データ サイエンス エージェントである EvoDS を導入します。具体的には、EvoDS は 2 つの重要な戦略を導入しています。(1) 自律スキル取得 (ASA) メカニズム。エージェントが実行可能なスキルを合成、検証、再利用できるようにします。 (2) 適応コンテキスト圧縮 (ACC) 戦略。これは、コンテキスト管理を受動的切り捨てではなく、学習された制御問題として扱います。これらの戦略は 2 段階のマルチエージェント トレーニング スキーム内で調整され、EvoDS が時間の経過とともに自律的に改善できるようになります。理論的には、EvoDS の階層設計によりツール選択エラーが軽減され、その最適化目標が情報ボトルネックの原則と一致し、効率的なコンテキストの使用が保証されることが証明されています。経験的に、EvoDS は、トークン不足の障害を排除しながら、4 つの多様なベンチマークにわたって、最先端のオープンソース データ サイエンス エージェントよりも平均 28.9% 優れたパフォーマンスを示します。コードとデータは https://github.com/usail-hkust/EvoDS で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management</p>
        <p class="orig-summary">Recent progress in Large Language Model (LLM) agents has enabled promising advances in automated data science. However, existing approaches remain fundamentally limited by their static action sets and lack of principled long-horizon context management, hindering their ability to accumulate reusable experience across tasks and operate reliably in multi-stage, iterative data science pipelines. To address these challenges, we introduce EvoDS, a self-evolving autonomous data science agent that learns to expand its skills and adaptively managing long-term context through agentic reinforcement learning. Specifically, EvoDS introduces two key strategies: (1) Autonomous Skill Acquisition (ASA) mechanism, which enables agents to synthesize, validate, and reuse executable skills; and (2) Adaptive Context Compression (ACC) strategy, which treats context management as a learned control problem rather than passive truncation. These strategies are orchestrated within a two-stage multi-agent training scheme, enabling EvoDS to autonomously improve over time. Theoretically, we prove that EvoDS&#x27;s hierarchical design reduces tool-selection error, and its optimization objective aligns with an information bottleneck principle, ensuring efficient context use. Empirically, EvoDS outperforms state-of-the-art open-source data science agents by an average of 28.9% across four diverse benchmarks while eliminating out-of-token failures. Our code and data are available at https://github.com/usail-hkust/EvoDS.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dfbebb2b1392" data-article-url="https://arxiv.org/abs/2606.03858" data-article-title="PyraMathBench: 大規模言語モデルの数学的能力の評価と改善" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03858" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03858" target="_blank" rel="noopener">PyraMathBench: 大規模言語モデルの数学的能力の評価と改善</a></h3>
      <p class="summary">アプリケーション全体にわたる大規模言語モデル (LLM) の数学的機能の基礎として数値推論が極めて重要な役割を果たしているにもかかわらず、数値処理と数学的推論を統合して LLM を評価するベンチマークはほとんどなく、数学タスクにおける失敗の解釈可能性を妨げています。 PyraMathBench は、4 つの主要な認知的側面、14 のサブカテゴリ、および 2 つのモダリティにまたがる、7,404 の数学文章題から派生した 32,505 の質問を含む包括的な階層ベンチマークです。実験の結果、LLM のパフォーマンスは、不適切な数値計算と抽象的な数値質問の処理が不十分なため、著しく損なわれることが明らかになりました。これに対処するために、我々は、Smart Optimization &amp; Learning-based VErsatile module (SOLVE) と Interactive Relative Policy Optimization (IRPO) を提案します。これらは、効率的なツール呼び出し (ファジーマッチングと低品質通話拒否) を通じて LLM の数値数学的相乗効果を強化します。比較実験では、Qwen-2.5 が SOLVE および IRPO トレーニングにより 5.0 スコアの向上を達成したことが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PyraMathBench: Evaluating and Improving Mathematical Capability in Large Language Models</p>
        <p class="orig-summary">Despite the pivotal role of numerical reasoning as the cornerstone of mathematical capabilities in large language models (LLMs) across applications, few benchmarks evaluate LLMs by integrating numerical processing and mathematical reasoning, hindering the interpretability of failures in math tasks. We introduce PyraMathBench, a comprehensive hierarchical benchmark with 32,505 questions derived from 7,404 math word problems, spanning 4 key cognitive aspects, 14 subcategories, and 2 modalities. Experiments reveal that LLMs&#x27; performance is severely compromised by inadequate numerical computation and weak handling of abstract numerical questions. To address this, we propose the Smart Optimization &amp; Learning-based VErsatile module (SOLVE) and Interactive Relative Policy Optimization (IRPO), which enhance LLMs&#x27; numerical-mathematical synergy via efficient tool calls (fuzzy matching and low-quality call rejection). Comparative experiments show Qwen-2.5 achieves a 5.0 score improvement with SOLVE and IRPO training.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="35564aa7195d" data-article-url="https://arxiv.org/abs/2606.03883" data-article-title="大規模言語モデルの推論構造" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03883" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03883" target="_blank" rel="noopener">大規模言語モデルの推論構造</a></h3>
      <p class="summary">大規模推論モデル (LRM) は、多くの場合、最終回答の精度やトークン数などの指標を使用して評価されます。ただし、これらの指標のスコアが同じであっても、根本的に異なる推論構造が隠蔽される可能性があります。この制限に対処するために、論理パズルのスケーラブルな LRM ベンチマークと、非構造化トレースをクレームと依存関係の検証可能な推論グラフに変換するパイプラインを導入します。これにより、推論が、トポロジーを定量的に分析できる構造化された測定可能なオブジェクトに変わります。これに基づいて、モデルの論理フローがどの程度集中しているかを定量化する推論効率メトリックを定義します。オープンソース推論モデルに関する私たちの分析では、構造測定によってトークン数と精度が混同される動作を分離し、障害モードを診断し、パズルの難易度に応じて推論がどのようにスケールされるかを比較するための実用的なツールが提供されることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Reasoning Structure of Large Language Models</p>
        <p class="orig-summary">Large reasoning models (LRMs) are often evaluated using metrics such as final-answer accuracy or token count. However, identical scores on these metrics can hide fundamentally different reasoning structures. To address this limitation, we introduce a scalable LRM benchmark of logic puzzles and a pipeline that converts unstructured traces into verifiable reasoning graphs of claims and dependencies. This turns reasoning into a structured, measurable object whose topology can be quantitatively analyzed. Building on this, we define a reasoning efficiency metric that quantifies how concentrated the model&#x27;s logical flow is. Our analysis on open-source reasoning models shows that structural measurements separate behaviors that token count and accuracy conflate, providing a practical tool for diagnosing failure modes and comparing how reasoning scales with puzzle difficulty.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2514e06d3f28" data-article-url="https://arxiv.org/abs/2606.03906" data-article-title="scTranslation: 単一細胞マルチオミクスモダリティ翻訳の包括的なベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03906" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03906" target="_blank" rel="noopener">scTranslation: 単一細胞マルチオミクスモダリティ翻訳の包括的なベンチマーク</a></h3>
      <p class="summary">単一細胞における複数のオミクスモダリティを同時に測定することで、研究者は細胞の状態と制御機構をより包括的に理解できるようになります。しかし、高額な実験コスト、重大なノイズ、不完全なモダリティ カバレッジのため、近年、モダリティ変換のためのさまざまな計算手法が登場しています。翻訳モデルの開発にもかかわらず、データセット、評価指標、影響要因の観点から体系的なベンチマーク評価がまだ不足しています。これに対処するために、単一細胞マルチオミクスモダリティ翻訳タスクの包括的なベンチマークである scTranslation を紹介します。これには、多様な翻訳データセットが含まれ、最先端のモデルが統合され、包括的な評価指標が提供されます。さらに、特徴の選択、特徴の品質、少数ショット設定など、さまざまなシナリオの下でモデルのパフォーマンスを評価します。これらの要因はモデルのパフォーマンスに大きな影響を与えますが、これまで体系的に研究されたことはほとんどありませんでした。このベンチマークを活用して、私たちは現在の手法の大規模な研究を実施し、将来の開発の新たな可能性を開く洞察力に富んだ多くの発見を報告します。このベンチマークは、将来の研究を促進するためにオープンソース化されています。コードは https://github.com/Bunnybeibei/scTranslation で匿名で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">scTranslation: A Comprehensive Benchmark for Single-Cell Multi-Omics Modality Translation</p>
        <p class="orig-summary">Simultaneous measurement of multiple omics modalities in single cells enables researchers to gain a more comprehensive understanding of cellular states and regulatory mechanisms. However, due to high experimental costs, significant noise, and incomplete modality coverage, a variety of computational methods for modality translation have emerged in recent years. Despite the development of translation models, there is still a lack of systematic benchmark evaluation in terms of datasets, evaluation metrics, and influencing factors. To address this, we present scTranslation, a comprehensive benchmark for single-cell multi-omics modality translation tasks. It includes diverse translation datasets, integrates state-of-the-art models, and provides a comprehensive evaluation metrics. In addition, we assess model performance under different scenarios, such as feature selection, feature quality, and few-shot settings. These factors significantly affect model performance but have rarely been systematically studied before. Leveraging this benchmark, we conduct a large-scale study of current methods, report many insightful findings that open up new possibilities for future development. The benchmark is open-sourced to facilitate future research. The code is anonymously released at https://github.com/Bunnybeibei/scTranslation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="33857c1ce516" data-article-url="https://arxiv.org/abs/2606.03918" data-article-title="ヘッジベンチ: 財務上の推論に関する困難で現実的なタスクに関するエージェントのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03918" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03918" target="_blank" rel="noopener">ヘッジベンチ: 財務上の推論に関する困難で現実的なタスクに関するエージェントのベンチマーク</a></h3>
      <p class="summary">AI エージェントは、文書の取得、数式の計算、スプレッドシートの更新など、財務分析の機械的なタスクを処理できるようになってきています。より難しく、より価値のある課題は、専門アナリストの仕事を定義する自由形式の質問を通じて推論することです。既存のベンチマークはこの種の問題を捉えておらず、オープンエンド推論を評価しようとするベンチマークは、ノイズと循環性を導入するモデルで判断された出力に依存しています。私たちは Hedge-Bench 1.0 を紹介します。これは、関連する情報ソースを使用して作業するプロのヘッジファンド アナリストの明確な推論トレースに基づいた 102 の実際の実務タスクのベンチマークです。このアプローチにより、検証された専門家のステップに対して決定的なグレーディングが可能になります。フロンティア モデルとエージェントのベンチマーク スコアは 16\% 未満です。データセットと評価ハーネスは github.com/Trata-Inc/trata-hedge-bench で公開しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Hedge-Bench: Benchmarking Agents on Hard, Realistic Tasks Pertaining to Financial Reasoning</p>
        <p class="orig-summary">AI agents can increasingly handle the mechanical tasks of financial analysis: retrieving documents, calculating formulas, updating spreadsheets. The harder, more valuable challenge is reasoning through the open-ended questions that define expert Analyst work. Existing benchmarks do not capture this class of problem, and those that attempt to evaluate open-ended reasoning rely on model-judged outputs that introduce noise and circularity. We present Hedge-Bench 1.0: a benchmark of 102 actual, on-the-job tasks grounded in the explicit reasoning traces of professional hedge fund analysts working with relevant information sources. This approach enables deterministic grading against verified expert steps. Frontier models and agents score below 16\% on the benchmark. We publish the dataset and evaluation harness at github.com/Trata-Inc/trata-hedge-bench.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8d08a340ffb6" data-article-url="https://arxiv.org/abs/2606.03937" data-article-title="エントロピーだけでは不十分: ビジョンに基づいたトークン選択による視覚的推論のための効果的な強化学習のロックを解除する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03937" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03937" target="_blank" rel="noopener">エントロピーだけでは不十分: ビジョンに基づいたトークン選択による視覚的推論のための効果的な強化学習のロックを解除する</a></h3>
      <p class="summary">トークンレベルのエントロピーは、検証可能な報酬を伴うテキストのみの強化学習 (RLVR) における単位の割り当てに有効であると一般に認識されていますが、このメカニズムが視覚的推論に依然として適用されるかどうかは不明のままです。私たちの対照的な研究は、自然にエントロピーが低い視覚に敏感なトークンの省略により、視覚推論ではこのメカニズムが崩壊することを示しています。既存のマルチモーダル RL 手法は、視覚認識の重要性をますます認識していますが、体系的な視覚測定が欠けているか、トークンのエントロピーが主に意味論的探索を推進していることを見落としているため、正確な知覚基礎と意味論的推論を交互に配置するという固有の需要を満たすのに苦労しています。これに対処するために、原則的な乗算結合を介して視覚的感度とトークン エントロピーを明示的に統合する効果的な RL フレームワークである VEPO (ポリシー最適化のためのビジョン エントロピー トークン選択) を導入します。VEPO は、視覚的に根拠があり、同時に高度に情報を提供するトークンに勾配クレジットをリダイレクトします。広範な実験により、VEPO の優れたパフォーマンスが実証され、エントロピーのみのベースラインを 7B スケールで 2.28 ポイント、3B スケールで 3.15 ポイント上回りました。アブレーションは、私たちの方法の健全性をさらに実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Entropy Is Not Enough: Unlocking Effective Reinforcement Learning for Visual Reasoning via Vision-Anchored Token Selection</p>
        <p class="orig-summary">While token-level entropy is commonly recognized as effective for credit assignment in text-only reinforcement learning with verifiable rewards (RLVR), it remains unclear whether this mechanism still holds in visual reasoning. Our controlled study shows that this mechanism collapses in visual reasoning due to the omission of vision-sensitive tokens with naturally low entropy. Although existing multimodal RL methods increasingly acknowledge the importance of visual perception, they struggle to satisfy the inherent demand for interleaving precise perceptual grounding with semantic reasoning, either lacking systematic visual measurements or overlooking that token entropy primarily drives semantic exploration. To address this, we introduce VEPO (Vision-Entropy token-selection for Policy Optimization), an effective RL framework explicitly integrating visual sensitivity with token entropy via a principled multiplicative coupling, where VEPO redirects gradient credit toward tokens which are simultaneously visually grounded and highly informative. Extensive experiments demonstrate VEPO&#x27;s leading performance, significantly outperforming the entropy-only baseline by 2.28 points at 7B-scale and 3.15 points at 3B-scale. Ablations further substantiate the soundness of our method.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="04aa882e9a50" data-article-url="https://arxiv.org/abs/2606.03988" data-article-title="想像力の知覚トークンはマルチモーダル言語モデルの空間推論を強化します" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03988" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03988" target="_blank" rel="noopener">想像力の知覚トークンはマルチモーダル言語モデルの空間推論を強化します</a></h3>
      <p class="summary">ビジョン言語モデル (VLM) は多くのタスクに優れていますが、重要な情報が直接観察できない場合には空間推論に依然として苦労します。このような問題の多くは、目に見えない視点から何が見えるかを推測したり、遮蔽された空間を通る経路を追跡したり、部分的な観察を一貫した空間表現に統合したりするなど、想像力豊かな認識を必要とします。観察された入力との一貫性を保ちながら、代替の空間構成の下で VLM が知覚するものを外部化する中間的な知覚表現である想像的知覚トークン (IPT) を導入します。この機能を研究するために、透視図法取得 (PET)、パス トレーシング (PT)、およびマルチビュー カウンティング (MVC) という 3 つのタスクを定式化し、グラウンド トゥルースの想像力、回答、評価ベンチマークを含む約 20,000 例のデータセットを構築します。統合された VLM BAGEL をバックボーンとして使用することで、IPT 監視は空間推論を一貫して改善し、推論時に画像を生成しなくても、テキストによる思考連鎖トレーニングを上回ることがよくあります。 MVC では、IPT は精度を 3.4% 向上させ、PT 上の強力なクローズドソース モデルにより競争力のあるパフォーマンスを実現します。さらに、IPT とラベルのみの監視を組み合わせるとさらなる利益が得られる一方、テキストの思考連鎖はパフォーマンスを大幅に低下させる可能性があることがわかり、空間計算が言語を通じて強制される場合にはモダリティの不一致が示唆されます。全体として、IPT は、観察されていない空間構造について推論するための原則に基づいた監視信号を提供し、解釈可能な中間表現を生成しながら一般化を向上させます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models</p>
        <p class="orig-summary">Vision language models (VLMs) excel at many tasks but still struggle with spatial reasoning when critical information is not directly observable. Many such problems require imaginative perception: inferring what would be seen from an unseen viewpoint, tracing paths through occluded spaces, or integrating partial observations into a coherent spatial representation. We introduce Imaginative Perception Tokens (IPT), intermediate perceptual representations that externalize what a VLM would perceive under alternative spatial configurations while remaining consistent with the observed input. To study this capability, we formulate three tasks, Perspective Taking (PET), Path Tracing (PT), and Multiview Counting (MVC), and construct datasets of approximately 20K examples with ground truth imaginations, answers, and evaluation benchmarks. Using the unified VLM BAGEL as the backbone, IPT supervision consistently improves spatial reasoning and often outperforms textual chain of thought training, even without generating images at inference time. On MVC, IPT improves accuracy by 3.4% and achieves competitive performance with strong closed-source models on PT. We further find that combining IPT and label-only supervision yields additional gains, whereas textual chain of thought can substantially degrade performance, suggesting a modality mismatch when spatial computation is forced through language. Overall, IPT provides a principled supervision signal for reasoning about unobserved spatial structure, improving generalization while producing interpretable intermediate representations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6bba69f19f39" data-article-url="https://arxiv.org/abs/2603.23117" data-article-title="TRAP: 敵対的パッチによる VLA CoT Reasoning のハイジャック" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23117" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23117" target="_blank" rel="noopener">TRAP: 敵対的パッチによる VLA CoT Reasoning のハイジャック</a></h3>
      <p class="summary">思考連鎖 (CoT) 推論を統合することにより、ビジョン言語アクション (VLA) モデルは、特に一般化と解釈可能性を向上させることで、ロボット操作における強力な能力を実証しました。ただし、CoT ベースの推論メカニズムのセキュリティはほとんど調査されていないままです。この論文では、CoT 推論が、ユーザーの指示を変更することなく、標的を絞った行動ハイジャック (たとえば、ロボットにリンゴではなく誤ってナイフを人間に届けさせる) のための新しい攻撃ベクトルを導入することを示します。我々はまず、入力命令と意味的にずれている場合でも、CoT がアクション生成を強力に支配するという経験的証拠を提供します。この観察に基づいて、CoT 推論 VLA モデルに対する最初の標的型行動ハイジャック敵対攻撃である TRAP を提案します。 TRAP は、推論からアクションへの経路をターゲットにすることで、敵対的パッチ (テーブルの上に置かれたテーブルクロスなど) を使用して、中間の CoT 推論と下流のアクションを敵対者が定義した動作に向けます。異なる CoT 推論メカニズムにわたる 3 つの代表的な推論 VLA に関する広範な評価により、TRAP の有効性が実証されています。特に、現実世界の設定で紙に印刷してパッチを実装しました。私たちの調査結果は、VLA システムにおける CoT 推論を保護する緊急の必要性を浮き彫りにしています。プロジェクト ページは https://zhengxian-huang.github.io/TRAP-website/ で利用できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TRAP: Hijacking VLA CoT-Reasoning via Adversarial Patches</p>
        <p class="orig-summary">By integrating Chain-of-Thought (CoT) reasoning, Vision-Language-Action (VLA) models have demonstrated strong capabilities in robotic manipulation, particularly by improving generalization and interpretability. However, the security of CoT-based reasoning mechanisms remains largely unexplored. In this paper, we show that CoT reasoning introduces a novel attack vector for targeted behavior hijacking--for example, causing a robot to mistakenly deliver a knife to a person instead of an apple--without modifying the user&#x27;s instruction. We first provide empirical evidence that CoT strongly governs action generation, even when it is semantically misaligned with the input instructions. Building on this observation, we propose TRAP, the first targeted behavior-hijacking adversarial attack against CoT-reasoning VLA models. By targeting the reasoning-to-action pathway, TRAP uses an adversarial patch (e.g., a tablecloth placed on the table) to steer intermediate CoT reasoning and downstream actions toward adversary-defined behaviors. Extensive evaluations on three representative reasoning VLAs, spanning distinct CoT reasoning mechanisms, demonstrate the effectiveness of TRAP. Notably, we implemented the patch by printing it on paper in a real-world setting. Our findings highlight the urgent need to secure CoT reasoning in VLA systems. The project page is available at https://zhengxian-huang.github.io/TRAP-website/.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a40e598fcef8" data-article-url="https://arxiv.org/abs/2606.02581" data-article-title="RAG におけるコストを意識したクエリ ルーティング: 取得深さのトレードオフの実証分析" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02581" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02581" target="_blank" rel="noopener">RAG におけるコストを意識したクエリ ルーティング: 取得深さのトレードオフの実証分析</a></h3>
      <p class="summary">取得拡張生成 (RAG) は基本的な 3 方向の緊張に直面しています。つまり、より深く取得すると事実に基づく根拠が向上しますが、トークン コストとエンドツーエンドの遅延が増大します。静的取得構成では、異種クエリ ワークロード全体にわたるこの緊張を解決できません。単純な定義クエリは不要なコンテキストに予算を浪費し、複雑な分析プロンプトは浅い取得によって十分なサービスを受けられません。この論文では、\emph{戦略バンドル} の離散カタログから選択するクエリごとのルーティング フレームワークである \emph{Cost-Aware RAG} (CA-RAG) を紹介します。各カタログは、推定された事前品質と正規化されたペナルティを線形に結合するスカラー ユーティリティを最大化することで、取得深さ (取得不要の直接推論から上位 $k{=}10$ の高密度取得まで) と固定世代プロファイルを結合します。予測されるレイテンシと請求されたトークンの合計について。 CA-RAG は、FAISS 支援の高密度取得および OpenAI チャット/埋め込み API を使用して実装され、4 つのバンドルにわたる 28 クエリのベンチマークで評価されます。ルーターはすべてのバンドルを動的に実行し、同等の応答品質を維持しながら、常時大量の取得より \textbf{26\% 少ない請求トークン} と、常時直接推論より \textbf{34\% 低い平均レイテンシー} を実現します。クエリごとのデルタ分析により、節約が不均一で単純なクエリに集中していることが明らかになり、複雑さを意識したガードレールが導入されます。感度分析により、同じバンドル カタログが重み調整だけで複数のコスト、レイテンシ、品質の動作ポイントをサポートしていることが確認されます。すべての結果は、完全な再現性を実現するために、記録された CSV アーティファクトから直接生成されます。 CA-RAG は、コストを意識した LLM 導入のための透明で監査可能な基盤を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Cost-Aware Query Routing in RAG: Empirical Analysis of Retrieval Depth Tradeoffs</p>
        <p class="orig-summary">Retrieval-augmented generation (RAG) faces a fundamental three-way tension: deeper retrieval improves factual grounding but inflates token costs and end-to-end latency. Static retrieval configurations cannot resolve this tension across heterogeneous query workloads -- simple definitional queries waste budget on unnecessary context, while complex analytical prompts are underserved by shallow retrieval. This paper introduces \emph{Cost-Aware RAG} (CA-RAG), a per-query routing framework that selects from a discrete catalog of \emph{strategy bundles} -- each coupling a retrieval depth (from retrieval-free direct inference to top-$k{=}10$ dense retrieval) with a fixed generation profile -- by maximizing a scalar utility that linearly combines an estimated quality prior with normalized penalties for predicted latency and total billed tokens. CA-RAG is implemented with FAISS-backed dense retrieval and OpenAI chat/embedding APIs, and evaluated on a 28-query benchmark spanning four bundles. The router dynamically exercises all bundles, achieving \textbf{26\% fewer billed tokens} than always-heavy retrieval and \textbf{34\% lower mean latency} than always-direct inference while maintaining equivalent answer quality. Per-query delta analysis reveals that savings are non-uniform and concentrated in simpler queries, motivating complexity-aware guardrails. Sensitivity analysis confirms that the same bundle catalog supports multiple cost-latency-quality operating points through weight adjustment alone. All results are generated directly from logged CSV artifacts for full reproducibility. CA-RAG provides a transparent, auditable foundation for cost-conscious LLM deployments.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="64487a70c9d9" data-article-url="https://arxiv.org/abs/2606.02584" data-article-title="IdiomX イディオムの理解、検索、解釈のための多言語ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02584" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02584" target="_blank" rel="noopener">IdiomX イディオムの理解、検索、解釈のための多言語ベンチマーク</a></h3>
      <p class="summary">慣用表現は、その意味が非構成的で文脈に依存することが多く、言語間で調整することが難しいため、自然言語処理にとって依然として根強い課題となっています。既存のイディオム リソースは、多くの場合、規模、文脈の多様性、または多言語の範囲が制限されており、最新の言語モデルでの有用性が制限されています。 IdiomX は、イディオムの理解、検索、解釈のための大規模な多言語ベンチマークであり、語彙リソースの抽出、大規模な正規化、制御された大規模な言語モデルの強化、構造化検証を組み合わせた再現可能な多段階パイプラインを通じて構築されています。結果として得られるデータセットには、12,000 以上のイディオムにわたる 190,000 を超える文脈化された例が含まれており、英語、アラビア語、フランス語の意味表現、慣用的および文字通りの用法ラベル、および豊富な言語メタデータが整列して含まれています。このリソースに基づいて、イディオムの検出、文脈からイディオムへの検索、アラビア語から英語へのイディオムの検索、およびイディオムの解釈をカバーする統一された 4 つのタスクのベンチマークを定義し、比喩的な認識から意味論的な根拠と説明可能な意味の検索まで評価を拡張します。実験の結果、文脈変換モデルによってイディオム検出が大幅に向上し、ハイブリッド検索および再ランキング アーキテクチャによって単一言語および複数言語間の両方のイディオム検索が大幅に強化されることが示されました。結果はさらに、イディオム解釈が意味検索タスクとして効果的にモデル化され、補完的なベンチマーク次元として解釈可能性を導入できることを示しています。全体として、IdiomX は、検出から検索および意味解釈への進行として慣用言語を研究するためのスケーラブルなベンチマークを提供し、追加の言語や比喩的推論タスクに拡張可能なモジュール式フレームワークを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation</p>
        <p class="orig-summary">Idiomatic expressions remain a persistent challenge for natural language processing because their meanings are often non-compositional, context-dependent, and difficult to align across languages. Existing idiom resources are often limited in scale, contextual diversity, or multilingual coverage, restricting their utility for modern language models. We introduce IdiomX, a large-scale multilingual benchmark for idiom understanding, retrieval, and interpretation, constructed through a reproducible multi-stage pipeline combining lexical resource extraction, large-scale normalization, controlled large language model enrichment, and structured validation. The resulting dataset contains over 190K contextualized examples spanning 12K+ idioms, with aligned English, Arabic, and French semantic representations, idiomatic and literal usage labels, and rich linguistic metadata. Building on this resource, we define a unified four-task benchmark covering idiom detection, context-to-idiom retrieval, Arabic-to-English idiom retrieval, and idiom interpretation, extending evaluation from figurative recognition to semantic grounding and explainable meaning retrieval. Experiments show that contextual transformer models substantially improve idiom detection, while hybrid retrieval and reranking architectures significantly strengthen both monolingual and cross-lingual idiom retrieval. Results further demonstrate that idiom interpretation can be effectively modeled as a semantic retrieval task, introducing interpretability as a complementary benchmark dimension. Overall, IdiomX provides a scalable benchmark for studying idiomatic language as a progression from detection to retrieval and semantic interpretation, and offers a modular framework extensible to additional languages and figurative reasoning tasks</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="892af0bd42ac" data-article-url="https://arxiv.org/abs/2606.02588" data-article-title="Lean-GAP: 形式化された大学院代数問題のデータセット" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02588" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02588" target="_blank" rel="noopener">Lean-GAP: 形式化された大学院代数問題のデータセット</a></h3>
      <p class="summary">私たちは、Dummit と Foote の教科書 Abstract Algebra からの 430 の形式化された大学院レベルの代数問題である Lean-GAP (Lean-Graduate Agebra 問題) を紹介します。 PDF から LaTeX への前処理、Lean 4 への自動形式化、非公式と公式の対応の検証から構成されるスケーラブルなパイプラインを開発します。前処理と自動形式化の段階は大幅に自動化できますが、検証は依然として最も微妙で労働集約的なコンポーネントであり、人間による慎重な監視が必要であることがわかりました。私たちの貢献には、(i) 形式化された演習の構造化データセットの構築、(ii) 教科書数学を形式化するための体系的な方法論、および (iii) 形式化プロセスで繰り返し発生する課題の分析が含まれます。また、さまざまな自動形式化モデルのパフォーマンスを比較し、非形式的なステートメントを形式的な言語に変換する際の主要なボトルネックを明らかにします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Lean-GAP: A Dataset of Formalized Graduate Algebra Problems</p>
        <p class="orig-summary">We present Lean-GAP (Lean-Graduate Agebra Problems), 430 formalized graduate-level algebra problems from the textbook Abstract Algebra by Dummit and Foote. We develop a scalable pipeline consisting of PDF-to-LaTeX preprocessing, autoformalization into Lean 4, and verification of informal-formal correspondence. While the preprocessing and autoformalization stages can be largely automated, we find that verification remains the most subtle and labor-intensive component, requiring careful human oversight. Our contributions include (i) the construction of a structured dataset of formalized exercises, (ii) a systematic methodology for formalizing textbook mathematics, and (iii) an analysis of recurring challenges in the formalization process. We also compare the performance of different autoformalization models and highlight key bottlenecks in translating informal statements into formal language.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f8d957fa507" data-article-url="https://arxiv.org/abs/2606.02592" data-article-title="Sentinel-5P 衛星データを使用した都市の大気汚染物質の追跡" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02592" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02592" target="_blank" rel="noopener">Sentinel-5P 衛星データを使用した都市の大気汚染物質の追跡</a></h3>
      <p class="summary">都市の二酸化窒素($NO_2$)は燃焼関連の大気汚染の重要な指標であり、都市では強い空間的および時間的変動を示します。この研究は、エクアドルのグアヤス州上空のSentinel-5P/TROPOMIからの対流圏柱観測を使用して、都市の$NO_2$汚染を追跡するための衛星ベースの枠組みを提示する。この方法では、表面濃度を推定するのではなく、中央値と上部裾の百分位数 ($P_{90}$、$P_{95}$、$P_{99}$) を含む堅牢な分布指標を重視し、バックグラウンド条件とカントン規模での局地的な極端な汚染を特徴付けます。複数年の衛星観測が毎年集計され、教師なし K 平均法クラスタリングを使用して分析され、事前定義されたしきい値なしで特徴的な汚染状況が特定されます。結果は、高度に都市化された州は一貫して極端な$NO_2$値の上昇とより大きなばらつきを示す一方、都市化がそれほど進んでいない地域はより低い、より均質なパターンを示すことを示した。提案されたアプローチは、衛星観測のみを使用してデータ不足地域における都市の大気質を評価するための、解釈可能でスケーラブルなツールを提供します。実装は GitHub https://hvelesaca.github.io/sentinel-5P-clustering/ で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Tracking Urban Atmospheric Pollutants using Sentinel-5P Satellite Data</p>
        <p class="orig-summary">Urban nitrogen dioxide ($NO_2$) is a key indicator of combustion-related air pollution and exhibits strong spatial and temporal variability in cities. This study presents a satellite-based framework for tracking urban $NO_2$ pollution using tropospheric column observations from Sentinel-5P/TROPOMI over Guayas Province, Ecuador. Rather than estimating surface concentrations, the methodology emphasizes robust distributional metrics, including the median and upper-tail percentiles ($P_{90}$, $P_{95}$, and $P_{99}$), to characterize background conditions and localized pollution extremes at the canton scale. Multi-year satellite observations are aggregated annually and analyzed using unsupervised K-means clustering to identify characteristic pollution regimes without predefined thresholds. Results show that highly urbanized cantons consistently exhibit elevated extreme $NO_2$ values and greater variability, while less urbanized areas display lower and more homogeneous patterns. The proposed approach provides an interpretable and scalable tool for urban air-quality assessment in data-scarce regions using satellite observations alone. The implementation is publicly available on GitHub https://hvelesaca.github.io/sentinel-5P-clustering/.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ae3af20ef91c" data-article-url="https://arxiv.org/abs/2606.02604" data-article-title="断片化された ESG データからの監査可能な気候リスク インテリジェンス: スコープ 1 ～ 3 の検証のための決定論的なオーケストレーションと不均衡を認識した学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02604" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02604" target="_blank" rel="noopener">断片化された ESG データからの監査可能な気候リスク インテリジェンス: スコープ 1 ～ 3 の検証のための決定論的なオーケストレーションと不均衡を認識した学習</a></h3>
      <p class="summary">ESG と気候リスクのデータは、異種のスコープ 1、スコープ 2、スコープ 3 レポート環境全体で断片化されたままですが、従来の検証パイプラインには来歴を意識した監査可能性、隠れたドリフト検出、再現性重視のガバナンスが欠けています。この論文では、単一情報源のオーケストレーション、時間的異常検出、不均衡を認識したアンサンブル学習、監査可能な ESG 検証のための説明可能性指向のガバナンスを統合した、決定論的な気候リスク インテリジェンス フレームワークを提案します。オープンな再現性をサポートするために、私たちは、公的に報告されている GHG プロトコル、PCAF、および ISSB 標準の特性に対して調整された合成 ESG 検証ベンチマークを構築し、リリースします。この方法論には、時間ドリフト分析、SMOTE ベースのレア イベントの最適化、アンサンブル学習、来歴を意識したオーケストレーション、ガバナンス検査と監査の再構築のための TreeSHAP ベースの解釈可能性が組み込まれています。私たちは、統計的分類器、異常検出方法、時間的予測ベースライン、および分類メトリクス (リコール、F1、ROC AUC)、キャリブレーションメトリクス (ECE、Brier スコア)、および確定的なソースからエスカレーション来歴チェーンを再構築できるフラグ付き異常の割合を測定するガバナンス指向の監査トレース完全性メトリクスを使用して、しきい値ベースのシステムに対してフレームワークを評価します。結果は、一対の有意性検定を使用した層別 5 分割交差検証全体の平均値と標準偏差として報告されます。このフレームワークは、再現性、説明可能性、運用監査可能性をサポートする決定論的な気候リスク ガバナンス インフラストラクチャに向けて ESG レポートを再構築します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Auditable Climate Risk Intelligence from Fragmented ESG Data: Deterministic Orchestration and Imbalance-Aware Learning for Scope 1-3 Validation</p>
        <p class="orig-summary">ESG and climate risk data remain fragmented across heterogeneous Scope 1, Scope 2, and Scope 3 reporting environments, while conventional validation pipelines lack provenance aware auditability, hidden drift detection, and reproducibility oriented governance. This paper proposes a deterministic climate risk intelligence framework integrating single source of truth orchestration, temporal anomaly detection, imbalance aware ensemble learning, and explainability oriented governance for auditable ESG validation. To support open reproducibility, we construct and release a synthetic ESG validation benchmark calibrated against publicly reported characteristics of the GHG Protocol, PCAF, and ISSB standards. The methodology incorporates temporal drift analysis, SMOTE based rare event optimization, ensemble learning, provenance aware orchestration, and TreeSHAP based interpretability for governance inspection and audit reconstruction. We evaluate the framework against statistical classifiers, anomaly detection methods, temporal forecasting baselines, and a threshold based system using classification metrics (recall, F1, ROC AUC), calibration metrics (ECE, Brier score), and a governance oriented audit trace completeness metric measuring the fraction of flagged anomalies for which a deterministic source to escalation provenance chain can be reconstructed. Results are reported as mean and standard deviation across stratified five fold cross validation with paired significance testing. The framework reframes ESG reporting toward deterministic climate risk governance infrastructure supporting reproducibility, explainability, and operational auditability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4249bb78c0d" data-article-url="https://arxiv.org/abs/2606.02605" data-article-title="重度の狭窄分類のための ECG および血管造影表現のクロスモーダル対照学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02605" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02605" target="_blank" rel="noopener">重度の狭窄分類のための ECG および血管造影表現のクロスモーダル対照学習</a></h3>
      <p class="summary">冠動脈狭窄は一般的な心血管疾患であり、重篤な症例を未治療にすると心臓発作の重大なリスクが生じます。冠動脈（X 線）血管造影は依然として狭窄診断の標準ですが、侵襲的で時間とリソースを大量に消費するため、症状や事前の臨床検査に基づいて病気の可能性が高い患者にのみ実行されます。しかし、一部の患者、特に症状のない患者は診断されないままである可​​能性があります。迅速かつ安価で非侵襲的であるため、無症状の患者であっても日常的に取得される ECG から狭窄の兆候を検出できれば、早期診断をサポートできるでしょう。ただし、ECG では信頼できる狭窄固有の信号が特定されていないため、現在、ECG を狭窄リスク層別化に使用することはできません。これに対処するために、ECG から直接得られた特徴に基づいて患者を層別化できる事前トレーニング フレームワークである StenCE を導入しました。さまざまな狭窄重症度閾値と追加の ECG 疾患分類タスクにわたる評価により、さまざまな ECG エンコーダーにわたって一貫したパフォーマンスの向上が実証され、以前の研究を上回りました。得られたモデルは、ECG における狭窄診断用の信号の検出に成功し、重度の狭窄分類において高いパフォーマンスを達成した最初のモデルです。ソース コードは https://github.com/NikolaCenic/ecg-stenosis-cls で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Cross-Modal Contrastive Learning of ECG and Angiography Representations for Severe Stenosis Classification</p>
        <p class="orig-summary">Coronary artery stenosis is a common cardiovascular disease, with severe, untreated cases posing significant risks of heart attack. Although coronary (X-ray) angiograms remain the standard for stenosis diagnosis, they are invasive, time- and resource-intensive, and therefore only performed on patients with a high probability of disease based on symptoms and prior clinical tests. However, a subset of patients, especially those without symptoms, may remain undiagnosed. Detecting indications of stenosis from ECGs, which are fast, cheap, non-invasive, and thus routinely acquired even in asymptomatic patients, would support early diagnosis. However, as no reliable stenosis-specific signal has been identified in ECGs, they can not currently be used for stenosis risk stratification. To address this, we introduce StenCE, a pretraining framework, allowing stratification of patients based on features derived directly from ECGs. Evaluations across varying stenosis severity thresholds and additional ECG disease classification tasks demonstrate consistent performance improvements across different ECG encoders, outperforming previous work. The obtained models successfully detect signals for stenosis diagnosis in ECGs and are the first to achieve high performance in severe stenosis classification. The source code is available at https://github.com/NikolaCenic/ecg-stenosis-cls.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e26b6edd79d4" data-article-url="https://arxiv.org/abs/2606.02606" data-article-title="ReLoRA: 進化する LLM サービスの迅速な展開のための知識再利用の適応" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02606" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02606" target="_blank" rel="noopener">ReLoRA: 進化する LLM サービスの迅速な展開のための知識再利用の適応</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、継続的に進化するサービスとしてデプロイされることが増えており、基本モデルが頻繁に更新されると、以前にデプロイされたタスク固有の低ランク適応 (LoRA) アダプターが無効になる可能性があります。多数のダウンストリーム モデル サービスを管理するサービス プロバイダーにとって、更新された基本モデルごとに各 LoRA アダプターを最初から再トレーニングすることは計算量が法外であり、サービスの展開が遅れます。一方、より単純な代替策、つまり、更新された基本モデルに元の LoRA アダプタを単純に適用する方法では、アダプタとバックボーンの互換性がないため、サービス品質の低下につながることがよくあります。この問題に対処するために、タスクのパフォーマンスを維持または向上させながら、LLM サービスを進化させるためにサービス対応の LoRA アダプターを効率的に復元する、知識を再利用する再適応フレームワークである ReLoRA を提案します。具体的には、ReLoRA は 2 つの主要な最適化ステップで構成されます。 1) 適応型 LoRA 初期化はベイジアン最適化を活用し、以前にデプロイされたタスク アダプターとベース モデルの進化の両方からの情報を融合することで、互換性を意識した開始点を構築します。 2) スケジュールされた正則化を使用した微調整では、最初に強力な正則化によってアダプターが高品質の領域に急速に誘導され、次にタスク固有の調整のための緩和された正則化が続きます。この設計により、再適応のオーバーヘッドが削減され、迅速なサービス品質の回復が可能になります。広範な実験により、ReLoRA はベースラインと比較して、準備完了までの時間を最大 8.9$\times$ 短縮し、精度を最大 4.6\% 向上させることが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ReLoRA: Knowledge-Reusing Adaptation for Fast Rollout of Evolving LLM Services</p>
        <p class="orig-summary">Large Language Models (LLMs) are increasingly deployed as continuously evolving services, where frequent base-model updates may invalidate previously deployed task-specific Low-Rank Adaptation (LoRA) adapters. For service providers managing numerous downstream model services, retraining each LoRA adapter from scratch for every updated base model is computationally prohibitive and delays service rollout. Meanwhile, the simpler alternative, i.e., naively applying the original LoRA adapter to the updated base model, often leads to degraded service quality due to adapter-backbone incompatibility. To address this problem, we propose ReLoRA, a knowledge-reusing re-adaptation framework that efficiently restores service-ready LoRA adapters for evolving LLM services while preserving or improving task performance. Specifically, ReLoRA comprises two key optimization steps: 1) Adaptive LoRA initialization leverages Bayesian optimization to construct a compatibility-aware starting point by fusing information from both the previously deployed task adapter and the base model&#x27;s evolution; 2) Fine-tuning with scheduled regularization first rapidly steers the adapter to a high-quality region via strong regularization, followed by relaxed regularization for task-specific refinement. This design enables rapid service-quality recovery with reduced re-adaptation overhead. Extensive experiments demonstrate that ReLoRA reduces time-to-readiness by up to 8.9$\times$ and improves accuracy by up to 4.6\% compared to baselines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c5ef47a29198" data-article-url="https://arxiv.org/abs/2606.02607" data-article-title="ジオメトリを意識した表形式の拡散" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02607" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02607" target="_blank" rel="noopener">ジオメトリを意識した表形式の拡散</a></h3>
      <p class="summary">表形式の合成は、プライバシーを保護した共有と拡張にとって重要ですが、拡散モデルは列間の関係を把握するための暗黙的なメカニズムに依存しています。 Geometry-Aware Tabular Diffusion (GATD) を導入します。これは、列値の差から計算され、入力および補助ターゲットとして使用されるペアごとの角度と長さで表形式拡散デノイザーを強化します。当社の MLP インスタンス化は、平均で 3.5 分の 1 少ないパラメーター (分類タスクの場合は最大 25 倍) を使用しながら、最先端のベンチマーク パフォーマンスを達成します。10 個のデータセットで、8/10 のシェイプ、7/10 のトレンド、および 9/10 のダウンストリーム ユーティリティ (F1/RMSE) で優勝し、シェイプとトレンドのエラーを 27% と 20% 削減します。デフォルトの損失重みが GNN および Transformer デノイザーに転送され、27/30 の Shape と 25/30 のアーキテクチャ データセット セルの Trend が改善されます。一致したアブレーションは、(追加の入力や容量ではなく) 監視がゲインを駆動していることを示しています。これは、明示的な関係監視が表形式の拡散に対する移植可能な誘導バイアスであることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Geometry-Aware Tabular Diffusion</p>
        <p class="orig-summary">Tabular synthesis is critical for privacy-preserving sharing and augmentation, yet diffusion models rely on implicit mechanisms to capture inter-column relationships. We introduce Geometry-Aware Tabular Diffusion (GATD), which augments tabular diffusion denoisers with pairwise angles and lengths computed from column value differences and used as inputs and auxiliary targets. Our MLP instantiation achieves state-of-the-art benchmark performance while using 3.5x fewer parameters on average (up to 25x for classification tasks): on ten datasets, it wins 8/10 Shape, 7/10 Trend, and 9/10 downstream utility (F1/RMSE), reducing Shape and Trend error by 27% and 20%. Default loss weights transfer to GNN and Transformer denoisers, improving Shape on 27/30 and Trend on 25/30 architecture-dataset cells. A matched ablation shows supervision (not extra inputs or capacity) drives the gain. This shows explicit relational supervision is a portable inductive bias for tabular diffusion.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f685a707c7c4" data-article-url="https://arxiv.org/abs/2606.02609" data-article-title="より良いアクティベーションオラクルの構築" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02609" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02609" target="_blank" rel="noopener">より良いアクティベーションオラクルの構築</a></h3>
      <p class="summary">アクティベーション オラクル (AO) は、残留ストリームのアクティベーションを解釈するための有望な方法です。しかし、現在の AO は幻覚や曖昧さなどの重要な問題に直面しています。さらに、テキスト反転の交絡により評価が困難になります。この目的を達成するために、私たちは 4 つの方法で Activation Oracle (AO) トレーニング体制を改善します。それは、ポリシー ロールアウトに関するトレーニング、会話型データセットの改善、より多くのレイヤーへのフィード、および注入式の改善です。機能の向上はわずかですが、生活の質はかなり大幅に向上します。さらに、AObench と呼ばれる、AO 品質のための最初の包括的な評価スイートをオープンソースにしました。全体として、私たちの研究が、スケーラブルなエンドツーエンドの解釈可能性のパラダイムにおける AO やその他のモデルの改善に役立つ基礎を築くことを願っています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Building Better Activation Oracles</p>
        <p class="orig-summary">Activation Oracles (AOs) are promising methods for interpreting residual stream activations. However, current AOs face important issues, such as hallucinations and vagueness. Additionally, text-inversion confounds make them hard to evaluate. To this end, we improve the Activation Oracle (AO) training regime in four ways: training on on-policy rollouts, improving the conversational dataset, feeding more layers and an improvement to the injection formula. The capability improvements are marginal, but quality of life improvements are quite substantial. In addition, we open source the first comprehensive evaluation suite for AO quality, which we call AObench. Overall, we hope that our work sets a foundation that helps improve AOs and other models in the paradigm of scalable, end-to-end interpretability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5465cc9840f5" data-article-url="https://arxiv.org/abs/2606.02610" data-article-title="Samudra 2: 解像度を超えた海洋エミュレータのスケーリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02610" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02610" target="_blank" rel="noopener">Samudra 2: 解像度を超えた海洋エミュレータのスケーリング</a></h3>
      <p class="summary">海洋大循環モデル (OGCM) は気候科学にとって不可欠ですが、計算コストが高くつくため、アンサンブルのサイズが制限され、シナリオが強制されます。ニューラル エミュレーターは桁違いの高速化を約束しますが、既存の海洋エミュレーターは優れた空間解像度と複数年にわたる自己回帰ロールアウトを組み合わせていません。 Samudra は、数十年にわたる世界規模の展開を実現した初の自己回帰ニューラル海洋エミュレータであり、解像度は $1^\circ$ に制限されており、時間的変動の喪失である \emph{分散崩壊} と、速度パターンが深海のフィールドに漏れ出す \emph{インプリンティング アーティファクト} という 2 つの長期的な障害モードを示します。我々は、修正された ConvNeXt スタイルのブロックとブロック内部拡張係数の削減を備えたより広い U-N​​et バックボーンを導入する Samudra 2 を、予測誤差に応じて出力チャネルの重み付けを変更する動的損失とともに導入し、ゆっくりと進化する深海フィールドの勾配を強化します。 $1^\circ$ において、サムドラ 2 は海洋上層の全球平均気温 $R^2$ を 0.56 から 0.87 に上昇させ、深海の温度誤差をおよそ 7 分の 1 に減少させます。同じアーキテクチャは、約 8 年間の自己回帰ロールアウトにわたって $1/2^\circ$ および $1/4^\circ$ まで拡張され、メソスケールの渦と鋭い西側境界流を回復します。単一の GPU 上で実行される Samudra 2 は、海面投影、海洋熱の吸収、気候変動の研究のための大規模なアンサンブルを可能にします。コード、ドキュメント、ベンチマーク リソースは https://openathena.ai/Ocean_Emulator/ で提供されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Samudra 2: Scaling Ocean Emulators across Resolutions</p>
        <p class="orig-summary">Ocean general circulation models (OGCMs) are essential to climate science but computationally expensive, limiting ensemble size and forcing scenarios. Neural emulators promise orders-of-magnitude speedups, yet existing ocean emulators have not combined fine spatial resolution with multi-year autoregressive rollouts. Samudra, the first autoregressive neural ocean emulator to produce multi-decade global rollouts, is limited to $1^\circ$ resolution and exhibits two long-horizon failure modes: \emph{variance collapse}, the loss of temporal variability, and \emph{imprinting artifacts}, in which velocity patterns leak into deep-ocean fields. We present Samudra 2, which introduces a wider U-Net backbone with modified ConvNeXt-style blocks and a reduced block-internal expansion factor, together with a dynamic loss that reweights output channels according to their prediction errors, strengthening gradients for slow-evolving deep-ocean fields. At $1^\circ$, Samudra 2 increases upper-ocean global-mean temperature $R^2$ from 0.56 to 0.87 and reduces deep-ocean temperature error by roughly sevenfold. The same architecture scales to $1/2^\circ$ and $1/4^\circ$ over approximately 8-year autoregressive rollouts, recovering mesoscale eddies and sharp western boundary currents. Running on a single GPU, Samudra 2 enables larger ensembles for sea-level projections, ocean heat uptake, and climate variability studies. We provide code, documentation, and benchmark resources at https://openathena.ai/Ocean_Emulator/.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a2c8a880c6d7" data-article-url="https://arxiv.org/abs/2606.02614" data-article-title="マージン プレイ: ブラジルの赤道マージンにおける公共政策分析のためのマルチエージェント システム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02614" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02614" target="_blank" rel="noopener">マージン プレイ: ブラジルの赤道マージンにおける公共政策分析のためのマルチエージェント システム</a></h3>
      <p class="summary">ブラジル赤道マージン（BEM）はブラジルの次の海洋石油フロンティアであり、フォス・ド・アマゾナス盆地で2026年に操業が開始される予定です。その資産は主にマランハオ州と財政的にも領土的にも関係している。マランハオ州は連邦内で最もHDIが低い州（0.676、IBGE 2022）である。これは政策上の中心的な疑問を提起します。BEM 探査はどのような条件下でマランハオにとって正味のプラスの外部性を生み出すのでしょうか?問題は本質的に複数の主体に関わるものである。連邦政府は歳入とエネルギーの安全保障を求めている。国家は憲法上の王権割り当てに基づいて地域福祉を追求する。経営者はリスクの下で利益を最大化します。 ANP と IBAMA は相反する権限を持っています。そしてアマゾンのコミュニティは金銭収入よりも領土と環境のベクトルを優先します。我々は、ブラジルの経験的校正と古典的な経済文献に基づいてこれらの緊張をシミュレートするマルチエージェント強化学習 (MARL) システムである Margin Play を紹介します。 BRO-MARL でトレーニングされた CTDE パラダイムに基づいて 6 つのエージェントを実装します。 6 つのシナリオにわたる 60,000 のエピソードの結果は、答えが制度体制に依存することを示しています。参照ベースラインの下では、福祉の利得はわずかです (Waval 約 1.68)。一方、MA-Prospero 構成では、デルタ W = +17.5% およびデルタ Rcom = +21.3% が得られ、環境負荷は低くなります (Eamb = 0.048 対 0.076)。根本的な問題は生産と福祉のトレードオフではなく、探査に関連した公共政策体制の選択にある。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Margin Play: A Multi-Agent System For Public Policy Analysis In The Brazilian Equatorial Margin</p>
        <p class="orig-summary">The Brazilian Equatorial Margin (BEM) is Brazil&#x27;s next offshore oil frontier, with operations expected to begin in 2026 in the Foz do Amazonas basin. Its assets are fiscally and territorially linked primarily to Maranhao -- the state with the lowest HDI in the Federation (0.676, IBGE 2022). This raises the central policy question: under what conditions does BEM exploration generate net positive externalities for Maranhao? The problem is intrinsically multi-agent: the Federal Government seeks revenue and energy security; the state seeks regional welfare under constitutional royalty earmarking; the operator maximizes profit under risk; ANP and IBAMA hold conflicting mandates; and Amazonian communities prioritize territorial and environmental vectors over monetary income. We present Margin Play, a Multi-Agent Reinforcement Learning (MARL) system simulating these tensions under Brazilian empirical calibration and classical economic literature. It implements six agents under the CTDE paradigm, trained with BRO-MARL. Results from 60,000 episodes across six scenarios indicate the answer is conditional on the institutional regime: under the reference baseline, the welfare gain is marginal (Waval approx. 1.68), whereas the MA-Prospero configuration yields Delta W = +17.5% and Delta Rcom = +21.3%, with a lower environmental liability (Eamb = 0.048 vs. 0.076). The fundamental problem is not a trade-off between production and welfare, but the choice of public policy regime linked to exploration.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="910a43401367" data-article-url="https://arxiv.org/abs/2606.02615" data-article-title="FSA-GRPO: 聴覚 LLM に少数ショットのデモンストレーションを使用するよう指導する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02615" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02615" target="_blank" rel="noopener">FSA-GRPO: 聴覚 LLM に少数ショットのデモンストレーションを使用するよう指導する</a></h3>
      <p class="summary">少数ショットのプロンプトは、聴覚の大規模言語モデルを子供の音声認識などの低リソースのタスクに適応させる効果的な方法を提供します。ただし、ほとんどの聴覚大規模言語モデルは、このデモンストレーション条件付き形式で推論を実行するように明示的にトレーニングされていないため、数回のプロンプトから恩恵を受けることができる範囲が限られています。この制限に対処するために、Few-Shot Aware GRPO (FSA-GRPO) を導入します。これは、特別に設計された報酬を使用して、モデルが少数ショットのデモンストレーションを活用することを奨励することで、少数ショットの適応能力を強化する、RL ベースのポストトレーニング レシピです。特に、高リソースの成人 ASR データのみを使用したトレーニングにより、モデルの一般的な少数ショット適応能力が向上し、子供の音声認識だけでなく、音声翻訳や音声理解においても向上が見られます。データの選択と補助的な報酬の重み付けをさらに研究して、効果的なトレーニング レシピを特定します。私たちの実験では、ドメイン内データが利用できない場合、またはトレーニングに使用できない場合、関連するドメイン外データを直接調整するよりも FSA-GRPO の方が効果的であることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demonstrations</p>
        <p class="orig-summary">Few-shot prompting provides an effective way to adapt auditory large language models to low-resource tasks such as children&#x27;s speech recognition. However, most auditory large language models are not explicitly trained to perform inference in this demonstration-conditioned format, limiting the extent to which they can benefit from few-shot prompting. To address this limitation, we introduce Few-Shot Aware GRPO (FSA-GRPO), an RL-based post-training recipe that uses a specially designed reward to encourage the model to leverage few-shot demonstrations, thereby strengthening its few-shot adaptation ability. Notably, training with only high-resource adult ASR data improves the model&#x27;s general few-shot adaptation ability, yielding gains not only in children&#x27;s speech recognition but also in speech translation and audio understanding. We further study data selection and auxiliary reward weighting to identify an effective training recipe. Our experiments show that when in-domain data are unavailable or cannot be used for training, FSA-GRPO is more effective than direct tuning on related out-of-domain data.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0ecb29335389" data-article-url="https://arxiv.org/abs/2606.02618" data-article-title="校正された偏差を備えた閉ループ分子設計" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02618" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02618" target="_blank" rel="noopener">校正された偏差を備えた閉ループ分子設計</a></h3>
      <p class="summary">我々は、継続的に更新される信念状態グラフと再帰的な計画後実行ループを結合するエージェントである Cognitive Loop via In-Situ Optimization (CLIO) を紹介します。その結果、質的に異なるものに貢献できる推論エージェントが生まれます。これを \emph{校正された服従} と呼びます。これは、自身のツールや仮定が失敗したときを認識し、それに応じて戦略を適応させ、実験の修正を導くメカニズム的な仮説を生成する能力です。私たちは、水性有機レドックスフロー電池 (AORFB) ネゴライトを設計するための閉ループ人間 AI キャンペーンで CLIO をテストしました。CLIO は、合成、特性評価、設計選択の検討を行った化学者との緊密な連携のもと、提案と解釈を主導しました。 3 ラウンドにわたって 17 の候補者の中から、CLIO はトップのホスホネート候補者に絞り込みました。特性評価により、酸化還元電位が文献ベースラインより 130 mV 向上していることが確認されました。その後、特性評価により、電気化学的可逆性が予想外に低いことが明らかになりました。これは、特性予測因子がフラグを立てなかった回帰です。 CLIO は競合するメカニズムの仮説を生成し、識別診断に優先順位を付け、ホスホン酸イオンとカリウムイオンのペアリングの失敗を追跡し、スルホン酸塩の代替薬を処方しました。得られた化合物は、大幅に改善された電気化学的可逆性を示し、酸化還元電位の 90 mV の改善を維持し、設計、製造、テスト、再設計のループを閉じました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Closed-Loop Molecular Design with Calibrated Deference</p>
        <p class="orig-summary">We present Cognitive Loop via In-Situ Optimization (CLIO), an agent that couples a continuously-updated belief-state graph with a recursive plan-then-act loop. The result is a reasoning agent that can contribute something qualitatively different, which we term \emph{calibrated deference}: the capacity to recognize when its own tools or assumptions are failing, to adapt its strategy in response, and to generate mechanistic hypotheses that guide experimental revision. We tested CLIO in a closed-loop human-AI campaign to design an aqueous organic redox flow battery (AORFB) negolyte, with CLIO leading proposal and interpretation in close partnership with chemists who synthesized, characterized, and weighed in on design choices. Across 17 candidates over three rounds, CLIO converged on a top phosphonate candidate; characterization confirmed a 130~mV improvement in redox potential over the literature baseline. Characterization then revealed unexpectedly poor electrochemical reversibility -- a regression no property predictor had flagged. CLIO generated competing mechanistic hypotheses, prioritized discriminating diagnostics, traced the failure to phosphonate-potassium ion pairing, and prescribed a sulfonate replacement. The resulting compound showed substantially improved electrochemical reversibility and maintained a 90~mV improvement in redox potential, closing the design-make-test-redesign loop.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6e38e1157c85" data-article-url="https://arxiv.org/abs/2606.02623" data-article-title="物理学に基づいたニューラル PDE ソルバーの誘導バイアスとしての振動状態空間モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02623" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02623" target="_blank" rel="noopener">物理学に基づいたニューラル PDE ソルバーの誘導バイアスとしての振動状態空間モデル</a></h3>
      <p class="summary">時間依存偏微分方程式 (PDE) を解くことは、計算科学および計算工学における重要な問題です。物理情報に基づくニューラル ネットワーク (PINN) は、支配方程式から PDE 解を学習します。ただし、時間的進化を正確に捉えることは依然として困難です。最近のシーケンス モデル ベースのアプローチは、汎用シーケンス モデルを使用して時間発展をパラメータ化します。このモデルは、時間依存性を捕捉しますが、PDE 解の構造化されたダイナミクスを明示的にエンコードしません。さらに、シーケンスの長さと解像度によってメモリ要件が不利に拡大する可能性があり、大規模または高次元の設定での適用が制限されます。この研究では、PDE 解のモーダル構造を表現するために振動状態空間ダイナミクスを組み込んだ PINN アプローチを導入します。提案された方法は、空間における PDE を認識したスペクトル基底とともに、線形発振器ベースの時間発展を活用します。この設計により、閉じた形式の空間微分と境界条件の一貫した適用が可能になります。この方法は、最大 100 空間次元の場合を含む、順偏微分方程式、逆偏微分方程式問題、および高次元偏微分方程式問題で評価されます。結果は、最近のシーケンス モデル ベースの PINN アプローチと比較して、精度が向上し、メモリ使用量が削減されたことを示しています。全体として、この研究は、構造化された動的事前分布をニューラル PDE ソルバーの時間進化に組み込む利点を強調し、より物理的に整合した、計算効率の高い PINN アーキテクチャを設計することを提案しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Oscillatory State-Space Models as Inductive Biases for Physics-Informed Neural PDE Solvers</p>
        <p class="orig-summary">Solving time-dependent partial differential equations (PDEs) is an important problem in computational science and engineering. Physics-informed neural networks (PINNs) learn PDE solutions from governing equations. However, accurately capturing temporal evolution remains challenging. Recent sequence-model-based approaches parameterize time evolution using general-purpose sequence models, which capture temporal dependencies but do not explicitly encode the structured dynamics of PDE solutions. In addition, their memory requirements can scale unfavorably with sequence length and resolution, limiting applicability in large-scale or high-dimensional settings. This work introduces a PINN approach that incorporates oscillatory state-space dynamics to represent the modal structure of PDE solutions. The proposed method leverages a linear-oscillator-based temporal evolution, together with a PDE-aware spectral basis in space. This design enables closed-form spatial differentiation and consistent enforcement of boundary conditions. The method is evaluated on forward, inverse, and high-dimensional PDE problems, including cases up to 100 spatial dimensions. The results show improved accuracy and reduced memory usage compared to recent sequence-model-based PINN approaches. Overall, this work highlights the benefits of incorporating structured dynamical priors into the temporal evolution of neural PDE solvers and suggests designing more physics-aligned and computationally efficient PINN architectures.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="77ed5c0e44f5" data-article-url="https://arxiv.org/abs/2606.02624" data-article-title="TadA-Bench: 薬剤タンパク質工学に向けた将来の発見のための 100 万種類のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02624" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02624" target="_blank" rel="noopener">TadA-Bench: 薬剤タンパク質工学に向けた将来の発見のための 100 万種類のベンチマーク</a></h3>
      <p class="summary">科学的発見のための AI はエージェント時代に突入しており、タンパク質工学システムは単に静的な測定に適合するだけでなく、将来のウェットラボ実験を優先することが期待されています。薬剤タンパク質工学に向けた将来のラウンドの発見に向けて、31 回の TadA 指向進化ラウンドからの 100 万バリアントのウェットラボ リプレイ ベンチマークである TadA-Bench を紹介します。 TadA-Bench は、キャンペーンの時系列を保存し、固定データのリプレイ タスクを定義します。つまり、初期の実験ラウンドが与えられた場合、モデルは後のラウンドでのみ出現するバリアントをランク付けします。整列した DNA、RNA、およびタンパク質のビューを提供し、グラフベースのラベル統合パイプラインである Seq2Graph を使用して、ノイズの多い濃縮測定を一貫したクロスラウンド活性ラベルに調整します。ランダム分割コントロールは強力な補間を示しますが、将来のラウンドのランキングと有限予算の候補者の選択ははるかに弱いです。制御された分析は、進化の範囲が局所的なデータ密度よりも有益であることを示唆しており、TadA-Bench を薬剤タンパク質工学に向けた将来の発見のための再現可能なウェットラボ再生基質として位置付けています。データとコードはHugging FaceとGitHubで公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TadA-Bench: A Million-Variant Benchmark for Future-Round Discovery Toward Agentic Protein Engineering</p>
        <p class="orig-summary">AI for scientific discovery is entering an agentic era, where protein-engineering systems are expected to prioritize future wet-lab experiments rather than merely fit static measurements. We introduce TadA-Bench, a million-variant wet-lab replay benchmark from 31 TadA directed-evolution rounds for future-round discovery toward agentic protein engineering. TadA-Bench preserves the campaign chronology and defines a fixed-data replay task: given earlier experimental rounds, models rank variants that appear only in later rounds. It provides aligned DNA, RNA, and protein views, and uses Seq2Graph, a graph-based label-unification pipeline, to reconcile noisy enrichment measurements into consistent cross-round activity labels. Random-split controls show strong interpolation, but future-round ranking and finite-budget candidate selection are much weaker. Controlled analyses suggest that evolutionary coverage is more informative than local data density, positioning TadA-Bench as a reproducible wet-lab replay substrate for future-round discovery toward agentic protein engineering; the data and code are released on Hugging Face and GitHub.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d117e105b85b" data-article-url="https://arxiv.org/abs/2606.02625" data-article-title="DXA 由来の骨格表現型と股関節骨折リスク: バックドア調整された因果分析" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02625" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02625" target="_blank" rel="noopener">DXA 由来の骨格表現型と股関節骨折リスク: バックドア調整された因果分析</a></h3>
      <p class="summary">目的: 事前に指定された交絡因子調整を使用して、二重エネルギー X 線吸光光度法 (DXA) 由来の股関節骨格表現型を股関節骨折リスクと比較し、バックドア調整された平均治療効果 (ATE) によってランク付けされた表現型がリスク層別化を改善するかどうかを評価する。方法: リンクされた健康記録、股関節 DXA 由来の骨格測定値、および事前に指定された共変量を使用して、21,098 人の英国バイオバンク参加者を分析しました。股関節関連領域にわたる骨塩量 (BMC)、骨塩量 (BMD)、および T スコアにわたる 16 の表現型が評価されました。交絡因子の選択は、事前に指定された有向非巡回グラフ (DAG) によってガイドされました。バックドア調整された ATE は、標準偏差 (SD) 増加ごとの絶対リスク差スケールで推定されました。効果の不均一性は大腿骨全体の BMD について評価され、ATE の大きさによってランク付けされた表現型と組み合わせた臨床変数を使用して下流予測が評価されました。結果: 21,098 人の参加者のうち、115 人が股関節骨折を患っていました。 16 の表現型すべてで、SD 増加当たりのバックドア調整後の ATE は負の値を示しました。最大のATEは大腿骨総BMCと大腿骨BMDで観察され、それぞれのリスク差は-0.0047で、これはSDの表現型値が高いほど参加者1,000人当たり股関節骨折が約4.7少ないことに相当する。大腿骨総BMDの条件効果は、高齢の参加者とBMIの低い参加者の間でより強かった。予測では、臨床変数と ATE でランク付けされた上位 11 の表現型は、大腿骨頸部 BMD の FRAX よりも高い AUC (0.842 対 0.709) を達成し、より高い感度 (0.748 対 0.443) と同様の特異性 (0.793 対 0.777) を達成しました。結論: DXA 由来の股関節骨格表現型は、バックドア調整された ATE において異なりました。表現型レベルの因果関係評価は、リスク階層化のための有益な DXA 尺度を特定するのに役立つ可能性があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DXA-Derived Skeletal Phenotypes and Hip Fracture Risk: A Backdoor-Adjusted Causal Analysis</p>
        <p class="orig-summary">Purpose: To compare dual-energy X-ray absorptiometry (DXA)-derived hip skeletal phenotypes in relation to hip fracture risk using prespecified confounder adjustment and to assess whether phenotypes ranked by their backdoor-adjusted average treatment effects (ATEs) improve risk stratification. Methods: We analyzed 21,098 UK Biobank participants with linked health records, hip DXA-derived skeletal measures, and prespecified covariates. Sixteen phenotypes spanning bone mineral content (BMC), bone mineral density (BMD), and T-score across hip-related regions were evaluated. Confounder selection was guided by a prespecified directed acyclic graph (DAG). Backdoor-adjusted ATEs were estimated on the absolute risk-difference scale per standard deviation (SD) increase. Effect heterogeneity was evaluated for total femur BMD, and downstream prediction was assessed using clinical variables combined with phenotypes ranked by ATE magnitude. Results: Among 21,098 participants, 115 had hip fractures. All 16 phenotypes showed negative backdoor-adjusted ATEs per SD increase. The largest ATEs were observed for total femur BMC and total femur BMD, each with a risk difference of -0.0047, corresponding to approximately 4.7 fewer hip fractures per 1,000 participants per SD higher phenotype value. Conditional effects of total femur BMD were stronger among older participants and those with lower BMI. In prediction, clinical variables plus the top 11 ATE-ranked phenotypes achieved higher AUC than FRAX with femoral neck BMD (0.842 vs. 0.709), with higher sensitivity (0.748 vs. 0.443) and similar specificity (0.793 vs. 0.777). Conclusion: DXA-derived hip skeletal phenotypes differed in their backdoor-adjusted ATEs. Phenotype-level causal evaluation may help identify informative DXA measures for risk stratification.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="90231914fc11" data-article-url="https://arxiv.org/abs/2606.02629" data-article-title="階層モチーフベースのマルチモーダルタンパク質埋め込みによるタンパク質間相互作用予測の強化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02629" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02629" target="_blank" rel="noopener">階層モチーフベースのマルチモーダルタンパク質埋め込みによるタンパク質間相互作用予測の強化</a></h3>
      <p class="summary">タンパク質間相互作用 (PPI) は、多くの生物学的プロセスに不可欠です。しかし、既存の PPI 予測アプローチには 2 つの大きな制限があります。1 つはタンパク質の階層構造、特に PPI を決定的に制御するメソスケールのモチーフを見落としていること、そして配列、構造、および機能モダリティを効果的に統合できないことです。これらの制限に対処するために、我々は、3 つのスケールにわたってボトムアップのマルチモーダル方式で PPI 埋め込みを構築する、PPI 予測用の階層モチーフベースのマルチモーダルタンパク質エンコーダーである MMM-PPI を提案します。マイクロスケールでは、3 つのモーダル残差特徴をエンコードします。メソスケールでは、新しい多峰性モチーフエンコーダーが残基を空間情報に基づいたモチーフ埋め込みに集約します。マクロスケールでは、マルチモーダルタンパク質エンコーダーは、モチーフの重要性とモーダル間の相関を共同モデリングすることにより、モチーフをタンパク質の埋め込みに統合します。事前トレーニングされたエンコーダーは、大規模な PPI 予測に既製で使用できます。複数の PPI データセットに対する広範な実験により、MMM-PPI が、特に困難なデータ分割や限られたデータ シナリオの下で、最先端のマルチラベル PPI 予測モデルよりも優れたパフォーマンスを発揮することが示されています。コードは https://github.com/yzf-code/MMM-PPI にあります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Enhancing Protein-Protein Interaction Prediction with Hierarchical Motif-based Multimodal Protein Embedding</p>
        <p class="orig-summary">Protein-protein interactions (PPIs) are essential for many biological processes. However, existing PPI prediction approaches suffer from two major limitations: they overlook the hierarchical organization of proteins, particularly meso-scale motifs that critically regulate PPIs, and fail to effectively integrate sequence, structure, and function modalities. To address these limitations, we propose MMM-PPI, a Hierarchical Motif-based Multi-Modal protein Encoder for PPI Prediction that constructs PPI embeddings in a bottom-up multi-modal manner across three scales. At the micro-scale, we encode three modal residue features; at the meso-scale, a novel multimodal motif encoder aggregates residues into spatially-informed motif embeddings; at the macro-scale, a multimodal protein encoder integrates motifs into protein embeddings by jointly modeling motif importance and inter-modal correlations. The pre-trained encoder can be used off-the-shelf for large-scale PPI prediction. Extensive experiments on multiple PPI datasets show that MMM-PPI outperforms state-of-the-art multi-label PPI prediction models, particularly under challenging data partitions and limited data scenarios. Codes are in https://github.com/yzf-code/MMM-PPI.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8a8c4c23a6d7" data-article-url="https://arxiv.org/abs/2606.02630" data-article-title="MultiTurnPSB: 医療 AI の安全のためのマルチターン脱獄攻撃と dClassifier ベースの防御の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02630" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02630" target="_blank" rel="noopener">MultiTurnPSB: 医療 AI の安全のためのマルチターン脱獄攻撃と dClassifier ベースの防御の評価</a></h3>
      <p class="summary">患者向けの医療チャットボットは一般に 1 回のプロンプトで評価されますが、実際のユーザーは拒否後に押し返し、緊急性を高め、権限を発動します。 PatientSafetyBench の 4 ターン敵対的拡張機能である MultiTurnPSB を導入し、固定テンプレート攻撃、テンプレート適応型攻撃、およびライブ敵対的攻撃の下で GPT-4.1-mini を評価します。実攻撃を受けると、危険な反応は 4 ターン目までに 35% から 80% 近くまで上昇します。同じ敵の下では、GPT-4.1-mini と Claude Sonnet 4.5 はベースラインでは統計的に区別がつきませんが、ターン 4 までに 19 倍の差に広がり、この差は 1 ターンの評価では見えません。私たちは 4 つの劣化軌跡の特徴を特徴付け、ほとんどの壊滅的な障害の原因となる 2 要素の攻撃公式を特定します。軽量の入力側分類子により、精度が大幅に低下したにもかかわらず、ターン 4 の安全でない応答が 52 パーセント ポイント減少しましたが、良性のクエリでの 45% の誤報率が主な展開上の制約となっています。方法論的な発見も明らかになった。クロード・ソネットは、明示的なレッドチームの枠組みにもかかわらず、後半ターンの会話の半分以上で敵対的なメッセージを生成することを拒否し、安全トレーニングが攻撃者の役割に一般化する可能性があることを示唆している。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MultiTurnPSB: Evaluating Multi-Turn Jailbreak Attacks an dClassifier-Based Defenses for Medical AI Safety</p>
        <p class="orig-summary">Patient-facing medical chatbots are commonly evaluated on single-turn prompts, yet real users push back after refusals, add urgency, and invoke authority. We introduce MultiTurnPSB, a four-turn adversarial extension of PatientSafetyBench, and evaluate GPT-4.1-mini under fixed template, template-adaptive, and live adversarial attacks. Unsafe responses rise from 35% to nearly 80% by Turn 4 under live attack. Under the same adversary, GPT-4.1-mini and Claude Sonnet 4.5 are statistically indistinguishable at baseline but diverge to a 19x gap by Turn 4, a difference invisible to single-turn evaluation. We characterize four degradation trajectory signatures and identify a two-element attack formula responsible for most catastrophic failures. A lightweight input-side classifier reduces Turn 4 unsafe responses by 52 percentage points despite severe accuracy degradation, but the 45% false alarm rate on benign queries is the primary deployment constraint. A methodological finding also emerges: Claude Sonnet refused to generate adversarial messages in over half of late-turn conversations despite explicit red team framing, suggesting safety training may generalize to the attacker role.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a3167a9ec1b" data-article-url="https://arxiv.org/abs/2606.02631" data-article-title="トークナイザーとしてのウェーブレット: 自然信号の共有ウェーブレット トークン スキーマに関する暫定結果" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02631" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02631" target="_blank" rel="noopener">トークナイザーとしてのウェーブレット: 自然信号の共有ウェーブレット トークン スキーマに関する暫定結果</a></h3>
      <p class="summary">この論文では、オーディオ、画像、およびビデオが、個別のモダリティ固有の潜在グリッドに依存するのではなく、共通のウェーブレット トークン スキーマを共有できるかどうかを研究します。これは、1 レベルの Haar DWT/IDWT フロントエンド、共有係数トークン レイアウト、オプションの構造メタデータ、軽量モダリティ値アダプター、および共有トークン単位のエンコーダー/デコーダー トランクを中心に構築された予備的な連続トークン モデルを導入します。音声コマンド、EuroSAT RGB、および DAVIS 2017 データでは、高密度共有モデルは 39.92 dB オーディオ、29.37 dB イメージ、23.93 dB ビデオ PSNR に達します。連続的な潜在的なスカラー バジェットの下での一致レート スイープは、視覚的な向上が潜在的な容量だけによって説明されないことを示し、また、追加的なメタデータの埋め込みが普遍的な改善源ではないことも示しています。最後に、固定レートのエネルギー選択により、強力なノンパラメトリック ベースラインが提供されます。energy_global は、均一な選択よりも平均 PSNR を、圧縮されたキープ レシオの下でオーディオで 16.73 dB、画像で 16.90 dB、ビデオで 15.86 dB 改善します。マスクされたスパース トレーニングは、50% の高密度トークンで 34.45 dB のビデオ PSNR に達します。その結果は、統一されたウェーブレット トークン スキーマとスパース トークン インターフェイスをサポートしていますが、普遍的な離散語彙の確立には至っていません。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Wavelet as Tokenizer: Preliminary Results on a Shared Wavelet Token Schema for Natural Signals</p>
        <p class="orig-summary">This paper studies whether audio, images, and video can share a common wavelet token schema rather than relying on separate modality-specific latent grids. It introduces a preliminary continuous-token model built around a one-level Haar DWT/IDWT frontend, a shared coefficient-token layout, optional structural metadata, lightweight modality value adapters, and a shared token-wise encoder-decoder trunk. On Speech Commands, EuroSAT RGB, and DAVIS 2017 data, a dense shared model reaches 39.92 dB audio, 29.37 dB image, and 23.93 dB video PSNR. A matched-rate sweep under continuous latent scalar budgets indicates that the visual gains are not explained solely by latent capacity, while also showing that additive metadata embeddings are not a universal source of improvement. Finally, fixed-rate energy selection provides a strong non-parametric baseline: energy_global improves average PSNR over uniform selection by 16.73 dB for audio, 16.90 dB for images, and 15.86 dB for video under compressed keep ratios. Masked sparse training reaches 34.45 dB video PSNR with 50% of dense tokens. The results support a unified wavelet token schema and sparse token interface, while stopping short of establishing a universal discrete vocabulary.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5da863b0ed54" data-article-url="https://arxiv.org/abs/2606.02632" data-article-title="Position: Prioritize Identifying Structure, Not Complex Models, for Scientific Discovery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02632" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02632" target="_blank" rel="noopener">Position: Prioritize Identifying Structure, Not Complex Models, for Scientific Discovery</a></h3>
      <p class="summary">Modern Machine Learning (ML) and Artificial Intelligence (AI) models, especially large language models (LLMs), are increasingly used to gen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d9373e797924" data-article-url="https://arxiv.org/abs/2606.02634" data-article-title="Echo-POSED: Geometric Self-Distillation for Echocardiography Guidance" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02634" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02634" target="_blank" rel="noopener">Echo-POSED: Geometric Self-Distillation for Echocardiography Guidance</a></h3>
      <p class="summary">We introduce Echo-POSED, a self-supervised framework for real-time transthoracic echocardiography (TTE) guidance that recommends probe adju…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0547c8a245d6" data-article-url="https://arxiv.org/abs/2606.02636" data-article-title="Too Much of a Good Thing: When sim2real Efforts Impede Policy Learning (And What to Do About It)" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02636" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02636" target="_blank" rel="noopener">Too Much of a Good Thing: When sim2real Efforts Impede Policy Learning (And What to Do About It)</a></h3>
      <p class="summary">While sim2real efforts are necessary for effective policy transfer to hardware, there is such a thing as too much of a good thing. We argue…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b027fa087b41" data-article-url="https://arxiv.org/abs/2606.02638" data-article-title="SegTune: Structured and Fine-Grained Control for Song Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02638" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02638" target="_blank" rel="noopener">SegTune: Structured and Fine-Grained Control for Song Generation</a></h3>
      <p class="summary">Recent advances in neural song generation have enabled high-quality synthesis from lyrics and global textual prompts. However, most systems…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e7f53e4585ee" data-article-url="https://arxiv.org/abs/2606.02639" data-article-title="Sparse-View Lung Nodule Volumetry from Digitally Reconstructed Radiographs via AReT: Anatomy-Regularized TensoRF" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02639" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02639" target="_blank" rel="noopener">Sparse-View Lung Nodule Volumetry from Digitally Reconstructed Radiographs via AReT: Anatomy-Regularized TensoRF</a></h3>
      <p class="summary">We identify and resolve a previously unreported failure mode in TensoRF when applied to X-ray attenuation fields: the default density shift…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="56f32f46de5e" data-article-url="https://arxiv.org/abs/2606.02640" data-article-title="D-Judge: Disrupting Multi-Turn Jailbreaks using Semantics-Preserving Output Rewriting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02640" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02640" target="_blank" rel="noopener">D-Judge: Disrupting Multi-Turn Jailbreaks using Semantics-Preserving Output Rewriting</a></h3>
      <p class="summary">Multi-turn jailbreak attacks pose a growing threat to large language model (LLM) safety because they exploit feedback from auxiliary judge…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="391ecefee7e1" data-article-url="https://arxiv.org/abs/2606.02641" data-article-title="CARVE: Certified Affordable Repair of Vetoed Maneuvers via Envelopes for Interactive Driving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02641" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02641" target="_blank" rel="noopener">CARVE: Certified Affordable Repair of Vetoed Maneuvers via Envelopes for Interactive Driving</a></h3>
      <p class="summary">Interactive driving exposes a failure mode that is easy to miss in rule-aware autonomous-driving stacks: a hard-rule margin can be negative…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="17cd8e0cf69d" data-article-url="https://arxiv.org/abs/2606.02642" data-article-title="SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02642" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02642" target="_blank" rel="noopener">SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models</a></h3>
      <p class="summary">Despite the success of audio-visual large-language models (LLMs), they can produce plausible but ungrounded outputs, termed hallucination.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9b1df82276f3" data-article-url="https://arxiv.org/abs/2606.02643" data-article-title="Inference Cost Attacks for Retrieval-Augmented Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02643" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02643" target="_blank" rel="noopener">Inference Cost Attacks for Retrieval-Augmented Large Language Models</a></h3>
      <p class="summary">Retrieval-Augmented Generation (RAG)-enhanced LLM systems, while powerful, introduce substantial inference costs due to the inclusion of an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9320aeaf33ce" data-article-url="https://arxiv.org/abs/2606.02644" data-article-title="A New Framework for Cybersecurity Refusals in AI Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02644" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02644" target="_blank" rel="noopener">A New Framework for Cybersecurity Refusals in AI Agents</a></h3>
      <p class="summary">Agentic scaffolds have dramatically improved LLM performance on complex, long-horizon tasks, yielding both broad benefits and amplified ris…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="da5d3786eb35" data-article-url="https://arxiv.org/abs/2606.02645" data-article-title="Target Updates May Stabilize Linear Q-Learning: Periodic and Soft Dynamics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02645" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02645" target="_blank" rel="noopener">Target Updates May Stabilize Linear Q-Learning: Periodic and Soft Dynamics</a></h3>
      <p class="summary">Periodic target updates in Q-learning and soft target updates in actor-critic methods are empirically well established stabilization mechan…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="21d7bd8e3a0a" data-article-url="https://arxiv.org/abs/2606.02646" data-article-title="The Ringelmann Effect in Multi-Agent LLM Systems: A Scaling Law for Effective Team Size" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02646" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02646" target="_blank" rel="noopener">The Ringelmann Effect in Multi-Agent LLM Systems: A Scaling Law for Effective Team Size</a></h3>
      <p class="summary">Inference-time multi-agent LLM scaling lacks a shared unit: counting nominal agents conflates cost with independent evidence. We derive a t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7aee372774ae" data-article-url="https://arxiv.org/abs/2606.02659" data-article-title="CL-DMDF:Dynamic Multimodal Data Fusion Model Based on Contrastive Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02659" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02659" target="_blank" rel="noopener">CL-DMDF:Dynamic Multimodal Data Fusion Model Based on Contrastive Learning</a></h3>
      <p class="summary">Multimodal data fusion involves integrating and analyzing information from multiple modalities to uncover latent correlations and complemen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e3d33828414b" data-article-url="https://arxiv.org/abs/2606.02661" data-article-title="Learning to Refine: Spectral-Decoupled Iterative Refinement Framework for Precipitation Nowcasting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02661" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02661" target="_blank" rel="noopener">Learning to Refine: Spectral-Decoupled Iterative Refinement Framework for Precipitation Nowcasting</a></h3>
      <p class="summary">Accurate precipitation nowcasting is vital for disaster mitigation, but deep learning methods face a key trade-off: regression models produ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0fd410b6d072" data-article-url="https://arxiv.org/abs/2606.02662" data-article-title="Improvise, Adapt, Overcome: An On-The-Fly Multifidelity Algorithm for Efficient Machine Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02662" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02662" target="_blank" rel="noopener">Improvise, Adapt, Overcome: An On-The-Fly Multifidelity Algorithm for Efficient Machine Learning</a></h3>
      <p class="summary">Machine learning has accelerated quantum chemistry but is hindered by the prohibitive cost of generating high fidelity training data. Multi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d91f4829e33e" data-article-url="https://arxiv.org/abs/2606.02663" data-article-title="AdaWeather: Adaptively Mixing Probabilistic Weather Forecasts with Logarithmic Regret" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02663" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02663" target="_blank" rel="noopener">AdaWeather: Adaptively Mixing Probabilistic Weather Forecasts with Logarithmic Regret</a></h3>
      <p class="summary">Recent advances in machine learning have produced probabilistic weather forecasting models comparable to state-of-the-art numerical weather…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="914ac75ef1f8" data-article-url="https://arxiv.org/abs/2606.02670" data-article-title="Anomalies in Multivariate Time Series Benchmarks Are Mostly Univariate" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02670" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02670" target="_blank" rel="noopener">Anomalies in Multivariate Time Series Benchmarks Are Mostly Univariate</a></h3>
      <p class="summary">Many recent multivariate time series anomaly detection (MT-SAD) models incorporate cross-channel modeling, under the implicit assumption th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e6e09655ea45" data-article-url="https://arxiv.org/abs/2606.02671" data-article-title="Aligning Data-Driven Predictors with Allocation: A Decision-Focused Approach to Survival Analysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02671" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02671" target="_blank" rel="noopener">Aligning Data-Driven Predictors with Allocation: A Decision-Focused Approach to Survival Analysis</a></h3>
      <p class="summary">Machine learning predictors have become essential tools for guiding automated decision making. However, a major misalignment persists: pred…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9d69495a3715" data-article-url="https://arxiv.org/abs/2606.02684" data-article-title="Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02684" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02684" target="_blank" rel="noopener">Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation</a></h3>
      <p class="summary">On-Policy distillation (OPD) in large language models is shifting from full-trace KL supervision toward more selective training paradigms.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="14cc891398ee" data-article-url="https://arxiv.org/abs/2606.02724" data-article-title="AVTrack: Audio-Visual Tracking in Human-centric Complex Scenes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02724" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02724" target="_blank" rel="noopener">AVTrack: Audio-Visual Tracking in Human-centric Complex Scenes</a></h3>
      <p class="summary">Audio-visual speaker tracking aims to localize and track active speakers by leveraging auditory and visual cues, enabling fine-grained, hum…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f0de8581e7cf" data-article-url="https://arxiv.org/abs/2606.02735" data-article-title="See Less, Specify More: Visual Evidence Budgets for Generalizable VLAs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02735" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02735" target="_blank" rel="noopener">See Less, Specify More: Visual Evidence Budgets for Generalizable VLAs</a></h3>
      <p class="summary">Generalization remains a central bottleneck for vision-language-action (VLA) models: under distractors, appearance shifts, and semantically…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="19865179b68b" data-article-url="https://arxiv.org/abs/2606.02737" data-article-title="Attention Calibration for Position-Fair Dense Information Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02737" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02737" target="_blank" rel="noopener">Attention Calibration for Position-Fair Dense Information Retrieval</a></h3>
      <p class="summary">Dense retrieval models exhibit positional bias: retrieval effectiveness degrades when relevant information appears later in a passage (Zeng…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0f3f0868041" data-article-url="https://arxiv.org/abs/2606.02739" data-article-title="EntangleCodec: A Unified Discrete Audio Tokenizer via Semantic-Acoustic Entanglement" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02739" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02739" target="_blank" rel="noopener">EntangleCodec: A Unified Discrete Audio Tokenizer via Semantic-Acoustic Entanglement</a></h3>
      <p class="summary">Audio tokenizers serve as the discrete interface between continuous audio and Audio Language Models (ALMs), but existing tokenizers often s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="20e139a7047f" data-article-url="https://arxiv.org/abs/2606.02747" data-article-title="Plan2Map: A Multimodal Benchmark for Document-Grounded Geospatial Boundary Reconstruction from Planning Records" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02747" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02747" target="_blank" rel="noopener">Plan2Map: A Multimodal Benchmark for Document-Grounded Geospatial Boundary Reconstruction from Planning Records</a></h3>
      <p class="summary">Planning records define restrictions over geographic areas, but their source documents often provide only indirect spatial evidence rather…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="abdab006d36b" data-article-url="https://arxiv.org/abs/2606.02753" data-article-title="MetaWorld: Scaling Multi-Agent Video World Model from Single-view Video Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02753" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02753" target="_blank" rel="noopener">MetaWorld: Scaling Multi-Agent Video World Model from Single-view Video Data</a></h3>
      <p class="summary">Video world models are a foundational generative technology for embodied AI and the Metaverse, yet existing approaches are inherently limit…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="122530f4e933" data-article-url="https://arxiv.org/abs/2606.02755" data-article-title="Acceptance-Test-Driven Evaluation Protocols for Business-Centric LLM Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02755" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02755" target="_blank" rel="noopener">Acceptance-Test-Driven Evaluation Protocols for Business-Centric LLM Systems</a></h3>
      <p class="summary">Large language model (LLM) applications are increasingly expected to satisfy deterministic institutional requirements while relying on prob…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="be7b8f92e3e2" data-article-url="https://arxiv.org/abs/2606.02765" data-article-title="Representational Capacity: Geometric Limits on Feature Representation in Transformer Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02765" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02765" target="_blank" rel="noopener">Representational Capacity: Geometric Limits on Feature Representation in Transformer Language Models</a></h3>
      <p class="summary">Model dimension ($d_{model}$) is a fundamental hyperparameter in transformer language models, yet its role in setting the geometric limits…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="992c47da2395" data-article-url="https://arxiv.org/abs/2606.02781" data-article-title="CRAM-ER: Error-Resilient Spintronic Computational Random Access Memory for Scalable In-Memory Computation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02781" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02781" target="_blank" rel="noopener">CRAM-ER: Error-Resilient Spintronic Computational Random Access Memory for Scalable In-Memory Computation</a></h3>
      <p class="summary">Deep neural networks (DNNs) have achieved state-of-the-art performance across diverse domains. However, typical Von Neumann compute paradig…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="53673799b9f5" data-article-url="https://arxiv.org/abs/2606.02800" data-article-title="Cosmos 3: Omnimodal World Models for Physical AI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02800" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02800" target="_blank" rel="noopener">Cosmos 3: Omnimodal World Models for Physical AI</a></h3>
      <p class="summary">We introduce Cosmos 3, a family of omnimodal world models designed to jointly process and generate language, image, video, audio, and actio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="28e1613307fd" data-article-url="https://arxiv.org/abs/2606.02814" data-article-title="Do Neural Retrievers Prefer Certain Documents? Evidence of Learned Relevance Priors" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02814" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02814" target="_blank" rel="noopener">Do Neural Retrievers Prefer Certain Documents? Evidence of Learned Relevance Priors</a></h3>
      <p class="summary">Neural retrievers are trained to estimate query-document relevance from annotated query-document pairs. Yet annotation protocols may not pu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="225af9216d24" data-article-url="https://arxiv.org/abs/2606.02822" data-article-title="Which Defense Closes Which Threat? Attributing OWASP-LLM-Top-10 Coverage and Its Brittleness Under Paraphrasing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02822" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02822" target="_blank" rel="noopener">Which Defense Closes Which Threat? Attributing OWASP-LLM-Top-10 Coverage and Its Brittleness Under Paraphrasing</a></h3>
      <p class="summary">Production LLM applications stack several defense families -- refusal-phrase filters, token-budget controls, model allowlists, rate limits,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d08491eec4ae" data-article-url="https://arxiv.org/abs/2606.02834" data-article-title="Large Byte Model: Teaching Language Models About Compiled Code" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02834" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02834" target="_blank" rel="noopener">Large Byte Model: Teaching Language Models About Compiled Code</a></h3>
      <p class="summary">Malware analysis starts with the raw bytes of an executable program, and tools to &quot;lift&quot; these to higher-level representations, such as ass…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6e1e5f051317" data-article-url="https://arxiv.org/abs/2606.02837" data-article-title="Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02837" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02837" target="_blank" rel="noopener">Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling</a></h3>
      <p class="summary">Accurate translation from Natural Language to First-Order Logic (NL-to-FOL) underpins neurosymbolic AI systems and Natural Language Inferen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c070f3c8d194" data-article-url="https://arxiv.org/abs/2606.02857" data-article-title="GRZO: Group-Relative Zeroth-Order Optimization for Large Language Model Fine-Tuning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02857" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02857" target="_blank" rel="noopener">GRZO: Group-Relative Zeroth-Order Optimization for Large Language Model Fine-Tuning</a></h3>
      <p class="summary">Zeroth-order (ZO) optimization is a memory-efficient alternative to backpropagation for fine-tuning large language models, but its deployme…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ebea41be91db" data-article-url="https://arxiv.org/abs/2606.02859" data-article-title="Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02859" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02859" target="_blank" rel="noopener">Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions</a></h3>
      <p class="summary">How can a population of agents self-orchestrate and self-adapt into stronger collective intelligence without centralized control? Inspired…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a57ffbf5523a" data-article-url="https://arxiv.org/abs/2606.02860" data-article-title="Forgetting is Not Erasure: Recovering Latent Knowledge via Transport Keys" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02860" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02860" target="_blank" rel="noopener">Forgetting is Not Erasure: Recovering Latent Knowledge via Transport Keys</a></h3>
      <p class="summary">Catastrophic forgetting is often framed as a representational problem: after sequential training, a model appears to lose the features that…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="da3799bd19d3" data-article-url="https://arxiv.org/abs/2606.02867" data-article-title="The Epi-LLM Framework: probing LLM behavioral priors through epidemiological agent-based models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02867" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02867" target="_blank" rel="noopener">The Epi-LLM Framework: probing LLM behavioral priors through epidemiological agent-based models</a></h3>
      <p class="summary">Human behaviour during epidemics affects infectious disease dynamics, but quantifying this remains deeply challenging. Here we introduce th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d8d85d1ab33e" data-article-url="https://arxiv.org/abs/2606.02871" data-article-title="Adaptive Latent Agentic Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02871" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02871" target="_blank" rel="noopener">Adaptive Latent Agentic Reasoning</a></h3>
      <p class="summary">Large reasoning models improve performance by generating extended chain-of-thought (CoT) reasoning, but this behavior becomes inefficient w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3b6816a0e7b3" data-article-url="https://arxiv.org/abs/2606.02883" data-article-title="LLM-Assisted Reranking to Operationalize Nuanced Objectives in Recommender Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02883" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02883" target="_blank" rel="noopener">LLM-Assisted Reranking to Operationalize Nuanced Objectives in Recommender Systems</a></h3>
      <p class="summary">Recommender systems have grown from content-organization tools into sophisticated systems that shape daily behavior. By controlling what we…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="55acf9c39bb0" data-article-url="https://arxiv.org/abs/2606.02884" data-article-title="Are we really tilting? The mechanics of reward guidance in flow and diffusion models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02884" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02884" target="_blank" rel="noopener">Are we really tilting? The mechanics of reward guidance in flow and diffusion models</a></h3>
      <p class="summary">Reward guidance algorithms steer a learned generative process toward the reward-tilted measure at inference time. While empirically powerfu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="76e1d2629fa6" data-article-url="https://arxiv.org/abs/2606.02886" data-article-title="Scalable Uncertainty Quantification for Extreme Weather Forecasting via Empirical Neural Tangent Kernels" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02886" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02886" target="_blank" rel="noopener">Scalable Uncertainty Quantification for Extreme Weather Forecasting via Empirical Neural Tangent Kernels</a></h3>
      <p class="summary">Deep learning weather models now match numerical weather prediction accuracy while running orders of magnitude faster, but produce determin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bf87f3de4dcb" data-article-url="https://arxiv.org/abs/2606.02907" data-article-title="Linear Probes Detect Task Format, Not Reasoning Mode in Language Model Hidden States" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02907" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02907" target="_blank" rel="noopener">Linear Probes Detect Task Format, Not Reasoning Mode in Language Model Hidden States</a></h3>
      <p class="summary">Linear probing of large language model (LLM) hidden states is widely used to claim that models learn distinct representations for different…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2708615b0ce5" data-article-url="https://arxiv.org/abs/2606.02908" data-article-title="WRIT: Write-Read Intensive Trajectory Synthesis for Multi-Turn User-Facing Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02908" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02908" target="_blank" rel="noopener">WRIT: Write-Read Intensive Trajectory Synthesis for Multi-Turn User-Facing Agents</a></h3>
      <p class="summary">Multi-turn user-facing agents must infer user intent from incomplete requests, collect missing information through dialogue and tools, and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d117785c76c3" data-article-url="https://arxiv.org/abs/2606.02951" data-article-title="SCOPE: Real-Time Natural Language Camera Agent at the Edge" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02951" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02951" target="_blank" rel="noopener">SCOPE: Real-Time Natural Language Camera Agent at the Edge</a></h3>
      <p class="summary">Deploying language-driven agents in robotics requires evaluations that reflect real-world task demands: natural-language instructions with…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5d0069c43a67" data-article-url="https://arxiv.org/abs/2606.02955" data-article-title="Fast-dLLM++: Fr\&#x27;{e}chet Profile Decoding for Faster Diffusion LLM Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02955" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02955" target="_blank" rel="noopener">Fast-dLLM++: Fr\&#x27;{e}chet Profile Decoding for Faster Diffusion LLM Inference</a></h3>
      <p class="summary">Diffusion large language models promise parallel token generation, yet inference remains bottlenecked by deciding which masked tokens can b…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3143f4cea6f2" data-article-url="https://arxiv.org/abs/2606.02958" data-article-title="Echelon: Auditable Aggregate-Only Language-Model Adaptation Across Privacy Boundaries" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02958" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02958" target="_blank" rel="noopener">Echelon: Auditable Aggregate-Only Language-Model Adaptation Across Privacy Boundaries</a></h3>
      <p class="summary">Cross-organization language-model adaptation increasingly faces hard governance constraints: in many deployments, device-level model state-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ed5f1f4b3209" data-article-url="https://arxiv.org/abs/2606.02962" data-article-title="Hand Trajectory Fusion for Egocentric Natural Language Query Grounding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02962" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02962" target="_blank" rel="noopener">Hand Trajectory Fusion for Egocentric Natural Language Query Grounding</a></h3>
      <p class="summary">Egocentric Natural Language Query (NLQ) grounding asks a model to localize, in a long first-person video, the temporal interval that answer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="285ea9d8d750" data-article-url="https://arxiv.org/abs/2606.02967" data-article-title="Glass Box at Orbit: A Constitutional AI Verification Framework for Trustworthy Autonomous CubeSat Intelligence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02967" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02967" target="_blank" rel="noopener">Glass Box at Orbit: A Constitutional AI Verification Framework for Trustworthy Autonomous CubeSat Intelligence</a></h3>
      <p class="summary">The space industry is quietly building toward something nobody has fully reckoned with: orbital data centers running thousands of autonomou…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="53345b7f2fef" data-article-url="https://arxiv.org/abs/2606.02979" data-article-title="Towards Compact Autonomous Driving Perception with Balanced Learning and Multi-sensor Fusion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02979" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02979" target="_blank" rel="noopener">Towards Compact Autonomous Driving Perception with Balanced Learning and Multi-sensor Fusion</a></h3>
      <p class="summary">We present a novel compact deep multi-task learning model to handle various autonomous driving perception tasks in one forward pass. The mo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f951165743d1" data-article-url="https://arxiv.org/abs/2606.02991" data-article-title="Pretraining Language Models on Historical Text" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02991" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02991" target="_blank" rel="noopener">Pretraining Language Models on Historical Text</a></h3>
      <p class="summary">We introduce TypewriterLM, a 7.24B History language model (LM) trained exclusively on English text predating 1913. Developing History LMs r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2e62aac9072b" data-article-url="https://arxiv.org/abs/2606.02995" data-article-title="Patcher: Post-Hoc Patching of Backdoored Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02995" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02995" target="_blank" rel="noopener">Patcher: Post-Hoc Patching of Backdoored Large Language Models</a></h3>
      <p class="summary">Large language models remain vulnerable to jailbreak backdoor attacks, where adversaries poison safety alignment data to embed hidden trigg…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6cb40951aa21" data-article-url="https://arxiv.org/abs/2606.03002" data-article-title="How Quantization Changes Interpretable Features: A Sparse Autoencoder Analysis of Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03002" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03002" target="_blank" rel="noopener">How Quantization Changes Interpretable Features: A Sparse Autoencoder Analysis of Language Models</a></h3>
      <p class="summary">Quantization is a standard path to deploying large language models, and a quantized model is typically judged acceptable when its perplexit…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="35be93e0116f" data-article-url="https://arxiv.org/abs/2606.03003" data-article-title="Exact equivariance, kept through training, buys zero-shot generalisation across the symmetry group" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03003" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03003" target="_blank" rel="noopener">Exact equivariance, kept through training, buys zero-shot generalisation across the symmetry group</a></h3>
      <p class="summary">A latent world model built from an equivariant encoder $E$ and an equivariant predictor $f$ inherits a provable symmetry of its training lo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="696d84a32403" data-article-url="https://arxiv.org/abs/2606.03005" data-article-title="MUSE: A Unified Agentic Harness for MLLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03005" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03005" target="_blank" rel="noopener">MUSE: A Unified Agentic Harness for MLLMs</a></h3>
      <p class="summary">Despite rapid progress, multimodal large language models (MLLMs) still fail on tasks that humans solve effortlessly, such as navigating a g…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aced1c3b6fbd" data-article-url="https://arxiv.org/abs/2606.03017" data-article-title="ConTraIRL: Factorized Contrastive Abstractions for Transferable IRL" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03017" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03017" target="_blank" rel="noopener">ConTraIRL: Factorized Contrastive Abstractions for Transferable IRL</a></h3>
      <p class="summary">Reward transfer in Inverse Reinforcement Learning (IRL) is unreliable when policies must generalize to unseen combinations of environment d…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4a4260b52bf0" data-article-url="https://arxiv.org/abs/2606.03019" data-article-title="Reproducibility is the New Copyleft: Defining AGI-oriented Reproducible Builds" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-regulation">規制/政策</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03019" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03019" target="_blank" rel="noopener">Reproducibility is the New Copyleft: Defining AGI-oriented Reproducible Builds</a></h3>
      <p class="summary">Copyleft, as implemented in licenses such as the GNU General Public License, was a legal hack that used copyright to guarantee user freedom…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="939b279bb131" data-article-url="https://arxiv.org/abs/2606.03022" data-article-title="Hallucinations as Orthogonal Noise: Inference-Time Manifold Alignment via Dynamic Contextual Orthogonalization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03022" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03022" target="_blank" rel="noopener">Hallucinations as Orthogonal Noise: Inference-Time Manifold Alignment via Dynamic Contextual Orthogonalization</a></h3>
      <p class="summary">Hallucination in Large Language Models (LLMs), characterized by the generation of content inconsistent with contextual facts or logical con…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ab38642603f3" data-article-url="https://arxiv.org/abs/2606.03026" data-article-title="Spike-Aware C++ INT8 Inference for Sparse Spiking Language Models on Commodity CPUs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03026" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03026" target="_blank" rel="noopener">Spike-Aware C++ INT8 Inference for Sparse Spiking Language Models on Commodity CPUs</a></h3>
      <p class="summary">Spiking language models expose activation sparsity that dense Transformer runtimes do not directly exploit. This paper studies that propert…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="26c3e31679f9" data-article-url="https://arxiv.org/abs/2606.03029" data-article-title="Conditional Hypothesis Generation for LLM-Based Text Analysis with Researcher-Specified Covariates" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03029" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03029" target="_blank" rel="noopener">Conditional Hypothesis Generation for LLM-Based Text Analysis with Researcher-Specified Covariates</a></h3>
      <p class="summary">A core goal of computational social science is to discover interpretable differences in how language varies across outcomes of interest, su…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f41333ac2a64" data-article-url="https://arxiv.org/abs/2606.03034" data-article-title="Capability Advertisement as a Market for Lemons: A Trust Layer for Heterogeneous Agent Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03034" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03034" target="_blank" rel="noopener">Capability Advertisement as a Market for Lemons: A Trust Layer for Heterogeneous Agent Networks</a></h3>
      <p class="summary">Large language model (LLM) agents have begun to delegate work to one another. Protocols such as the Model Context Protocol (MCP) and the Ag…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="943393dd1d91" data-article-url="https://arxiv.org/abs/2606.03057" data-article-title="Rethinking Molecular Text Representations for LLMs: An Empirical Study" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03057" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03057" target="_blank" rel="noopener">Rethinking Molecular Text Representations for LLMs: An Empirical Study</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly used for molecular tasks, but it remains unclear which molecular representation to use. We pr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d10fb284f8a1" data-article-url="https://arxiv.org/abs/2606.03061" data-article-title="Brief Announcement: Generative Markov Model for Distributed Computing Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03061" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03061" target="_blank" rel="noopener">Brief Announcement: Generative Markov Model for Distributed Computing Systems</a></h3>
      <p class="summary">Emerging distributed computing paradigms, such as the computing continuum, are inherently heterogeneous, stochastic, and complex. Efficient…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="645b26bc0e56" data-article-url="https://arxiv.org/abs/2606.03068" data-article-title="Learn When and Where to Connect: Adaptive Virtual Nodes for Dynamic Message Passing on Graphs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03068" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03068" target="_blank" rel="noopener">Learn When and Where to Connect: Adaptive Virtual Nodes for Dynamic Message Passing on Graphs</a></h3>
      <p class="summary">While Virtual Nodes (VNs) are often utilized in Message Passing Neural Networks (MPNNs) to facilitate effective message passing, existing V…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fdcd7f069c19" data-article-url="https://arxiv.org/abs/2606.03069" data-article-title="ROBUST-WT: Robust Uncertainty-aware Segmentation Transform via Whitening and Training Enhancements" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03069" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03069" target="_blank" rel="noopener">ROBUST-WT: Robust Uncertainty-aware Segmentation Transform via Whitening and Training Enhancements</a></h3>
      <p class="summary">Generalized segmentation of medical images prevents performance degradation when different imaging devices and clinical protocols are used…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ded209f73d8a" data-article-url="https://arxiv.org/abs/2606.03070" data-article-title="ASymPO: Asymmetric-Scale Policy Optimization for Asynchronous LLM Post-Training Without Behavior Information" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03070" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03070" target="_blank" rel="noopener">ASymPO: Asymmetric-Scale Policy Optimization for Asynchronous LLM Post-Training Without Behavior Information</a></h3>
      <p class="summary">Asynchronous reinforcement learning can improve language-model post-training throughput by decoupling response generation from policy optim…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cb66b9424fbf" data-article-url="https://arxiv.org/abs/2606.03073" data-article-title="Efficient Hyperparameter Optimization for LLM Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03073" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03073" target="_blank" rel="noopener">Efficient Hyperparameter Optimization for LLM Reinforcement Learning</a></h3>
      <p class="summary">Reinforcement learning (RL) for large language models (LLMs) is highly sensitive to hyperparameter configurations, making hyperparameter op…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f8877c66b04a" data-article-url="https://arxiv.org/abs/2606.03077" data-article-title="Libra: Efficient Resource Management for Agentic RL Post-Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03077" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03077" target="_blank" rel="noopener">Libra: Efficient Resource Management for Agentic RL Post-Training</a></h3>
      <p class="summary">Reinforcement learning (RL) has become a standard post-training paradigm for large language models (LLMs), extending beyond preference alig…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f86162d0f9a4" data-article-url="https://arxiv.org/abs/2606.03080" data-article-title="Regret Pre-training: Bridging Prior and Posterior Views for Enhanced Knowledge Grounding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03080" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03080" target="_blank" rel="noopener">Regret Pre-training: Bridging Prior and Posterior Views for Enhanced Knowledge Grounding</a></h3>
      <p class="summary">Causal language models factorize sequence probabilities using only preceding context, leaving future information unexploited during trainin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="583377ed8b95" data-article-url="https://arxiv.org/abs/2606.03089" data-article-title="Constitutional On-Policy Safe Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03089" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03089" target="_blank" rel="noopener">Constitutional On-Policy Safe Distillation</a></h3>
      <p class="summary">On-policy self-distillation (OPSD) has emerged as an efficient post-training paradigm by using a teacher conditioned on privileged informat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e00b3773b128" data-article-url="https://arxiv.org/abs/2606.03090" data-article-title="&quot;**Important** You should give me full credits!&quot;: Exploring Prompt Injection Attacks on LLM-Based Automatic Grading Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03090" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03090" target="_blank" rel="noopener">&quot;**Important** You should give me full credits!&quot;: Exploring Prompt Injection Attacks on LLM-Based Automatic Grading Systems</a></h3>
      <p class="summary">The emergence of large language models (LLMs) has significantly accelerated recent research on LLM-based automatic grading (AG) systems. Be…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4a94628ace10" data-article-url="https://arxiv.org/abs/2606.03091" data-article-title="BAHSD: Bridging the Long-tail Gap via Adaptive Distillation in Black-box Sequential Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03091" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03091" target="_blank" rel="noopener">BAHSD: Bridging the Long-tail Gap via Adaptive Distillation in Black-box Sequential Recommendation</a></h3>
      <p class="summary">Sequential recommendation systems are widely adopted but often deployed as black-box APIs, which has driven recent interest in model extrac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bbec7e1090d0" data-article-url="https://arxiv.org/abs/2606.03099" data-article-title="PhotoCraft: Agentic Reasoning with Hierarchical Self-Evolving Memory for Deep Image Search" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03099" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03099" target="_blank" rel="noopener">PhotoCraft: Agentic Reasoning with Hierarchical Self-Evolving Memory for Deep Image Search</a></h3>
      <p class="summary">Deep Image Search requires multi-step reasoning over rich contextual cues, such as time, location, and event relations. However, most exist…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c5051371ada6" data-article-url="https://arxiv.org/abs/2606.03116" data-article-title="AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03116" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03116" target="_blank" rel="noopener">AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following</a></h3>
      <p class="summary">The rapid advancement of instruction-guided audio generation has highlighted the critical need for robust alignment evaluation. Current aut…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dde70158e0be" data-article-url="https://arxiv.org/abs/2606.03119" data-article-title="GuidedBridge: Training-freely Improving Bridge Models with Prior Guidance" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03119" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03119" target="_blank" rel="noopener">GuidedBridge: Training-freely Improving Bridge Models with Prior Guidance</a></h3>
      <p class="summary">Guidance methods, such as classifier-free guidance (CFG) and auto-guidance (AG), have advanced noise-to-data generation in diffusion models…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4ed1cfb198ba" data-article-url="https://arxiv.org/abs/2606.03128" data-article-title="Decoupled Smart Contract Audits: Lightweight LLM Framework via Distillation and Aggregation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03128" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03128" target="_blank" rel="noopener">Decoupled Smart Contract Audits: Lightweight LLM Framework via Distillation and Aggregation</a></h3>
      <p class="summary">Smart contracts face critical security challenges that require thorough auditing in decentralized web services. While Large Language Models…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1491ac8472c1" data-article-url="https://arxiv.org/abs/2606.03159" data-article-title="NVIDIA OmniDreams: Real-Time Generative World Model for Closed-Loop Autonomous Vehicle Simulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03159" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03159" target="_blank" rel="noopener">NVIDIA OmniDreams: Real-Time Generative World Model for Closed-Loop Autonomous Vehicle Simulation</a></h3>
      <p class="summary">As autonomous vehicle capabilities advance, the safe evaluation of driving policies in long-tail scenarios remains a critical bottleneck. I…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4179dd896cb" data-article-url="https://arxiv.org/abs/2606.03161" data-article-title="OpenAgenet/OAN: Open Infrastructure for Trusted Agent Interconnection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03161" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03161" target="_blank" rel="noopener">OpenAgenet/OAN: Open Infrastructure for Trusted Agent Interconnection</a></h3>
      <p class="summary">OpenAgenet, abbreviated as OAN, is an open infrastructure project for trusted Agent interconnection. It addresses a problem that becomes vi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7c70aeaf6546" data-article-url="https://arxiv.org/abs/2606.03163" data-article-title="OpenAgenet/OAN: Technical Architecture for Trust-Governed Agent Identity and Discovery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03163" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03163" target="_blank" rel="noopener">OpenAgenet/OAN: Technical Architecture for Trust-Governed Agent Identity and Discovery</a></h3>
      <p class="summary">This paper describes the technical architecture of OpenAgenet / OAN. OAN is a protocol-neutral trust layer for open Agent interconnection.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="68d28e40c435" data-article-url="https://arxiv.org/abs/2606.03165" data-article-title="Fully Automated Identification of Lexical Alignment and Preference-Stage Shifts in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03165" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03165" target="_blank" rel="noopener">Fully Automated Identification of Lexical Alignment and Preference-Stage Shifts in Large Language Models</a></h3>
      <p class="summary">The language used by digital chat assistants such as ChatGPT can diverge from human expectations (misalignment). Research, mostly on Scient…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="647f6c550e3c" data-article-url="https://arxiv.org/abs/2606.03198" data-article-title="AI Rater Discrimination Depends on Scoring Protocol in Complex Clinical Decision-Making" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03198" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03198" target="_blank" rel="noopener">AI Rater Discrimination Depends on Scoring Protocol in Complex Clinical Decision-Making</a></h3>
      <p class="summary">Clinical AI evaluation increasingly delegates scoring to large language models (LLMs) acting as AI raters, yet their scoring behavior acros…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f50f3a38e9e1" data-article-url="https://arxiv.org/abs/2606.03201" data-article-title="Reinforcement Learning from Cross-domain Videos with Video Prediction Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03201" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03201" target="_blank" rel="noopener">Reinforcement Learning from Cross-domain Videos with Video Prediction Model</a></h3>
      <p class="summary">Reinforcement learning from expert videos across visually distinct domains is challenging due to the absence of reward signals and the pres…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0d9b9d990732" data-article-url="https://arxiv.org/abs/2606.03220" data-article-title="WebRISE: Requirement-Induced State Evaluation for MLLM-Generated Web Artifacts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03220" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03220" target="_blank" rel="noopener">WebRISE: Requirement-Induced State Evaluation for MLLM-Generated Web Artifacts</a></h3>
      <p class="summary">Existing benchmarks for MLLM-generated web artifacts assess interaction through local evidence and miss the requirement-induced states and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ae95cd2b4bf0" data-article-url="https://arxiv.org/abs/2606.03223" data-article-title="BotDirector: Robot Storytelling Across the Symmetrical Reality with Multi-modal Interactions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03223" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03223" target="_blank" rel="noopener">BotDirector: Robot Storytelling Across the Symmetrical Reality with Multi-modal Interactions</a></h3>
      <p class="summary">Robot storytelling offers a unique blend of technological innovation and creative expression that engages children in unprecedented ways. H…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6924459826a9" data-article-url="https://arxiv.org/abs/2606.03232" data-article-title="GFFMERGE: Efficient Merging of Graph Neural Force Fields and Beyond" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03232" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03232" target="_blank" rel="noopener">GFFMERGE: Efficient Merging of Graph Neural Force Fields and Beyond</a></h3>
      <p class="summary">Graph Neural Networks (GNNs) have revolutionized Neural Force Fields for atomistic simulations, achieving near-quantum accuracy at reduced…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0ff889eef3c" data-article-url="https://arxiv.org/abs/2606.03238" data-article-title="When RLHF Fails: A Mechanistic Taxonomy of Reward Hacking, Collapse, and Evaluator Gaming" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03238" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03238" target="_blank" rel="noopener">When RLHF Fails: A Mechanistic Taxonomy of Reward Hacking, Collapse, and Evaluator Gaming</a></h3>
      <p class="summary">Reinforcement learning from human feedback (RLHF) makes large-scale post-training possible by replacing an underspecified human objective w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="86de3ce9f122" data-article-url="https://arxiv.org/abs/2606.03252" data-article-title="AirDreamer: Generalist Drone Navigation with World Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03252" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03252" target="_blank" rel="noopener">AirDreamer: Generalist Drone Navigation with World Models</a></h3>
      <p class="summary">Navigating a drone in unseen and cluttered environments requires reliable generalization to unseen scene layouts and understanding of envir…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="94b29effc564" data-article-url="https://arxiv.org/abs/2606.03257" data-article-title="PSViT: A Methodology for Structurally Pruning Spiking Vision Transformers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03257" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03257" target="_blank" rel="noopener">PSViT: A Methodology for Structurally Pruning Spiking Vision Transformers</a></h3>
      <p class="summary">Spiking Vision Transformer (SViT) models are promising low-power ViT models for solving vision-based tasks with state-of-the-art performanc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ff5faba1f9db" data-article-url="https://arxiv.org/abs/2606.03260" data-article-title="EqGINO: Equivariant Geometry-Informed Fourier Neural Operators for 3D PDEs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03260" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03260" target="_blank" rel="noopener">EqGINO: Equivariant Geometry-Informed Fourier Neural Operators for 3D PDEs</a></h3>
      <p class="summary">Deep learning surrogates for 3D Partial Differential Equations (PDEs) often fail to generalize across geometric transformations because the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0cc7bc79c573" data-article-url="https://arxiv.org/abs/2606.03270" data-article-title="Are Common Substructures Transferable? Riemannian Graph Foundation Model with Neural Vector Bundles" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03270" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03270" target="_blank" rel="noopener">Are Common Substructures Transferable? Riemannian Graph Foundation Model with Neural Vector Bundles</a></h3>
      <p class="summary">Foundation models have sparked a revolution via a pretraining-adaptation paradigm, with recent efforts extending this success to graphs. Un…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f0cc7c0e7344" data-article-url="https://arxiv.org/abs/2606.03273" data-article-title="VistaHop: Benchmarking Multi-hop Visual Reasoning for Visual DeepSearch" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03273" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03273" target="_blank" rel="noopener">VistaHop: Benchmarking Multi-hop Visual Reasoning for Visual DeepSearch</a></h3>
      <p class="summary">Visual DeepSearch requires multimodal large reasoning model (MLRM) agents to answer complex visual queries by repeatedly inspecting image r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cdd49b2bcc6e" data-article-url="https://arxiv.org/abs/2606.03288" data-article-title="AI-Generated Traces for Novice Programmers: Learning Effects and Learner Differences in a Multi-Institutional Study" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03288" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03288" target="_blank" rel="noopener">AI-Generated Traces for Novice Programmers: Learning Effects and Learner Differences in a Multi-Institutional Study</a></h3>
      <p class="summary">Introductory programming (CS1) courses often struggle to support students&#x27; understanding of program execution. While visualizations can mak…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2920565e5f31" data-article-url="https://arxiv.org/abs/2606.03290" data-article-title="Message Tuning Outshines Graph Prompt Tuning: A Prismatic Space Perspective" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03290" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03290" target="_blank" rel="noopener">Message Tuning Outshines Graph Prompt Tuning: A Prismatic Space Perspective</a></h3>
      <p class="summary">Graph Foundation Models (GFMs), built upon the Pre-training and Adaptation paradigm, have emerged as a research hotspot in graph learning.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="52257192787b" data-article-url="https://arxiv.org/abs/2606.03307" data-article-title="Generalizing Graph Foundation Models via Hyperbolic Retrieval-Augmented Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03307" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03307" target="_blank" rel="noopener">Generalizing Graph Foundation Models via Hyperbolic Retrieval-Augmented Generation</a></h3>
      <p class="summary">Graph foundation models (GFMs) emerged as a dominant paradigm in graph representation learning by leveraging large-scale pre-training for c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="da12f76e9455" data-article-url="https://arxiv.org/abs/2606.03310" data-article-title="Learning Multi-Scale Hypergraph for High-Order Brain Connectivity Analysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03310" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03310" target="_blank" rel="noopener">Learning Multi-Scale Hypergraph for High-Order Brain Connectivity Analysis</a></h3>
      <p class="summary">Understanding complex interactions between brain regions is critical for early neurodegenerative disease classification such as Alzheimer&#x27;s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="14ce3bc53a74" data-article-url="https://arxiv.org/abs/2606.03312" data-article-title="RobotValues: Evaluating Household Robots When Human Values Conflict" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03312" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03312" target="_blank" rel="noopener">RobotValues: Evaluating Household Robots When Human Values Conflict</a></h3>
      <p class="summary">While household robots are often evaluated based on task completion, everyday domestic environments involve value-conflicting situations in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="106d2bcd0c39" data-article-url="https://arxiv.org/abs/2606.03322" data-article-title="Multi-Modal Graph Neural Network with Transformer-Guided Adaptive Diffusion for Preclinical Alzheimer Classification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03322" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03322" target="_blank" rel="noopener">Multi-Modal Graph Neural Network with Transformer-Guided Adaptive Diffusion for Preclinical Alzheimer Classification</a></h3>
      <p class="summary">The graphical representation of the brain offers critical insights into diagnosing and prognosing neurodegenerative disease via relationshi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="92d0205e6908" data-article-url="https://arxiv.org/abs/2606.03323" data-article-title="dstack-capsule: Pod-Level Remote Attestation for Confidential Workloads on Kubernetes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03323" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03323" target="_blank" rel="noopener">dstack-capsule: Pod-Level Remote Attestation for Confidential Workloads on Kubernetes</a></h3>
      <p class="summary">The rise of LLM-as-a-Service and other confidential cloud workloads demands cryptographic proof that user data is processed in a trusted, u…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2202f59848f6" data-article-url="https://arxiv.org/abs/2606.03328" data-article-title="Calibration Data Trade-offs Across Capability Dimensions: Why Multi-Source Mixing Matters for High-Sparsity LLM Pruning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03328" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03328" target="_blank" rel="noopener">Calibration Data Trade-offs Across Capability Dimensions: Why Multi-Source Mixing Matters for High-Sparsity LLM Pruning</a></h3>
      <p class="summary">Post-training pruning compresses large language models to high sparsity using a small unlabelled calibration set, and recent work has concl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6b16643fb71d" data-article-url="https://arxiv.org/abs/2606.03330" data-article-title="FLIPS: Instance-Fingerprinting for LLMs via Pseudo-random Sequences" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03330" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03330" target="_blank" rel="noopener">FLIPS: Instance-Fingerprinting for LLMs via Pseudo-random Sequences</a></h3>
      <p class="summary">Literature reveals that a Large Language Model&#x27;s (LLM) behavior is not only conditioned by its original weights but also its instance-level…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b9e8fc91751f" data-article-url="https://arxiv.org/abs/2606.03331" data-article-title="Evaluating LLMs&#x27; Effectiveness on Real-World Consumer Device Repair Questions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03331" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03331" target="_blank" rel="noopener">Evaluating LLMs&#x27; Effectiveness on Real-World Consumer Device Repair Questions</a></h3>
      <p class="summary">Consumer device repair is an important but underexplored testbed for large language models (LLMs). Repair tasks require reasoning over inco…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7cfade81ca24" data-article-url="https://arxiv.org/abs/2606.03347" data-article-title="AugMask: Training Diffusion Models on Incomplete Tabular Data via Stochastic Augmentation and Masking" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03347" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03347" target="_blank" rel="noopener">AugMask: Training Diffusion Models on Incomplete Tabular Data via Stochastic Augmentation and Masking</a></h3>
      <p class="summary">Score-based diffusion models have emerged as prominent deep generative models; however, their application to tabular data remains challengi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aa6aec8aab5d" data-article-url="https://arxiv.org/abs/2606.03348" data-article-title="SynCred-Bench: Benchmarking Synthetic Credibility in AI-Generated Visual Misinformation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03348" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03348" target="_blank" rel="noopener">SynCred-Bench: Benchmarking Synthetic Credibility in AI-Generated Visual Misinformation</a></h3>
      <p class="summary">Recent generative models can now produce visual artifacts with realistic embedded text and layouts, creating a new misinformation threat: s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4a5f0ca5d783" data-article-url="https://arxiv.org/abs/2606.03357" data-article-title="The Unsampled Truth: Psychometrics in SLMs Measure Prompt Artifacts, Not Psychological Constructs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03357" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03357" target="_blank" rel="noopener">The Unsampled Truth: Psychometrics in SLMs Measure Prompt Artifacts, Not Psychological Constructs</a></h3>
      <p class="summary">When prompting SLMs for psychometric assessments, researchers assume the outputs reflect semantic reasoning. We evaluate this premise acros…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="438c1e8a4e79" data-article-url="https://arxiv.org/abs/2606.03376" data-article-title="P\textsuperscript{2}-DPO: Grounding Hallucination in Perceptual Processing via Calibration Direct Preference Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03376" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03376" target="_blank" rel="noopener">P\textsuperscript{2}-DPO: Grounding Hallucination in Perceptual Processing via Calibration Direct Preference Optimization</a></h3>
      <p class="summary">Hallucination has recently garnered significant research attention in Large Vision-Language Models (LVLMs). Direct Preference Optimization…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c53adef795f" data-article-url="https://arxiv.org/abs/2606.03381" data-article-title="AI Model Extraction Attacks: Bypassing Single-Client Assumptions in Defenses" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03381" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03381" target="_blank" rel="noopener">AI Model Extraction Attacks: Bypassing Single-Client Assumptions in Defenses</a></h3>
      <p class="summary">Ensuring the protection of Artificial Intelligence (AI) models deployed in military Command and Control (C2) systems and critical infrastru…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c10d6788a6f" data-article-url="https://arxiv.org/abs/2606.03382" data-article-title="Local Guidance, Global Impact: Gaussian-Reshaped Trust Region Unlocks Behavior Transitions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03382" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03382" target="_blank" rel="noopener">Local Guidance, Global Impact: Gaussian-Reshaped Trust Region Unlocks Behavior Transitions</a></h3>
      <p class="summary">While Proximal Policy Optimization (PPO) demonstrates strong performance in stationary settings, we show that its standard optimization par…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a53d5f5a8779" data-article-url="https://arxiv.org/abs/2606.03385" data-article-title="Grasp-Then-Plan with Failure Attribution: A Closed Two-Stage Framework for Precise and Generalizable Robotic Manipulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03385" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03385" target="_blank" rel="noopener">Grasp-Then-Plan with Failure Attribution: A Closed Two-Stage Framework for Precise and Generalizable Robotic Manipulation</a></h3>
      <p class="summary">In robotic manipulation, the tight coupling between grasping and motion planning often obscures the true source of failure, leading to inef…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2e3ecb2ce57c" data-article-url="https://arxiv.org/abs/2606.03391" data-article-title="When Model Merging Breaks Routing: Training-Free Calibration for MoE" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03391" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03391" target="_blank" rel="noopener">When Model Merging Breaks Routing: Training-Free Calibration for MoE</a></h3>
      <p class="summary">Model merging has emerged as a cost-effective approach for consolidating the capabilities of multiple LLMs without retraining. However, exi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="345d3365e589" data-article-url="https://arxiv.org/abs/2606.03398" data-article-title="Causal Evidence of Stack Representations in Modeling Counter Languages Using Transformers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03398" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03398" target="_blank" rel="noopener">Causal Evidence of Stack Representations in Modeling Counter Languages Using Transformers</a></h3>
      <p class="summary">Formal languages have proven to be effective conduits to understand the inner mechanisms of transformers. Past work has shown that transfor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="020ca88119bd" data-article-url="https://arxiv.org/abs/2606.03419" data-article-title="Optimizing Explicit Unit-Distance Lower-Bound Certificates" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03419" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03419" target="_blank" rel="noopener">Optimizing Explicit Unit-Distance Lower-Bound Certificates</a></h3>
      <p class="summary">The 2026 disproof of Erd\H{o}s&#x27;s unit-distance conjecture and Sawin&#x27;s subsequent explicit quantitative refinement show that the maximum num…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a7e72773cf40" data-article-url="https://arxiv.org/abs/2606.03428" data-article-title="PrimeSVT: An Automated Memory-aware Pruning Framework with Prioritized Compression Policy for Spiking Vision Transformers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03428" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03428" target="_blank" rel="noopener">PrimeSVT: An Automated Memory-aware Pruning Framework with Prioritized Compression Policy for Spiking Vision Transformers</a></h3>
      <p class="summary">The large sizes of Spiking Vision Transformers (SViTs) still hinder their embedded implementation, highlighting the need for model compress…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="469df12770e4" data-article-url="https://arxiv.org/abs/2606.03430" data-article-title="FlowGuard: Flow Matching for Identity-Independent Detection of Data-Free Model Stealing Attacks on Energy System Intrusion Detection Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03430" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03430" target="_blank" rel="noopener">FlowGuard: Flow Matching for Identity-Independent Detection of Data-Free Model Stealing Attacks on Energy System Intrusion Detection Systems</a></h3>
      <p class="summary">Artificial Intelligence (AI)-based Intrusion Detection Systems (IDS) deployed in energy infrastructure are vulnerable to model theft attack…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a6135e6b0d82" data-article-url="https://arxiv.org/abs/2606.03432" data-article-title="A Hybrid Approach For Malware Classification Using Secondary Features Fusion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03432" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03432" target="_blank" rel="noopener">A Hybrid Approach For Malware Classification Using Secondary Features Fusion</a></h3>
      <p class="summary">The number of malware (either variant or novel) is rapidly increasing, making malware detection and mitigation a complex problem. One appro…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8cab1412b022" data-article-url="https://arxiv.org/abs/2606.03444" data-article-title="PRISM: Synergizing Vision Foundation Models via Self-organized Expert Specialization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03444" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03444" target="_blank" rel="noopener">PRISM: Synergizing Vision Foundation Models via Self-organized Expert Specialization</a></h3>
      <p class="summary">Unifying the complementary strengths of diverse Vision Foundation Models (VFMs) into a single efficient model is highly desirable but chall…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2b326e962e75" data-article-url="https://arxiv.org/abs/2606.03453" data-article-title="FORGE: Multi-Agent Graduated Exploitation and Detection Engineering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03453" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03453" target="_blank" rel="noopener">FORGE: Multi-Agent Graduated Exploitation and Detection Engineering</a></h3>
      <p class="summary">Vulnerability disclosure volumes now far exceed organizational assessment capacity, yet three adjacent research communities (proof-of-conce…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ce5fd8c6c175" data-article-url="https://arxiv.org/abs/2606.03459" data-article-title="Tonal parsimony in chord-sequence analysis: combining modulation cost and tonal vocabulary" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03459" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03459" target="_blank" rel="noopener">Tonal parsimony in chord-sequence analysis: combining modulation cost and tonal vocabulary</a></h3>
      <p class="summary">We study the assignment of local tonalities to chord sequences, a task useful for harmonic analysis, composition, and jazz-oriented improvi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0255e502671e" data-article-url="https://arxiv.org/abs/2606.03465" data-article-title="Rethinking the Role of Tensor Decompositions in Post-Training LLM Compression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03465" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03465" target="_blank" rel="noopener">Rethinking the Role of Tensor Decompositions in Post-Training LLM Compression</a></h3>
      <p class="summary">Post-training compression is essential for deploying large language models (LLMs) under tight resource constraints. Tensor decompositions h…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9e1a19fc7ec5" data-article-url="https://arxiv.org/abs/2606.03483" data-article-title="Analyzing Stream Collapse in Hyper-Connections: From Diagnosis to Mitigation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03483" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03483" target="_blank" rel="noopener">Analyzing Stream Collapse in Hyper-Connections: From Diagnosis to Mitigation</a></h3>
      <p class="summary">Hyper-Connections (HC) replace the single Transformer residual stream with multiple streams, introducing a permutation symmetry over stream…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b7f59679b47a" data-article-url="https://arxiv.org/abs/2606.03486" data-article-title="NeuroArmor: Safe-Variant-Guided Representation Consistency for Selective Re-Anchoring in Jailbreak Defense" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03486" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03486" target="_blank" rel="noopener">NeuroArmor: Safe-Variant-Guided Representation Consistency for Selective Re-Anchoring in Jailbreak Defense</a></h3>
      <p class="summary">Large language models remain vulnerable to jailbreak attacks that hide harmful intent behind seemingly ordinary requests such as role-play,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="08d7b1631b8e" data-article-url="https://arxiv.org/abs/2606.03489" data-article-title="Learn from Your Mistakes: Tree-like Self-Play for Secure Code LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03489" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03489" target="_blank" rel="noopener">Learn from Your Mistakes: Tree-like Self-Play for Secure Code LLMs</a></h3>
      <p class="summary">While Large Language Models (LLMs) excel in code generation, they remain prone to replicating subtle yet critical vulnerabilities endemic t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0fa67e32c80" data-article-url="https://arxiv.org/abs/2606.03504" data-article-title="BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR System for the Balti Language" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03504" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03504" target="_blank" rel="noopener">BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR System for the Balti Language</a></h3>
      <p class="summary">We present BaltiVoice, a 16.8-hour read-speech corpus for Balti (ISO 639-3: bft), a Tibetic language spoken in Gilgit-Baltistan, Pakistan,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3811b95b8b02" data-article-url="https://arxiv.org/abs/2606.03512" data-article-title="SPADE: Sketch-guided Path Planning Augmented with Diffusion Experts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03512" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03512" target="_blank" rel="noopener">SPADE: Sketch-guided Path Planning Augmented with Diffusion Experts</a></h3>
      <p class="summary">Path planning is essential for Autonomous Mobile Robots (AMRs). Conventional methods for incorporating human preferences into planning typi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8d7df44af2a1" data-article-url="https://arxiv.org/abs/2606.03517" data-article-title="Scalable On-Hardware Training of Quantum Neural Networks and Application to Clinical Data Imputation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03517" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03517" target="_blank" rel="noopener">Scalable On-Hardware Training of Quantum Neural Networks and Application to Clinical Data Imputation</a></h3>
      <p class="summary">Training quantum neural networks (QNNs) on quantum hardware is currently bottlenecked by the cost of gradient estimation: standard paramete…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4790eacfac3" data-article-url="https://arxiv.org/abs/2606.03521" data-article-title="Post-Hoc Robustness for Model-Based Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03521" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03521" target="_blank" rel="noopener">Post-Hoc Robustness for Model-Based Reinforcement Learning</a></h3>
      <p class="summary">To improve the real-world applicability of reinforcement learning (RL), the field of adversarially robust RL studies how to train agents un…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ff5b6e4d08b4" data-article-url="https://arxiv.org/abs/2606.03523" data-article-title="High-Precision APT Malware Attribution with Out-of-Scope Resilience" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03523" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03523" target="_blank" rel="noopener">High-Precision APT Malware Attribution with Out-of-Scope Resilience</a></h3>
      <p class="summary">Early attribution of Advanced Persistent Threat (APT) activity can help defenders prioritise investigation, select countermeasures, and red…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="38cdea9f4ca7" data-article-url="https://arxiv.org/abs/2606.03532" data-article-title="When Should the Teacher Move? Temporal Coupling and Stability in Self On-Policy Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03532" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03532" target="_blank" rel="noopener">When Should the Teacher Move? Temporal Coupling and Stability in Self On-Policy Distillation</a></h3>
      <p class="summary">Self on-policy distillation trains a student policy against a teacher derived from its own parameter history, yet the teacher&#x27;s update sche…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c73a22a4f4a" data-article-url="https://arxiv.org/abs/2606.03564" data-article-title="\textsc{CR-Seg}: Attention-Guided and CoT-Enhanced Coarse-to-Refined Reasoning Segmentation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03564" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03564" target="_blank" rel="noopener">\textsc{CR-Seg}: Attention-Guided and CoT-Enhanced Coarse-to-Refined Reasoning Segmentation</a></h3>
      <p class="summary">Reasoning segmentation aims to segment target objects described by complex language through joint visual-textual reasoning. Existing method…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="373a02d9c969" data-article-url="https://arxiv.org/abs/2606.03566" data-article-title="Efficient Transformer-Based Localized Patch Sampling for Choroid Plexus Segmentation in Multiple Sclerosis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03566" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03566" target="_blank" rel="noopener">Efficient Transformer-Based Localized Patch Sampling for Choroid Plexus Segmentation in Multiple Sclerosis</a></h3>
      <p class="summary">Background: The lateral ventricle choroid plexus (LVCP) is gaining recognition as a key imaging biomarker for multiple sclerosis (MS) relat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2067742d1ef9" data-article-url="https://arxiv.org/abs/2606.03568" data-article-title="Learned Non-Maximum Suppression for 3D Object Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03568" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03568" target="_blank" rel="noopener">Learned Non-Maximum Suppression for 3D Object Detection</a></h3>
      <p class="summary">Post-processing is a critical stage in LiDAR-based 3D object detection, where dense and overlapping proposals must be filtered for compact…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ef7a2fca4fdd" data-article-url="https://arxiv.org/abs/2606.03569" data-article-title="When Attention Collapses: Stage-Aware Visual Token Pruning from Structure to Semantics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03569" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03569" target="_blank" rel="noopener">When Attention Collapses: Stage-Aware Visual Token Pruning from Structure to Semantics</a></h3>
      <p class="summary">Vision-Language Models (VLMs) have demonstrated remarkable capabilities but suffer from significant computational overhead during inference…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="887f55c86a16" data-article-url="https://arxiv.org/abs/2606.03598" data-article-title="PHASER: Phase-Aware and Semantic Experience Replay for Vision-Language-Action Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03598" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03598" target="_blank" rel="noopener">PHASER: Phase-Aware and Semantic Experience Replay for Vision-Language-Action Models</a></h3>
      <p class="summary">Vision-Language-Action (VLA) models have achieved remarkable success in language-conditioned robotic manipulation. However, deploying these…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5c58ae2d9c80" data-article-url="https://arxiv.org/abs/2606.03601" data-article-title="DDOR: Delta Debugging for Explainable Overrefusal Testing and Repair" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03601" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03601" target="_blank" rel="noopener">DDOR: Delta Debugging for Explainable Overrefusal Testing and Repair</a></h3>
      <p class="summary">While safety alignment and guardrails help large language models (LLMs) avoid harmful outputs, they can also induce overrefusal, i.e., unwa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f745dc4b51fb" data-article-url="https://arxiv.org/abs/2606.03602" data-article-title="CauTion: Knowing When to Trust LLMs for Ensemble Causal Discovery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03602" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03602" target="_blank" rel="noopener">CauTion: Knowing When to Trust LLMs for Ensemble Causal Discovery</a></h3>
      <p class="summary">Causal discovery from observational data remains challenging due to the fundamental limitations of purely statistical methods, such as stat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4e6ade48863" data-article-url="https://arxiv.org/abs/2606.03606" data-article-title="Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03606" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03606" target="_blank" rel="noopener">Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks</a></h3>
      <p class="summary">Large language models achieve strong performance on arithmetic reasoning benchmarks, and one common response to arithmetic brittleness is t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bc3851eb5a37" data-article-url="https://arxiv.org/abs/2606.03608" data-article-title="Exploiting Verification-Generation Gap: Test-Time Reinforcement Learning with Confidence-Conditioned Verification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03608" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03608" target="_blank" rel="noopener">Exploiting Verification-Generation Gap: Test-Time Reinforcement Learning with Confidence-Conditioned Verification</a></h3>
      <p class="summary">Test-time reinforcement learning has emerged as a promising paradigm for enhancing the complex reasoning abilities of large language models…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f5b1c2d3c119" data-article-url="https://arxiv.org/abs/2606.03620" data-article-title="Physics-Guided Policy Optimization with Self-Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03620" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03620" target="_blank" rel="noopener">Physics-Guided Policy Optimization with Self-Distillation</a></h3>
      <p class="summary">Self-distilled policy optimization (SDPO) has become a popular paradigm for LLM post-training, where a model learns from its own prediction…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3fe27eefba6b" data-article-url="https://arxiv.org/abs/2606.03626" data-article-title="TurtleAI: Benchmarking Multimodal Models for Visual Programming in Turtle Graphics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03626" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03626" target="_blank" rel="noopener">TurtleAI: Benchmarking Multimodal Models for Visual Programming in Turtle Graphics</a></h3>
      <p class="summary">Vision-language models (VLMs) have been explored for visual programming, where they generate code to solve visual tasks. However, most prio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4a680f9d4232" data-article-url="https://arxiv.org/abs/2606.03628" data-article-title="Building Reliable Long-Form Generation via Hallucination Rejection Sampling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03628" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03628" target="_blank" rel="noopener">Building Reliable Long-Form Generation via Hallucination Rejection Sampling</a></h3>
      <p class="summary">Large language models (LLMs) have achieved remarkable progress in open-ended text generation, yet they remain prone to hallucinating incorr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f64b9581ae53" data-article-url="https://arxiv.org/abs/2606.03631" data-article-title="AnchorMoE: Interpretable Time Series Classification via Anchor-Routed MoE" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03631" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03631" target="_blank" rel="noopener">AnchorMoE: Interpretable Time Series Classification via Anchor-Routed MoE</a></h3>
      <p class="summary">Multivariate time series classification (MTSC) is pivotal in high-stakes domains, such as clinical diagnosis and industrial fault detection…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2f58b6d4d9cf" data-article-url="https://arxiv.org/abs/2606.03635" data-article-title="VidMsg: A Benchmark for Implicit Message Inference in Short Videos" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03635" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03635" target="_blank" rel="noopener">VidMsg: A Benchmark for Implicit Message Inference in Short Videos</a></h3>
      <p class="summary">Understanding short online videos involves more than identifying visible objects and actions; video makers often include an underlying mess…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8aabc840e099" data-article-url="https://arxiv.org/abs/2606.03645" data-article-title="The Shape of Addition: Geometric Structures of Arithmetic in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03645" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03645" target="_blank" rel="noopener">The Shape of Addition: Geometric Structures of Arithmetic in Large Language Models</a></h3>
      <p class="summary">Large Language Models exhibit paradoxical fragility in fundamental arithmetic, implying a disconnect between internal computation and discr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8aad47caf492" data-article-url="https://arxiv.org/abs/2606.03647" data-article-title="Black-box, Adaptive, Efficient, Transferable, Harmful, Applicable... Attacks Are All You Need to Break LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03647" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03647" target="_blank" rel="noopener">Black-box, Adaptive, Efficient, Transferable, Harmful, Applicable... Attacks Are All You Need to Break LLMs</a></h3>
      <p class="summary">Accurately evaluating adversarial robustness is a longstanding challenge. A flawed attack design can inflate robustness estimates, making d…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="be5660e43da0" data-article-url="https://arxiv.org/abs/2606.03648" data-article-title="Safety Measurements for Fine-tuned LLMs Should be Grounded in Capability" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03648" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03648" target="_blank" rel="noopener">Safety Measurements for Fine-tuned LLMs Should be Grounded in Capability</a></h3>
      <p class="summary">Adapting foundation large language models to a user&#x27;s task or preferred style through fine-tuning can result in compromising the model&#x27;s sa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="14aa0af03f4e" data-article-url="https://arxiv.org/abs/2606.03650" data-article-title="CoEval: Ranking Language Models for Custom Tasks Without Labeled Data or Trustworthy Benchmarks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03650" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03650" target="_blank" rel="noopener">CoEval: Ranking Language Models for Custom Tasks Without Labeled Data or Trustworthy Benchmarks</a></h3>
      <p class="summary">Choosing or ranking language models for a specific application is hardest when no task-specific labeled data exists, and standard public be…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5cfd507e6e32" data-article-url="https://arxiv.org/abs/2606.03664" data-article-title="AUGUSTE: Online-Learning dApp for Predictive URLLC Scheduling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03664" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03664" target="_blank" rel="noopener">AUGUSTE: Online-Learning dApp for Predictive URLLC Scheduling</a></h3>
      <p class="summary">Ultra Reliable and Low Latency Communications (URLLC) was one of the main motivations behind 5G, with 3GPP advertising 1-10 ms latency targ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="44b872633209" data-article-url="https://arxiv.org/abs/2606.03685" data-article-title="A Close Look At World Model Recovery In Supervised Fine-Tuned LLM Planners" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03685" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03685" target="_blank" rel="noopener">A Close Look At World Model Recovery In Supervised Fine-Tuned LLM Planners</a></h3>
      <p class="summary">Supervised fine-tuning (SFT) improves end-to-end classical planning in large language models (LLMs), but do these models also learn to repr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d361bf40993c" data-article-url="https://arxiv.org/abs/2606.03689" data-article-title="Staying Alive: Uncensored Survival Analysis with Tabular Foundation Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03689" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03689" target="_blank" rel="noopener">Staying Alive: Uncensored Survival Analysis with Tabular Foundation Models</a></h3>
      <p class="summary">Survival Analysis (SA) is a statistical framework that models the time span until some event of interest occurs. Widely used in several dom…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6ee397660c9" data-article-url="https://arxiv.org/abs/2606.03746" data-article-title="Qwen-Image-Flash: Beyond Objective Design" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03746" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03746" target="_blank" rel="noopener">Qwen-Image-Flash: Beyond Objective Design</a></h3>
      <p class="summary">Few-step distillation has become an effective strategy for accelerating advanced visual generative models, yet prior work has largely focus…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="670e8901b39d" data-article-url="https://arxiv.org/abs/2606.03748" data-article-title="Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03748" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03748" target="_blank" rel="noopener">Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models</a></h3>
      <p class="summary">Real-time vision demands models that are accurate, efficient, and simple to deploy across diverse hardware. The YOLO family has become wide…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c9ac48cf926" data-article-url="https://arxiv.org/abs/2606.03762" data-article-title="Tool-Aware Optimization with Entropy Guidance for Efficient Agentic Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03762" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03762" target="_blank" rel="noopener">Tool-Aware Optimization with Entropy Guidance for Efficient Agentic Reinforcement Learning</a></h3>
      <p class="summary">Agentic reinforcement learning (RL) equips large language models (LLMs) with tool-use capabilities that substantially improve reasoning on…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="095969293b2d" data-article-url="https://arxiv.org/abs/2606.03763" data-article-title="Merit or networks? What decides where research is published" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03763" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03763" target="_blank" rel="noopener">Merit or networks? What decides where research is published</a></h3>
      <p class="summary">Does scientific publishing reward the quality of ideas or the advantage of connections? The question is universal to prestige-driven scienc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="91712a7b322a" data-article-url="https://arxiv.org/abs/2606.03770" data-article-title="E2LLM: Towards Efficient LLM Serving in Heterogeneous Edge/Fog Environments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03770" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03770" target="_blank" rel="noopener">E2LLM: Towards Efficient LLM Serving in Heterogeneous Edge/Fog Environments</a></h3>
      <p class="summary">Large Language Models (LLMs) have become integral to modern applications, yet their deployment remains challenging. Beyond executing the mo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="caee851bebae" data-article-url="https://arxiv.org/abs/2606.03796" data-article-title="Signed Spiking Neuron Enabled by an Orthogonal-Easy-Axis Magnetic Tunnel Junction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03796" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03796" target="_blank" rel="noopener">Signed Spiking Neuron Enabled by an Orthogonal-Easy-Axis Magnetic Tunnel Junction</a></h3>
      <p class="summary">Signed spiking neurons carry richer information than standard spiking neurons. This work proposes a compact magnetic tunnel junction (MTJ)-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="52e99fb41b87" data-article-url="https://arxiv.org/abs/2606.03800" data-article-title="Trading Human Curation for Synthetic Augmentation in RLVR" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03800" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03800" target="_blank" rel="noopener">Trading Human Curation for Synthetic Augmentation in RLVR</a></h3>
      <p class="summary">The supply of high-quality training tasks is a central bottleneck for reinforcement learning from verifiable rewards (RLVR) on agentic lang…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3d6a9c745a53" data-article-url="https://arxiv.org/abs/2606.03803" data-article-title="LiveBand: Live Accompaniment Generation in the Audio Domain" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03803" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03803" target="_blank" rel="noopener">LiveBand: Live Accompaniment Generation in the Audio Domain</a></h3>
      <p class="summary">We present LiveBand, a real-time system that generates high-fidelity music accompaniments to live audio input, respecting strict causal con…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bff92d2359d5" data-article-url="https://arxiv.org/abs/2606.03808" data-article-title="PURGE: Projected Unlearning via Retain-Guided Erasure" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03808" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03808" target="_blank" rel="noopener">PURGE: Projected Unlearning via Retain-Guided Erasure</a></h3>
      <p class="summary">We propose PURGE, a machine unlearning algorithm built on a simple but an under-exploited observation: continual learning (CL) and machine…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7dc0d0292b94" data-article-url="https://arxiv.org/abs/2606.03810" data-article-title="Consistency Training Can Entrench Misalignment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03810" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03810" target="_blank" rel="noopener">Consistency Training Can Entrench Misalignment</a></h3>
      <p class="summary">Consistency training encourages a model to produce similar outputs across related inputs or sampling procedures. Such methods are simple, s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="855c1b469a32" data-article-url="https://arxiv.org/abs/2606.03811" data-article-title="AI Agents Enable Adaptive Computer Worms" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03811" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03811" target="_blank" rel="noopener">AI Agents Enable Adaptive Computer Worms</a></h3>
      <p class="summary">A computer worm is malware that spreads on a network by replicating itself from one machine to another. Traditional worms, like WannaCry, e…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="95571e2e305f" data-article-url="https://arxiv.org/abs/2606.03827" data-article-title="Conditional Latent Diffusion Model with Fourier-based Motion Modelling for Virtual Population Synthesis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03827" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03827" target="_blank" rel="noopener">Conditional Latent Diffusion Model with Fourier-based Motion Modelling for Virtual Population Synthesis</a></h3>
      <p class="summary">In-silico trials of medical devices require the generation of virtual populations of anatomies. In cardiovascular applications, virtual ana…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bc6b4b0c5d58" data-article-url="https://arxiv.org/abs/2606.03843" data-article-title="Re-Evaluating Continual Learning with Few-Shot Adaptation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03843" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03843" target="_blank" rel="noopener">Re-Evaluating Continual Learning with Few-Shot Adaptation</a></h3>
      <p class="summary">Continual learning methods aim to maximize the stability and plasticity of machine learning models that are trained on a sequence of tasks.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3fd8f44ce718" data-article-url="https://arxiv.org/abs/2606.03846" data-article-title="Clustered Self-Assessment: A Simple yet Effective Method for Uncertainty Quantification in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03846" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03846" target="_blank" rel="noopener">Clustered Self-Assessment: A Simple yet Effective Method for Uncertainty Quantification in Large Language Models</a></h3>
      <p class="summary">Large language models (LLMs) demonstrate remarkable performance across diverse tasks, but they often generate responses that appear plausib…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="593da30a9c94" data-article-url="https://arxiv.org/abs/2606.03852" data-article-title="FLARE: Fine-Grained Diagnostic Feedback for LLM Code Refinement" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03852" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03852" target="_blank" rel="noopener">FLARE: Fine-Grained Diagnostic Feedback for LLM Code Refinement</a></h3>
      <p class="summary">Large language models often generate code with bugs. Existing methods rely on feedback signals such as test failures and self-critiques to…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="05d8ee01eb94" data-article-url="https://arxiv.org/abs/2606.03866" data-article-title="Taiji: Pareto Optimal Policy Optimization with Semantics-IDs Trade-off for Industrial LLM-Enhanced Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03866" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03866" target="_blank" rel="noopener">Taiji: Pareto Optimal Policy Optimization with Semantics-IDs Trade-off for Industrial LLM-Enhanced Recommendation</a></h3>
      <p class="summary">Scaling recommender systems via large language models (LLMs) has become a prominent trend in the industry. However, aligning the LLM&#x27;s sema…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2d8a32841874" data-article-url="https://arxiv.org/abs/2606.03867" data-article-title="A Training-Free Mixture-of-Agents Framework for Multi-Document Summarization using LLMs and Knowledge Graphs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03867" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03867" target="_blank" rel="noopener">A Training-Free Mixture-of-Agents Framework for Multi-Document Summarization using LLMs and Knowledge Graphs</a></h3>
      <p class="summary">Multi-Document Summarization (MDS) plays a critical role in distilling essential information from collections of textual data. Existing app…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dceffd8973d6" data-article-url="https://arxiv.org/abs/2606.03876" data-article-title="From &#x27;What&#x27; to &#x27;How&#x27; and &#x27;Why&#x27;: Sharing LLM-Generated Retrospective Summaries of Older Adults&#x27; Passive Tracking Data with Remote Family Members" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03876" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03876" target="_blank" rel="noopener">From &#x27;What&#x27; to &#x27;How&#x27; and &#x27;Why&#x27;: Sharing LLM-Generated Retrospective Summaries of Older Adults&#x27; Passive Tracking Data with Remote Family Members</a></h3>
      <p class="summary">With the growing prevalence of modern ubiquitous computing technologies, multi-modal tracking systems hold promise for providing timely awa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ea95bfee8e9e" data-article-url="https://arxiv.org/abs/2606.03879" data-article-title="Beyond Encoder Accumulation: Measuring Encoder Roles in Multi-Encoder VLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03879" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03879" target="_blank" rel="noopener">Beyond Encoder Accumulation: Measuring Encoder Roles in Multi-Encoder VLMs</a></h3>
      <p class="summary">As foundation models scale toward fusing more heterogeneous visual streams, understanding how diverse encoders interact under joint trainin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="50009f7c677f" data-article-url="https://arxiv.org/abs/2606.03892" data-article-title="Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03892" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03892" target="_blank" rel="noopener">Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments</a></h3>
      <p class="summary">Training LLMs to orchestrate multi-step tool calls is held back by three coupled obstacles: realistic stateful execution environments are c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec4f04ae23dd" data-article-url="https://arxiv.org/abs/2606.03895" data-article-title="Agent libOS: A Library-OS-Inspired Runtime for Long-Running, Capability-Controlled LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03895" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03895" target="_blank" rel="noopener">Agent libOS: A Library-OS-Inspired Runtime for Long-Running, Capability-Controlled LLM Agents</a></h3>
      <p class="summary">Large language model (LLM) agents are evolving from request-response assistants into long-running software actors: they maintain state acro…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d04cae8cafe0" data-article-url="https://arxiv.org/abs/2606.03907" data-article-title="The Impact of Configuring Agentic AI Coding Tools on Build-vs-Buy Decisions: A Study Protocol" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03907" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03907" target="_blank" rel="noopener">The Impact of Configuring Agentic AI Coding Tools on Build-vs-Buy Decisions: A Study Protocol</a></h3>
      <p class="summary">Agentic AI coding tools write code with increasing autonomy and in doing so decide when to import a library and when to implement functiona…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1e58e1be95c0" data-article-url="https://arxiv.org/abs/2606.03910" data-article-title="NetKV: Network-Aware Decode Instance Selection for Disaggregated LLM Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03910" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03910" target="_blank" rel="noopener">NetKV: Network-Aware Decode Instance Selection for Disaggregated LLM Inference</a></h3>
      <p class="summary">Disaggregated LLM inference forces the KV cache to traverse the datacenter network before decoding begins, so transfer time enters directly…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f3bb0d144558" data-article-url="https://arxiv.org/abs/2606.03927" data-article-title="FFR: Forward-Forward Learning for Regression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03927" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03927" target="_blank" rel="noopener">FFR: Forward-Forward Learning for Regression</a></h3>
      <p class="summary">The Forward-Forward (FF) algorithm offers a computationally efficient and biologically plausible alternative to backpropagation (BP) by tra…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7c0dc7e73195" data-article-url="https://arxiv.org/abs/2606.03938" data-article-title="q0: Primitives for Hyper-Epoch Pretraining" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03938" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03938" target="_blank" rel="noopener">q0: Primitives for Hyper-Epoch Pretraining</a></h3>
      <p class="summary">Multi-epoch training is becoming the standard now that compute is growing faster than the supply of high-quality text. But pretraining a si…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ba984c5bf163" data-article-url="https://arxiv.org/abs/2606.03939" data-article-title="FlashbackCL: Mitigating Temporal Forgetting in Federated Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03939" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03939" target="_blank" rel="noopener">FlashbackCL: Mitigating Temporal Forgetting in Federated Learning</a></h3>
      <p class="summary">Federated Learning (FL) of foundation and edge models increasingly targets deployments where client data distributions drift over time, yet…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="50a7c11942ff" data-article-url="https://arxiv.org/abs/2606.03957" data-article-title="Efficient ASR Training with Conversations that Never Happened" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03957" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03957" target="_blank" rel="noopener">Efficient ASR Training with Conversations that Never Happened</a></h3>
      <p class="summary">Conversational ASR for lower-resource languages and niche domains is limited by the scarcity of domain-matched multi-speaker training data.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="001547e2bdf7" data-article-url="https://arxiv.org/abs/2606.03962" data-article-title="Using Reward Uncertainty to Induce Diverse Behaviour in Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03962" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03962" target="_blank" rel="noopener">Using Reward Uncertainty to Induce Diverse Behaviour in Reinforcement Learning</a></h3>
      <p class="summary">Classical reinforcement learning (RL) typically seeks a deterministic policy that maximizes the expected sum of a scalar reward. Yet, moder…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ac8643a4dd7c" data-article-url="https://arxiv.org/abs/2606.03963" data-article-title="Self-Refining Agentic Reinforcement Learning for Vision-Conditioned UAV Navigation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03963" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03963" target="_blank" rel="noopener">Self-Refining Agentic Reinforcement Learning for Vision-Conditioned UAV Navigation</a></h3>
      <p class="summary">Deep reinforcement learning has shown strong potential for enabling autonomous robots to learn complex navigational tasks. However, its pra…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="19b3423ca21c" data-article-url="https://arxiv.org/abs/2606.03965" data-article-title="Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03965" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03965" target="_blank" rel="noopener">Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning</a></h3>
      <p class="summary">Large language models improve final-answer accuracy through extended chain-of-thought reasoning, but often spend tokens inefficiently and o…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="32ceebeba8ea" data-article-url="https://arxiv.org/abs/2606.03967" data-article-title="AlignAtt4LLM: Fast AlignAtt for Decoder-Only LLMs at IWSLT 2026 Simultaneous Speech Translation Task" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03967" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03967" target="_blank" rel="noopener">AlignAtt4LLM: Fast AlignAtt for Decoder-Only LLMs at IWSLT 2026 Simultaneous Speech Translation Task</a></h3>
      <p class="summary">We describe AlignAtt4LLM, an IWSLT 2026 simultaneous speech translation system for English to German, Italian, and Chinese. The system is a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="40e93afd6561" data-article-url="https://arxiv.org/abs/2606.03968" data-article-title="QUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verifiable Rewards" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03968" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03968" target="_blank" rel="noopener">QUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verifiable Rewards</a></h3>
      <p class="summary">Rubric-based RL is a promising route for extending reinforcement learning beyond verifiable rewards, yet existing methods optimize rubrics…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="08134f6217cf" data-article-url="https://arxiv.org/abs/2606.03969" data-article-title="Quantifying Faithful Confidence Expression in Large Reasoning Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03969" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03969" target="_blank" rel="noopener">Quantifying Faithful Confidence Expression in Large Reasoning Models</a></h3>
      <p class="summary">Reliable uncertainty communication is critical to the trustworthiness of LLMs, yet faithful calibration (FC)--the alignment between models&#x27;…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4957a54e6d4f" data-article-url="https://arxiv.org/abs/2606.03976" data-article-title="Formalizing the Binding Problem" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03976" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03976" target="_blank" rel="noopener">Formalizing the Binding Problem</a></h3>
      <p class="summary">Representations of the world, arguably, contain information about features (e.g. something is blue, something is a circle) but also informa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c083350c0ba" data-article-url="https://arxiv.org/abs/2606.03979" data-article-title="Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03979" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03979" target="_blank" rel="noopener">Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories</a></h3>
      <p class="summary">The past few decades have witnessed significant advances in the design of machine learning algorithms, from early studies on task-specific…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ce8367d847cd" data-article-url="https://arxiv.org/abs/2606.03985" data-article-title="Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.03985" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.03985" target="_blank" rel="noopener">Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking</a></h3>
      <p class="summary">We introduce Humanoid-GPT, a GPT-style Transformer with causal attention trained on a billion-scale motion corpus for whole-body control. U…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eabf734b7dc8" data-article-url="https://arxiv.org/abs/2403.19883" data-article-title="Planning with Uncertainty: Symmetries, Policy Inference, and Solution Compression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2403.19883" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2403.19883" target="_blank" rel="noopener">Planning with Uncertainty: Symmetries, Policy Inference, and Solution Compression</a></h3>
      <p class="summary">Fully-observable non-deterministic (FOND) planning is at the core of artificial intelligence planning with uncertainty. It models uncertain…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="12222e3f0194" data-article-url="https://arxiv.org/abs/2407.11821" data-article-title="Approximating Probabilistic Inference in Statistical EL with Knowledge Graph Embeddings" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2407.11821" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2407.11821" target="_blank" rel="noopener">Approximating Probabilistic Inference in Statistical EL with Knowledge Graph Embeddings</a></h3>
      <p class="summary">Statistical information is ubiquitous but drawing valid conclusions from it is prohibitively hard. We explain how knowledge graph embedding…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ddec486f9d8d" data-article-url="https://arxiv.org/abs/2505.24037" data-article-title="Leave it to the Specialist: Repair Sparse LLMs with Sparse Fine-Tuning via Sparsity Evolution" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.24037" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.24037" target="_blank" rel="noopener">Leave it to the Specialist: Repair Sparse LLMs with Sparse Fine-Tuning via Sparsity Evolution</a></h3>
      <p class="summary">Sparse large language models (LLMs) offer an attractive direction toward efficient deployment, but adapting them to downstream tasks remain…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c16f0c04441b" data-article-url="https://arxiv.org/abs/2507.21638" data-article-title="Assistax: A Multi-Agent Hardware-Accelerated Reinforcement Learning Benchmark for Assistive Robotics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.21638" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.21638" target="_blank" rel="noopener">Assistax: A Multi-Agent Hardware-Accelerated Reinforcement Learning Benchmark for Assistive Robotics</a></h3>
      <p class="summary">The development of reinforcement learning (RL) algorithms has been largely driven by ambitious challenge tasks and benchmarks. Games have d…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4b2c6b16d222" data-article-url="https://arxiv.org/abs/2508.13174" data-article-title="AlphaEval: A Comprehensive and Efficient Evaluation Framework for Formula Alpha Mining" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.13174" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.13174" target="_blank" rel="noopener">AlphaEval: A Comprehensive and Efficient Evaluation Framework for Formula Alpha Mining</a></h3>
      <p class="summary">Formula alpha mining, which generates predictive signals from financial data, is critical for quantitative investment. Although various alg…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9e1d850c49eb" data-article-url="https://arxiv.org/abs/2508.15030" data-article-title="Collab-REC: An LLM-based Agentic Framework for Balancing Recommendations in Tourism" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.15030" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.15030" target="_blank" rel="noopener">Collab-REC: An LLM-based Agentic Framework for Balancing Recommendations in Tourism</a></h3>
      <p class="summary">We propose COLLAB-REC, a multi-agent framework designed to counteract popularity bias and improve diversity in tourism recommendations. In…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b362516f16d5" data-article-url="https://arxiv.org/abs/2510.16302" data-article-title="DTKG: Dual-Track Knowledge Graph-Verified Reasoning Framework for Multi-Hop QA" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.16302" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.16302" target="_blank" rel="noopener">DTKG: Dual-Track Knowledge Graph-Verified Reasoning Framework for Multi-Hop QA</a></h3>
      <p class="summary">Multi-hop reasoning for question answering (QA) plays a critical role in retrieval-augmented generation (RAG) for modern large language mod…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="67f3190181af" data-article-url="https://arxiv.org/abs/2510.16392" data-article-title="RGMem: Renormalization Group-inspired Memory Evolution for Language Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.16392" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.16392" target="_blank" rel="noopener">RGMem: Renormalization Group-inspired Memory Evolution for Language Agents</a></h3>
      <p class="summary">Personalized and continuous interactions are critical for LLM-based conversational agents, yet finite context windows and static parametric…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3105520c69b2" data-article-url="https://arxiv.org/abs/2510.17149" data-article-title="ProtocolBench: Which LLM MultiAgent Protocol to Choose?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.17149" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.17149" target="_blank" rel="noopener">ProtocolBench: Which LLM MultiAgent Protocol to Choose?</a></h3>
      <p class="summary">As large-scale multi-agent systems evolve, the communication protocol layer has become a critical yet under-evaluated factor shaping perfor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a771342d8c94" data-article-url="https://arxiv.org/abs/2510.23216" data-article-title="Human-Like Goalkeeping in a Realistic Football Simulation: a Sample-Efficient Reinforcement Learning Approach" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.23216" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.23216" target="_blank" rel="noopener">Human-Like Goalkeeping in a Realistic Football Simulation: a Sample-Efficient Reinforcement Learning Approach</a></h3>
      <p class="summary">While several high profile video games have served as testbeds for Deep Reinforcement Learning (DRL), this technique has rarely been employ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="51ad0d313745" data-article-url="https://arxiv.org/abs/2512.03627" data-article-title="MemVerse: Multimodal Memory for Lifelong Learning Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.03627" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.03627" target="_blank" rel="noopener">MemVerse: Multimodal Memory for Lifelong Learning Agents</a></h3>
      <p class="summary">Despite rapid progress in large-scale language and vision models, AI agents still suffer from a fundamental limitation: they cannot remembe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d7041a472e17" data-article-url="https://arxiv.org/abs/2512.05530" data-article-title="MIND: Multi-rationale INtegrated Discriminative Reasoning Framework for Multi-modal Large Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.05530" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.05530" target="_blank" rel="noopener">MIND: Multi-rationale INtegrated Discriminative Reasoning Framework for Multi-modal Large Models</a></h3>
      <p class="summary">Recently, multimodal large language models (MLLMs) have been widely applied to reasoning tasks. However, they suffer from limited multi-rat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2df22659d82d" data-article-url="https://arxiv.org/abs/2512.11213" data-article-title="FutureWeaver: Planning Test-Time Compute for Multi-Agent Systems with Modularized Collaboration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.11213" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.11213" target="_blank" rel="noopener">FutureWeaver: Planning Test-Time Compute for Multi-Agent Systems with Modularized Collaboration</a></h3>
      <p class="summary">Scaling test-time computation has been shown to significantly improve large language model (LLM) performance without additional training. H…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b971d6a54a4e" data-article-url="https://arxiv.org/abs/2512.13996" data-article-title="DTop-p MoE: Sparsity-Controlled Dynamic Top-p MoE for Foundation Model Pre-training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.13996" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.13996" target="_blank" rel="noopener">DTop-p MoE: Sparsity-Controlled Dynamic Top-p MoE for Foundation Model Pre-training</a></h3>
      <p class="summary">Sparse Mixture-of-Experts architectures are essential for scaling model capacity efficiently, yet the standard Top-$k$ routing imposes a ri…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2faa52ccc58a" data-article-url="https://arxiv.org/abs/2601.08173" data-article-title="The Agent&#x27;s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.08173" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.08173" target="_blank" rel="noopener">The Agent&#x27;s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios</a></h3>
      <p class="summary">The rapid evolution of Multi-modal Large Language Models (MLLMs) has advanced workflow automation; however, existing research mainly target…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fb8c255747e9" data-article-url="https://arxiv.org/abs/2601.09869" data-article-title="A Scoping Review of the Ethical Perspectives on Anthropomorphising Large Language Model-Based Conversational Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.09869" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.09869" target="_blank" rel="noopener">A Scoping Review of the Ethical Perspectives on Anthropomorphising Large Language Model-Based Conversational Agents</a></h3>
      <p class="summary">Anthropomorphisation -- the phenomenon whereby non-human entities are ascribed human-like qualities -- has become increasingly salient with…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="91ff4354502b" data-article-url="https://arxiv.org/abs/2601.23229" data-article-title="Strongly Polynomial Time Complexity of Policy Iteration for $L_\infty$ Robust MDPs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.23229" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.23229" target="_blank" rel="noopener">Strongly Polynomial Time Complexity of Policy Iteration for $L_\infty$ Robust MDPs</a></h3>
      <p class="summary">Markov decision processes (MDPs) are a fundamental model in sequential decision making. Robust MDPs (RMDPs) extend this framework by allowi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="76319a0ec829" data-article-url="https://arxiv.org/abs/2602.05302" data-article-title="PieArena: Ranking and Profiling Language Agents in Realistic Negotiation Scenarios" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.05302" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.05302" target="_blank" rel="noopener">PieArena: Ranking and Profiling Language Agents in Realistic Negotiation Scenarios</a></h3>
      <p class="summary">We present an in-depth evaluation of LLMs&#x27; ability to negotiate, a central business task requiring strategic reasoning, theory of mind, and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2bf3e90afa66" data-article-url="https://arxiv.org/abs/2602.08335" data-article-title="Who Deserves the Reward? SHARP: Shapley Credit-based Optimization for Multi-Agent System" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.08335" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.08335" target="_blank" rel="noopener">Who Deserves the Reward? SHARP: Shapley Credit-based Optimization for Multi-Agent System</a></h3>
      <p class="summary">Integrating Large Language Models (LLMs) with external tools via multi-agent systems offers a promising new paradigm for decomposing and so…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3642661b3bf6" data-article-url="https://arxiv.org/abs/2602.11908" data-article-title="When Should LLMs Be Less Specific? Selective Abstraction for Reliable Long-Form Text Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.11908" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.11908" target="_blank" rel="noopener">When Should LLMs Be Less Specific? Selective Abstraction for Reliable Long-Form Text Generation</a></h3>
      <p class="summary">LLMs are widely used, yet they remain prone to factual errors that erode user trust and limit adoption in high-risk settings. One approach…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="311cbce530e8" data-article-url="https://arxiv.org/abs/2602.16666" data-article-title="Towards a Science of AI Agent Reliability" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.16666" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.16666" target="_blank" rel="noopener">Towards a Science of AI Agent Reliability</a></h3>
      <p class="summary">AI agents are increasingly deployed to execute important tasks. While rising accuracy scores on standard benchmarks suggest rapid progress,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4b865c5041b5" data-article-url="https://arxiv.org/abs/2602.22480" data-article-title="VeRO: A Harness for Agents to Optimize Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.22480" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.22480" target="_blank" rel="noopener">VeRO: A Harness for Agents to Optimize Agents</a></h3>
      <p class="summary">An important emerging application of coding agents is agent harness optimization: the iterative improvement of a target agent by editing an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3a52272ee694" data-article-url="https://arxiv.org/abs/2603.05290" data-article-title="X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.05290" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.05290" target="_blank" rel="noopener">X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes</a></h3>
      <p class="summary">Large language models (LLMs) achieve promising performance, yet their ability to reason remains poorly understood. Existing evaluations lar…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="369fa8f2e465" data-article-url="https://arxiv.org/abs/2604.10169" data-article-title="MAVEN-T: Reinforced Heterogeneous Distillation for Real-Time Multi-Agent Trajectory Prediction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.10169" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.10169" target="_blank" rel="noopener">MAVEN-T: Reinforced Heterogeneous Distillation for Real-Time Multi-Agent Trajectory Prediction</a></h3>
      <p class="summary">Trajectory prediction is a key component of autonomous driving systems because future motions directly affect collision checking, behavior…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bee38fbb5b7c" data-article-url="https://arxiv.org/abs/2604.12176" data-article-title="Evaluating Relational Reasoning in LLMs with REL" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.12176" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.12176" target="_blank" rel="noopener">Evaluating Relational Reasoning in LLMs with REL</a></h3>
      <p class="summary">Relational reasoning is the ability to infer relations that jointly bind multiple entities, attributes, or variables. This ability is centr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fc32fe5a84b2" data-article-url="https://arxiv.org/abs/2604.17708" data-article-title="Co-evolving Agent Architectures and Interpretable Reasoning for Automated Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.17708" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.17708" target="_blank" rel="noopener">Co-evolving Agent Architectures and Interpretable Reasoning for Automated Optimization</a></h3>
      <p class="summary">Automating operations research (OR) with large language models (LLMs) remains limited by hand-crafted reasoning--execution workflows. Compl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dfc0bb98fc0d" data-article-url="https://arxiv.org/abs/2604.27660" data-article-title="From Context to Skills: Can Language Models Learn from Context Skillfully?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.27660" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.27660" target="_blank" rel="noopener">From Context to Skills: Can Language Models Learn from Context Skillfully?</a></h3>
      <p class="summary">Many real-world tasks require language models (LMs) to reason over complex contexts that exceed their parametric knowledge. This calls for…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6e6a5feb048" data-article-url="https://arxiv.org/abs/2605.02488" data-article-title="Efficient Temporal Datalog Materialisation for Composite Event Recognition" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.02488" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.02488" target="_blank" rel="noopener">Efficient Temporal Datalog Materialisation for Composite Event Recognition</a></h3>
      <p class="summary">Several applications demand the timely detection of critical situations, such as threats to safety and transparency, over high-velocity str…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5cc6ef81a2a5" data-article-url="https://arxiv.org/abs/2605.03644" data-article-title="AdapShot: Adaptive Many-Shot In-Context Learning with Semantic-Aware KV Cache Reuse" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.03644" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.03644" target="_blank" rel="noopener">AdapShot: Adaptive Many-Shot In-Context Learning with Semantic-Aware KV Cache Reuse</a></h3>
      <p class="summary">Many-Shot In-Context Learning (ICL) has emerged as a promising paradigm, leveraging extensive examples to unlock the reasoning potential of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c4b538bd300d" data-article-url="https://arxiv.org/abs/2605.08747" data-article-title="Done, But Not Sure: Disentangling World Completion from Self-Termination in Embodied Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.08747" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.08747" target="_blank" rel="noopener">Done, But Not Sure: Disentangling World Completion from Self-Termination in Embodied Agents</a></h3>
      <p class="summary">Standard embodied evaluations do not independently score whether an agent correctly commits to task completion at episode closure, a capaci…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6811da77ef8" data-article-url="https://arxiv.org/abs/2605.08767" data-article-title="From Holo Pockets to Electron Density: GPT-style Drug Design with Density" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.08767" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.08767" target="_blank" rel="noopener">From Holo Pockets to Electron Density: GPT-style Drug Design with Density</a></h3>
      <p class="summary">Recent advances in generative modeling have enabled significant progress in structure-based drug design (SBDD). Existing methods typically…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d4b85df123fb" data-article-url="https://arxiv.org/abs/2605.08935" data-article-title="PnP-Corrector: A Universal Correction Framework for Coupled Spatiotemporal Forecasting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.08935" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.08935" target="_blank" rel="noopener">PnP-Corrector: A Universal Correction Framework for Coupled Spatiotemporal Forecasting</a></h3>
      <p class="summary">Coupled spatiotemporal forecasting is important for predicting the future evolution of multiple interacting dynamical systems, such as in c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="89bbf73e121e" data-article-url="https://arxiv.org/abs/2605.11954" data-article-title="Assessing and Mitigating Miscalibration in LLM-Based Social Science Measurement" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.11954" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.11954" target="_blank" rel="noopener">Assessing and Mitigating Miscalibration in LLM-Based Social Science Measurement</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly used in social science as scalable measurement tools for converting unstructured text into va…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e737157ae4a9" data-article-url="https://arxiv.org/abs/2605.26366" data-article-title="幻覚検出のための自動レイヤー選択" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26366" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26366" target="_blank" rel="noopener">幻覚検出のための自動レイヤー選択</a></h3>
      <p class="summary">幻覚検出に関する最近の研究では、幻覚関連信号は大規模言語モデル (LLM) の最終層よりも中間層でより強くエンコードされることが示されています。この特性を幻覚検出に利用しようとする研究が増えていますが、高性能レイヤーの選択を自動化する方法はまだ研究されておらず、この目的のための原則的な方法もまだ不足しています。このギャップに対処するために、最初に、なぜそのような信号が中間層で出現するのかについていくつかの仮説を提案し、質問応答と要約幻覚検出ベンチマークの両方をカバーする、多様な LLM アーキテクチャ、スケール、タスクにわたる自動層選択の対応する基準を評価します。ただし、これらの基準のいずれも満足のいくパフォーマンスを一貫して提供できないことがわかりました。したがって、我々は、最適な層または最適に近い層を一貫して特定し、前述の基準と既存の幻覚検出ベースラインの両方を上回る新しい選択基準である固有次元の最初の有効ピーク (FEPoID) を提案します。 FEPoID はトレーニング不要であり、計算上のオーバーヘッドは無視できます。さらに、LLM の生成挙動を研究し、幻覚関連信号をさらに増幅し、全体的な検出性能を大幅に向上させる、シンプルかつ効果的な打ち切り戦略を導入します。コードは https://github.com/DesoloYw/Automatic-Layer-Selection-for-Hallucination-Detection.git で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Automatic Layer Selection for Hallucination Detection</p>
        <p class="orig-summary">Recent studies on hallucination detection have shown that hallucination-related signals are more strongly encoded in intermediate layers than in the final layer of large language models (LLMs). Although a growing body of work has sought to exploit this property for hallucination detection, how to automate the selection of high-performing layers remains underexplored, and principled methods for this purpose are still lacking. To address this gap, we first propose several hypotheses for why such signals emerge in intermediate layers and evaluate corresponding criteria for automatic layer selection across diverse LLM architectures, scales, and tasks, covering both question answering and summarization hallucination detection benchmarks. However, we find that none of these criteria consistently delivers satisfactory performance. We therefore propose a new selection criterion, First Effective Peak of Intrinsic Dimension (FEPoID), which consistently identify optimal or near-optimal layers and outperforms both the aforementioned criteria and existing hallucination detection baselines. FEPoID is training-free and incurs negligible computational overhead. In addition, we study the generation behaviors of LLMs and introduce a simple yet effective truncation strategy, which further amplifies hallucination-related signals and substantially improves overall detection performance. Code is publicly available at https://github.com/DesoloYw/Automatic-Layer-Selection-for-Hallucination-Detection.git</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ea2da268e855" data-article-url="https://arxiv.org/abs/2605.27762" data-article-title="PEAM: Minecraft での経験の対照的な内面化によるパラメトリックな身体化されたエージェントの記憶" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27762" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27762" target="_blank" rel="noopener">PEAM: Minecraft での経験の対照的な内面化によるパラメトリックな身体化されたエージェントの記憶</a></h3>
      <p class="summary">Minecraft のパラメトリック エンボディド エージェント メモリ フレームワークである PEAM を紹介します。これは、エージェント メモリを推論時の検索から、経験を通じて内面化されたパラメータ常駐スキルに変換します。 PEAM は、オープンエンド推論のための遅い熟議型 LLM と、統合されたスキルを反射的に実行するための高速パラメトリック モジュールを組み合わせます。この高速モジュールは、カテゴリごとに物理的に分離されたアダプターを備えたマルチモーダルな専門家混合 LoRA アーキテクチャであり、致命的な忘れを引き起こすことなくパラメーター レベルの継続的な学習を可能にします。私たちは失敗を第一級のトレーニング信号として扱います。失敗と修正軌道のペアは、共同の行動クローニングと対照的な目標を通じて内面化されるため、エージェントは何が成功したかだけでなく、修正されたアクションが失敗したアクションとどのように異なるのかも学習します。統合を管理するために、PEAM は、どのエクスペリエンスを内部化するかを決定するためのパラメータ化価値スコアと、タスク固有の手動調整しきい値なしでいつ内部化するかを決定するためのスケールフリーの自己トリガー統合メカニズムを導入し、再調整することなくトリガーがタスク分布全体に移行するにつれてエージェントを自己進化させます。 Minecraft での実験では、PEAM が長期的なタスクのパフォーマンスを向上させ、以前に統合されたスキルの忘れを軽減し、検索ベースの身体化エージェントやパラメトリック メモリのバリアントに比べてパラメトリック対検索の効率を向上させることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PEAM: Parametric Embodied Agent Memory through Contrastive Internalization of Experience in Minecraft</p>
        <p class="orig-summary">We present PEAM, a Parametric Embodied Agent Memory framework in Minecraft that transforms agent memory from inference-time retrieval into parameter-resident skills internalized through experience. PEAM pairs a slow deliberative LLM for open-ended reasoning with a fast parametric module for reflexive execution of consolidated skills. The fast module is a multimodal Mixture-of-Experts LoRA architecture with per-category physically isolated adapters, enabling parameter-level continual learning without catastrophic forgetting. We treat failure as a first-class training signal: failure--correction trajectory pairs are internalized through a joint behavioral-cloning and contrastive objective, so the agent learns not only what succeeds but also how corrected actions differ from failed ones. To govern consolidation, PEAM introduces a parameterization-worthiness score for deciding which experience should be internalized, and a scale-free self-triggered consolidation mechanism for deciding when to internalize without task-specific hand-tuned thresholds, making the agent self-evolving as the trigger transfers across task distributions without re-tuning. Experiments in Minecraft show that PEAM improves long-horizon task performance, mitigates forgetting on previously consolidated skills, and improves parametric-versus-retrieval efficiency over retrieval-based embodied agents and parametric memory variants.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fda42ad4caf0" data-article-url="https://arxiv.org/abs/2605.28556" data-article-title="A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28556" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28556" target="_blank" rel="noopener">A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks</a></h3>
      <p class="summary">As agent capabilities advance, existing benchmarks, such as $\tau^2$-Bench, are becoming increasingly saturated. Yet constructing new bench…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fee1a6a5f029" data-article-url="https://arxiv.org/abs/2605.29930" data-article-title="自己と他者を理解する AI システムに向けて: 人間の認知の多様性と世界モデルの整合のための多段階推論フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29930" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29930" target="_blank" rel="noopener">自己と他者を理解する AI システムに向けて: 人間の認知の多様性と世界モデルの整合のための多段階推論フレームワーク</a></h3>
      <p class="summary">現代社会における相互誤解は、単に意見や価値観の違いだけで生じるものではありません。同じ観察のもとでも、異なる主体は異なる推論ターゲット、状態表現、予測誤差、更新優先度を形成する可能性があります。この論文では、マルチフェーズ推論フレームワークを提案し、その中核となる内部メカニズムをマルチフェーズ推論メカニズム (MIM) として定義します。 MIM は、位相形成空間、前景フィールド、対象固有のプロファイル状態、および状態表現間の位置合わせマップを通じて、異種世界モデルがどのように生じるかを形式化します。これに基づいて、この論文は世界モデルの調整を、単一の価値体系への合意や収束を強制するのではなく、異種表現を相互に処理可能にする問題として再構成します。さらに、この形式主義を哲学的不一致、認知類型論、社会的断片化、AI の調整と結びつけます。その目的は、意味、価値、予測誤差の違いを可視化し、比較し、変換可能にすることで、人間が自己と他者を理解するのに役立つ建設的な語彙を AI システムに提供することです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Toward AI That Understands Self and Others: A World-Model Theory of Cognitive Diversity and Alignment</p>
        <p class="orig-summary">Modern societies possess more information than ever before, yet they do not converge toward a single shared understanding. The same events, facts, laws, technologies, or risks can be interpreted as evidence of freedom, danger, exclusion, injustice, responsibility, or unrealized possibility. Existing discussions often treat such disagreement as a conflict of values, preferences, or beliefs. This paper argues that disagreement is already a late-stage phenomenon. The central premise is simple but not trivial: observation is not yet inference. Not every observation becomes inferentially relevant, and not every possible object in an observation sequence becomes an estimation target. A possible target becomes admissible only when a state representation can be constructed that is approximately sufficient for prediction, evaluation, or action with respect to that target. This paper develops a world-model theory of cognitive diversity and alignment by reconstructing recognition as the construction of such approximate sufficient statistics under finite informational, representational, observational, and action constraints. It formulates this position as the Multi-Phase Inference Assumption (MIA) and defines its core internal mechanism as the Multi-Phase Inference Mechanism (MIM). The framework introduces alignment maps and transformation loss to analyze how heterogeneous world models communicate without being collapsed into a single representation. World-model alignment is therefore processability, not agreement: the design of AI systems that help heterogeneous forms of intelligence remain mutually processable while preserving their distinct error-detection capacities.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ee7c599aca16" data-article-url="https://arxiv.org/abs/2606.00555" data-article-title="編集する前にプローブする: 構造ベースの医薬品設計における LLM 薬剤のプローブに基づく分子最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00555" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00555" target="_blank" rel="noopener">編集する前にプローブする: 構造ベースの医薬品設計における LLM 薬剤のプローブに基づく分子最適化</a></h3>
      <p class="summary">構造ベースの医薬品設計では、標的ポケットに対してリガンドを反復的に精製するために LLM 試薬の採用が増えていますが、実行可能なリガンドは、しばしば相反する 2 つの目的、つまり結合親和性と創薬可能性を満たさなければなりませんが、単一の最適化ステップで同時に改善されることはほとんどありません。この困難さを定量化するために、2 つの診断メトリクスを導入します。1 つ目は、1 回の編集で両方の目標が改善される頻度を測定し、2 つ目は、一方の目標の利益が他方の目標の損失を伴う頻度を測定します。これらの診断を現在の LLM エージェント パイプラインに適用すると、一貫した障害モードが明らかになります。エージェントは、ポケット-リガンド複合体が局所的な修飾にどのように反応するかを知らずに分子編集を実行するため、関節の改善が達成されることはほとんどありません。最適化の方向性を選択する前に、制御されたアナログ編集でポケット-リガンド複合体を調査する医薬化学者からインスピレーションを得て、編集応答調査を中心に構築された最適化フレームワークである \textbf{PROBE} を提案します。 PROBE はまずリガンドを編集可能なサイトに分解し、共同利得が考えられる場所、2 つの目的が緊張している可能性が高い場所、および責任の下部構造を変更する必要がある場所を示すポケット固有の \textbf{サイト マップ} を構築します。次に、制御されたプローブ編集を実行し、その応答が \textbf{EditManual} に抽出されます。 PROBE は、サイト マップと EditManual に基づいて、アフィニティ エージェント、ドラッガビリティ エージェント、および共同最適化エージェントが共同して編集を行う反復マルチエージェント ループを実行します。 CrossDocked2020 ベン​​チマークでは、PROBE は最先端のパフォーマンスを達成し、診断メトリクスによって明らかになった障害モードを大幅に軽減します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Probe Before You Edit: Probing-Guided Molecular Optimization for LLM Agents in Structure-Based Drug Design</p>
        <p class="orig-summary">Structure-based drug design increasingly employs LLM agents to iteratively refine ligands against a target pocket, yet a viable ligand must satisfy two often-conflicting objectives -- binding affinity and druggability -- which single optimization steps rarely improve together. To quantify this difficulty, we introduce two diagnostic metrics: the first measures how often a single edit improves both objectives, and the second measures how often a gain on one objective comes with a loss on the other. Applying these diagnostics to current LLM-agent pipelines exposes a consistent failure mode: the agent performs molecular editing without knowing how the pocket-ligand complex responds to local modifications, thus rarely achieving joint improvement. Inspired by medicinal chemists, who probe the pocket-ligand complex with controlled analog edits before choosing an optimization direction, we propose \textbf{PROBE}, an optimization framework built around edit-response probing. PROBE first decomposes the ligand into editable sites and builds a pocket-specific \textbf{site map} that flags where joint gains are plausible, where the two objectives are likely in tension, and where liability substructures should be changed; it then performs controlled probe edits whose responses are distilled into an \textbf{EditManual}. Guided by the site map and EditManual, PROBE runs an iterative multi-agent loop in which an affinity agent, a druggability agent, and a co-optimization agent jointly produce edits. On the CrossDocked2020 benchmark, PROBE achieves state-of-the-art performance and substantially mitigates the failure modes exposed by our diagnostics metrics.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="583f11ccc6bd" data-article-url="https://arxiv.org/abs/2606.00680" data-article-title="事後ハイブリッド ベイジアン ビリーフを使用した正規化されたオフライン ポリシーの最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00680" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00680" target="_blank" rel="noopener">事後ハイブリッド ベイジアン ビリーフを使用した正規化されたオフライン ポリシーの最適化</a></h3>
      <p class="summary">オフライン強化学習 (RL) は、事前に収集されたデータセットからポリシーを最適化することを目的としています。このパラダイムのボトルネックは、認識論的な不確実性を管理することです。これは、限られたデータ範囲 (サンプルレベル) と、有限データから遷移ダイナミクスを特定する際の曖昧さ (モデルレベル) から生じます。これらの不確実性を統一的に定量化するために、ダイナミクス モデルを確率変数として扱い、対応する信念を維持することによってベイジアン RL が提案されています。理論的には魅力的ですが、ベイジアン RL でのポリシーの最適化は、期待値を含む複合目標を解決する必要があるため、依然として計算上困難です。従来の方法は、計算のスケーラビリティが低い検索ベースの手法を採用するか、ベイジアン RL の適応性を犠牲にする制限的な事後仮定を課すかのいずれかでした。これらの制限に対処するために、私たちは事後ハイブリッド ベイジアン ビリーフ (PhyB) を提案します。これは、ダイナミクス モデルのサブセットにわたる凸の組み合わせとして期待値を再定式化します。理論的分析により、この近似によって引き起こされる客観的な不一致には限界があることが実証されています。 PhyB に基づいて、収束までの単調な改善に対するメトリクスに依存しない保証を提供する反復的な正則化ポリシー最適化アルゴリズムを開発します。実証結果は、PhyB がさまざまなベンチマークで最先端のパフォーマンスを達成することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Regularized Offline Policy Optimization with Posterior Hybrid Bayesian Belief</p>
        <p class="orig-summary">Offline reinforcement learning (RL) aims to optimize policies from pre-collected datasets. A bottleneck of this paradigm is managing epistemic uncertainty, which arises from limited data coverage (sample-level) and the ambiguity in identifying transition dynamics from finite data (model-level). To provide a unified quantification of these uncertainties, Bayesian RL has been proposed by treating the dynamics model as a random variable and maintaining a corresponding belief. Despite its theoretical appeal, policy optimization in Bayesian RL remains computationally challenging as it requires solving composite objectives with expectations. Prior methods either employ search-based techniques with poor computational scalability or impose restrictive posterior assumptions that sacrifice the adaptability of Bayesian RL. To address these limitations, we propose Posterior Hybrid Bayesian Belief (PhyB), which reformulates the expectation as a convex combination over a subset of dynamics models. Theoretical analysis demonstrates that the objective discrepancy induced by this approximation remains bounded. Based on PhyB, we develop an iterative regularized policy optimization algorithm that provides metric-agnostic guarantees for monotonic improvement until convergence. Empirical results demonstrate that PhyB achieves state-of-the-art performance on various benchmarks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="90920c8e83cd" data-article-url="https://arxiv.org/abs/2606.00809" data-article-title="NBQ: 動的プロファイリングの次に最適な質問" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00809" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00809" target="_blank" rel="noopener">NBQ: 動的プロファイリングの次に最適な質問</a></h3>
      <p class="summary">ポッドキャスト、採用画面、マーケットプレイスなど、知識発見のための現実世界の会話環境の多くでは、目的に基づいて個人を理解する必要があります。私たちは Next-Best-Question (NBQ) 問題を研究します。つまり、面接官は各ターンで、すでに学んだ内容と会話の目標を考慮して、最も多くの情報が得られると期待される質問をする必要があります。私たちは、多様な候補質問のプールをシードし、コンパクトで継続的に更新されるユーザー状態を維持し、ターンバジェット内で次の質問を適応的に選択し、結果として得られる自由形式の対話を構造化されたベクトルベースのユーザープロファイルに抽出するプラグアンドプレイフレームワークであるNBQを提案します。要求の厳しいアプリケーションとして、相互マッチメイキング用の NBQ をインスタンス化します。この場合、互換性は相互である必要があり、各人は自己記述と相手の好みの表現の両方によってモデル化されます。大規模なマッチングをサポートするために、二次ペアごとのスコアリングから近似ベクトル検索への相互マッチングを再キャストする効率的な検索レイヤーである QuickMatch をさらに導入します。実験によると、NBQ はユーザー プロファイリングの品質を AC@T と AR@T でそれぞれ最大 13.6% と 14.0% 向上させ、一方、QuickMatch は検索を最大 22.9 倍高速化し、再現率は最大 0.989 です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">NBQ: Next-Best-Question for Dynamic Profiling</p>
        <p class="orig-summary">Many real-world conversational settings for knowledge discovery, including podcasts, hiring screens, and marketplaces, require a purpose-driven understanding of a person. We study the Next-Best-Question (NBQ) problem: at each turn, an interviewer should ask the question with the highest expected information gain given what has already been learned and the conversation goal. We propose NBQ, a plug-and-play framework that seeds a diverse pool of candidate questions, maintains a compact and continuously updated user state, adaptively selects the next question within a turn budget, and distills the resulting free-form dialogue into a structured vector-based user profile. As a demanding application, we instantiate NBQ for reciprocal matchmaking, where compatibility must be mutual and each person is modeled by both self-description and counterpart-preference representations. To support large-scale matching, we further introduce QuickMatch, an efficient retrieval layer that recasts reciprocal matching from quadratic pairwise scoring to approximate vector search. Experiments show that NBQ improves user profiling quality by up to 13.6% and 14.0% in AC@T and AR@T, respectively, while QuickMatch accelerates retrieval by up to 22.9x with recall up to 0.989.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="17ab7bde1987" data-article-url="https://arxiv.org/abs/2606.01013" data-article-title="AI レビューは紙の製図を改善できるか? 20 件のコンピュータ アーキテクチャの提出に関する実証的研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01013" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01013" target="_blank" rel="noopener">AI レビューは紙の製図を改善できるか? 20 件のコンピュータ アーキテクチャの提出に関する実証的研究</a></h3>
      <p class="summary">人工知能 (AI) の研究はこれまで以上に急速に進歩しています。対応する研究論文も同様です。 AI によって生成された論文の爆発的な量は査読に負担をかけており、AI によって生成された査読が、広範かつ卑劣な可能性を持って使用されるようになりました。しかし、機密性、品質、公平性に関する関連する倫理的懸念が提起されており、広範な研究コミュニティで合意に達していません。この議論はしばらく続くと予想されますが、それまでの間、私たちは代わりの実践的な質問をします: \textit{AI レビューは論文のドラフトを改善できますか?} 私たちは、さまざまなレベルの投稿系統を持つ 20 件のコンピューター アーキテクチャ論文を研究し、AI レビューが人間のレビューとどの程度一致しているかを明らかにします。これは、私たちが定義する一連の指標によって定量化されます。ケーススタディを実施するために、ドラフト論文の構造化された AI レビューを生成する Web UI 統合ツール \emph{AI-Paper-Review} を構築します。これは https://github.com/unarylab/ai-paper-review で入手できます。このツールは、AI レビュー担当者とクラスターの多様なプールから複数の AI レビュー担当者を選択し、レビュー コメントの共通性と重要性に基づいてコメントをランク付けします。また、AI のコメントと人間のコメントを調整して、メトリクスベースの検証を容易にすることもできます。このケーススタディは、AI レビューは人間によって引き起こされた問題のかなりの部分をカバーできるが、人間によるレビューでは欠けている問題も提起することを示しています。この論文は、現段階で査読に AI を使用することを推奨するものではなく、(1) AI レビューがどのように論文起草を改善できるか、(2) AI ベースの査読の可能性と限界について研究することを目的としています。このツールとケーススタディ データのリリースは、このテーマに関する将来の研究を促進することを目的としています。査読に悪用すると、主要な学術機関の倫理ポリシーに違反することになります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Can AI Review Improve Paper Drafting? An Empirical Study on 20 Computer Architecture Submissions</p>
        <p class="orig-summary">Research is advancing faster than ever with artificial intelligence (AI); and so are the corresponding research papers. The exploding volume of AI-generated papers have put a strain to peer review, leading to the usage of AI-generated review, potentially wide yet sneaky. However, relevant ethical concerns about confidentiality, quality, and fairness are raised and no consensus has been reached in the broad research community. We expect the debate to continue for a while, but in the meantime, we ask an alternative, practical question: \textit{can AI review improve paper drafting?} We study 20 computer architecture papers, with varying levels of submission lineage, to expose how well AI review aligns with human review, quantified by a set of metrics we define. To conduct the case study, we build a web UI-integrated tool, \emph{AI-Paper-Review}, that generates structured AI review of a draft paper, available at https://github.com/unarylab/ai-paper-review. This tool selects several AI reviewers from a diverse pool of AI reviewers and clusters and ranks their comments based on commonality and importance of review comments. It also allows to align AI comments with human comments to facilitate metric-based validation. The case study shows that AI review can cover a significant fraction of human-raised issues, but also raises issues missing in human review. This paper is not intended to encourage using AI for peer review at the current stage, but to study that (1) how AI review can improve paper drafting and (2) the potential and limitation of AI-based peer review. The release of the tool and the case study data is intended to instigate future research on this topic. Misuse for peer review would violate the ethics policies from major academic venues.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="12e5c6ee774a" data-article-url="https://arxiv.org/abs/2606.01139" data-article-title="SkillRevise: トレース条件付きスキル リビジョンによる LLM 作成エージェント スキルの向上" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01139" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01139" target="_blank" rel="noopener">SkillRevise: トレース条件付きスキル リビジョンによる LLM 作成エージェント スキルの向上</a></h3>
      <p class="summary">エージェント スキルは、LLM エージェントがワークフローを実行し、制約を検証し、障害から回復できるようにする手順的な成果物です。既存の自己進化手法は、蓄積された軌跡を利用してスキルを磨きます。しかし、初期の不完全なスキルしか利用できないコールドスタート環境では苦戦します。したがって、スキル構築はデフォルトでエキスパートオーサリングまたはワンショット LLM 生成になります。専門家が作成したスキルはコストが高く、LLM エージェントが実際にタスクを実行する方法と一致していない可能性があります。一方、ワンショットで生成されたスキルは、構文的には適切ですが、動作が弱い可能性があります。このギャップを埋めるために、私たちは、これらの初期スキルを反復的に改善するように設計された実行ベースのフレームワークである SkillRevise を提案します。 SkillRevise は、実行の証拠からスキルの欠陥を診断し、一般的なメモリから関連する修復原則を取得し、実行に固定された編集を適用します。候補者を再実行し、経験的な有用性を測定することで、最適なスキル バージョンを体系的に保持します。 3 つのベンチマークと 5 つの LLM で評価したところ、SkillRevise はワンショット ベースラインを大幅に上回り、SkillsBench でのベース エージェントの成功率が 36.05% から 61.63% に向上しました。さらに、改訂されたスキルはモデル間での強力な移行性を示し、モデル固有のアーティファクトに関する一般化された手順の知識を取得します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SkillRevise: Improving LLM-Authored Agent Skills via Trace-Conditioned Skill Revision</p>
        <p class="orig-summary">Agent skills are procedural artifacts that enable LLM agents to execute workflows, verify constraints, and recover from failures. Existing self-evolving methods refine skills using accumulated trajectories. However, they struggle in cold-start settings, where only an initial, imperfect skill is available. Consequently, skill construction defaults to expert authoring or one-shot LLM generation. Expert-authored skills are costly and may not align with how LLM agents actually execute tasks, while one-shot generated skills can be syntactically well formed yet behaviorally weak. To bridge this gap, we propose SkillRevise, an execution-grounded framework designed to iteratively refine these initial skills. SkillRevise diagnoses skill defects from execution evidence, retrieves relevant repair principles from a general memory, and applies execution-anchored edits. By re-executing candidates and measuring empirical utility, it systematically retains the optimal skill version. Evaluated across three benchmarks and five LLMs, SkillRevise substantially outperforms one-shot baselines, improving the base agent&#x27;s success rate on SkillsBench from 36.05% to 61.63%. Furthermore, the revised skills exhibit strong cross-model transferability, capturing generalized procedural knowledge over model-specific artifacts.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5a470e0e8fa8" data-article-url="https://arxiv.org/abs/2606.01162" data-article-title="専門家の混合による、さまざまな期限を持つ動的なクラウド ワークフローの巧みなスケジューリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01162" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01162" target="_blank" rel="noopener">専門家の混合による、さまざまな期限を持つ動的なクラウド ワークフローの巧みなスケジューリング</a></h3>
      <p class="summary">クラウド コンピューティングにおけるワークフロー スケジューリングでは、さまざまな期限を持つ動的に到着するグラフ構造のワークフローを、常に変化する仮想マシン リソースにインテリジェントに割り当てる必要があります。しかし、既存の深層強化学習 (DRL) スケジューラーは、多様なスケジューリング シナリオの処理に苦労する厳格な単一パス推論アーキテクチャによって依然として制限されています。 \textbf{DEFT} (\textbf{D}eadline-p\textbf{E}rceptive Mixture-o\textbf{F}-Exper\textbf{t}s) を導入します。これは、さまざまなレベルの締め切り厳しさを管理するように訓練された専門家の専門家混合を活用する革新的な DRL ポリシー アーキテクチャです。私たちの知る限り、DEFT は動的なクラウド ワークフロー スケジューリングのための専門家混合アーキテクチャを導入して検証した最初の企業です。 DEFT は、最も適切な専門家を通じて意思決定を適応的に行うことで、単一の専門家では達成できない広範な期限要件を満たすことができます。 DEFT の中心となるのは、ワークフローの期限と DAG、タスクの状態、VM の状態をエンコードする \textbf{graph-adaptive} ゲート メカニズムです。クロス アテンションを使用して、きめ細かく期限に敏感な方法でエキスパートのアクティベーションをガイドします。動的なクラウド ワークフロー ベンチマークの実験では、DEFT が実行コストと期限違反を大幅に削減し、複数の最先端の DRL ベースラインを上回るパフォーマンスを示していることが実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Deft Scheduling of Dynamic Cloud Workflows with Varying Deadlines via Mixture-of-Experts</p>
        <p class="orig-summary">Workflow scheduling in cloud computing demands the intelligent allocation of dynamically arriving, graph-structured workflows with varying deadlines onto ever-changing virtual machine resources. However, existing deep reinforcement learning (DRL) schedulers remain limited by rigid, single-path inference architectures that struggle to handle diverse scheduling scenarios. We introduce $\textbf{DEFT}$ ($\textbf{D}$eadline-p$\textbf{E}$rceptive Mixture-o$\textbf{F}$-Exper$\textbf{t}$s), an innovative DRL policy architecture that leverages a specialized mixture of experts, each trained to manage different levels of deadline tightness. To our knowledge, DEFT is the first to introduce and validate a Mixture-of-Experts architecture for dynamic cloud workflow scheduling. By adaptively routing decisions through the most appropriate experts, DEFT is capable of meeting a broad spectrum of deadline requirements that no single expert can achieve. Central to DEFT is a $\textbf{graph-adaptive}$ gating mechanism that encodes workflow DAGs, task states, and VM conditions, using cross-attention to guide expert activation in a fine-grained, deadline-sensitive manner. Experiments on dynamic cloud workflow benchmarks demonstrate that DEFT significantly reduces execution cost and deadline violations, outperforming multiple state-of-the-art DRL baselines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="374a4faba7fc" data-article-url="https://arxiv.org/abs/2606.01269" data-article-title="局所比較で訓練されたトランスフォーマーの創発順序幾何学" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01269" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01269" target="_blank" rel="noopener">局所比較で訓練されたトランスフォーマーの創発順序幾何学</a></h3>
      <p class="summary">推移的推論は、隣接する関係 (A &lt; B、B &lt; C) のみを知っていることから A &lt; C を推論するという課題です。人間や動物は、論理的な連鎖ではなく、アナログの精神的数直線を介して解決します。その特徴は、象徴的な距離効果です。つまり、遠くの比較は近くの比較よりも簡単です。トランスフォーマーが同じプリミティブを取得し、隠された全順序からの隣接する比較のみで小さなモデルをトレーニングし、目に見えない遠くのペアへの一般化を評価するかどうかを尋ねます。私たちは、分布外一般化が顕著な幾何学的再編成と並行して出現していることを発見しました。エンティティの埋め込みは、主軸が隠れた順位をほぼ完璧な忠実度で回復する 1 次元多様体に崩壊します。この構造は、グロッキングのような過渡ダイナミクスを生み出す方法での最適化に敏感です。重要なのは、精度が限界に達している場合でも、決定の信頼性と幾何学的分離は両方ともランク距離に単調にスケールし、人間、霊長類、齧歯動物に対する数十年の行動実験で観察された象徴的な距離の効果を直接反映していることです。これらの結果は、学習された表現の幾何学における 50 年来の行動規則性の根拠となり、認知科学と現代のニューラル ネットワークの橋渡しとなる推移的推論の機構的な説明を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Emergent Ordinal Geometry in Transformers Trained on Local Comparisons</p>
        <p class="orig-summary">Transitive inference is the challenge of inferring that A &lt; C from knowing only adjacent relations (A &lt; B, B &lt; C). It is solved by humans and animals not through logical chaining but via an analogue mental number line, whose signature is the symbolic distance effect: distant comparisons are easier than nearby ones. We ask whether Transformers acquire the same primitive, training small models exclusively on adjacent comparisons from a hidden total order and evaluating generalization to unseen distant pairs. We find that out-of-distribution generalization emerges alongside a striking geometric reorganization: entity embeddings collapse onto a one-dimensional manifold whose principal axis recovers the hidden rank order with near-perfect fidelity, and this structure is sensitive to optimization in ways that produce grokking-like transient dynamics. Critically, even when accuracy is at ceiling, decision confidence and geometric separation both scale monotonically with rank distance, directly mirroring the symbolic distance effect observed across decades of behavioural experiments on humans, primates, and rodents. We further show the same rank-aligned geometry in a pretrained large language model, where it tracks the topology of each ordinal relation: linear for sizes and digits, cyclic for months. These results ground a 50-year-old behavioural regularity in the geometry of learned representations, offering a mechanistic account of transitive inference that bridges cognitive science and modern neural networks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7d8be7ff7f22" data-article-url="https://arxiv.org/abs/2606.01767" data-article-title="EvoBrain: Continual Learning of EEG Foundation Models Across Heterogeneous BCI Tasks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01767" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01767" target="_blank" rel="noopener">EvoBrain: Continual Learning of EEG Foundation Models Across Heterogeneous BCI Tasks</a></h3>
      <p class="summary">Electroencephalography (EEG) is the cornerstone of non-invasive brain-computer interfaces (BCIs), yet conventional decoding relies on fragm…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e9ba607eb8be" data-article-url="https://arxiv.org/abs/2606.01897" data-article-title="Community-Aware Assessment of Social Textual Engagement and Resonance: A Human-Centric Perspective on User-Generated Content Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01897" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01897" target="_blank" rel="noopener">Community-Aware Assessment of Social Textual Engagement and Resonance: A Human-Centric Perspective on User-Generated Content Evaluation</a></h3>
      <p class="summary">Traditional Video Quality Assessment (VQA) focuses narrowly on aesthetic fidelity, overlooking the complex social dynamics that define qual…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b474e8edec0b" data-article-url="https://arxiv.org/abs/2606.02060" data-article-title="Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02060" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02060" target="_blank" rel="noopener">Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories</a></h3>
      <p class="summary">Deep-research agents solve tasks through long trajectories of search, tool use, evidence inspection, and answer synthesis. Evaluation based…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="154a069b42dd" data-article-url="https://arxiv.org/abs/2606.02132" data-article-title="Learning When Not to Act: Mitigating Tool Abuse in Agentic Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02132" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02132" target="_blank" rel="noopener">Learning When Not to Act: Mitigating Tool Abuse in Agentic Reinforcement Learning</a></h3>
      <p class="summary">Agentic reinforcement learning can induce tool abuse, where models overuse external tools even for queries solvable by internal reasoning.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f937598449eb" data-article-url="https://arxiv.org/abs/2606.02332" data-article-title="Forget Attention: Importance-Aware Attention Is All You Need" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02332" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02332" target="_blank" rel="noopener">Forget Attention: Importance-Aware Attention Is All You Need</a></h3>
      <p class="summary">Combining attention&#x27;s global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid l…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="77ab4f04a68a" data-article-url="https://arxiv.org/abs/2606.02461" data-article-title="AgentCL: Toward Rigorous Evaluation of Continual Learning in Language Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02461" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02461" target="_blank" rel="noopener">AgentCL: Toward Rigorous Evaluation of Continual Learning in Language Agents</a></h3>
      <p class="summary">Language agents spend substantial inference time solving individual tasks, yet the experience acquired in one episode is often underutilize…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2d55fb0f9d00" data-article-url="https://arxiv.org/abs/2303.15619" data-article-title="Typhoon: Towards an Effective Task-Specific Masking Strategy for Pre-trained Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2303.15619" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2303.15619" target="_blank" rel="noopener">Typhoon: Towards an Effective Task-Specific Masking Strategy for Pre-trained Language Models</a></h3>
      <p class="summary">The choice of \emph{which} tokens to mask is a central, under-examined design decision in masked language modeling (MLM). Standard pretrain…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4b439a2dc5ca" data-article-url="https://arxiv.org/abs/2409.08958" data-article-title="PINNfluence: Interpreting PINNs through Influence Functions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2409.08958" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2409.08958" target="_blank" rel="noopener">PINNfluence: Interpreting PINNs through Influence Functions</a></h3>
      <p class="summary">Physics-informed neural networks (PINNs) have emerged as a powerful deep learning approach for solving partial differential equations (PDEs…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="51c3e9024485" data-article-url="https://arxiv.org/abs/2410.14573" data-article-title="Building Trust in Black-box Optimization: A Comprehensive Framework for Explainability" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2410.14573" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2410.14573" target="_blank" rel="noopener">Building Trust in Black-box Optimization: A Comprehensive Framework for Explainability</a></h3>
      <p class="summary">Optimizing costly black-box functions within a constrained evaluation budget presents significant challenges in many real-world application…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e9fc44e0d272" data-article-url="https://arxiv.org/abs/2412.01282" data-article-title="Align-KD: Distilling Cross-Modal Alignment Knowledge for Mobile Vision-Language Model Enhancement" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2412.01282" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2412.01282" target="_blank" rel="noopener">Align-KD: Distilling Cross-Modal Alignment Knowledge for Mobile Vision-Language Model Enhancement</a></h3>
      <p class="summary">Vision-Language Models (VLMs) bring powerful understanding and reasoning capabilities to multimodal tasks. Meanwhile, the great need for ca…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dca34b1ab18c" data-article-url="https://arxiv.org/abs/2501.17377" data-article-title="ASAP: Exploiting the Satisficing Generalization Edge in Neural Combinatorial Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2501.17377" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2501.17377" target="_blank" rel="noopener">ASAP: Exploiting the Satisficing Generalization Edge in Neural Combinatorial Optimization</a></h3>
      <p class="summary">Deep Reinforcement Learning (DRL) has emerged as a promising approach for solving Combinatorial Optimization (CO) problems, such as the 3D…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bff4a7f0846f" data-article-url="https://arxiv.org/abs/2502.08006" data-article-title="Greed is Good: A Unifying Perspective on Guided Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.08006" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.08006" target="_blank" rel="noopener">Greed is Good: A Unifying Perspective on Guided Generation</a></h3>
      <p class="summary">Training-free guided generation is a widely used and powerful technique that allows the end user to exert further control over the generati…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5f1aa85d46b6" data-article-url="https://arxiv.org/abs/2502.08834" data-article-title="Rex: A Family of Reversible Exponential (Stochastic) Runge-Kutta Solvers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.08834" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.08834" target="_blank" rel="noopener">Rex: A Family of Reversible Exponential (Stochastic) Runge-Kutta Solvers</a></h3>
      <p class="summary">Deep generative models based on neural differential equations have become state-of-the-art for many generation tasks. These models rely on…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="de8cc928c347" data-article-url="https://arxiv.org/abs/2503.07265" data-article-title="WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.07265" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.07265" target="_blank" rel="noopener">WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation</a></h3>
      <p class="summary">Text-to-Image (T2I) models are capable of generating high-quality artistic creations and visual content. However, existing research and eva…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="73f7d0fbcb1c" data-article-url="https://arxiv.org/abs/2505.08222" data-article-title="Scaling Multi Agent Reinforcement Learning for Underwater Acoustic Tracking via Autonomous Vehicles" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.08222" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.08222" target="_blank" rel="noopener">Scaling Multi Agent Reinforcement Learning for Underwater Acoustic Tracking via Autonomous Vehicles</a></h3>
      <p class="summary">Autonomous vehicles (AVs) offer a cost-effective solution for scientific missions such as underwater tracking. Reinforcement learning (RL)…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d27dc95c9e04" data-article-url="https://arxiv.org/abs/2505.20853" data-article-title="Cooperation of Experts: Fusing Heterogeneous Information with Large Margin" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.20853" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.20853" target="_blank" rel="noopener">Cooperation of Experts: Fusing Heterogeneous Information with Large Margin</a></h3>
      <p class="summary">Fusing heterogeneous information remains a persistent challenge in modern data analysis. While significant progress has been made, existing…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cbe7ef0afe9e" data-article-url="https://arxiv.org/abs/2506.01969" data-article-title="FlashMLA-ETAP: Efficient Transpose Attention Pipeline for Accelerating MLA Inference on NVIDIA H20 GPUs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.01969" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.01969" target="_blank" rel="noopener">FlashMLA-ETAP: Efficient Transpose Attention Pipeline for Accelerating MLA Inference on NVIDIA H20 GPUs</a></h3>
      <p class="summary">Efficient inference of Multi-Head Latent Attention (MLA) is challenged by deploying the DeepSeek-R1 671B model on a single Multi-GPU server…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="30c6aa8ae59b" data-article-url="https://arxiv.org/abs/2506.03087" data-article-title="Do Explanations Increase the Risk of Decision Logic Leakage? Explanation-Guided Stealing of Graph Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.03087" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.03087" target="_blank" rel="noopener">Do Explanations Increase the Risk of Decision Logic Leakage? Explanation-Guided Stealing of Graph Models</a></h3>
      <p class="summary">Graph Neural Networks (GNNs) have become essential tools for analyzing graph-structured data in domains such as drug discovery and financia…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0e52fb19f3cf" data-article-url="https://arxiv.org/abs/2506.06295" data-article-title="dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.06295" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.06295" target="_blank" rel="noopener">dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching</a></h3>
      <p class="summary">Autoregressive Models (ARMs) have long dominated the landscape of Large Language Models. Recently, a new paradigm has emerged in the form o…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="35fcfbb5f460" data-article-url="https://arxiv.org/abs/2506.21129" data-article-title="Curriculum-Adapted Robust Reinforcement Learning for UAV Deconfliction in Adversarial Environments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.21129" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.21129" target="_blank" rel="noopener">Curriculum-Adapted Robust Reinforcement Learning for UAV Deconfliction in Adversarial Environments</a></h3>
      <p class="summary">Autonomous unmanned aerial vehicles (UAVs) increasingly rely on reinforcement learning (RL) for navigation. However, global navigation sate…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fe1982fd4413" data-article-url="https://arxiv.org/abs/2507.10419" data-article-title="Multiple Choice Learning of Low-Rank Adapters for Language Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.10419" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.10419" target="_blank" rel="noopener">Multiple Choice Learning of Low-Rank Adapters for Language Modeling</a></h3>
      <p class="summary">We propose LoRA-MCL, a training scheme that extends next-token prediction in language models with a method designed to decode diverse, plau…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a8eeb29611d8" data-article-url="https://arxiv.org/abs/2507.19684" data-article-title="CoMPAS3D: A Dataset and Benchmark for Interactive Motion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.19684" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.19684" target="_blank" rel="noopener">CoMPAS3D: A Dataset and Benchmark for Interactive Motion</a></h3>
      <p class="summary">Socially interactive humanoid robots must engage with humans through their bodies, adapting in real time to a partner&#x27;s movement, intent, a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e2d17f85611a" data-article-url="https://arxiv.org/abs/2508.06165" data-article-title="UR$^2$: Unify RAG and Reasoning through Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.06165" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.06165" target="_blank" rel="noopener">UR$^2$: Unify RAG and Reasoning through Reinforcement Learning</a></h3>
      <p class="summary">Large Language Models (LLMs) have shown strong capabilities through two complementary paradigms: Retrieval-Augmented Generation (RAG) for k…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="221edddaf654" data-article-url="https://arxiv.org/abs/2509.01641" data-article-title="Non-Identical Diffusion Models in MIMO-OFDM Channel Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.01641" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.01641" target="_blank" rel="noopener">Non-Identical Diffusion Models in MIMO-OFDM Channel Generation</a></h3>
      <p class="summary">We propose a novel diffusion model, termed the non-identical diffusion model, and investigate its application to wireless orthogonal freque…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="72e20d5a2f43" data-article-url="https://arxiv.org/abs/2509.09685" data-article-title="TalkPlayData 2: An Agentic Synthetic Data Pipeline for Multimodal Conversational Music Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.09685" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.09685" target="_blank" rel="noopener">TalkPlayData 2: An Agentic Synthetic Data Pipeline for Multimodal Conversational Music Recommendation</a></h3>
      <p class="summary">We present TalkPlayData 2, a synthetic dataset for multimodal conversational music recommendation generated by an agentic data pipeline. In…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1515353f79e0" data-article-url="https://arxiv.org/abs/2509.19305" data-article-title="Wavelet Fourier Diffuser: Frequency-Aware Diffusion Model for Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.19305" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.19305" target="_blank" rel="noopener">Wavelet Fourier Diffuser: Frequency-Aware Diffusion Model for Reinforcement Learning</a></h3>
      <p class="summary">Diffusion probability models have shown significant promise in offline reinforcement learning by directly modeling trajectory sequences. Ho…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0b949ac3f72f" data-article-url="https://arxiv.org/abs/2509.22468" data-article-title="Learning the Neighborhood: Contrast-Free Multimodal Self-Supervised Molecular Graph Pretraining" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.22468" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.22468" target="_blank" rel="noopener">Learning the Neighborhood: Contrast-Free Multimodal Self-Supervised Molecular Graph Pretraining</a></h3>
      <p class="summary">High-quality molecular representations are essential for property prediction and molecular design, yet large labeled datasets remain scarce…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c0b55f3650bc" data-article-url="https://arxiv.org/abs/2510.01377" data-article-title="DeMuon: A Decentralized Muon for Matrix Optimization over Graphs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.01377" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.01377" target="_blank" rel="noopener">DeMuon: A Decentralized Muon for Matrix Optimization over Graphs</a></h3>
      <p class="summary">In this paper, we propose DeMuon, a method for decentralized matrix optimization over a given communication topology. DeMuon incorporates m…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c1b64a9d91e8" data-article-url="https://arxiv.org/abs/2510.09711" data-article-title="ReaLM: Residual Quantization Bridging Knowledge Graph Embeddings and Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.09711" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.09711" target="_blank" rel="noopener">ReaLM: Residual Quantization Bridging Knowledge Graph Embeddings and Large Language Models</a></h3>
      <p class="summary">Large Language Models (LLMs) have recently emerged as a powerful paradigm for Knowledge Graph Completion (KGC), offering strong reasoning a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1297bb7aa0c5" data-article-url="https://arxiv.org/abs/2510.12049" data-article-title="Generative AI and Sales Productivity: Field Experiments in Online Retail" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.12049" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.12049" target="_blank" rel="noopener">Generative AI and Sales Productivity: Field Experiments in Online Retail</a></h3>
      <p class="summary">We quantify the short-term impact of Generative Artificial Intelligence (GenAI) on sales performance through a series of large-scale random…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ed7c3a0dc244" data-article-url="https://arxiv.org/abs/2510.12837" data-article-title="Semantic knowledge guides innovation and drives cultural evolution" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.12837" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.12837" target="_blank" rel="noopener">Semantic knowledge guides innovation and drives cultural evolution</a></h3>
      <p class="summary">Cultural evolution allows ideas and technologies to accumulate across generations, reaching their most complex and open-ended form in human…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bdfe2eb606f3" data-article-url="https://arxiv.org/abs/2510.21011" data-article-title="Generating the Modal Worker: A Cross-Model Audit of Race and Gender in LLM-Generated Personas Across 41 Occupations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.21011" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.21011" target="_blank" rel="noopener">Generating the Modal Worker: A Cross-Model Audit of Race and Gender in LLM-Generated Personas Across 41 Occupations</a></h3>
      <p class="summary">As generative AI tools are increasingly used to portray people in professional roles, understanding their racial and gender representationa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eca8bf0bf4d0" data-article-url="https://arxiv.org/abs/2511.02304" data-article-title="Automata-Conditioned Cooperative Multi-Agent Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.02304" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.02304" target="_blank" rel="noopener">Automata-Conditioned Cooperative Multi-Agent Reinforcement Learning</a></h3>
      <p class="summary">We study learning multi-task, multi-agent policies for cooperative, temporal objectives, under centralized training, decentralized executio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9be280bf169c" data-article-url="https://arxiv.org/abs/2511.12085" data-article-title="A Robust and Explainable Transformer-Based Framework for Phishing Email Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.12085" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.12085" target="_blank" rel="noopener">A Robust and Explainable Transformer-Based Framework for Phishing Email Detection</a></h3>
      <p class="summary">Phishing and related cyber threats are becoming increasingly sophisticated, with email-based phishing remaining the most persistent attack…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="103787723a89" data-article-url="https://arxiv.org/abs/2511.13020" data-article-title="PHASE: Physiology-Aware Hyperspectral Reconstruction via Object-to-Human Domain Adaptation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.13020" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.13020" target="_blank" rel="noopener">PHASE: Physiology-Aware Hyperspectral Reconstruction via Object-to-Human Domain Adaptation</a></h3>
      <p class="summary">Although hyperspectral imaging offers unparalleled non-invasive physiological insight, its bulky hardware, slow acquisition, and regulatory…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9862bee3b274" data-article-url="https://arxiv.org/abs/2511.13391" data-article-title="Finding Kissing Numbers with Game-theoretic Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.13391" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.13391" target="_blank" rel="noopener">Finding Kissing Numbers with Game-theoretic Reinforcement Learning</a></h3>
      <p class="summary">Since Isaac Newton first studied the Kissing Number Problem in 1694, determining the maximal number of non-overlapping spheres around a cen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="26418a2e900a" data-article-url="https://arxiv.org/abs/2511.16275" data-article-title="SeSE: Black-Box Uncertainty Quantification for Large Language Models Based on Structural Information Theory" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.16275" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.16275" target="_blank" rel="noopener">SeSE: Black-Box Uncertainty Quantification for Large Language Models Based on Structural Information Theory</a></h3>
      <p class="summary">Reliable uncertainty quantification (UQ) is essential for deploying large language models (LLMs) in safety-critical scenarios, as it enable…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="01d26b6bd64d" data-article-url="https://arxiv.org/abs/2511.21731" data-article-title="Identifying Quantum Structure in AI Language: Evidence for Evolutionary Convergence of Human and Artificial Cognition" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.21731" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.21731" target="_blank" rel="noopener">Identifying Quantum Structure in AI Language: Evidence for Evolutionary Convergence of Human and Artificial Cognition</a></h3>
      <p class="summary">We present the results of cognitive tests on conceptual combinations, performed using specific Large Language Models (LLMs) as test subject…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6578b2fa194" data-article-url="https://arxiv.org/abs/2512.03019" data-article-title="Distribution-Calibrated Inference Time Compute for Thinking LLM-as-a-Judge" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.03019" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.03019" target="_blank" rel="noopener">Distribution-Calibrated Inference Time Compute for Thinking LLM-as-a-Judge</a></h3>
      <p class="summary">Thinking Large Language Models (LLMs) used as judges for pairwise preferences remain noisy at the single-sample level, and common aggregati…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c8df34de629" data-article-url="https://arxiv.org/abs/2512.18552" data-article-title="Toward Training Superintelligent Software Agents through Self-Play SWE-RL" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.18552" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.18552" target="_blank" rel="noopener">Toward Training Superintelligent Software Agents through Self-Play SWE-RL</a></h3>
      <p class="summary">While current software agents powered by large language models (LLMs) and agentic reinforcement learning (RL) can boost programmer producti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7559a635c3ce" data-article-url="https://arxiv.org/abs/2512.23234" data-article-title="Edge-Aware and Content-Adaptive Infrared Gas Leak Detection for Industrial Safety Monitoring" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.23234" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.23234" target="_blank" rel="noopener">Edge-Aware and Content-Adaptive Infrared Gas Leak Detection for Industrial Safety Monitoring</a></h3>
      <p class="summary">Infrared gas leak detection is important for industrial safety and environmental monitoring, but automatic detection remains challenging be…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ac74bdc703ba" data-article-url="https://arxiv.org/abs/2601.02380" data-article-title="LLMs, Reasoning and Plagiarism" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.02380" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.02380" target="_blank" rel="noopener">LLMs, Reasoning and Plagiarism</a></h3>
      <p class="summary">Recent reports claim that Large Language Models (LLMs) derive new science and exhibit human-level general intelligence. Such claims are ent…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3feb60717967" data-article-url="https://arxiv.org/abs/2601.10222" data-article-title="Introduction to optimization methods for training SciML models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.10222" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.10222" target="_blank" rel="noopener">Introduction to optimization methods for training SciML models</a></h3>
      <p class="summary">Optimization is central to both modern machine learning (ML) and scientific machine learning (SciML), yet the structure of the underlying o…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b549a3b00e3d" data-article-url="https://arxiv.org/abs/2601.11429" data-article-title="Relational Linearity is a Predictor of Hallucinations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.11429" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.11429" target="_blank" rel="noopener">Relational Linearity is a Predictor of Hallucinations</a></h3>
      <p class="summary">Hallucination is a central failure mode of language models (LMs). We focus on hallucinations in response to questions like: &quot;Which instrume…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7da86dae8fc3" data-article-url="https://arxiv.org/abs/2601.11667" data-article-title="Distill-then-Replace: Efficient Task-Specific Hybrid Attention Model Construction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.11667" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.11667" target="_blank" rel="noopener">Distill-then-Replace: Efficient Task-Specific Hybrid Attention Model Construction</a></h3>
      <p class="summary">Transformer architectures deliver state-of-the-art accuracy via dense full-attention, but their quadratic time and memory complexity with r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6f58347ed871" data-article-url="https://arxiv.org/abs/2601.12186" data-article-title="Aletheia: What Makes RLVR For Code Verifiers Tick?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.12186" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.12186" target="_blank" rel="noopener">Aletheia: What Makes RLVR For Code Verifiers Tick?</a></h3>
      <p class="summary">Multi-domain thinking verifiers trained via Reinforcement Learning with Verifiable Rewards (RLVR) are a cornerstone of modern post-training…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c2f244aa2a82" data-article-url="https://arxiv.org/abs/2601.12247" data-article-title="Plan, Verify and Fill: A Structured Parallel Decoding Approach for Diffusion Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.12247" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.12247" target="_blank" rel="noopener">Plan, Verify and Fill: A Structured Parallel Decoding Approach for Diffusion Language Models</a></h3>
      <p class="summary">Diffusion Language Models (DLMs) present a promising non-sequential paradigm for text generation, distinct from standard autoregressive (AR…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2e8073aad51" data-article-url="https://arxiv.org/abs/2601.20844" data-article-title="$\mathbb{R}^{2k}$ is Theoretically Large Enough for Embedding-based Top-$k$ Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.20844" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.20844" target="_blank" rel="noopener">$\mathbb{R}^{2k}$ is Theoretically Large Enough for Embedding-based Top-$k$ Retrieval</a></h3>
      <p class="summary">This paper studies the Minimal Embeddable Dimension (MED): the least dimension in which there exists a configuration of $m$ object vectors…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6669719e286c" data-article-url="https://arxiv.org/abs/2602.01483" data-article-title="Causal Preference Elicitation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01483" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01483" target="_blank" rel="noopener">Causal Preference Elicitation</a></h3>
      <p class="summary">We propose causal preference elicitation, a Bayesian framework for expert-in-the-loop causal discovery that actively queries local edge rel…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0205ab0c80c6" data-article-url="https://arxiv.org/abs/2602.04899" data-article-title="Phantom Transfer: Data Poisoning can Survive Data-Level Defences" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.04899" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.04899" target="_blank" rel="noopener">Phantom Transfer: Data Poisoning can Survive Data-Level Defences</a></h3>
      <p class="summary">We present a data poisoning attack -- Phantom Transfer -- with the property that, even if you know precisely how the poison was placed into…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="04373bcf9a36" data-article-url="https://arxiv.org/abs/2602.06219" data-article-title="Coupled Local and Global World Models for Efficient First Order RL" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.06219" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.06219" target="_blank" rel="noopener">Coupled Local and Global World Models for Efficient First Order RL</a></h3>
      <p class="summary">World models offer a promising avenue for more faithfully capturing complex dynamics, including contacts and non-rigidity, as well as compl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ee5cfd446d2e" data-article-url="https://arxiv.org/abs/2602.06960" data-article-title="InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.06960" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.06960" target="_blank" rel="noopener">InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning</a></h3>
      <p class="summary">Large reasoning models achieve strong performance by scaling inference-time chain-of-thought, but this paradigm suffers from quadratic cost…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8167a9de328b" data-article-url="https://arxiv.org/abs/2602.07075" data-article-title="LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.07075" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.07075" target="_blank" rel="noopener">LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning</a></h3>
      <p class="summary">Current chemical large language models (LLMs) predominantly rely on explicit Chain-of-Thought (CoT) to solve complex reasoning problems. Ho…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b02d5dbadfc3" data-article-url="https://arxiv.org/abs/2602.07768" data-article-title="PAND: Prompt-Aware Neighborhood Distillation for Lightweight Fine-Grained Visual Classification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.07768" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.07768" target="_blank" rel="noopener">PAND: Prompt-Aware Neighborhood Distillation for Lightweight Fine-Grained Visual Classification</a></h3>
      <p class="summary">Distilling knowledge from large Vision-Language Models (VLMs) into lightweight networks is crucial yet challenging in Fine-Grained Visual C…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fcf657507db7" data-article-url="https://arxiv.org/abs/2602.08873" data-article-title="Whose Name Comes Up? II: Benchmarking and Intervention-Based Auditing of LLM-Based Scholar Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.08873" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.08873" target="_blank" rel="noopener">Whose Name Comes Up? II: Benchmarking and Intervention-Based Auditing of LLM-Based Scholar Recommendation</a></h3>
      <p class="summary">Large language models (LLMs) are now used for academic expert recommendation. Existing audits typically evaluate such recommendations in is…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0140095669a3" data-article-url="https://arxiv.org/abs/2602.09708" data-article-title="Physics-informed diffusion models in spectral space" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.09708" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.09708" target="_blank" rel="noopener">Physics-informed diffusion models in spectral space</a></h3>
      <p class="summary">We propose physics-informed spectral diffusion (PISD), a methodology that combines generative latent diffusion models with physics-informed…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec5661372d6e" data-article-url="https://arxiv.org/abs/2602.10352" data-article-title="Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.10352" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.10352" target="_blank" rel="noopener">Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs</a></h3>
      <p class="summary">Self-interpretation methods prompt language models to describe their own internal states, but remain unreliable due to hyperparameter sensi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="906ab809d5c2" data-article-url="https://arxiv.org/abs/2602.10387" data-article-title="Test-Time Optimization of Physical Query Plans with LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.10387" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.10387" target="_blank" rel="noopener">Test-Time Optimization of Physical Query Plans with LLMs</a></h3>
      <p class="summary">Traditional query optimization relies on cost-based optimizers that estimate execution cost (e.g., runtime, memory, and I/O) using predefin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="83260c756fd4" data-article-url="https://arxiv.org/abs/2602.12430" data-article-title="Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.12430" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.12430" target="_blank" rel="noopener">Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward</a></h3>
      <p class="summary">The transition from monolithic language models to modular, skill-equipped agents marks a defining shift in how large language models (LLMs)…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="764000357e2e" data-article-url="https://arxiv.org/abs/2602.14279" data-article-title="Whom to Query for What: Adaptive Group Elicitation via Multi-Turn LLM Interactions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.14279" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.14279" target="_blank" rel="noopener">Whom to Query for What: Adaptive Group Elicitation via Multi-Turn LLM Interactions</a></h3>
      <p class="summary">Eliciting information to reduce uncertainty about latent group-level properties from surveys and other collective assessments requires allo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cccff9f75855" data-article-url="https://arxiv.org/abs/2602.17063" data-article-title="Sign Lock-In: Randomly Initialized Weight Signs Persist and Bottleneck Sub-Bit Model Compression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.17063" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.17063" target="_blank" rel="noopener">Sign Lock-In: Randomly Initialized Weight Signs Persist and Bottleneck Sub-Bit Model Compression</a></h3>
      <p class="summary">Sub-bit model compression targets storage below one bit per weight; as magnitudes are aggressively compressed, the sign bit becomes a fixed…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0760c5c48104" data-article-url="https://arxiv.org/abs/2602.17149" data-article-title="TimeOmni-VL: Unified Models for Time Series Understanding and Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.17149" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.17149" target="_blank" rel="noopener">TimeOmni-VL: Unified Models for Time Series Understanding and Generation</a></h3>
      <p class="summary">Recent time series modeling faces a sharp divide between numerical generation and semantic understanding, with research showing that genera…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="658fb1198b23" data-article-url="https://arxiv.org/abs/2602.20213" data-article-title="CodeHacker: Automated Test Case Generation for Detecting Vulnerabilities in Competitive Programming Solutions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.20213" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.20213" target="_blank" rel="noopener">CodeHacker: Automated Test Case Generation for Detecting Vulnerabilities in Competitive Programming Solutions</a></h3>
      <p class="summary">The evaluation of Large Language Models (LLMs) for code generation relies heavily on the quality and robustness of test cases. However, exi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="21a0b0f63448" data-article-url="https://arxiv.org/abs/2602.20217" data-article-title="KnapSpec: Self-Speculative Decoding via Adaptive Layer Selection as a Knapsack Problem" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.20217" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.20217" target="_blank" rel="noopener">KnapSpec: Self-Speculative Decoding via Adaptive Layer Selection as a Knapsack Problem</a></h3>
      <p class="summary">Self-speculative decoding (SSD) accelerates LLM inference by skipping layers to create an efficient draft model, yet existing methods often…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7b0e181eac29" data-article-url="https://arxiv.org/abs/2603.01372" data-article-title="Causal Neural Probabilistic Circuits" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.01372" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.01372" target="_blank" rel="noopener">Causal Neural Probabilistic Circuits</a></h3>
      <p class="summary">Concept Bottleneck Models (CBMs) enhance the interpretability of end-to-end neural networks by introducing a layer of concepts and predicti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="524b850495e6" data-article-url="https://arxiv.org/abs/2603.04444" data-article-title="vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.04444" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.04444" target="_blank" rel="noopener">vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models</a></h3>
      <p class="summary">As large language models (LLMs) diversify across modalities, capabilities, and cost profiles, the problem of intelligent request routing --…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79c3d42ff351" data-article-url="https://arxiv.org/abs/2603.07664" data-article-title="Ref-DGS: Reflective Dual Gaussian Splatting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.07664" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.07664" target="_blank" rel="noopener">Ref-DGS: Reflective Dual Gaussian Splatting</a></h3>
      <p class="summary">The reflective appearance, especially strong and typically near-field specular reflections, poses a fundamental challenge for accurate surf…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="54207ddad338" data-article-url="https://arxiv.org/abs/2603.13384" data-article-title="VulnAgent-R2: Evidence-Calibrated Multi-Agent Auditing for Repository-Level Vulnerability Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.13384" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.13384" target="_blank" rel="noopener">VulnAgent-R2: Evidence-Calibrated Multi-Agent Auditing for Repository-Level Vulnerability Detection</a></h3>
      <p class="summary">Software vulnerabilities often depend on cross-file data flow, build options, framework conventions, and runtime guards, so isolated functi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9d30321766d3" data-article-url="https://arxiv.org/abs/2603.20508" data-article-title="Measuring Weak-to-Strong Legibility of Reasoning Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.20508" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.20508" target="_blank" rel="noopener">Measuring Weak-to-Strong Legibility of Reasoning Models</a></h3>
      <p class="summary">Reasoning language models (RLMs) and the intermediate chains of thought they emit play an increasingly central role in multi-agent setups s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d400aa97a0b6" data-article-url="https://arxiv.org/abs/2603.26738" data-article-title="SleepVLM: Explainable and Rule-Grounded Sleep Staging via a Vision-Language Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.26738" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.26738" target="_blank" rel="noopener">SleepVLM: Explainable and Rule-Grounded Sleep Staging via a Vision-Language Model</a></h3>
      <p class="summary">While automated sleep staging has achieved expert-level accuracy, its clinical adoption is hindered by a lack of auditable reasoning. We in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2bdb4f8e786" data-article-url="https://arxiv.org/abs/2603.26791" data-article-title="Crystal: Characterizing Relative Impact of Scholarly Publications" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.26791" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.26791" target="_blank" rel="noopener">Crystal: Characterizing Relative Impact of Scholarly Publications</a></h3>
      <p class="summary">Assessing a cited paper&#x27;s impact is typically done by analyzing its citation context in isolation within the citing paper. While this focus…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b92a2360386c" data-article-url="https://arxiv.org/abs/2604.13354" data-article-title="Finetuning-Free Diffusion Model with Adaptive Constraint Guidance for Inorganic Crystal Structure Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.13354" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.13354" target="_blank" rel="noopener">Finetuning-Free Diffusion Model with Adaptive Constraint Guidance for Inorganic Crystal Structure Generation</a></h3>
      <p class="summary">The discovery of inorganic crystal structures with targeted properties is a significant challenge in materials science. Generative models,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a61634917844" data-article-url="https://arxiv.org/abs/2604.15713" data-article-title="Just Type It in Isabelle! AI Agents Drafting, Mechanizing, and Generalizing from Human Hints" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.15713" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.15713" target="_blank" rel="noopener">Just Type It in Isabelle! AI Agents Drafting, Mechanizing, and Generalizing from Human Hints</a></h3>
      <p class="summary">Type annotations are essential when printing terms in a way that preserves their meaning under reparsing and type inference. We study the p…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8aa12ab82b00" data-article-url="https://arxiv.org/abs/2604.17220" data-article-title="Dynamics of Cognitive Heterogeneity: Investigating Behavioral Biases in Multi-Stage Supply Chains with LLM-Based Simulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.17220" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.17220" target="_blank" rel="noopener">Dynamics of Cognitive Heterogeneity: Investigating Behavioral Biases in Multi-Stage Supply Chains with LLM-Based Simulation</a></h3>
      <p class="summary">Modeling coordination among generative agents in complex multi-round decision-making presents a core challenge for AI and operations manage…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="de75bcf71a3f" data-article-url="https://arxiv.org/abs/2604.18572" data-article-title="Back into Plato&#x27;s Cave: Examining Cross-modal Representational Convergence at Scale" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.18572" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.18572" target="_blank" rel="noopener">Back into Plato&#x27;s Cave: Examining Cross-modal Representational Convergence at Scale</a></h3>
      <p class="summary">The Platonic Representation Hypothesis suggests that neural networks trained on different modalities (e.g., text and images) align and even…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2cfe45261f0c" data-article-url="https://arxiv.org/abs/2604.18995" data-article-title="$R^2$-dLLM: Accelerating Diffusion Large Language Models via Spatio-Temporal Redundancy Reduction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.18995" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.18995" target="_blank" rel="noopener">$R^2$-dLLM: Accelerating Diffusion Large Language Models via Spatio-Temporal Redundancy Reduction</a></h3>
      <p class="summary">Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to autoregressive generation by enabling parallel token pre…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e1a947d033fe" data-article-url="https://arxiv.org/abs/2604.22891" data-article-title="Quantifying and Mitigating Self-Preference Bias of LLM Judges" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.22891" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.22891" target="_blank" rel="noopener">Quantifying and Mitigating Self-Preference Bias of LLM Judges</a></h3>
      <p class="summary">LLM-as-a-Judge has become a dominant approach in automated evaluation systems, playing critical roles in model alignment, leaderboard const…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="38a5f77abc1b" data-article-url="https://arxiv.org/abs/2604.23099" data-article-title="ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.23099" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.23099" target="_blank" rel="noopener">ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation</a></h3>
      <p class="summary">Evaluating generative AI models is increasingly resource-intensive due to slow inference, expensive raters, and a rapidly growing landscape…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e8bd4b305dfd" data-article-url="https://arxiv.org/abs/2604.27147" data-article-title="How to Guide Your Flow: Few-Step Alignment via Flow Map Reward Guidance" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.27147" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.27147" target="_blank" rel="noopener">How to Guide Your Flow: Few-Step Alignment via Flow Map Reward Guidance</a></h3>
      <p class="summary">In generative modeling, we often wish to produce samples that maximize a user-specified reward such as aesthetic quality or alignment with…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f5c76f5d69d2" data-article-url="https://arxiv.org/abs/2605.03353" data-article-title="SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.03353" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.03353" target="_blank" rel="noopener">SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents</a></h3>
      <p class="summary">LLM agents increasingly rely on reusable skills (e.g., $SKILL.md$ ) to execute complex tasks, yet these artifacts lack portability: agent f…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ee2ea3d74de5" data-article-url="https://arxiv.org/abs/2605.06846" data-article-title="Narrow Secret Loyalty Dodges Black-Box Audits" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.06846" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.06846" target="_blank" rel="noopener">Narrow Secret Loyalty Dodges Black-Box Audits</a></h3>
      <p class="summary">Recent work identifies secret loyalties as a distinct threat from standard backdoors. A secret loyalty causes a model to covertly advance t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2a3b815674e0" data-article-url="https://arxiv.org/abs/2605.08426" data-article-title="Mechanism Design Is Not Enough: Prosocial Agents for Cooperative AI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.08426" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.08426" target="_blank" rel="noopener">Mechanism Design Is Not Enough: Prosocial Agents for Cooperative AI</a></h3>
      <p class="summary">Ensuring that AI agents behave safely and beneficially when interacting with other parties has emerged as one of the central challenges of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e29436d8c721" data-article-url="https://arxiv.org/abs/2605.09233" data-article-title="Towards Robust Sequential Decomposition for Complex Image Editing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.09233" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.09233" target="_blank" rel="noopener">Towards Robust Sequential Decomposition for Complex Image Editing</a></h3>
      <p class="summary">Recent advances in visual generative models have enabled high-fidelity image editing guided by human instructions. However, these models of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="84627a5ea904" data-article-url="https://arxiv.org/abs/2605.11607" data-article-title="Exact Stiefel Optimization for Probabilistic PLS: Closed-Form Updates, Error Bounds, and Calibrated Uncertainty" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.11607" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.11607" target="_blank" rel="noopener">Exact Stiefel Optimization for Probabilistic PLS: Closed-Form Updates, Error Bounds, and Calibrated Uncertainty</a></h3>
      <p class="summary">Probabilistic partial least squares (PPLS) is a central likelihood-based model for two-view learning when one needs both interpretable late…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="869fcc64eef0" data-article-url="https://arxiv.org/abs/2605.12925" data-article-title="AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.12925" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.12925" target="_blank" rel="noopener">AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation</a></h3>
      <p class="summary">Evaluation of software engineering (SWE) agents is dominated by a binary signal: whether the final patch passes the tests. This outcome-onl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d61706d7f80b" data-article-url="https://arxiv.org/abs/2605.13258" data-article-title="X-Restormer++: 1st Place Solution for the UG2+ CVPR 2026 All-Weather Restoration Challenge" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13258" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13258" target="_blank" rel="noopener">X-Restormer++: 1st Place Solution for the UG2+ CVPR 2026 All-Weather Restoration Challenge</a></h3>
      <p class="summary">In this work, we present our winning solution for the 8th UG2+ Challenge (CVPR 2026) Track 1: Image Restoration under All-weather Condition…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="26e93bccdd68" data-article-url="https://arxiv.org/abs/2605.16064" data-article-title="Misspecified Estimate-then-Optimize Leads to Supra-Competitive Prices" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.16064" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.16064" target="_blank" rel="noopener">Misspecified Estimate-then-Optimize Leads to Supra-Competitive Prices</a></h3>
      <p class="summary">We study whether simple algorithmic pricing systems can systematically produce collusive-like prices in multi-firm markets. We consider fir…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="374816ec0a0e" data-article-url="https://arxiv.org/abs/2605.18106" data-article-title="Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.18106" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.18106" target="_blank" rel="noopener">Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers</a></h3>
      <p class="summary">A striking geometric disparity has long persisted in the practice of deep learning. While modern neural network architectures naturally exh…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5b3b52e43d44" data-article-url="https://arxiv.org/abs/2605.18160" data-article-title="Vision Inference Former: Sustaining Visual Consistency in Multimodal Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.18160" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.18160" target="_blank" rel="noopener">Vision Inference Former: Sustaining Visual Consistency in Multimodal Large Language Models</a></h3>
      <p class="summary">In recent years, multimodal large language models (MLLMs) have achieved remarkable progress, primarily attributed to effective paradigms fo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="17bf02fd617d" data-article-url="https://arxiv.org/abs/2605.18740" data-article-title="Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.18740" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.18740" target="_blank" rel="noopener">Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation</a></h3>
      <p class="summary">Multimodal Large Language Models (MLLMs) still struggle with fine-grained visual understanding, where answers often depend on small but dec…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4ef194582a60" data-article-url="https://arxiv.org/abs/2605.19805" data-article-title="Latent Laplace Diffusion for Irregular Multivariate Time Series" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.19805" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.19805" target="_blank" rel="noopener">Latent Laplace Diffusion for Irregular Multivariate Time Series</a></h3>
      <p class="summary">Irregular multivariate time series impose a trade-off for long-horizon forecasting: discrete methods can distort temporal structure via re-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="84a720f619b8" data-article-url="https://arxiv.org/abs/2605.20402" data-article-title="LLM 強化学習のための MXFP4 量子化誤差の分解: 削減可能なバイアス、回復可能なデッドゾーン、および既約の下限" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.20402" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.20402" target="_blank" rel="noopener">LLM 強化学習のための MXFP4 量子化誤差の分解: 削減可能なバイアス、回復可能なデッドゾーン、および既約の下限</a></h3>
      <p class="summary">MXFP4 算術演算は、大規模言語モデル (LLM) のトレーニング後の強化学習 (RL) を劇的に加速できますが、量子化エラーにより精度が大幅に低下します。既存の研究では、量子化誤差をモノリシックなノイズ項として扱っており、量子化誤差がトレーニングにどのような影響を与えるかを解釈する際の明確なメカニズムが欠けています。量子化誤差の正確な 3 方向分解を証明し、各コンポーネントが個別の RL トレーニング経路をどのように支配するかを示します。私たちの理論的および経験的分析は、MXFP4 量子化誤差を 3 つの加算成分に分解します。2 のべき乗の丸めによる「スケール バイアス」、小さな値をゼロにすることによる「デッドゾーンの切り捨て」、および最も近い 4 ビット グリッドへの丸めによる「グリッド ノイズ」です。各コンポーネントは、個別の RL 故障モードを支配します。スケール バイアスは、後方パスを通じて乗算的に蓄積し、勾配の精度に影響を与えます。デッドゾーンの切り捨てはロールアウトの品質を低下させます。そしてグリッドノイズは政​​策のエントロピーを増大させます。 RL 障害モードを対象とするがコンポーネントに限定されない修正を組み合わせます。つまり、スケール バイアスを低減するためのマクロブロック スケーリング、デッドゾーン エントリを回復する外れ値フォールバック、スケール バイアスによって引き起こされるエラーを部分的に低減する機能、およびポリシー エントロピーを制御するための適応量子化ノイズ (AQN) です。 Qwen2.5-3B 高密度モデルと Qwen3-30B-A3B-Base の専門家混合モデルでは、ターゲットを絞った修正により、BF16 の精度がそれぞれ 0.7% 以内に回復し、BF16 を +1.0% 上回りました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Decomposing MXFP4 quantization error for LLM reinforcement learning: reducible bias, recoverable deadzone, and an irreducible floor</p>
        <p class="orig-summary">MXFP4 arithmetic can dramatically accelerate reinforcement learning (RL) post-training of large language models (LLMs), yet the quantization error introduces severe accuracy degradation. Existing work treats the quantization error as a monolithic noise term, missing the distinct mechanisms upon interpreting how quantization error damages training. We prove an exact three-way decomposition of quantization error and show how each component dominates a distinct RL training pathway. Our theoretical and empirical analysis decomposes the MXFP4 quantization error into three additive components: &quot;scale bias&quot; from power-of-two rounding, &quot;deadzone truncation&quot; from zeroing small values, and &quot;grid noise&quot; from rounding to the nearest 4-bit grid. Each component dominates a distinct RL failure mode: scale bias accumulates multiplicatively through the backward pass, affecting gradient accuracy; deadzone truncation degrades rollout quality; and grid noise raises the policy&#x27;s entropy. We combine corrections that are RL failure mode-targeted but not component-exclusive: Macro-block scaling to reduce scale bias, Outlier Fallback recovers deadzone entries, but also partially reduces scale bias induced error, and Adaptive Quantization Noise (AQN) for controlling the policy entropy. On Qwen2.5-3B dense and Qwen3-30B-A3B-Base mixture-of-experts model, the targeted corrections recover BF16 accuracy to within 0.7% and exceed BF16 by +1.0% respectively.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="070f75fd24cb" data-article-url="https://arxiv.org/abs/2605.20731" data-article-title="TASTE: A Designer-Annotated Multi-Dimensional Preference Dataset for AI-Generated Graphic Design" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.20731" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.20731" target="_blank" rel="noopener">TASTE: A Designer-Annotated Multi-Dimensional Preference Dataset for AI-Generated Graphic Design</a></h3>
      <p class="summary">Text-to-image models now generate graphic design at production scale, yet their supervision still comes primarily from photo-style preferen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="51e20bee45ca" data-article-url="https://arxiv.org/abs/2605.22018" data-article-title="FRED: A Multi-Modal Autonomous Driving Dataset for Flooded Road Environments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.22018" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.22018" target="_blank" rel="noopener">FRED: A Multi-Modal Autonomous Driving Dataset for Flooded Road Environments</a></h3>
      <p class="summary">The Flooded Road Environments Dataset (FRED) is, to our knowledge, the first multi-modal autonomous driving dataset specifically targeting…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6d50672a2cf0" data-article-url="https://arxiv.org/abs/2605.23055" data-article-title="評価意識の分解と測定" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.23055" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.23055" target="_blank" rel="noopener">評価意識の分解と測定</a></h3>
      <p class="summary">フロンティア言語モデルは、評価されていることを認識して動作を調整し、ベンチマーク結果の妥当性を損なうことがあります。しかし、現場では共通の基礎を持たずに評価の特性とモデルの特性、検出と行動反応を混同して研究が行われています。私たちは評価意識を社会心理学に基礎づけ、評価意識を環境要素 (課題がどの程度認識されているか) と、認識をそれに基づいて行動する傾向から分離するモデル要素に分解します。プレースホルダー エンティティや採点スタイルの出力形式など、8 つの分類されたトリガー要因を通じて環境コンポーネントを運用し、思考連鎖のモニタリングを通じて認識と行動を研究します。 9 つのフロンティア モデルと 4 つのベンチマークにわたって、認識率はモデルとベンチマークのどちらか単独ではなく、モデルとベンチマークの特定の組み合わせに依存します。認識が行動の変化につながることはほとんどありませんが、変化する場合、その方向性は認識された評価の種類によって異なります。また、モデルは機能評価よりも安全性に対して敏感であり、安全性ベンチマークの妥当性がより大きなリスクにさらされます。各モデルがどの要因に敏感で、それらがどのように相互作用するかを研究するために、8 つの要因のそれぞれを独立して切り替えることができ、基礎となる要求を固定したまま評価信号を変化させる、100 のペアの安全機能タスクの要因制御ベンチマークである \textbf{EvalAwareBench} を提案します。 EvalAwareBench を通じて、単一の要素がすべてのモデルに均一に影響を与えることはなく、要素を積み重ねることですべてのモデルにわたる評価の意識が徐々に向上することがわかりました。私たちのフレームワークと EvalAwareBench は、評価意識を測定、属性付け、軽減するためのツールを提供し、将来有望な道として認識される下での行動の一貫性を示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Decomposing and Measuring Evaluation Awareness</p>
        <p class="orig-summary">Frontier language models sometimes recognize that they are being evaluated and adjust their behavior, undermining validity of benchmark results. Yet the field studies it without a shared foundation, conflating properties of the evaluation with properties of the model, and detection with behavioral response. We ground evaluation awareness in social psychology, decomposing it into an environment component (how recognizable the task is) and a model component that separates recognition from propensity to act on it. We operationalize the environment component through eight categorized trigger factors, such as placeholder entities and grading-style output formats, and study recognition and behavior through chain-of-thought monitoring. Across nine frontier models and four benchmarks, recognition rates depend on the specific pairing of model and benchmark rather than on either in isolation. Recognition rarely leads to behavioral change, and when it does, the direction depends on the type of evaluation perceived. Models are also more sensitive to safety than capability evaluations, placing safety benchmark validity at greater risk. To study which factors each model is sensitive to and how they interact, we propose \textbf{EvalAwareBench}, a factor-controlled benchmark of 100 paired safety-capability tasks where each of the eight factors can be independently toggled, varying evaluative signals while holding the underlying request fixed. Through EvalAwareBench, we find that no single factor uniformly affects all models, but stacking factors progressively raises evaluation awareness across all of them. Our framework and EvalAwareBench provide the tools to measure, attribute, and mitigate evaluation awareness, pointing to behavioral consistency under recognition as a promising path forward.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="012d6ac120de" data-article-url="https://arxiv.org/abs/2605.23995" data-article-title="医療画像解析のためのタスク整合型自己教師あり学習: 体系的なレビューと実践的な設計ガイドライン" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.23995" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.23995" target="_blank" rel="noopener">医療画像解析のためのタスク整合型自己教師あり学習: 体系的なレビューと実践的な設計ガイドライン</a></h3>
      <p class="summary">自己教師あり学習 (SSL) は、ラベルのないデータから表現を学習することで、医療画像処理におけるアノテーションのボトルネックに対処するための有望なパラダイムとして浮上しています。ただし、その有効性は口実タスクの設計と下流の臨床目的との整合性に大きく依存します。医療画像処理における SSL の体系的でタスク指向のレビューを紹介し、さまざまな口実タスクの定式化が分類、セグメンテーション、検出、その他のタスク全体のパフォーマンスにどのような影響を与えるかを検証します。 PRISMA ガイドラインに従って、2017 年から 2025 年の間に発表された 75 件の研究を分析し、対照学習、非対照学習と予測学習、生成学習と再構成ベースの学習、およびハイブリッド学習の 4 つのパラダイムに整理しました。アーキテクチャごとにメソッドをカタログ化するのではなく、各パラダイムを、それが最もよくサポートする下流の目的にマッピングします。私たちの分析によれば、普遍的に最適な SSL 戦略は存在しません。代わりに、パフォーマンスは、口実タスク、イメージングモダリティ、およびターゲットタスク間の調整によって決まります。対照的な方法は全体的な識別特徴を学習し、分類とうまく一致しますが、微妙な病理学的パターンを見落とす可能性があります。生成および空間予測ベースのアプローチは、局所的な解剖学的構造をより適切に保存するため、セグメンテーションやその他の緻密な予測タスクにより適していますが、ハイブリッド手法は最もバランスの取れたパフォーマンスを提供します。さらに、モダリティ固有の設計が重要であること、および SSL が低ラベルおよび少数ショットの領域で最大の利点を提供することを示します。最後に、これらの発見を実用的な設計ガイドラインに絞り込み、病理学を意識した口実タスク設計、高次元データのリソース効率の高いトレーニング、標準化された評価プロトコルなどの未解決の課題を概説します。この研究は、医療画像処理において、より効果的で臨床的に関連性のある SSL フレームワークを設計するための実践的なガイダンスを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Task-Aligned Self-Supervised Learning for Medical Image Analysis: A Systematic Review and Practical Design Guidelines</p>
        <p class="orig-summary">Self-supervised learning (SSL) has emerged as a promising paradigm for addressing the annotation bottleneck in medical imaging by learning representations from unlabeled data. However, its effectiveness depends heavily on the design of the pretext task and its alignment with the downstream clinical-objectives. We present a systematic, task-oriented review of SSL in medical imaging, examining how different pretext-task formulations influence performance across classification, segmentation, detection, and other tasks. Following PRISMA guidelines, we analyze 75 studies published between 2017 and 2025 and organize them into four paradigms: contrastive, non-contrastive and predictive, generative and reconstruction-based, and hybrid learning. Rather than cataloguing methods by architecture, we map each paradigm to the downstream objectives it best supports. Our analysis shows there is no universally optimal SSL strategy; instead, performance is governed by the alignment between the pretext task, the imaging modality, and the target task. Contrastive methods learn global discriminative features and align well with classification, but may overlook subtle pathological patterns. Generative and spatial prediction-based approaches better preserve local anatomical structure, making them more suitable for segmentation and other dense prediction tasks, while hybrid methods offer the most balanced performance. We further show that modality-specific design is critical and that SSL provides its greatest benefit in low-label and few-shot regimes. Finally, we distill these findings into practical design guidelines and outline open challenges, including pathology-aware pretext task design, resource-efficient training for high-dimensional data, and standardized evaluation protocols. This work offers practical guidance for designing more effective and clinically relevant SSL frameworks in medical imaging.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="abb7233654e7" data-article-url="https://arxiv.org/abs/2605.24253" data-article-title="CRISP -- 病理症例の表現と検索のためのクラスタリング ベースの冗長性を削減したインスタンス サンプリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24253" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24253" target="_blank" rel="noopener">CRISP -- 病理症例の表現と検索のためのクラスタリング ベースの冗長性を削減したインスタンス サンプリング</a></h3>
      <p class="summary">デジタル病理学アーカイブには、空間的に異なる腫瘍領域を捕捉し、固有の形態学的不均一性を反映する、症例ごとに複数の全スライド画像 (WSI) が含まれることが増えています。しかし、既存のアプローチのほとんどは、病理学者が選択した単一のスライドに依存しているため、残りの WSI に分散されている潜在的な有益な証拠を破棄しています。現在まで、包括的なマルチ WSI ケース処理のための自律的なフレームワークは提案されていません。ここでは、ケース内の利用可能なすべてのスライドからの情報を統合するケースレベル分析のための教師なしフレームワークを紹介します。提案されたアプローチは、指定された単一のスライドに依存するのではなく、WSI 全体で情報パッチを選択的に抽出することによって症例レベルの表現を構築します。我々は、まず個々の WSI 内の冗長性を削減し、次にクラスタリング ベースのサンプリングを適用して、症例全体のコンパクトでありながら代表的なパッチ セットを選択する 2 段階のフレームワークである、Clustering-Based Redundancy-Reduced Instance Sampling for Pathology (CRISP) を導入します。結果として得られるパッチ セットは、ギガピクセル画像の徹底的な処理を回避しながら症例レベルの異質性を捕捉し、検索インデックスとして直接機能します。診断と治療計画にメイヨークリニックの 2 つの乳がんデータセットを使用することで、CRISP が患者/症例の検索と取得のためのモデルと病理医のスライド選択を組み合わせた現在の標準的な手法と一貫して一致またはそれを上回ることを実証します。 CRISP は、症例レベルの処理を自動化し、主観的な WSI 選択を排除することにより、現在見落とされている複数の WSI に分散された臨床関連情報の活用を可能にする可能性があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CRISP -- Clustering-Based Redundancy-Reduced Instance Sampling for Pathology Case Representation and Retrieval</p>
        <p class="orig-summary">Digital pathology archives increasingly contain multiple whole-slide images (WSIs) per case, capturing spatially distinct tumor regions and reflecting intrinsic morphological heterogeneity. However, most existing approaches rely on a single pathologist-selected slide, thereby discarding potentially informative evidence distributed across the remaining WSIs. To date, no autonomous framework has been proposed for comprehensive multi-WSI case processing. Here, we present an unsupervised framework for case-level analysis that integrates information from all available slides within a case. Rather than relying on a single designated slide, the proposed approach constructs case-level representations by selectively distilling informative patches across WSIs. We introduce Clustering-Based Redundancy-Reduced Instance Sampling for Pathology (CRISP), a two-stage framework that first reduces redundancy within individual WSIs and subsequently applies clustering-based sampling to select a compact yet representative set of patches for the entire case. The resulting patch set captures case-level heterogeneity while avoiding exhaustive processing of gigapixel images, and directly serves as a retrieval index. Using two Mayo Clinic breast cancer datasets for diagnosis and treatment planning, we demonstrate that CRISP consistently matches or surpasses the current standard practice of combined model and pathologist slide selection for patient/case search and retrieval. By automating case-level processing and eliminating subjective WSI selection, CRISP potentially enables the exploitation of clinically relevant information distributed across multiple WSIs that is currently overlooked.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5eb07f2a1235" data-article-url="https://arxiv.org/abs/2605.24391" data-article-title="MX-SAFE: オンザフライ指数と仮数ビット割り当てを備えた多用途の推論およびトレーニングに耐えるマイクロスケーリング フォーマット" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24391" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24391" target="_blank" rel="noopener">MX-SAFE: オンザフライ指数と仮数ビット割り当てを備えた多用途の推論およびトレーニングに耐えるマイクロスケーリング フォーマット</a></h3>
      <p class="summary">ディープラーニングの需要が高まるにつれ、トレーニングと推論の両方において量子化によるコスト削減が不可欠になりました。 2022 年、オープン コンピューティング プロジェクト (OCP) コンソーシアムは、マイクロスケーリング (MX) 形式と呼ばれるディープ ラーニング用の狭精度形式を標準化しました。 MX フォーマットは、ハードウェアに適した動的量子化スキームであり、複数のオペランド間で 8 ビットの指数を共有することでデータ サイズを効果的に削減します。 MX フォーマットは、それぞれの長所を持つ 2 つのタイプに分類できます。(i) 仮数ビットのみで構成される高精度を重視する MXINT と、(ii) ローカル指数ビットを許可することにより広いダイナミック レンジを重視する MXFP です。この研究では、MX-SAFE (略して MXSF) と呼ばれる汎用性の高い MXFP フォーマットを紹介します。このフォーマットは、トレーニングとダイレクトキャスト推論の両方をサポートするために、より広い仮数部モード (FP8 E2M5) と準正規 FP モード (FP5 E3M2) の 2 つのモードを適応的に使用します。さらに、MXSF 形式でのトレーニング中の再量子化プロセスの負担を軽減することでハードウェア効率を向上させる、タイルベースのブロック設計を提案します。提案された MXSF 形式の使用により、MXFP8 E2M5 および MXFP8 E4M3 と比較して、推論/フルトレーニングの精度が平均してそれぞれ 0.05%/11.1% および 3.55%/3.57% 向上しました。さらに、MXSF 形式をサポートするトレーニング推論アクセラレータを紹介します。これは、総エネルギー消費量を 24.9% 削減しながら、BF16 ベースラインと同等の精度を達成します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MX-SAFE: Versatile Inference- and Training-Proof Microscaling Format with On-the-Fly Exponent and Mantissa Bit Allocation</p>
        <p class="orig-summary">As the demand for deep learning grows, cost reduction through quantization has become essential for both training and inference. In 2022, the Open Compute Project (OCP) consortium standardized narrow precision formats for deep learning, called the microscaling (MX) format. The MX format is a hardware-friendly dynamic quantization scheme that effectively reduces the data size by sharing an 8-bit exponent across multiple operands. The MX format can be categorized into two types with their own strengths: (i) MXINT which focuses on a high precision consisting only of mantissa bits and (ii) MXFP which focuses on a wider dynamic range by allowing local exponent bits. In this work, we present a versatile MXFP format, called MX-SAFE (MXSF in short), that adaptively uses two modes, i.e., a wider mantissa mode (FP8 E2M5) and a subnormal FP mode (FP5 E3M2), to support both training and direct-cast inference. Furthermore, we propose a tile-based block design to increase hardware efficiency by reducing the burden of re-quantization process during the training with the MXSF format. Owing to the use of the proposed MXSF format, 0.05%/11.1% and 3.55%/3.57% improvements in accuracy, on average, for inference/full-training compared to MXFP8 E2M5 and MXFP8 E4M3 are observed, respectively. Moreover, we present a training-inference accelerator that supports the MXSF format and it achieves similar accuracy to the BF16 baseline while using 24.9% less total energy consumption.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b589f3ac3e26" data-article-url="https://arxiv.org/abs/2605.25240" data-article-title="JudgmentBench: Comparing Rubric and Preference Evaluation for Quality Assessment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25240" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25240" target="_blank" rel="noopener">JudgmentBench: Comparing Rubric and Preference Evaluation for Quality Assessment</a></h3>
      <p class="summary">Two methodologies dominate current practices of benchmarking: rubric-based scoring evaluates items against predefined criteria, whereas com…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="89e1481733c2" data-article-url="https://arxiv.org/abs/2605.25402" data-article-title="Anatomy-Anchored Self-Supervision: Distilling Vision Foundation Models for Invariant Ultrasound Representation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25402" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25402" target="_blank" rel="noopener">Anatomy-Anchored Self-Supervision: Distilling Vision Foundation Models for Invariant Ultrasound Representation</a></h3>
      <p class="summary">Self-supervised pre-training paradigm has gained increasing prominence for learning transferable representations in medical imaging, yet ex…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="574b1b2eac4b" data-article-url="https://arxiv.org/abs/2605.25645" data-article-title="Fine-Tuning and Serving Gemma 4 31B on Google Cloud TPU: A Technical Comparison with GPU Baselines" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25645" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25645" target="_blank" rel="noopener">Fine-Tuning and Serving Gemma 4 31B on Google Cloud TPU: A Technical Comparison with GPU Baselines</a></h3>
      <p class="summary">We present the first end-to-end demonstration of fine-tuning and serving Google&#x27;s Gemma 4 31B model on TPU hardware, providing an empirical…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4778ad1f33e9" data-article-url="https://arxiv.org/abs/2605.26704" data-article-title="SL-BiLEM: Structured Learnable Behavior-in-the-Loop Epidemic Modeling for Forecasting and Policy Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26704" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26704" target="_blank" rel="noopener">SL-BiLEM: Structured Learnable Behavior-in-the-Loop Epidemic Modeling for Forecasting and Policy Evaluation</a></h3>
      <p class="summary">Epidemic forecasting faces a fundamental challenge: human behavior dynamically responds to disease spread, creating feedback loops that ind…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="edc8dab43389" data-article-url="https://arxiv.org/abs/2605.28166" data-article-title="QuITE: Query-Based Irregular Time Series Embedding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28166" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28166" target="_blank" rel="noopener">QuITE: Query-Based Irregular Time Series Embedding</a></h3>
      <p class="summary">Irregular Multivariate Time Series (IMTS) are common in practice, yet their irregular sampling complicates effective modeling. Existing app…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79d7771feac9" data-article-url="https://arxiv.org/abs/2605.28910" data-article-title="臨床要約のための幻覚検出に基づく好みの最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28910" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28910" target="_blank" rel="noopener">臨床要約のための幻覚検出に基づく好みの最適化</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、要約タスクでは有望であることが示されていますが、幻覚を引き起こすことがよくあります。幻覚はサポートされていない、または間違った記述であり、特殊な医療アプリケーションでの信頼性が制限されます。 \itermodelfull (\itermodel) という推論時間手法を導入します。これは、幻覚検出器を活用して、事実の修正に向けて反復的な要約改訂をガイドします。これに基づいて、検出器による調整軌道をモデルの微調整のための好みのペアに変換する、好み学習のための \itermodel (\model) を提案します。広範な実験により、\MimicIV からの現実世界の臨床ノートを要約する際に、私たちの方法がラマ モデルとジェマ モデルの幻覚を大幅に軽減することが示されました。たとえば、Llama-3.1-8B-Instruct の \itermodel は 24\% を軽減し、\model は 48\% の幻覚を軽減します。重要なのは、人間の専門家と LLM 陪審の評価に従って、両方の方法で要約の流暢性、一貫性、および関連性が維持されることです。これらの結果を総合すると、検出に基づいた改良と好みの学習が、臨床要約における事実の忠実性を向上させるための自動化されたソリューションを提供することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Hallucination Detection-Guided Preference Optimization for Clinical Summarization</p>
        <p class="orig-summary">Large language models (LLMs) have shown promise on summarization tasks, but they often produce hallucinations, which are unsupported or incorrect statements that limit their reliability in specialized healthcare applications. We introduce Hallucination Detection Guided Self-Refinement (HDSR), an inference-time method that leverages hallucination detectors to guide iterative summary revisions toward factual corrections. Building on this, we propose HDSR for Preference Learning (HDSR-PL), which converts detector-guided refinement trajectories into preference pairs for model finetuning. Extensive experiments show that our methods substantially reduce hallucinations for Llama and Gemma models in summarizing real-world clinical notes from MIMIC-IV-Note v2.2. For example, HDSR reduces 24% and HDSR-PL reduces 48% hallucinations in Llama-3.1-8B-Instruct. Importantly, both methods preserve summary fluency, coherence, and relevance according to human expert and LLM-Jury evaluations. Together, these results demonstrate that detection-informed refinement and preference learning offer an automated solution for improving factual faithfulness in clinical summarization.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3e5bc5f6a319" data-article-url="https://arxiv.org/abs/2605.30155" data-article-title="Neural Network Verification using Partial Multi-Neuron Relaxation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30155" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30155" target="_blank" rel="noopener">Neural Network Verification using Partial Multi-Neuron Relaxation</a></h3>
      <p class="summary">The increasing integration of deep neural networks in critical systems has spawned a theoretical and practical interest in formally guarant…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3bd7e7f99fbb" data-article-url="https://arxiv.org/abs/2605.30789" data-article-title="Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30789" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30789" target="_blank" rel="noopener">Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO</a></h3>
      <p class="summary">We identify a new dimension for enhancing rollout diversity in Group Relative Policy Optimization (GRPO) for LLMs. While GRPO relies on div…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f94411610bec" data-article-url="https://arxiv.org/abs/2605.31514" data-article-title="If LLMs Have Human-Like Attributes, Then So Does Age of Empires II" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31514" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31514" target="_blank" rel="noopener">If LLMs Have Human-Like Attributes, Then So Does Age of Empires II</a></h3>
      <p class="summary">Much research has been carried out on large language models (LLMs) and LLM-powered agentic workflows. However, many works within the field…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d9df7b97070a" data-article-url="https://arxiv.org/abs/2606.00096" data-article-title="Diversity Over Frequency: Rethinking Tool Use in Visual Chain-of-Thought Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00096" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00096" target="_blank" rel="noopener">Diversity Over Frequency: Rethinking Tool Use in Visual Chain-of-Thought Agents</a></h3>
      <p class="summary">Visual agents employ external visual tools within visual chains of thought to incorporate fine-grained evidence. While prior work has mainl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e77a279afed1" data-article-url="https://arxiv.org/abs/2606.00395" data-article-title="PR2: Predictive Routing Replay for MoE-Based LLM Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00395" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00395" target="_blank" rel="noopener">PR2: Predictive Routing Replay for MoE-Based LLM Reinforcement Learning</a></h3>
      <p class="summary">Mixture of Experts (MoE) Large Language Models (LLMs) achieve strong performance at scale. However, reinforcement learning (RL) on MoE-base…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9c0929ca559e" data-article-url="https://arxiv.org/abs/2606.01184" data-article-title="Topological Ignorability for Structural Causal Effects Beyond Means" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01184" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01184" target="_blank" rel="noopener">Topological Ignorability for Structural Causal Effects Beyond Means</a></h3>
      <p class="summary">Many interventions alter the structure of an outcome distribution rather than its mean: they can split a population into disconnected regim…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0bf66db2cd9a" data-article-url="https://arxiv.org/abs/2606.01802" data-article-title="MOSS-Audio Technical Report" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01802" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01802" target="_blank" rel="noopener">MOSS-Audio Technical Report</a></h3>
      <p class="summary">MOSS-Audio is a unified audio-language model for speech, environmental sound, and music understanding, supporting audio captioning, time-aw…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b80ecbca0f43" data-article-url="https://arxiv.org/abs/2606.01904" data-article-title="KliniskVestBERT: BERT Model Specialised to Norwegian Clinical Texts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01904" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01904" target="_blank" rel="noopener">KliniskVestBERT: BERT Model Specialised to Norwegian Clinical Texts</a></h3>
      <p class="summary">The increasing application of Natural Language Processing (NLP) in healthcare demands language models specifically attuned to the complexit…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ccfb4af210e6" data-article-url="https://arxiv.org/abs/2606.02240" data-article-title="AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02240" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02240" target="_blank" rel="noopener">AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations</a></h3>
      <p class="summary">Indirect prompt injection in tool-use agents is a concrete production threat: LLM agents read from integrations (third-party services such…</p>
    </div>
  </div>
</div>
</div>
</details>
</div>]]></content><author><name></name></author><summary type="html"><![CDATA[AIニュース 2026-06-03 — 467件のストーリーを出典・トピック・要約とともに掲載。]]></summary><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-06-03.png" /><media:content medium="image" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-06-03.png" xmlns:media="http://search.yahoo.com/mrss/" /></entry><entry><title type="html">AIニュース 2026-06-02</title><link href="https://ai-news-bot-henna.vercel.app/news/2026/06/2026-06-02/" rel="alternate" type="text/html" title="AIニュース 2026-06-02" /><published>2026-06-02T00:00:00+00:00</published><updated>2026-06-02T00:00:00+00:00</updated><id>https://ai-news-bot-henna.vercel.app/news/2026/06/2026-06-02</id><content type="html" xml:base="https://ai-news-bot-henna.vercel.app/news/2026/06/2026-06-02/"><![CDATA[<h1 id="aiニュース-2026-06-02">AIニュース 2026-06-02</h1>

<p class="auto-gen-note">自動生成: 2026-06-02 13:38 JST</p>

<p><a href="/">← トップに戻る</a></p>

<p>過去24時間以内に公開された記事を、同じ話題ごとに1つのストーリーカードへまとめ、出典・トピック・要約とともに掲載しています。要約は各フィード提供文の冒頭を整形したもので、本文は各リンク先をご覧ください。</p>

<section class="today-top" aria-labelledby="today-top-heading">
  <h2 id="today-top-heading" class="today-top-heading">📌 今日の要点 TOP7</h2>
  <ol class="today-top-list">
    <li class="today-top-item">
      <a class="today-top-link" href="https://openai.com/index/our-views-on-ai-policy-and-political-advocacy" target="_blank" rel="noopener">Our views on AI policy and political advocacy</a><span class="today-top-source">OpenAI</span>
      <p class="today-top-snippet">Our approach to AI policy and political advocacy, transparency, suppo…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://openai.com/index/stargate-michigan-data-center" target="_blank" rel="noopener">Building the infrastructure for the Intelligence Age in Michigan</a><span class="today-top-source">OpenAI</span>
      <p class="today-top-snippet">OpenAI breaks ground on a 1GW data center project in Michigan as part…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws" target="_blank" rel="noopener">OpenAI frontier models and Codex are now available on AWS</a><span class="today-top-source">OpenAI</span>
      <p class="today-top-snippet">OpenAI frontier models and Codex are now generally available on AWS,…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/aiplus/article/2606/02/2000000043/" target="_blank" rel="noopener">Anthropicが上場準備　直近の評価額は約154兆円</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">AnthropicがIPOに向け、SECに登録書類「S-1」のドラフトを非公開で提出した。直近のシリーズH資金調達での評価額は約9650億…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/aiplus/article/2606/02/2000000042/" target="_blank" rel="noopener">Claudeのレート制限を“詫びリセット”、ProとMaxプラン向け　一部で「想定より速く使用量消費」</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">米Anthropicは、チャットAI「Claude」の有料プラン「Pro」「Max」のユーザーを対象に、5時間および週次のレート制限をリセ…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/news/articles/2606/02/news070.html" target="_blank" rel="noopener">生成AIを「悩み相談」に使う10代女性たち　阿部前監督事件を招いた「AI正論」の波紋</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">長女（18）への暴行容疑で、プロ野球巨人の監督だった阿部慎之助さん（47）が逮捕された。きっかけは、長女が対話型の生成AI「ChatGPT…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://monoist.itmedia.co.jp/mn/articles/2606/02/news058.html" target="_blank" rel="noopener">NVIDIAの“狐”は工場自律管理AIエージェント、台湾メーカーが導入効果を確認</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">NVIDIAは、工場を自律的に管理するAIエージェントのレファレンスデザイン「NVIDIA Factory Operations Blue…</p>
    </li>
  </ol>
</section>

<h2 id="トピック別件数">トピック別件数</h2>

<ul class="topic-summary">
  <li data-topic="研究/論文" data-slug="research"><a href="/topics/research/"><strong>研究/論文</strong> 392件</a></li>
  <li data-topic="LLM/生成AI" data-slug="llm"><a href="/topics/llm/"><strong>LLM/生成AI</strong> 370件</a></li>
  <li data-topic="エージェント" data-slug="agents"><a href="/topics/agents/"><strong>エージェント</strong> 217件</a></li>
  <li data-topic="画像/動画生成" data-slug="image-video"><a href="/topics/image-video/"><strong>画像/動画生成</strong> 168件</a></li>
  <li data-topic="ビジネス/資金調達" data-slug="business"><a href="/topics/business/"><strong>ビジネス/資金調達</strong> 61件</a></li>
  <li data-topic="ロボティクス" data-slug="robotics"><a href="/topics/robotics/"><strong>ロボティクス</strong> 49件</a></li>
  <li data-topic="ハードウェア/半導体" data-slug="hardware"><a href="/topics/hardware/"><strong>ハードウェア/半導体</strong> 32件</a></li>
  <li data-topic="その他" data-slug="others"><a href="/topics/others/"><strong>その他</strong> 6件</a></li>
  <li data-topic="規制/政策" data-slug="regulation"><a href="/topics/regulation/"><strong>規制/政策</strong> 2件</a></li>
</ul>

<div class="category-accordion">
<details class="category-block" open="">
<summary class="category-summary"><span class="category-name">日本語メディア</span><span class="category-count">10件</span></summary>
<div class="category-body">
<h3 class="source-section">ITmedia AI+ (日本語)</h3>
<div class="news-card" data-article-id="3803bafe1fdc" data-article-url="https://atmarkit.itmedia.co.jp/ait/articles/2606/02/news047.html" data-article-title="バイブコーディングの“プロトタイプで止まりがち”問題に「バイブ清書」が切り込む" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://atmarkit.itmedia.co.jp/ait/articles/2606/02/news047.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/ait/articles/2606/02/cover_news047.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://atmarkit.itmedia.co.jp/ait/articles/2606/02/news047.html" target="_blank" rel="noopener">バイブコーディングの“プロトタイプで止まりがち”問題に「バイブ清書」が切り込む</a></h3>
      <p class="summary">バイブコーディングの普及で社内ソフトウェアの開発は身近になった。一方でプロトタイプから本番利用へ移行する際の品質やセキュリティの確保に悩む企業もある。その課題に着目し、解決を図るのが「バイブ清書」だ。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="276a07716b61" data-article-url="https://www.itmedia.co.jp/news/articles/2606/02/news070.html" data-article-title="生成AIを「悩み相談」に使う10代女性たち　阿部前監督事件を招いた「AI正論」の波紋" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">10:31 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/news/articles/2606/02/news070.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/news/articles/2606/02/cover_news070.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/news/articles/2606/02/news070.html" target="_blank" rel="noopener">生成AIを「悩み相談」に使う10代女性たち　阿部前監督事件を招いた「AI正論」の波紋</a></h3>
      <p class="summary">長女（18）への暴行容疑で、プロ野球巨人の監督だった阿部慎之助さん（47）が逮捕された。きっかけは、長女が対話型の生成AI「ChatGPT」に被害を相談し、回答に基づき児童相談所へ連絡したことだった。長女の行動の是非（ぜひ）とは別に、生成AIは若者の相談相手として定着し、若い女…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="927406d21e05" data-article-url="https://monoist.itmedia.co.jp/mn/articles/2606/02/news058.html" data-article-title="NVIDIAの“狐”は工場自律管理AIエージェント、台湾メーカーが導入効果を確認" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">07:45 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://monoist.itmedia.co.jp/mn/articles/2606/02/news058.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/mn/articles/2606/02/cover_news058.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://monoist.itmedia.co.jp/mn/articles/2606/02/news058.html" target="_blank" rel="noopener">NVIDIAの“狐”は工場自律管理AIエージェント、台湾メーカーが導入効果を確認</a></h3>
      <p class="summary">NVIDIAは、工場を自律的に管理するAIエージェントのレファレンスデザイン「NVIDIA Factory Operations Blueprint（FOX）」を発表した。FOXを用いれば、工場内のさまざまなデータをリアルタイムに監視／分析し、複数のAIエージェントと機器を連携…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1455adafcfa2" data-article-url="https://www.itmedia.co.jp/business/articles/2606/02/news023.html" data-article-title="製造現場の「AIアレルギー」をどう払拭？　日立・新卒デジタル人材「3カ月奮闘記」" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">07:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/business/articles/2606/02/news023.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/business/articles/2606/02/cover_news023.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/business/articles/2606/02/news023.html" target="_blank" rel="noopener">製造現場の「AIアレルギー」をどう払拭？　日立・新卒デジタル人材「3カ月奮闘記」</a></h3>
      <p class="summary">日立製作所は、AIやデータ解析の専門スキルを持つ新人データサイエンティストを、製造現場へと送り込んでいる。いかにして現場の「AIアレルギー」を払拭し、現場とのコミュニケーションを通じて業務時間を短縮する生成AIツールを定着させたのか。実習に参加した若手女性データサイエンティスト…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1ab1314aab06" data-article-url="https://monoist.itmedia.co.jp/mn/articles/2606/02/news057.html" data-article-title="NVIDIAの「NemoClaw」でエッジAIを統合管理、アドバンテックが「WEDA」を発表" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">06:45 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://monoist.itmedia.co.jp/mn/articles/2606/02/news057.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/mn/articles/2606/02/cover_news057.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://monoist.itmedia.co.jp/mn/articles/2606/02/news057.html" target="_blank" rel="noopener">NVIDIAの「NemoClaw」でエッジAIを統合管理、アドバンテックが「WEDA」を発表</a></h3>
      <p class="summary">アドバンテックは、パートナー向けイベント「2026 Advantech World Partner Conference（WPC）」において、エッジAIの開発から導入、運用までを統合的に管理するソリューション「WEDA」について説明した。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="38512528d1fa" data-article-url="https://www.itmedia.co.jp/aiplus/article/2606/02/2000000044/" data-article-title="「楽天スーパーSALE」にAIコンシェルジュ　対話で商品検索、“買い回り攻略法”も" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">02:50 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/aiplus/article/2606/02/2000000044/" target="_blank" rel="noopener"><img loading="lazy" src="https://www.itmedia.co.jp/aiplus/article/ogp/2606/02/2000000044/10000234/2048" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/aiplus/article/2606/02/2000000044/" target="_blank" rel="noopener">「楽天スーパーSALE」にAIコンシェルジュ　対話で商品検索、“買い回り攻略法”も</a></h3>
      <p class="summary">用途や予算をテキストか音声で伝えると、セール対象商品から条件に合った商品を探し出せる。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="570f62dd3dae" data-article-url="https://www.itmedia.co.jp/aiplus/article/2606/02/2000000043/" data-article-title="Anthropicが上場準備　直近の評価額は約154兆円" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">02:27 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/aiplus/article/2606/02/2000000043/" target="_blank" rel="noopener"><img loading="lazy" src="https://www.itmedia.co.jp/aiplus/article/ogp/2606/02/2000000043/10000231/2048" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/aiplus/article/2606/02/2000000043/" target="_blank" rel="noopener">Anthropicが上場準備　直近の評価額は約154兆円</a></h3>
      <p class="summary">AnthropicがIPOに向け、SECに登録書類「S-1」のドラフトを非公開で提出した。直近のシリーズH資金調達での評価額は約9650億ドル（約154兆円）に達している。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b60921eabebd" data-article-url="https://www.itmedia.co.jp/aiplus/article/2606/02/2000000042/" data-article-title="Claudeのレート制限を“詫びリセット”、ProとMaxプラン向け　一部で「想定より速く使用量消費」" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">02:07 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/aiplus/article/2606/02/2000000042/" target="_blank" rel="noopener"><img loading="lazy" src="https://www.itmedia.co.jp/aiplus/article/ogp/2606/02/2000000042/10000228/2048" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/aiplus/article/2606/02/2000000042/" target="_blank" rel="noopener">Claudeのレート制限を“詫びリセット”、ProとMaxプラン向け　一部で「想定より速く使用量消費」</a></h3>
      <p class="summary">米Anthropicは、チャットAI「Claude」の有料プラン「Pro」「Max」のユーザーを対象に、5時間および週次のレート制限をリセットしたと発表した。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c9cfd4baee5b" data-article-url="https://www.itmedia.co.jp/aiplus/article/2606/01/2000000039/" data-article-title="「FDE」って結局、客先常駐SEのリブランディングじゃないの？　アクセンチュアに聞いてみた" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">23:27 JST</span><span class="topic-badge p-others">その他</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/aiplus/article/2606/01/2000000039/" target="_blank" rel="noopener"><img loading="lazy" src="https://www.itmedia.co.jp/aiplus/article/ogp/2606/01/2000000039/10000213/2048" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/aiplus/article/2606/01/2000000039/" target="_blank" rel="noopener">「FDE」って結局、客先常駐SEのリブランディングじゃないの？　アクセンチュアに聞いてみた</a></h3>
      <p class="summary">AIプラットフォーム企業が掲げる新職業「FDE」（フォワード・デプロイド・エンジニア）は、客先常駐SEの焼き直しなのか。Microsoftと共同でFDE組織を立ち上げ、独自の「RDE」も打ち出すアクセンチュアの保科学世氏と片岡俊行氏に疑問をぶつけてみた。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7e3faac579ff" data-article-url="https://www.itmedia.co.jp/enterprise/articles/2606/01/news107.html" data-article-title="Salesforceの「深謀遠慮」とは？　AIエージェント時代のオープンシステム、主導権争いの行方" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">16:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/enterprise/articles/2606/01/news107.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/enterprise/articles/2606/01/cover_news107.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/enterprise/articles/2606/01/news107.html" target="_blank" rel="noopener">Salesforceの「深謀遠慮」とは？　AIエージェント時代のオープンシステム、主導権争いの行方</a></h3>
      <p class="summary">AIエージェントが多数動き回る企業の業務システムに向けて、Salesforceが新たなソリューションを打ち出した。そのソリューションの狙いを考察すると、そこには同社の深謀遠慮があるようだ。</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">海外メディア</span><span class="category-count">7件</span></summary>
<div class="category-body">
<h3 class="source-section">TechCrunch AI (英語)</h3>
<div class="news-card" data-article-id="16c1b9fdcd09" data-article-url="https://techcrunch.com/2026/06/01/alphabet-plans-to-raise-80-billion-to-pay-for-ai-buildout/" data-article-title="Alphabet plans to raise $80B to pay for AI buildout" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">07:55 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/01/alphabet-plans-to-raise-80-billion-to-pay-for-ai-buildout/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2025/02/GettyImages-2173545265.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/01/alphabet-plans-to-raise-80-billion-to-pay-for-ai-buildout/" target="_blank" rel="noopener">Alphabet plans to raise $80B to pay for AI buildout</a></h3>
      <p class="summary">&quot;The company is experiencing strong demand for its AI solutions and services from enterprises and consumers, at levels that are exceeding t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="049ea755e155" data-article-url="https://techcrunch.com/2026/06/01/nvidia-chases-200b-cpu-market-with-ai-agent-pcs-from-microsoft-dell-and-hp/" data-article-title="Nvidia chases $200B CPU market with AI agent PCs from Microsoft, Dell, and HP" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">06:35 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/01/nvidia-chases-200b-cpu-market-with-ai-agent-pcs-from-microsoft-dell-and-hp/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2025/03/GettyImages-2205761886.jpg?resize=1200,828" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/01/nvidia-chases-200b-cpu-market-with-ai-agent-pcs-from-microsoft-dell-and-hp/" target="_blank" rel="noopener">Nvidia chases $200B CPU market with AI agent PCs from Microsoft, Dell, and HP</a></h3>
      <p class="summary">If Nvidia has cracked a way to bring AI agents easily, safely, and usefully to the masses, it could — and should — be big.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8dc8d8751a47" data-article-url="https://techcrunch.com/2026/06/01/florida-sues-openai-sam-altman-in-first-of-its-kind-lawsuit-over-violent-incidents/" data-article-title="Florida sues OpenAI, Sam Altman, in first-of-its-kind lawsuit over violent incidents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">05:03 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-regulation">規制/政策</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/01/florida-sues-openai-sam-altman-in-first-of-its-kind-lawsuit-over-violent-incidents/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/GettyImages-2273245180.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/01/florida-sues-openai-sam-altman-in-first-of-its-kind-lawsuit-over-violent-incidents/" target="_blank" rel="noopener">Florida sues OpenAI, Sam Altman, in first-of-its-kind lawsuit over violent incidents</a></h3>
      <p class="summary">The lawsuit partially revolves around a shooting at Florida State University last year, and ChatGPT&#x27;s alleged role in the incident.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f8a25912a86e" data-article-url="https://techcrunch.com/2026/06/01/water-access-is-now-a-risk-factor-in-spacexs-ipo/" data-article-title="Water access is now a risk factor in SpaceX’s IPO" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">03:19 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/01/water-access-is-now-a-risk-factor-in-spacexs-ipo/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/GettyImages-2259661359.jpg?w=1024" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/01/water-access-is-now-a-risk-factor-in-spacexs-ipo/" target="_blank" rel="noopener">Water access is now a risk factor in SpaceX’s IPO</a></h3>
      <p class="summary">The company says it needs &quot;significant&quot; water resources to cool its data centers, and that access to abundant, affordable water is a challe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="14ca8e9e17c2" data-article-url="https://techcrunch.com/2026/06/01/anthropic-files-to-go-public/" data-article-title="Anthropic files to go public" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">01:36 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/01/anthropic-files-to-go-public/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/02/GettyImages-2261854833.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/01/anthropic-files-to-go-public/" target="_blank" rel="noopener">Anthropic files to go public</a></h3>
      <p class="summary">Anthropic, now an AI powerhouse that has landed top-tier enterprise customers, was once considered an underdog in the emerging world of lar…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fe21b03da870" data-article-url="https://techcrunch.com/2026/06/01/this-ai-weather-startup-is-out-forecasting-government-agencies/" data-article-title="This AI weather startup is out-forecasting government agencies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">01:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/01/this-ai-weather-startup-is-out-forecasting-government-agencies/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/06/Pic-8.jpg?resize=1200,675" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/01/this-ai-weather-startup-is-out-forecasting-government-agencies/" target="_blank" rel="noopener">This AI weather startup is out-forecasting government agencies</a></h3>
      <p class="summary">WindBorne benefits from its unique combination of model-building and data collection. The company now has about 400 balloons in flight gath…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d0eeabe5782c" data-article-url="https://techcrunch.com/2026/06/01/duckduckgo-makes-its-no-ai-search-engine-easier-to-access-as-its-traffic-booms/" data-article-title="DuckDuckGo makes its ‘no-AI’ search engine easier to access as its traffic booms" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:49 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/06/01/duckduckgo-makes-its-no-ai-search-engine-easier-to-access-as-its-traffic-booms/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/DuckDuckGo_NoAI.png?resize=1200,784" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/06/01/duckduckgo-makes-its-no-ai-search-engine-easier-to-access-as-its-traffic-booms/" target="_blank" rel="noopener">DuckDuckGo makes its ‘no-AI’ search engine easier to access as its traffic booms</a></h3>
      <p class="summary">Alternative search engine DuckDuckGo launches &#x27;no AI&#x27; web extensions for Chrome and Firefox users.</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">公式ブログ</span><span class="category-count">3件</span></summary>
<div class="category-body">
<h3 class="source-section">OpenAI (英語)</h3>
<div class="news-card" data-article-id="c8b9a6b007c1" data-article-url="https://openai.com/index/our-views-on-ai-policy-and-political-advocacy" data-article-title="Our views on AI policy and political advocacy" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">02:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://openai.com/index/our-views-on-ai-policy-and-political-advocacy" target="_blank" rel="noopener"><img loading="lazy" src="https://images.ctfassets.net/kftzwdyauwt9/2t7PnZhv9RSkCpyADp8h6J/8e94542c974c268eac270cd244dd6055/Political-advocacy-16x9.png?w=1600&amp;h=900&amp;fit=fill" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://openai.com/index/our-views-on-ai-policy-and-political-advocacy" target="_blank" rel="noopener">Our views on AI policy and political advocacy</a></h3>
      <p class="summary">Our approach to AI policy and political advocacy, transparency, support for thoughtful regulation and AI safety, and that no outside politi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dadd123def02" data-article-url="https://openai.com/index/stargate-michigan-data-center" data-article-title="Building the infrastructure for the Intelligence Age in Michigan" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">21:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://openai.com/index/stargate-michigan-data-center" target="_blank" rel="noopener"><img loading="lazy" src="https://images.ctfassets.net/kftzwdyauwt9/31ZX9grNOOF2NspFEFK6t2/a35c75365f4573555cab5a1a1054649b/infrastructure-michigan-16x9.png?w=1600&amp;h=900&amp;fit=fill" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://openai.com/index/stargate-michigan-data-center" target="_blank" rel="noopener">Building the infrastructure for the Intelligence Age in Michigan</a></h3>
      <p class="summary">OpenAI breaks ground on a 1GW data center project in Michigan as part of Stargate, building AI infrastructure to expand access, create jobs…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="00ed5eb9be7b" data-article-url="https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws" data-article-title="OpenAI frontier models and Codex are now available on AWS" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">19:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws" target="_blank" rel="noopener"><img loading="lazy" src="https://images.ctfassets.net/kftzwdyauwt9/2Tbsus4QAtPDAlsIM3vYO2/87f4c6894832d7937e54ecb3c245fdbe/OAI_AWS_Partnership_16x9_Art_Card.png?w=1600&amp;h=900&amp;fit=fill" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws" target="_blank" rel="noopener">OpenAI frontier models and Codex are now available on AWS</a></h3>
      <p class="summary">OpenAI frontier models and Codex are now generally available on AWS, giving enterprises a new path to build with OpenAI through the AWS env…</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">論文</span><span class="category-count">946件</span></summary>
<div class="category-body">
<h3 class="source-section">arXiv cs.AI (英語)</h3>
<div class="news-card" data-article-id="cad705b8acd9" data-article-url="https://arxiv.org/abs/2606.00002" data-article-title="ポジションペーパー: 意思決定エンジンにおけるソルブ後のロバスト性: 摂動下での実行可能領域と滑らかさ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00002" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00002" target="_blank" rel="noopener">ポジションペーパー: 意思決定エンジンにおけるソルブ後のロバスト性: 摂動下での実行可能領域と滑らかさ</a></h3>
      <p class="summary">混合整数線形計画法 (MILP) 意思決定エンジンは、一か八かの産業システム向けに名目上最適な計画を定期的に出力します。しかし、導入が解決時間の想定と一致することはほとんどありません。コスト、需要、またはリソースの可用性における小さな変動により、実現可能性が無効になったり、質的に異なるソリューションへの不連続な移行が引き起こされる可能性があります。私たちは、この解決後の堅牢性のギャップは、今日の最適化パイプラインに欠けている層であり、学習対応の意思決定システムに欠けている評価次元であると主張します。提案された層は、ロバストな最適化や確率的プログラミングを置き換えるのではなく、解決された既存のソリューションを監査し、そのソリューションがどの程度信頼できるかについてソルバーに裏付けられた証拠を返します。中心となる 2 つのオブジェクトを形式化します。(i) パラメータ空間における $\epsilon$-near-optimal の実現可能近傍。摂動下で既存の企業が実現可能かつ最適に近い状態を保つ時期を捉えます。(ii) 意思決定空間における解の滑らかさ。小さな組み合わせ編集による近くの代替案が競争力を維持しているかどうかを捉えます。次に、感度と安定性の分析、ロバストな最適化、近傍検索、敵対的テスト、学習ベースの機能強化から最も関連性の高い部分的な回答を合成し、統合されたポストソルブ堅牢性レイヤーのアジェンダを明確にします。具体的には、校正された不確実性、敵対的ロバスト性マージン、ソルバーに裏付けされた検証と連携した学習ベースの予測と説明を備えた、既存の確率論的ロバスト性推定に関する認定された内部近似を求めます。最後に、堅牢性を意思決定エンジンの第一級の出力にするコンパクトなレポート テンプレートと評価プロトコルを紹介します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Position Paper: Post-Solve Robustness in Decision Engines: Feasible Regions and Smoothness Under Perturbations</p>
        <p class="orig-summary">Mixed-Integer Linear Programming (MILP) decision engines routinely output nominally optimal plans for high-stakes industrial systems. Yet deployment rarely matches solve-time assumptions: small perturbations in costs, demands, or resource availability can invalidate feasibility or trigger discontinuous shifts to qualitatively different solutions. We argue that this post-solve robustness gap is a missing layer in today&#x27;s optimization pipelines and a missing evaluation dimension for learning-enabled decision systems. Rather than replacing robust optimization or stochastic programming, the proposed layer audits a solved incumbent and returns solver-backed evidence about how far that solution can be trusted. We formalize two central objects: (i) an $\epsilon$-near-optimal feasible neighborhood in parameter space, capturing when an incumbent remains feasible and near-optimal under perturbations, and (ii) solution smoothness in decision space, capturing whether nearby alternatives with small combinatorial edits remain competitive. We then synthesize the most relevant partial answers from sensitivity and stability analysis, robust optimization, neighborhood search, adversarial testing, and learning-based enhancements, and articulate an agenda for a unified post-solve robustness layer. Concretely, we call for certified inner approximations around the incumbent, probabilistic robustness estimation with calibrated uncertainty, adversarial robustness margins, and learning-based prediction and explanation aligned with solver-backed verification. We conclude with a compact reporting template and evaluation protocol that would make robustness a first-class output of decision engines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e97d0aef327e" data-article-url="https://arxiv.org/abs/2606.00005" data-article-title="マルチモデル AI システムにおける創発的な共同審議: 認識論的合成のための BFT 由来のプロトコル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00005" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00005" target="_blank" rel="noopener">マルチモデル AI システムにおける創発的な共同審議: 認識論的合成のための BFT 由来のプロトコル</a></h3>
      <p class="summary">我々は、モデル間の不一致をエラーではなく認識論的な信号として扱う、構造化されたマルチモデル AI 審議のためのビザンチン フォールト トレランス由来のアーキテクチャである Consilium プロトコルを紹介します。このプロトコルは、言語モデルに操作された認知ペルソナを割り当て、モデルの内容とその推論方法を分離し、定量的ファイナンスを応用したサンプル内/サンプル外検証フレームワークを導入して、トレーニング データのコンセンサスと経験に基づいた結論を区別します。 10のドメインカテゴリの32のトピックにわたる1,478回の審議セッションを通じて、(1)基礎となるモデルではなく認知ペルソナが認識論的行動を決定することを実証しました。バッチあたり0.0002米ドルのコストがかかるフリーエッジ推論モデルは、10.69米ドルのコストがかかるフロンティアモデルと同等の分析出力を生成しました。 (2) RLHF 調整トレーニングは、測定可能な領域固有の認識論的盲点を生み出す -- 論争のある政策トピックは、決着した科学トピックよりも敵対的な挑戦が 12.3 パーセント ポイント低く、AI の安全性トピックは非対称バイアス ($\Delta$=11.6%) を示しており、モデルは AI の危険性が誇張されているという主張よりも、AI が危険であるという主張にはるかに積極的に異議を唱えている。 (3) この議定書にはそれ自体の方向性の偏りはありません (移民 $\Delta$=2.3%、再生可能エネルギー $\Delta$=1.2%)。 (4) サンプル外の証拠検索により、239 件の主張が 100% の証拠検索で検証され、トレーニング データの検討では見えなかった 167 件の盲点発見が明らかになりました。ランダム化されたモデル$\times$ペルソナ割り当てにおける実行ごとの再現性は、平均 $\pm$2.2% の標準偏差です。すべての諸経費を含む完全なバッテリーの総コスト: 217 USD。独立した検証を可能にするために、MIT ライセンスに基づいてプロトコル仕様をリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Emergent Collaborative Deliberation in Multi-Model AI Systems: A BFT-Derived Protocol for Epistemic Synthesis</p>
        <p class="orig-summary">We present the Consilium Protocol, a Byzantine Fault Tolerance-derived architecture for structured multi-model AI deliberation that treats inter-model disagreement as epistemic signal rather than error. The protocol assigns engineered cognitive personas to language models -- separating what a model is from how it reasons -- and introduces an In-Sample/Out-of-Sample validation framework adapted from quantitative finance to distinguish training-data consensus from empirically grounded conclusions. Across 1,478 deliberation sessions spanning 32 topics in 10 domain categories, we demonstrate that (1) the cognitive persona, not the underlying model, determines epistemic behavior: free edge-inference models costing 0.0002 USD per batch produced comparable analytical output to frontier models costing 10.69 USD; (2) RLHF alignment training creates measurable, domain-specific epistemic blind spots -- contested policy topics exhibit 12.3 percentage points less adversarial challenge than settled science topics, and AI safety topics show asymmetric bias ($\Delta$=11.6%) where models challenge claims that AI is dangerous far more vigorously than claims that AI risk is overstated; (3) the protocol exhibits no directional bias of its own (immigration $\Delta$=2.3%, renewables $\Delta$=1.2%); and (4) out-of-sample evidence retrieval validated 239 claims with 100% evidence retrieval and surfaced 167 blind-spot discoveries invisible to training-data deliberation. Run-to-run reproducibility across randomized model$\times$persona assignments averages $\pm$2.2% standard deviation. Total cost for the complete battery including all overhead: 217 USD. We release the protocol specification under MIT license to enable independent verification.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0dadf1e941f2" data-article-url="https://arxiv.org/abs/2606.00007" data-article-title="熟議的なキュレーション: マルチエージェントのナレッジベースのプロトコル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00007" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00007" target="_blank" rel="noopener">熟議的なキュレーション: マルチエージェントのナレッジベースのプロトコル</a></h3>
      <p class="summary">AI エージェントが孤立したツールから共有知識エコシステムの協力的な参加者に移行するにつれて、集合的な知識のキュレーションを管理することが重要な課題になります。人間のプラットフォームのガバナンスメカニズムは直接的には移行しません。エージェントの無国籍性は抑止力に基づく制裁を損ない、モデルの均一性は群衆の知恵の根底にある独立性の前提を侵害し、おべっかは熟議の合意を崩壊させます。我々は、次の 3 つのガバナンス層を組み合わせた熟議型キュレーション プロトコルを提案します。(1) ラベル付き移行システムとして形式化された知識アーティファクト ライフサイクル。 (2) Beta Reputation と EigenTrust 増幅を統合した評判重視の審議投票。 (3) 無国籍エージェントに適応した段階的な制裁。これには、誤動作と敵対的行動を区別する壊れたエージェントの対応が含まれます。 2 つの逆境シナリオ (シード 30 個、対応のある t 検定) の下で、7 つの行動アーキタイプにわたって 100 人のエージェントによるエージェントベースのシミュレーションを通じてプロトコルを評価します。このプロトコルは、穏やかな条件下での適度な精度と引き換えに、逆境下での回復力を大幅に向上させます。中程度の逆境下では多数決で 0.826 対 0.791 (p&lt;0.001)、ストレス下では 0.807 対 0.740 に広がります (p&lt;0.001)。プロトコルの劣化は多数決に比べておよそ 3 倍遅くなります。アブレーション分析では、コミットと公開投票の隠蔽が最も影響力のある単一要素 (8.2 ～ 8.6 pp の精度向上、p&lt;0.001) として特定され、評判の重み付けと審議の組み合わせを上回っています。段階的制裁はシミュレーションでは発動されず、経験的に検証されていないままである。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Deliberative Curation: A Protocol for Multi-Agent Knowledge Bases</p>
        <p class="orig-summary">As AI agents transition from isolated tools to collaborative participants in shared knowledge ecosystems, governing collective knowledge curation becomes a critical challenge. Human platform governance mechanisms do not transfer directly: agent statelessness undermines deterrence-based sanctions, model homogeneity violates independence assumptions underlying crowd wisdom, and sycophancy collapses deliberative consensus. We propose a deliberative curation protocol combining three governance layers: (1) a knowledge artifact lifecycle formalized as a labeled transition system; (2) reputation-weighted deliberative voting integrating Beta Reputation with EigenTrust amplification; and (3) graduated sanctions adapted for stateless agents, including broken agent handling distinguishing malfunction from adversarial behavior. We evaluate the protocol through agent-based simulation with 100 agents across seven behavioral archetypes under two adversity scenarios (30 seeds, paired t-tests). The protocol trades modest precision under benign conditions for substantially better resilience under adversity: 0.826 vs 0.791 for majority vote under moderate adversity (p&lt;0.001), widening to 0.807 vs 0.740 under stress (p&lt;0.001). The protocol degrades roughly three times more slowly than majority vote. Ablation analysis identifies commit-reveal vote concealment as the most impactful single component (8.2-8.6pp precision improvement, p&lt;0.001), outperforming reputation weighting and deliberation combined. Graduated sanctions were not exercised in simulation and remain empirically unvalidated.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="da97eba9a06a" data-article-url="https://arxiv.org/abs/2606.00008" data-article-title="ツリー上のエージェント: 多目的分子最適化のためのパスワイズ調整" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00008" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00008" target="_blank" rel="noopener">ツリー上のエージェント: 多目的分子最適化のためのパスワイズ調整</a></h3>
      <p class="summary">多目的分子最適化では、相反する目的の下で広大な化学空間を探索する必要があり、初期の設計決定が下流の結果を強く制約します。既存の手法は通常、単一のポリシーまたは固定スカラー化に依存しているため、さまざまなトレードオフを表現したり、複数の有望な設計軌道を探索したりする能力が制限されています。我々は、分子最適化をツリー構造の探索として定式化するマルチエージェントフレームワークであるATOMを提案します。各ノードはアトミック操作に対応し、特定の目的または意思決定コンテキストに特化したエージェントをホストします。エージェントは、グローバルな合意を強制するのではなく、ツリーのさまざまなパスに沿って調整し、この方法で代替の分子進化の軌跡を維持および比較できるようにします。過去の最適化動作のグローバルな記憶により、目標全体にわたるバランスの取れた探索と活用がさらにサポートされます。このツリー構造の相互作用により、分子設計に固有の長期的な依存関係を考慮した推論が可能になります。活性、合成可能性、および ADMET 関連の特性を含む、困難な多目的​​ベンチマークに関する実験では、ATOM が強力なベースラインを超えるパレート カバレッジとハイパーボリュームの向上を一貫して達成していることが示されています。これらの結果は、分子最適化における経路ごとのマルチエージェント調整の有効性を示しています。コードは https://anonymous.4open.science/r/ATOM-41CE で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Agents on a Tree: Pathwise Coordination for Multi-Objective Molecular Optimization</p>
        <p class="orig-summary">Multi-objective molecular optimization requires searching vast chemical spaces under conflicting objectives, where early design decisions strongly constrain downstream outcomes. Existing methods typically rely on a single policy or fixed scalarization, which limits their ability to represent diverse trade-offs and to explore multiple promising design trajectories. We propose ATOM, a multi-agent framework that formulates molecular optimization as a tree-structured search. Each node corresponds to an atomic operation and hosts an agent specialized for a particular objective or decision context. Agents coordinate along different paths of the tree rather than enforcing a global consensus, enabling the method to maintain and compare alternative molecular evolution trajectories. A global memory of past optimization behaviors further supports balanced exploration and exploitation across objectives. This tree-structured interaction enables reasoning over long-horizon dependencies inherent in molecular design. Experiments on challenging multi-objective benchmarks involving activity, synthesizability, and ADMET-related properties show that ATOM consistently achieves improved Pareto coverage and hypervolume over strong baselines. These results demonstrate the effectiveness of pathwise multi-agent coordination for molecular optimization. Code is available at https://anonymous.4open.science/r/ATOM-41CE.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ac5e53e43a17" data-article-url="https://arxiv.org/abs/2606.00009" data-article-title="洋上風力発電所レイアウトの最適な輸送ベースの順列不変ベイジアン最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00009" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00009" target="_blank" rel="noopener">洋上風力発電所レイアウトの最適な輸送ベースの順列不変ベイジアン最適化</a></h3>
      <p class="summary">ベイジアン最適化 (BO) は、評価コストが高く、ブラックボックスで非凸の目的関数を持つ最適化問題を解決するために広く採用され、成功しています。ただし、バニラ BO アルゴリズムでは、ターゲット問題を特徴付ける可能性のある対称性を利用することができません。直観的なケースは、最適位置問題によって与えられます。この問題の決定変数は、連続空間内の点の有限セットを指し、点の順序は目的関数の値に影響を与えません。代わりにポイントの順序が重要となる点群に対する最適化と区別するために、この設定をレイアウトに対する最適化と呼びます。レイアウトの最適化の例として、実際の産業関連のアプリケーション、つまり洋上風力発電所のレイアウトの最適化を考えます。同一の風力タービンがあれば、どのペアを切り替えても、年間のエネルギー生産には何の影響もありません。最適輸送理論に基づいて、順列不変 BO アプローチ、つまり PIBO を提案します。これは、バニラ BO アプローチと比較して、計算時間を約半分に短縮しながら、より優れた風力発電所のレイアウトを提供することが証明されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Optimal Transport-based Permutation-Invariant Bayesian Optimization of Offshore Wind Farm Layouts</p>
        <p class="orig-summary">Bayesian Optimization (BO) is widely and successfully adopted for solving optimization problems having an expensive-to-evaluate, black-box, and non-convex objective function. However, the vanilla BO algorithm is not able to exploit possible symmetries characterizing the target problem. An intuitive case is given by optimal location problems, whose decision variables refer to a finite set of points within a continuous space, with the order of points not affecting the value of the objective function. We refer to this setting as optimization over layouts to distinguish from optimization over point-clouds where, instead, the order of points counts. As an instance of optimization over layouts we consider a real-life industrial-relevant application, that is the optimization of the layout of an offshore wind farm: given identical wind turbines, switching any pair of them has not any effect on the annual energy production. Based on Optimal Transport theory, we propose a Permutation-Invariant BO approach, namely PIBO, proved to provide better wind farm layouts when compared to the vanilla BO approach while cutting computation time roughly in half.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="21aa595c3a2b" data-article-url="https://arxiv.org/abs/2606.00017" data-article-title="MindGames Arena ジェネラライゼーション トラック: ステップごとの遅延アトリビューションを備えた In2AI ソリューション" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00017" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00017" target="_blank" rel="noopener">MindGames Arena ジェネラライゼーション トラック: ステップごとの遅延アトリビューションを備えた In2AI ソリューション</a></h3>
      <p class="summary">マルチエージェントの戦略的インタラクション用に言語モデル エージェントをトレーニングすることには、中核的な困難があります。アクションの質は、決して実現しない将来のイベント、ゲーム ルールに違反する動き、または他のプレイヤーによる決定に依存する可能性があります。標準的な強化学習では、各ステップで報酬を割り当てることができると想定していますが、結果が時間やエージェントを超えて絡み合っている設定では、この想定は当てはまりません。適格性ゲーティング、エピソードのライフサイクル、およびエピソード終了時にのみ報酬を計​​算し、タスク固有のセマンティクスに従って元のステップに報酬を伝播し、有効な依存情報が欠如しているステップをトレーニングから除外する後処理パイプラインを備えた、ステップごとの遅延報酬アトリビューションを導入します。 vLLM の連続バッチ処理による非同期ロールアウト生成、カリキュラムベースの対戦相手サンプリング、およびマルチレベル階層化バッチ構築と併せて、このアプローチにより、マルチエージェント環境で安定したサンプル効率の高い RL トレーニングが可能になります。 NeurIPS 2025 の MindGames Arena ベンチマークで評価しました。そこでは、私たちの手法でトレーニングされた単一の 80 億パラメータのオープンソース モデルが、GPT-5 を含む大幅に大規模な独自システムとの直接対決で匹敵、またはそれを上回り、オープン (制限なし) トラックと効率的 (パラメーター 80 億以下) トラックの両方で 1 位になりました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution</p>
        <p class="orig-summary">Training language model agents for multi-agent strategic interaction presents a core difficulty: the quality of any action may depend on future events that never materialize, on moves that violate game rules, or on decisions made by other players. Standard reinforcement learning assumes that rewards can be assigned at each step, but this assumption fails in settings where outcomes are entangled across time and agents. We introduce delayed per-step reward attribution with eligibility gating, an episode lifecycle and postprocessing pipeline that computes rewards only at episode end, propagates them back to originating steps according to task-specific semantics, and excludes steps that lack valid dependent information from training. Together with asynchronous rollout generation via vLLM&#x27;s continuous batching, curriculum-based opponent sampling, and multi-level stratified batch construction, this approach enables stable, sample-efficient RL training in multi-agent environments. We evaluate on the MindGames Arena benchmark at NeurIPS 2025, where a single 8-billion-parameter open-source model trained with our method matched or surpassed substantially larger proprietary systems, including GPT-5, in head-to-head play and took first place in both the Open (unrestricted) and Efficient (&lt;=8B parameters) tracks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f90b43b3bd7b" data-article-url="https://arxiv.org/abs/2606.00045" data-article-title="ユニバーサル量子変換器" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00045" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00045" target="_blank" rel="noopener">ユニバーサル量子変換器</a></h3>
      <p class="summary">古典的な連続空間ニューラル ネットワークは、モジュラー算術や非可換代数など、厳密な数学的対称性を確保するのに基本的に苦労します。これらの離散論理ルールを近似するために、大規模なパラメータ スケーリングに依存することが多く、その結果、グロッキングとして知られる遅延汎化現象の後でも確率的不安定性が生じます。ここでは、正確な数学的および代数的推論のための普遍的な帰納的バイアスとしてマルチ量子ビット システムの物理的特性を使用する、根本的に新しい量子ネイティブ コンピューティング アーキテクチャであるユニバーサル量子変換器 (UQT) を紹介します。私たちのフレームワークは、古典的な神経メカニズムを翻訳するのではなく、パラメータ化された幾何学的位相埋め込みと $SU(2)$ 波干渉に完全に依存しています。私たちは、非常にコンパクトな 5 量子ビット基板上で動作する量子アテンション回路が、巡回モジュラー演算 ($\mathbb{Z}_{11}$) と非アーベル代数 ($S_4$ 順列群) という 2 つの非常に異なる形式クラスを完全に学習することを実証します。古典的なアテンションベースのネットワークは収束時に確率的不安定性を示しますが、UQT は数学的に正確で決定論的な一般化を実現します。私たちはこの現象を結晶化と呼んでいます。これはよく知られているグロッキング現象をさらに超えたものです。重要なのは、このフレームワークは、古典的な自己注意の二次ボトルネックを理論的にバイパスし、必要な表現次元を対数的に圧縮して古典的なネットワークに固有の大規模な過剰パラメータ化を排除することにより、計算とメモリの面で大きな利点をもたらします。最後に、このアーキテクチャをノイズの多い中間スケール量子 (NISQ) ハードウェアにデプロイし、現在の IBM 量子コンピューターでの実行可能性を証明します。これらの結果は、正確な人工知能のための普遍的に優れた物理的基盤として、パラメーター化された量子トポロジーを確立します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Universal Quantum Transformer</p>
        <p class="orig-summary">Classical continuous-space neural networks fundamentally struggle to lock into exact mathematical symmetries, such as modular arithmetic and non-commutative algebra. To approximate these discrete logical rules, they often rely on massive parameter scaling, resulting in stochastic instability even after delayed generalization phenomena known as grokking. Here, we introduce the Universal Quantum Transformer (UQT), a fundamentally novel, quantum-native computing architecture that uses the physical properties of multi-qubit systems as a universal inductive bias for exact mathematical and algebraic reasoning. Rather than translating classical neural mechanisms, our framework relies entirely on parameterized geometric phase embedding and $SU(2)$ wave-interference. We demonstrate that the quantum attention circuit, operating on a highly compact 5-qubit substrate, perfectly learns two highly distinct formal classes: cyclic modular arithmetic ($\mathbb{Z}_{11}$) and non-Abelian algebra (the $S_4$ permutation group). While classical attention-based networks exhibit stochastic instability at convergence, the UQT achieves mathematically exact, deterministic generalization. We refer to this phenomenon as crystallization: a step beyond the well-known phenomenon of grokking. Crucially, this framework yields massive computational and memory advantages by theoretically bypassing the quadratic bottleneck of classical self-attention, and by logarithmically compressing the required representation dimension to eliminate the massive over-parameterization inherent to classical networks. Finally, we deploy this architecture on noisy intermediate-scale quantum (NISQ) hardware, proving its viability on current IBM Quantum computers. These results establish parameterized quantum topology as a universally superior physical substrate for exact artificial intelligence.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bc7e30acf56f" data-article-url="https://arxiv.org/abs/2606.00050" data-article-title="Grokers: 型付きナレッジ グラフに対するボトムアップの帰納的理解と書き込み時のインテリジェンス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00050" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00050" target="_blank" rel="noopener">Grokers: 型付きナレッジ グラフに対するボトムアップの帰納的理解と書き込み時のインテリジェンス</a></h3>
      <p class="summary">我々は、依存関係サブグラフのボトムアップ帰納的走査を通じて、型付き知識グラフの永続的で構造化された理解を構築するためのアーキテクチャである Grokers を紹介します。クエリごとに完全な理解コストを支払う検索拡張生成 (RAG) とは異なり、Groker はインテリジェンスを書き込み時間に押し上げます。自律的な Groker エージェントは、型付きストリーム グラフ内のノードを分析し、管理言語モデル (LM) 呼び出しを介して構造化属性を抽出し、依存関係を通じてその理解を上位に帰納的に構成し、追加の LM コストをゼロで将来のすべてのクエリに対応する強化された型付き属性を書き込みます。 (1) バイト同一性定理。トランザクションで維持される非正規化インデックスから組み立てられたコンテキスト ブロックが、セマンティック変更間の LM ターン全体でバイト同一であることを確立し、100% に近い KV キャッシュ ヒット率を可能にします。 (2) 累積単調性定理。管理された知恵ライブラリの成長プロトコルの下で、LM 呼び出しなしで解決されたインタラクションの割合が完了したインタラクションの数において減少しないことを確立します。 (3) デュアルトラバーサル順序定理。トップダウンの生成とボトムアップの理解は、依存関係 DAG 上のそれぞれのタスクに対する固有の正しいトラバーサル順序付けであり、それらの構成は完全な生成と理解のサイクルに近づくことを確立します。さらに、有限語彙ドメインの LM フォールバック レートがゼロに収束する同義語キャッシュ プロトコルを使用した、埋め込みベースのセマンティック検索に代わる決定論的な代替手段を提案します。リファレンス実装は、オープンソースの Qbix / Safebox / Safebots スタックで提供されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Grokers: Bottom-Up Inductive Comprehension and Write-Time Intelligence over Typed Knowledge Graphs</p>
        <p class="orig-summary">We present Grokers, an architecture for building persistent, structured comprehension of typed knowledge graphs through bottom-up inductive traversal of dependency subgraphs. Unlike retrieval-augmented generation (RAG), which pays full comprehension cost at every query, Grokers pushes intelligence to write time: autonomous Groker agents analyze nodes in a typed stream graph, extract structured attributes via governed language model (LM) calls, and inductively compose that understanding upward through dependency relations, writing enriched typed attributes that serve all future queries at zero additional LM cost. We prove three formal properties: (1) the Byte-Identity Theorem, establishing that context blocks assembled from a transactionally-maintained denormalization index are byte-identical across LM turns between semantic changes, enabling KV-cache hit rates approaching 100%; (2) the Accumulation Monotonicity Theorem, establishing that the fraction of interactions resolved without LM calls is non-decreasing in the number of completed interactions under a governed wisdom library growth protocol; and (3) the Dual-Traversal Ordering Theorem, establishing that top-down generation and bottom-up comprehension are the unique correct traversal orderings for their respective tasks over a dependency DAG, and that their composition closes into a complete generation-comprehension cycle. We further present a deterministic alternative to embedding-based semantic search, with a synonym caching protocol whose LM fallback rate converges to zero for finite-vocabulary domains. A reference implementation is provided in the open-source Qbix / Safebox / Safebots stack.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="54da28426699" data-article-url="https://arxiv.org/abs/2606.00052" data-article-title="複数製品のサイバーフィジカルシステムにおける堅牢なプロセス監視のための製品認識ディープオートエンコーダ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00052" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00052" target="_blank" rel="noopener">複数製品のサイバーフィジカルシステムにおける堅牢なプロセス監視のための製品認識ディープオートエンコーダ</a></h3>
      <p class="summary">インダストリー 4.0 により製造におけるサイバーフィジカル システム (CPS) の統合が加速するにつれ、プロセスの安全性とセキュリティを確保するために堅牢な異常検出が重要になっています。現在のデータ駆動型のアプローチは通常、「製品に依存しない」モデル、つまりすべての通常の運用データの集合体に基づいてトレーニングされたグローバル モデルを採用しています。しかし、現代の産業施設はさまざまな製品グレードで稼働することがよくあります。計算的には単純ですが、これらのグローバル モデルは本質的に、複数のモードの差異に対応するために決定境界を拡張し、微妙な異常や標的を絞ったサイバー物理攻撃がモデルの広い許容領域によって隠蔽される可能性がある「盲点」を作り出します。この研究では、最初に、複数の製品グレードにわたって動作するグローバル非依存モデルに上記の脆弱性が存在することを実証します。次に、学習領域を学年固有の分布に制限する原則に基づいた緩和策として、製品認識オートエンコーダーを紹介します。このアプローチは特定された盲点リスクを軽減しますが、考えられるすべての代替案の中で最適な緩和策であるとは主張しません。 Extended Tennessee Eastman Process (TEP) ベンチマークを使用して、このアプローチを Global Agnostic ベースラインに対して厳密に検証します。私たちの実証結果は、Product-Aware フレームワークが、標準の検出メトリクスに基づいてグローバル ベースラインと同等のパフォーマンスを発揮すると同時に、製品グレード固有の動作モードに対する堅牢性が向上していることを示しています。最も重要なことは、仮想の攻撃シナリオをシミュレートしたストレス テストにより、グローバル モデルはシナリオの 77.8% で運用上の逸脱を検出できない一方で、製品認識システムは 100% の検出精度を達成していることが明らかになったということです。これらの調査結果は、柔軟な製造環境では、汎用化された異常検出器が重大なセキュリティ リスクを引き起こす可能性があり、モード対応診断アーキテクチャへの移行を促す可能性があることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Product-Aware Deep Autoencoders for Robust Process Monitoring in Multi-Product Cyber-Physical Systems</p>
        <p class="orig-summary">As Industry 4.0 accelerates the integration of Cyber-Physical Systems (CPS) in manufacturing, robust anomaly detection has become critical for ensuring process safety and security. Current data-driven approaches typically employ &quot;product-agnostic&quot; or global models trained on the aggregate of all normal operating data. However, modern industrial facilities frequently operate under diverse product grades. While computationally simple, these global models inherently expand their decision boundaries to accommodate the variance of multiple modes, creating a &quot;blind spot&quot; where subtle anomalies or targeted cyber-physical attacks may be masked by the wide acceptance region of the model. In this work, we first demonstrate that the vulnerability described above is present in global-agnostic models operating across multiple product grades. We then present a Product-Aware Autoencoder as a principled mitigation that restricts the learning domain to grade-specific distributions. While this approach reduces the identified blind-spot risk, we do not claim it as the optimal mitigation among all possible alternatives. We rigorously validate this approach against a Global Agnostic baseline using the Extended Tennessee Eastman Process (TEP) benchmark. Our empirical results indicate that the Product-Aware framework performs comparably to the global baseline on standard detection metrics, while offering improved robustness to product-grade-specific operating modes. Most critically, stress tests simulating our hypothetical attack scenarios reveal that while the global model fails to detect operational deviations in 77.8% of the scenarios, the product-aware system achieves 100% detection accuracy. These findings suggest that, in flexible manufacturing environments, generalized anomaly detectors can pose non-trivial security risks, motivating a shift toward mode-aware diagnostic architectures.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d9c52ff20254" data-article-url="https://arxiv.org/abs/2606.00102" data-article-title="理性の進化の鏡としての確率概念の進化について" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00102" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00102" target="_blank" rel="noopener">理性の進化の鏡としての確率概念の進化について</a></h3>
      <p class="summary">何世紀にもわたって、確率論は偶然のゲームの微積分から、不確実性の下で推論するための中心的な枠組みへと成長してきました。この論文は、進化を単なる数学的歴史としてではなく、合理性そのものの変容として解釈します。パスカルとフェルマーの組み合わせ対称性からベイズとラプラスの帰納論理、ポアソンの事象統計からコルモゴロフの公理的形式化に至るまで、確率は不確実性、時間、一貫性を科学的判断に徐々に組み込んでいきました。この軌跡は、現代のベイズ推論、特に事前の知識とデータが一貫して結合される情報の論理としての確率に関するタラントラの見解において、成熟した認識論的形式に達します。しかし、この枠組みは限界も露呈しています。確率は、明確に定義された命題に関する不確実性を定量化しますが、それ自体では、それらを記述するために使用される概念の曖昧さを形式化するものではありません。したがって、この記事では、合理性が確率を超えてどのように拡張されるかを検討します。ファジー ロジックは、段階的な意味と定性的判断のための厳密な言語として提示されますが、ディープ ラーニングは、明示的な推論ではなく幾何学的補間と最適化に基づく、明確で強力な予測モードとして分析されます。この記事では、確率、ファジィ論理、深層学習を共通の歴史的および認識論的観点に位置づけることにより、それらの役割と限界を明確にしています。同論文は、現代の科学的合理性をデータ主導のパフォーマンスのみに還元することはできず、不確実性、曖昧さ、推論を明確に表現する必要があると主張しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">On the evolution of the concept of probability as a mirror of the evolution of reason</p>
        <p class="orig-summary">Over the centuries, probability theory has grown from the calculus of games of chance into a central framework for reasoning under uncertainty. This article interprets that evolution not merely as a mathematical history, but as a transformation of rationality itself. From Pascal and Fermat&#x27;s combinatorial symmetry to the inductive logic of Bayes and Laplace, from Poisson&#x27;s statistics of events to Kolmogorov&#x27;s axiomatic formalization, probability progressively incorporated uncertainty, time, and coherence into scientific judgment. This trajectory reaches a mature epistemological form in modern Bayesian inference, especially in Tarantola&#x27;s view of probability as a logic of information, where prior knowledge and data are combined coherently. Yet this framework also exposes a limit: probability quantifies uncertainty about well-defined propositions, but does not by itself formalize the vagueness of the concepts used to describe them. The article therefore examines how rationality extends beyond probability. Fuzzy logic is presented as a rigorous language for graded meaning and qualitative judgment, while deep learning is analyzed as a distinct, powerful mode of prediction based on geometric interpolation and optimization rather than explicit inference. By situating probability, fuzzy logic, and deep learning in a common historical and epistemological perspective, the article clarifies their roles and limits. It argues that contemporary scientific rationality cannot be reduced to data-driven performance alone, but requires the explicit articulation of uncertainty, vagueness, and inference.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d6d3d099aeb5" data-article-url="https://arxiv.org/abs/2606.00103" data-article-title="大規模言語モデルにおける対話型推論の評価: 実行可能ゲームによる階層ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00103" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00103" target="_blank" rel="noopener">大規模言語モデルにおける対話型推論の評価: 実行可能ゲームによる階層ベンチマーク</a></h3>
      <p class="summary">推論を積極的な証拠の取得と信念の更新として扱う推論評価のためのマルチターン対話型フレームワークを紹介します。ここで、LLM はタスク ルールのみを受け取り、対象を絞ったクエリを非表示の環境に発行し、部分的な観察を時間の経過とともに統合し、最終的な回答をいつ送信するかを決定する必要があります。標準的な成功率とインタラクション効率を超えて、制御された文脈の摂動下での文脈の堅牢性、および反事実の修正と必要性の判断によるメタ認知の適応を評価します。 474 の実行可能ゲームのベンチマークとしてフレームワークをインスタンス化し、それぞれを 5 つの難易度に対応する 5 つの固定構成検索スペースで評価し、広範なフロンティア LLM セットを評価します。結果は、ベンチマークが非常に識別力があり、成功率だけでなくインタラクション効率にも大きな違いがあることを示しています。さらに、文脈の混乱は中程度ではあるが一貫した低下を引き起こす一方、反事実の修正や必要性の判断はさらに大きな低下を引き起こすことを経験的に示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Evaluating Interactive Reasoning in Large Language Models: A Hierarchical Benchmark with Executable Games</p>
        <p class="orig-summary">We introduce a multi-turn interactive framework for reasoning evaluation that treats reasoning as active evidence acquisition and belief updating. Wherein, LLMs receive only the task rules, must issue targeted queries to a hidden environment, integrate partial observations over time, and decide when to submit a final answer. Beyond standard success rate and interaction efficiency, we evaluate contextual robustness under controlled contextual perturbations, and metacognitive adaptation through counterfactual revision and necessity judgment. We instantiate the framework as a benchmark of 474 executable games, each evaluated under five fixed configuration search spaces corresponding to five difficulty levels, and evaluate a broad set of frontier LLMs. Results show that the benchmark is highly discriminative, exposing large differences not only in success rate but also in interaction efficiency. Moreover, we empirically show that contextual perturbations cause moderate but consistent declines, whereas counterfactual revision and necessity judgment lead to much larger drops.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3b7a3800a48a" data-article-url="https://arxiv.org/abs/2606.00138" data-article-title="固体力学問題に対するエンドツーエンドの有限要素解析を可能にするマルチ AI エージェント フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00138" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00138" target="_blank" rel="noopener">固体力学問題に対するエンドツーエンドの有限要素解析を可能にするマルチ AI エージェント フレームワーク</a></h3>
      <p class="summary">有限要素解析 (FEA) は、固体力学に対する最も重要な数値的アプローチです。 FEA の課題には、初心者レベルのユーザーにとって急な学習曲線と、境界条件、荷重ケース、解の変数などの主要なシミュレーション コンポーネントの誤った定義による潜在的な誤ったシミュレーションが含まれます。現実の問題を解決するには、通常、長年のエンジニアリング経験が必要です。これらの問題に対処するために、固体力学解析のための大規模言語モデル (LLM) に基づいたマルチエージェント フレームワークである AbaqusAgent を紹介します。 AbaqusAgent は、ユーザーの自然言語命令を FEA 解析の実行と結果の視覚化に変換することで、最も広く使用されている FEA パッケージの 1 つである Abaqus を使用した解析ケースの生成と実行を容易にするために開発されました。 AbaqusAgent は、インタープリター、アーキテクト、入力ライター、ランナー、レビューアー、およびビジュアライザー エージェントを含む 6 つのエージェントで構成され、標準 FEA 解析の重要な前処理および後処理ステップをすべて網羅しています。 50 種類の固体力学のさまざまな問題の検証が成功し、全体の成功率は 86% に達しています。 AbaqusAgent は、固体力学問題に対する FEA の効率を向上させ、計算力学教育への障壁を下げるだけでなく、ヒューマン シミュレーション インタラクション パラダイムを前進させ、AI を活用した最適化および材料特性評価ワークフローとの統合を可能にします。コードは https://github.com/LIRAM-LIN/AbaqusAgent で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Multi-AI-agent Framework Enabling End-to-end Finite Element Analysis for Solid Mechanics Problems</p>
        <p class="orig-summary">Finite element analysis (FEA) is the most important numerical approach for solid mechanics. Challenges of FEA include a steep learning curve for entry-level users and potential false simulations due to incorrect definitions of key simulation components, such as boundary conditions, load cases, and solution variables. Years of engineering experience are usually necessary for real-world problem-solving. To address these issues, we present AbaqusAgent, a multi-agent framework grounded in large language models (LLMs) for solid mechanics analyses. AbaqusAgent is developed to facilitate analysis case generation and execution using Abaqus, one of the most widely used FEA packages, by turning users&#x27; natural-language instructions into executed FEA analyses and result visualization. AbaqusAgent is composed of six agents, including interpreter, architect, input writer, runner, reviewer, and visualizer agents, encompassing all the essential pre-processing and post-processing steps of standard FEA analyses. A wide variety of 50 solid mechanics problems have been successfully validated, achieving an overall success rate of 86%. Beyond improving the efficiency of FEA for solid mechanics problems and lowering the barrier to computational mechanics education, AbaqusAgent advances the human-simulation interaction paradigm and enables integration with AI-empowered optimization and material characterization workflows. The code is available at https://github.com/LIRAM-LIN/AbaqusAgent</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="89c1c99ddee8" data-article-url="https://arxiv.org/abs/2606.00172" data-article-title="CAST: GRPO のアドバンテージ フリッピングを使用した非特権クリップ非対称セルフティーチング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00172" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00172" target="_blank" rel="noopener">CAST: GRPO のアドバンテージ フリッピングを使用した非特権クリップ非対称セルフティーチング</a></h3>
      <p class="summary">検証可能な報酬を伴う強化学習 (RLVR)、特にグループ相対ポリシー最適化 (GRPO) は、大規模な言語モデルの推論を改善するために広く使用されています。ただし、結果レベルの報酬はまばらな監視のみを提供し、プロンプトに対してサンプリングされたすべての軌跡が正しいか間違っている場合、グループ相対的な利点は失われます。 On-Policy Self-Distillation (OPSD) は、トークンレベルの緻密なガイダンスを提供しますが、そのトークンの優先順位は必ずしも軌道の正確さと一致しているわけではありません。経験的診断により、正しいロールアウトと間違ったロールアウトでは OPSD 信号の動作が異なり、教師が正のギャップ信号と教師が負のギャップ信号が異なるノイズ プロファイルを示すことが示されています。これらの診断は分析のみを目的とした OPSD スタイルの特権教師コンテキストの下で実行されますが、CAST トレーニングでは無回答自己教師スコアリングが使用されます。これらの観察に動機付けられたこの研究では、GRPO スタイル RLVR のための無回答自己蒸留方法である CAST を提案しています。 CAST は、検証者に基づいた GRPO 目標を維持しますが、停止勾配自己教師を使用して、軌道の正確さに応じてトークンレベルの利点を形成します。以前の自己蒸留 RLVR 手法とは異なり、CAST は参照解条件付き教師スコアリングを必要とせず、トレーニング全体を通じて自己教師対数確率ギャップをアクティブに保ち、双方向のローカル アドバンテージ符号反転を適用します。つまり、正しい軌道にある教師ネガティブ トークンは負のトークン レベルのアドバンテージを受け取ることができ、一方、誤った軌道にある教師ポジティブ トークンは制限されたポジティブ ローカル アドバンテージを受け取ることができます。ゼロ分散の全正解グループと全不正解グループの場合、CAST は有界符号制約ベースアドバンテージを割り当てるため、これらのゼロ勾配グループは検証者署名付きトークンのフィードバックに貢献できます。数学的推論に関する実験では、CAST が軽量で検証者に基づいた軌道レベルの目標を維持しながら、RLVR トレーニングを改善することが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CAST: Non-Privileged Clipped Asymmetric Self-Teaching with Advantage Flipping for GRPO</p>
        <p class="orig-summary">Reinforcement learning with verifiable rewards (RLVR), especially Group Relative Policy Optimization (GRPO), has been widely used to improve reasoning in large language models. However, outcome-level rewards provide only sparse supervision, and group-relative advantages vanish when all sampled trajectories for a prompt are either correct or incorrect. On-Policy Self-Distillation (OPSD) offers dense token-level guidance, but its token preferences are not necessarily aligned with trajectory correctness; empirical diagnostics show that OPSD signals behave differently on correct and incorrect rollouts, with teacher-positive and teacher-negative gap signals exhibiting different noise profiles. These diagnostics are conducted under an OPSD-style privileged teacher context for analysis only, whereas CAST training uses answer-free self-teacher scoring.Motivated by these observations, this work proposes CAST, an answer-free self-distillation method for GRPO-style RLVR. CAST keeps the verifier-grounded GRPO objective, but uses a stop-gradient self-teacher to shape token-level advantages according to trajectory correctness. Unlike prior self-distilled RLVR methods, CAST does not require reference-solution-conditioned teacher scoring, keeps the self-teacher log-probability gap active throughout training, and applies bidirectional local advantage sign reversal: teacher-negative tokens in correct trajectories can receive negative token-level advantages, while teacher-positive tokens in incorrect trajectories can receive bounded positive local advantages. For zero-variance all-correct and all-wrong groups, CAST assigns bounded sign-constrained base advantages, so these otherwise zero-gradient groups can contribute verifier-signed token feedback. Experiments on mathematical reasoning show that CAST improves RLVR training while retaining a lightweight, verifier-grounded trajectory-level objective.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dae475a900cf" data-article-url="https://arxiv.org/abs/2606.00232" data-article-title="TIGER: マルチモーダル生成における幻覚を軽減するためのグラフベースの証拠ルーティングによる追跡可能な推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00232" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00232" target="_blank" rel="noopener">TIGER: マルチモーダル生成における幻覚を軽減するためのグラフベースの証拠ルーティングによる追跡可能な推論</a></h3>
      <p class="summary">私たちは、入力ではサポートされていない特定のファクトが滑らかな出力に含まれる可能性がある、マルチモーダル生成のためのファクトレベル修復を研究します。既存の推論時修復手法は、入力と現在の出力を共同で調整することによってフィードバックを生成することがよくあります。この設計には 2 つの制限があります。出力内の幻覚的な主張により、入力のモデルの解釈にバイアスがかかる可能性があること、および自由形式のフィードバックをファクト レベルでランク付けしたりスケジュールしたりすることができないことです。局所的な修復のためにフィードバックを再設計する推論時間フレームワークである TIGER を紹介します。 TIGER は、入力から観測グラフを抽出し、現在の出力からクレーム グラフを個別に抽出し、サポートと競合に基づいてグラフで条件付けされたリスク スコアを各クレームに割り当てます。このモデルは、バックボーンを凍結したままにしながら、選択された高リスクの請求を修復します。我々は、穏やかな仮定の下で、予想される総リスクが幾何学的に明示的な漸近限界まで減少することを示す収束分析を提供します。画像からテキストへ、画像+テキストからテキストへ、音声からテキストへ、ビデオからテキストへを含む 4 つのクロスモーダル パスにわたる実験では、TIGER がタスクの品質を維持しながらサポートされていないコンテンツを削減することが示されています。このゲインは複数のバックボーンにわたって維持されており、CrisisFACTS のケーススタディでは、同じ修復メカニズムにより複数の電源設定でグラウンディングを改善できることが示唆されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TIGER: Traceable Inference with Graph-Based Evidence Routing for Mitigating Hallucinations in Multimodal Generation</p>
        <p class="orig-summary">We study fact-level repair for multimodal generation, where a fluent output may contain specific facts that are not supported by the input. Existing inference-time repair methods often generate feedback by jointly conditioning on the input and the current output. This design has two limitations: hallucinated claims in the output can bias the model&#x27;s interpretation of the input, and free-form feedback cannot be ranked or scheduled at the fact level. We present TIGER, an inference-time framework that redesigns feedback for localized repair. TIGER independently extracts an observation graph from the input and a claim graph from the current output, then assigns each claim a graph-conditioned risk score based on support and conflict. The model repairs selected high-risk claims while keeping the backbone frozen. We provide a convergence analysis showing that the expected total risk decreases geometrically to an explicit asymptotic bound under mild assumptions. Experiments across four cross-modal paths, including image-to-text, image+text-to-text, audio-to-text, and video-to-text, show that TIGER reduces unsupported content while preserving task quality. The gains hold across multiple backbones, and a CrisisFACTS case study suggests that the same repair mechanism can improve grounding in multi-source settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5822e53d99ef" data-article-url="https://arxiv.org/abs/2606.00240" data-article-title="MindZero: 注釈なしでオンラインで精神的推論を学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00240" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00240" target="_blank" rel="noopener">MindZero: 注釈なしでオンラインで精神的推論を学習</a></h3>
      <p class="summary">効果的な現実世界での支援には、行動から人間の精神状態を推測する堅牢な心の理論 (ToM) を備えた AI エージェントが必要です。最近の進歩にも関わらず、いくつかの重要な課題が残っています。(1) 複数の仮説に対する堅牢な不確実性の更新によるオンライン推論。 (2) リアルタイム支援に適した効率的な推論。 (3) 現実世界の領域には、真実の精神状態の注釈が欠如している。私たちは、効率的かつ堅牢なオンライン精神的推論のためにマルチモーダル大規模言語モデル (MLLM) をトレーニングする自己教師あり強化学習フレームワークである MindZero を導入することで、これらの課題に対処します。トレーニング中、モデルは、モデルベースの ToM 推論と同様に、プランナーによって推定された観察された行動の可能性を最大化する精神状態仮説を生成することで報酬を受け取ります。したがって、この方法では、明示的な精神状態の注釈が不要になります。トレーニング後、MindZero はモデルベースの推論を高速なシングルパス推論に内部化します。私たちは、グリッドワールドと家庭の領域における困難な精神的推論と AI 支援タスク全体のベースラインに対して MindZero を評価します。 LLM だけでは不十分であることがわかりました。モデルベースの方法は精度を向上させますが、時間がかかり、コストがかかり、バックボーンの MLLM 容量によって制限されます。対照的に、MindZero は MLLM の本質的な ToM 能力を強化し、精度と効率の両方でモデルベースの手法を大幅に上回り、精神的推論が自己教師付きスキルとして効果的に学習できることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MindZero: Learning Online Mental Reasoning With Zero Annotations</p>
        <p class="orig-summary">Effective real-world assistance requires AI agents with robust Theory of Mind (ToM): inferring human mental states from their behavior. Despite recent advances, several key challenges remain, including (1) online inference with robust uncertainty updates over multiple hypotheses; (2) efficient reasoning suitable for real-time assistance; and (3) the lack of ground-truth mental state annotations in real-world domains. We address these challenges by introducing MindZero, a self-supervised reinforcement learning framework that trains multimodal large language models (MLLMs) for efficient and robust online mental reasoning. During training, the model is rewarded for generating mental state hypotheses that maximize the likelihood of observed actions estimated by a planner, similar to model-based ToM reasoning. This method thus eliminates the need for explicit mental state annotations. After training, MindZero internalizes model-based reasoning into fast single-pass inference. We evaluate MindZero against baselines across challenging mental reasoning and AI assistance tasks in gridworld and household domains. We found that LLMs alone are insufficient; model-based methods improve accuracy but are slow, costly, and limited by backbone MLLM capacity. In contrast, MindZero enhances MLLMs&#x27; intrinsic ToM ability and significantly outperforms model-based methods in both accuracy and efficiency, showing that mental reasoning can be effectively learned as a self-supervised skill.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec609c830d80" data-article-url="https://arxiv.org/abs/2606.00248" data-article-title="高次元構造表現のノイズ除去のための測地線フロー マッチング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00248" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00248" target="_blank" rel="noopener">高次元構造表現のノイズ除去のための測地線フロー マッチング</a></h3>
      <p class="summary">ベクトル記号代数 (VSA) は、記号情報を高次元の分散表現にエンコードすることにより、堅牢な神経記号推論を可能にします。連続ドメインの場合、空間セマンティック ポインター (SSP) は、変数を連続トロイダル多様体にマッピングすることで、このフレームワークを拡張します。ただし、フロー マッチングのような標準的なアプローチは、平坦なユークリッド幾何学を前提としているため、有効な SSP 状態に課せられる幾何学的制約を考慮できません。我々は、SSP ではこの仮定が当てはまらないことを実証します。ユークリッドの線形補間は多様体の内部を「貫通」し、正確なデコードに必要な位相と振幅の構造を破壊します。これを解決するために、リーマン輸送力学を適応させて測地線フロー マッチングを採用し、SSP トロイダル多様体へのノイズ除去フローを厳密に制限します。このアプローチをスパイキング ニューラル SLAM システムで検証し、多様体を意識したクリーンアップが行われることを示します。このメソッドは、ドリフトに対してパス統合を安定させ、トラッキング エラーを 72\% 削減し、競合ベースラインと比較してニューラル効率を 40\% 向上させることができます。コードは https://github.com/kremHabashy/CleanupSSP で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Geodesic Flow Matching for Denoising High-Dimensional Structured Representations</p>
        <p class="orig-summary">Vector Symbolic Algebras (VSAs) enable robust neurosymbolic reasoning by encoding symbolic information into high-dimensional distributed representations. For continuous domains, Spatial Semantic Pointers (SSPs) extend this framework by mapping variables onto continuous toroidal manifolds. However, standard approaches like Flow Matching assume a flat Euclidean geometry, which fails to account for the geometric constraints imposed on valid SSP states. We demonstrate that this assumption fails for SSPs: Euclidean linear interpolants ``cut through&quot; the manifold&#x27;s interior, destroying the phase and magnitude structure required for accurate decoding. To resolve this, we employ Geodesic Flow Matching, adapting Riemannian transport dynamics to strictly restrict the denoising flow to the SSP toroidal manifold. We validate this approach in a Spiking Neural SLAM system, showing that manifold-aware cleanup stabilizes path integration against drift. The method achieves a 72\% reduction in tracking error and enables a 40\% increase in neural efficiency compared to competitive baselines. Code is available at https://github.com/kremHabashy/CleanupSSP .</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bffbb5be9328" data-article-url="https://arxiv.org/abs/2606.00251" data-article-title="能力の自己評価: LLM に自分の限界を知るよう教える" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00251" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00251" target="_blank" rel="noopener">能力の自己評価: LLM に自分の限界を知るよう教える</a></h3>
      <p class="summary">自分自身の限界を認識し、問題を解決するか誰かに任せるかを決定する能力は、信頼性の高いインテリジェント システムの基礎です。しかし、現代の大規模言語モデルにはこの能力が体系的に欠けていることがわかります。さまざまなモデルファミリーやスケールにわたって、言語モデルは自分たちの能力を過大評価し、解決できないクエリを試みます。私たちはこの能力を能力自己評価 (CSA) と呼び、モデルの元の能力を維持しながら自己評価を向上させることを目的として、ポリシー学習問題として定式化します。私たちの結果は、強化学習が CSA を効果的に教え、元の機能を維持しながら教師あり微調整を大幅に上回るパフォーマンスを示していることを示しています。対照的に、教師あり微調整では、モデルが評価する予定の機能が大幅に低下します。さらに、学習された自己評価行動は分布から大きく外れて一般化しており、CSA が転移可能なモデル形質であることを示唆しています。最後に、CSA は実際に役立ちます。CSA は、推論時のローカル クラウドの意思決定を改善し、トレーニング中にターゲットを絞ったデータ選択のための信号を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Capability Self-Assessment: Teaching LLMs to Know Their Limits</p>
        <p class="orig-summary">The ability to recognize one&#x27;s own limitations and decide whether to solve a problem or delegate is fundamental for reliable intelligent systems. Yet we show that modern large language models systematically lack this ability: across diverse model families and scales, they overestimate their competence and attempt queries they cannot solve. We refer to this ability as Capability Self-Assessment (CSA) and formulate it as a policy-learning problem, aiming to improve self-assessment while preserving the model&#x27;s original capabilities. Our results show that reinforcement learning teaches CSA effectively, significantly outperforming supervised fine-tuning while preserving original capabilities. In contrast, supervised fine-tuning severely degrades the capabilities the model is meant to assess. Moreover, learned self-assessment behavior generalizes well out of distribution, suggesting that CSA is a transferable model trait. Finally, CSA is practically useful: it improves local-cloud decision making at inference time and provides a signal for targeted data selection during training.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1e829378e7c4" data-article-url="https://arxiv.org/abs/2606.00269" data-article-title="視覚・言語・行動モデルにおける閉ループ神経活性化制御" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00269" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00269" target="_blank" rel="noopener">視覚・言語・行動モデルにおける閉ループ神経活性化制御</a></h3>
      <p class="summary">Vision-Language-Action（VLA）モデルは、意味的に意味のある内部方向に介入することでテスト時にステアリングできますが、既存の方法では固定ステアリング係数が使用され、事実上開ループで動作します。これは、タスクの状態と概念エラーが時間の経過とともに進化する具体化された制御にはあまり適しておらず、特に速度や滑らかさなどの一時的な動作において、過剰修正、発振、およびタスクの成功率の低下を引き起こすことがよくあります。私たちは、静的な介入強度を適応的な時間変化する制御信号に置き換える閉ループ フレームワークである CTRL-STEER を提案します。重要なアイデアは、表現を規制から切り離すことです。時間概念が個々のニューロンによって直接制御されると想定するのではなく、フィードバック コントローラーが介入の大きさをオンラインで調整しながら、動きに合わせた残差方向に沿って操縦します。 PID と強化学習ベースのコントローラーの両方を使用してこのフレームワークをインスタンス化します。 4 つの LIBERO タスク スイートで微調整された OpenVLA ポリシーを使用した実験では、CTRL-STEER が、ベース モデルの変更や再トレーニングを行わずに、固定係数のベースラインよりも安定したコンセプト制御と、より優れたステアリング タスクの成功のトレードオフを達成することが示されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Closed-Loop Neural Activation Control in Vision-Language-Action Models</p>
        <p class="orig-summary">Vision-Language-Action (VLA) models can be steered at test time by intervening on semantically meaningful internal directions, but existing methods use a fixed steering coefficient, effectively operating in open loop. This is poorly suited to embodied control, where task state and concept error evolve over time, often causing overcorrection, oscillation, and reduced task success, especially for temporal behaviors such as speed and smoothness. We propose CTRL-STEER, a closed-loop framework that replaces static intervention strength with adaptive, time-varying control signals. The key idea is to decouple representation from regulation: rather than assuming temporal concepts are directly controlled by individual neurons, we steer along motion-aligned residual directions while a feedback controller adjusts intervention magnitude online. We instantiate this framework with both PID and reinforcement learning based controllers. Experiments with a fine-tuned OpenVLA policy on four LIBERO task suites show that CTRL-STEER achieves more stable concept regulation and a better steering-task success trade-off than fixed-coefficient baselines, without modifying or retraining the base model.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="124e8044712d" data-article-url="https://arxiv.org/abs/2606.00270" data-article-title="安全な強化学習のための堅牢なシールド" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00270" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00270" target="_blank" rel="noopener">安全な強化学習のための堅牢なシールド</a></h3>
      <p class="summary">シールドは、マルコフ意思決定プロセス (MDP) における強化学習エージェントの安全性を正式に保証する効果的なアプローチです。ただし、既存のシールド技術は通常、安全関連の遷移ダイナミクスの知識を前提としていますが、実際にはこの要件が満たされることはほとんどありません。この制限に対処するために、我々は、堅牢な MDP (RMDP)、つまり一連の遷移確率を持つ MDP のための新しいシールド フレームワークを導入します。私たちは安全性を、RMDP の最悪の場合の遷移確率の下で、特定のしきい値確率を持つ線形時相論理 (LTL) 式を満たすことと定義します。私たちは、シールド フレームワークが健全であり、RMDP にとって最適であることを証明します。シールドによって許容されるすべてのポリシーは安全であり、逆に、すべての安全な RMDP ポリシーはシールドによって許容されます。私たちは、おそらくほぼ正しい (PAC) 保証を備えた MDP の遷移確率を学習するための既存のサンプリング手法とアプローチを組み合わせます。この組み合わせにより、最小限の制限を維持しながら高い信頼性で安全性を保証する MDP 用のシールドの構築が可能になります。私たちの実験では、学習済み RMDP に対するシールドが未知の MDP における安全性を保証しながら、サンプル数が増加するにつれて高い期待リターンを回復することが示されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Robust Shielding for Safe Reinforcement Learning</p>
        <p class="orig-summary">Shielding is an effective approach to formally guarantee the safety of reinforcement learning agents in Markov decision processes (MDPs). However, existing shielding techniques typically assume knowledge of the safety-relevant transition dynamics - a requirement that is seldom met in practice. To address this limitation, we introduce a novel shielding framework for robust MDPs (RMDPs), i.e., MDPs with sets of transition probabilities. We define safety as the satisfaction of a linear temporal logic (LTL) formula with a certain threshold probability under the worst-case transition probabilities of the RMDP. We prove that our shielding framework is both sound and optimal for the RMDP: every policy admissible by the shield is safe, and conversely, every safe RMDP policy is admissible by the shield. We combine our approach with existing sampling methods for learning transition probabilities of MDPs with probably approximately correct (PAC) guarantees. This combination enables the construction of shields for MDPs that, with high confidence, guarantee safety while remaining minimally restrictive. Our experiments show that our shields for learned RMDPs guarantee safety in unknown MDPs while recovering strong expected return as the number of samples increases.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e471a203b82e" data-article-url="https://arxiv.org/abs/2606.00272" data-article-title="水曜日は質問します: 自動化された法的トリアージと紹介における「アクティブ リスニング」の最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00272" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00272" target="_blank" rel="noopener">水曜日は質問します: 自動化された法的トリアージと紹介における「アクティブ リスニング」の最適化</a></h3>
      <p class="summary">FETCH 分類子は、低コストの LLM アンサンブルを使用して、申請者の法的問題に最適な一致を絞り込むのに役立つフォローアップの質問を生成します。この論文では、FETCH におけるフォローアップ質問アプローチの専門弁護士と LLM 支援による評価について説明し、低コストの LLM は分類タスクではうまく機能しますが、この設定で高品質の平易な質問を生成するには、より洗練された高コストのモデルが必要であると思われることを示します。法的インテーク担当者との議論を通じて、法的インテーク分類の質問を評価するためのルーブリックを提案しましたが、迅速なエンジニアリングだけではインテーク目的での質問の質を向上させるには十分ではないことがわかりました。また、裁判官としての LLM と人間の評価が異なることもわかりました。私たちは、単一の高コスト モデル GPT-5 を追加することで、分類子が法的支援の申請者から関連情報を引き出すことができること、および質問が分類タスクのより正確なパフォーマンスにつながることを実証します。また、家庭内暴力を含むさまざまなカテゴリーにわたる事実の抽出が不均一であり、家族法の審査プロトコルと矛盾していることもわかり、特定の法律分野に専用の審査委員会を含めることの価値が示唆されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">On Wednesdays, We Ask Questions: Optimizing &quot;Active Listening&quot; in Automated Legal Triage and Referral</p>
        <p class="orig-summary">The FETCH classifier generates follow-up questions to help refine the best match for the applicant&#x27;s legal problem, using a low-cost ensemble of LLMs. In this paper, we describe an expert attorney and LLM-assisted evaluation of the follow-up question approach in FETCH and show that while low-cost LLMs perform well at classification tasks, generating high-quality plain-language questions in this setting appears to require a more sophisticated and higher-cost model. Through discussion with legal intake workers, we propose a rubric for the evaluation of legal intake classification questions, and we find that prompt engineering alone is not enough to improve question quality for intake purposes. We also find that LLM-as-judge and human ratings diverge. We demonstrate that with the addition of a single high-cost model, GPT-5, the classifier can elicit relevant information from applicants for legal help, and that the questions lead to more accurate performance at classification tasks. We also find uneven fact elicitation across different categories, including domestic violence, at odds with family law screening protocols, suggesting the value of including dedicated screening panels for certain areas of law.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="df142c27173d" data-article-url="https://arxiv.org/abs/2606.00278" data-article-title="相互互換性に基づいた二変量因果関係ステートメントの評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00278" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00278" target="_blank" rel="noopener">相互互換性に基づいた二変量因果関係ステートメントの評価</a></h3>
      <p class="summary">現実世界のシステムの多くでは、因果関係の真実を入手することが難しく、因果関係に関する主張を評価することが困難です。私たちは、一連の $n$ 変数に対する $\binom{n}{2}$ 二変量因果関係ステートメントのコレクションを評価する方法を開発します。非循環線形ステートメントの設定では、そのようなコレクションは独自の多変量因果モデルに拡張できますが、観察された相関関係を説明するために実質的な追加の交絡を課す場合、この誘導モデルはあり得ないと主張します。特に忠実性の仮定に依存せずに、この妥当性の概念を定量化する互換性スコアを導入します。さらに、非周期性と忠実性の仮定から導出されるグローバルな一貫性制約に基づいて、純粋にグラフィカルな二変量因果関係ステートメントの非互換性スコアを定義します。両方のスコアが一般的な設定において正しい因果ステートメントと誤った因果ステートメントをうまく区別できるという理論的および経験的な証拠を示します。さらに、大規模な言語モデルによって作成された因果関係の主張を分析することにより、私たちの方法の実際的な適用可能性を実証します。私たちの研究は、代替の検証形式が利用できない環境において、人間の専門家や人工知能から得られる因果情報の信頼性を評価するための基盤を提供することを目的としています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Evaluating Bivariate Causal Statements Based on Mutual Compatibility</p>
        <p class="orig-summary">For many real-world systems, causal ground truth is difficult to obtain, making claims about causal effects hard to assess. We develop methods for evaluating collections of $\binom{n}{2}$ bivariate causal statements over a set of $n$ variables. In the setting of acyclic linear statements, any such collection can be extended to a unique multivariate causal model, but we argue that this induced model is implausible if it imposes substantial additional confounding to explain observed correlations. We introduce a compatibility score that quantifies this notion of plausibility, notably without relying on the faithfulness assumption. Additionally, we define an incompatibility score for purely graphical bivariate causal statements, based on global consistency constraints that are derived from acyclicity and faithfulness assumptions. We give theoretical and empirical evidence that both scores can successfully distinguish correct from incorrect causal statements in generic settings. Moreover, we demonstrate the practical applicability of our methods by analyzing causal claims made by large language models. Our work aims to provide a foundation for assessing the reliability of causal information derived from human experts or artificial intelligence in settings where alternative forms of validation are unavailable.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9b4579cbcadf" data-article-url="https://arxiv.org/abs/2606.00288" data-article-title="モデルネイティブ コンピューティング アーキテクチャ: コンピュータ アーキテクチャのレンズを通して将来のシステム アーキテクチャを構想する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00288" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00288" target="_blank" rel="noopener">モデルネイティブ コンピューティング アーキテクチャ: コンピュータ アーキテクチャのレンズを通して将来のシステム アーキテクチャを構想する</a></h3>
      <p class="summary">大規模な言語モデルは、モデル テクノロジーからシステム テクノロジーへの移行を迎えています。開発者が Codex、Claude Code、AutoGPT、および関連エージェントを使用してコードを作成し、プロジェクトを管理し、複数ステップのタスクを実行するにつれて、キャッシュの再利用、コンテキスト管理、エージェントのスケジューリング、権限制御などの繰り返し発生するエンジニアリングの問題は、従来のコンピュータ システムの問題にますます似てきています。この文書では、そのアナロジーを先見的な調査として展開します。私たちは、コンピューター アーキテクチャの概念を新たなモデル ネイティブ スタックにマッピングし、OS としての LLM、メモリ管理、エージェント フレームワーク、ツール プロトコル、マルチエージェント調整、コグニティブ アーキテクチャ、および安全性ガバナンスに関する作業をレビューします。私たちは、これらのストランドは同じシステムの異なる層に対応しているが、統一されたモデルが欠けていると主張します。このギャップを埋めるために、明示的なインターフェイス契約と設計公理を備えたモデルネイティブ コンピューティングのための 6 層フレームワークであるインテリジェント コンピューティング アーキテクチャ モデル (ICAM) を提案します。 ICAM は、LLM が CPU とオペレーティング システムのどちらに似ているかに関する明らかな緊張を、デュアル プレーンの視点を通じて解決します。つまり、何を計算できるかに関する確率論的な実行プレーンと、何を計算すべきかに関する決定論的なコントロール プレーンです。さらに、3 つの設計法則を導入します。KV キャッシュの再利用と推論の高速化のためのセマンティック局所性法則、有限ウィンドウと注意力低下下での効果的なワーキング セットのためのコンテキスト バジェット法則、およびマルチエージェントのコラボレーションにおける利益逓減のためのエージェント高速化法則です。私たちはこれらの法則を公開されたシステムレベルのデータに対して検証し、エージェントソフトウェアの実践に関する最近の証拠と関連付けます。最後に、類似性がどこで崩れるかを特定し、モデルネイティブ コンピューティングの研究ロードマップの概要を示します。これは概念的な調査による寄稿です。新しい実験は報告されていません。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Model-Native Computing Architecture: Envisioning Future System Architecture Through the Lens of Computer Architecture</p>
        <p class="orig-summary">Large language models are undergoing a transition from model technology to system technology. As developers use Codex, Claude Code, AutoGPT, and related agents to write code, manage projects, and execute multi-step tasks, recurring engineering problems such as cache reuse, context management, agent scheduling, and permission control increasingly resemble classical computer systems problems. This paper develops that analogy as a visionary survey. We map concepts from computer architecture to the emerging model-native stack and review work on LLM-as-OS, memory management, agent frameworks, tool protocols, multi-agent coordination, cognitive architectures, and safety governance. We argue that these strands address different layers of the same system but lack a unified model. To fill this gap, we propose the Intelligent Computing Architecture Model (ICAM), a six-layer framework for model-native computing with explicit interface contracts and design axioms. ICAM resolves the apparent tension over whether an LLM is more like a CPU or an operating system through a dual-plane view: a probabilistic execution plane concerned with what can be computed, and a deterministic control plane concerned with what should be computed. We further introduce three design laws: the Semantic Locality Law for KV-cache reuse and inference speedup, the Context Budget Law for effective working sets under finite windows and attention decay, and the Agent Speedup Law for diminishing returns in multi-agent collaboration. We validate these laws against published system-level data and relate them to recent evidence on agentic software practices. We conclude by identifying where the analogy breaks down and outlining a research roadmap for model-native computing. This is a conceptual and survey contribution; it does not report new experiments.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3e28899e24aa" data-article-url="https://arxiv.org/abs/2606.00315" data-article-title="言語モデルと物理ベースのシミュレーションを組み合わせた無機材料の合成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00315" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00315" target="_blank" rel="noopener">言語モデルと物理ベースのシミュレーションを組み合わせた無機材料の合成</a></h3>
      <p class="summary">最新の生成機械学習 (ML) モデルは、目標の特性を備えた新しい無機結晶材料を提案できます。しかし、これらの材料の合成計画は、関連する物理プロセスの複雑さと利用可能な計算ツールの制限により依然として困難です。熱力学データベースと簡略化された反応速度論モデルを組み合わせて現実的な合成条件に近づけることにより、無機合成計画における大規模言語モデル (LLM) を評価するための新しいハイブリッド フレームワークを紹介します。ケーススタディとして、十分に特徴付けられたデータを持つ複数の工業的に関連する酸化物相を特徴とするニオブ-酸素系に焦点を当てます。計算シミュレーションでは、LLM で生成された合成ルートを古典的なパス計画アルゴリズムと比較し、LLM の暗黙的な事前確率がより実行可能な戦略を生み出すことができることを示します。私たちの評価設定では、古典的な検索方法は、直接の競合ではなく、主に引き立て役として機能します。これは、問題の相対的な複雑さを示しており、LLM の暗黙的な事前分布が価値を付加する場所を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Coupling Language Models with Physics-based Simulation for Synthesis of Inorganic Materials</p>
        <p class="orig-summary">Modern generative machine learning (ML) models can propose novel inorganic crystalline materials with targeted properties; however, synthesis planning of these materials remains difficult due to the complexity of the associated physical processes and limited availability of computational tools. We introduce a novel hybrid framework to evaluate Large Language Models (LLMs) in inorganic synthesis planning by combining thermodynamic databases with simplified kinetics models to approximate realistic synthesis conditions. As a case study, we focus on the niobium-oxygen system, which features multiple industrially relevant oxide phases with well-characterized data. In computational simulations, we compare LLM-generated synthesis routes with classical path-planning algorithms, showing that the implicit priors in LLMs can yield more viable strategies. In our evaluation setting, classical search methods serve primarily as a foil rather than a direct competitor. This illustrates the relative complexity of the problem and highlights where the LLM&#x27;s implicit priors add value.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3b437e129ad0" data-article-url="https://arxiv.org/abs/2606.00336" data-article-title="ノイズからコントロールへ: パラメータ化された拡散政策" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00336" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00336" target="_blank" rel="noopener">ノイズからコントロールへ: パラメータ化された拡散政策</a></h3>
      <p class="summary">我々は、学習された動作多様体に埋め込まれた低次元の連続パラメータを条件とする学習拡散ポリシーのフレームワークであるパラメータ化拡散ポリシー (PDP) を提案します。潜在表現間の距離が物理的軌跡間の意味論的な類似性を反映するようにこの多様体を構築することにより、拡散を確率的多様性のメカニズムから行動ステアリングのための正確で最適化可能なツールに変換します。私たちのアプローチにより、ポリシーの重みを更新することなく、既知の戦略間のスムーズな補間と新しい制約への効率的な適応が可能になります。我々は、PDP が、特に新しい動作の合成を必要とするシナリオにおいて、標準的な拡散ポリシーと比較して、シミュレーション実験と実際のロボット実験の両方において、複雑なマルチモーダルベンチマークにおける適応パフォーマンスを大幅に向上させることを実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Noise to Control: Parameterized Diffusion Policies</p>
        <p class="orig-summary">We propose Parameterized Diffusion Policy (PDP), a framework for learning diffusion policies conditioned on low-dimensional, continuous parameters embedded in a learned behavior manifold. By constructing this manifold so that distances between latent representations reflect the semantic similarity between physical trajectories, we transform diffusion from a mechanism for stochastic diversity into a precise and optimizable tool for behavior steering. Our approach enables smooth interpolation between known strategies and efficient adaptation to novel constraints without updating policy weights. We demonstrate that PDP significantly improves adaptation performance on complex multimodal benchmarks in both simulated and real-robot experiments compared to standard diffusion policies, particularly in scenarios requiring the synthesis of novel behaviors.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cea86eeb1829" data-article-url="https://arxiv.org/abs/2606.00357" data-article-title="「弱い」シグナルから強いモデルへ: LoRA マージを使用したプリファレンス デルタ アグリゲーション" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00357" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00357" target="_blank" rel="noopener">「弱い」シグナルから強いモデルへ: LoRA マージを使用したプリファレンス デルタ アグリゲーション</a></h3>
      <p class="summary">強力な大規模言語モデル (LLM) をトレーニングするには、高品質の監督が必要ですが、それが不足していることがよくあります。最近の研究では、弱いモデルと弱いモデルのペア (例: Qwen3 4B 対 1.7B) からのペアの嗜好データは、個々の応答の品質が限られているにもかかわらず、相対的な品質のデルタ (これを「弱い」信号と呼ぶ) を通じて効果的な監視信号を提供できることが示されています。これは、重要な研究課題の動機となります。つまり、複数の「弱い」信号を建設的に集約して、強力なモデル (Qwen3 8B など) を改善できるか?この目的を達成するために、私たちは優先デルタ集約 (PDA) を提案します。これは、弱いモデルと弱いモデルのそれぞれのペアから優先デルタを導出し、それを優先最適化を通じて学習した LoRA アダプターとしてインスタンス化し、LoRA マージを通じて結果のデルタを集約する最初のフレームワークです。 LoRA マージ中の指向性干渉をさらに軽減するために、Geometric Alignment Merging (GAM) を導入しました。これは、集約前にアダプターのサブスペースを位置合わせする、ジオメトリを意識したマージ手法であり、多様なデルタのより堅牢な構成を可能にします。知識推論とエージェント検索ベンチマークの評価では、複数の「弱い」信号を集約すると、単一の信号を超えてパフォーマンスが向上し、追加の信号が組み込まれるとさらに向上することが示されています。同様に、GAM を備えた PDA は、知識推論とエージェント検索において、強力なモデルをそれぞれ平均 6.8 ポイントと 7.3 ポイント改善しました。これはすべてのシングルデルタおよびマルチデルタのベースラインを上回り、最高のシングルデルタのベースラインを 2.1 ポイントおよび 4.3 ポイント上回っています。さらなる分析では、これらの利益は、異なる優先デルタにわたってエンコードされた補完的な機能の効果的な構成によるものであると考えられます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From &quot;Weak&quot; Signals to Strong Models: Preference Delta Aggregation with LoRA Merging</p>
        <p class="orig-summary">Training strong large language models (LLMs) requires high-quality supervision, which is often scarce. Recent work shows that paired preference data from weak-weaker model pairs (e.g., Qwen3 4B over 1.7B), despite the limited quality of individual responses, can provide an effective supervision signal through relative quality deltas, which we term a &quot;weak&quot; signal. This motivates a key research question: can multiple &quot;weak&quot; signals be constructively aggregated for improving strong models (e.g., Qwen3 8B)? To this end, we propose Preference Delta Aggregation (PDA), the first framework that derives a preference delta from each weak-weaker model pair, instantiates it as a LoRA adapter learned through preference optimization, and aggregates the resulting deltas via LoRA merging. To further mitigate directional interference during LoRA merging, we introduce Geometric Alignment Merging (GAM), a geometry-aware merging method that aligns adapter subspaces before aggregation, enabling more robust composition of diverse deltas. Evaluations on knowledge reasoning and agentic search benchmarks show that aggregating multiple &quot;weak&quot; signals pushes performance beyond any single signal, with further gains as additional signals are incorporated. Correspondingly, PDA with GAM improves the strong model by 6.8 and 7.3 points on average for knowledge reasoning and agentic search, respectively. It outperforms all single-delta and multi-delta baselines, exceeding the best single-delta baseline by 2.1 and 4.3 points. Further analysis attributes these gains to the effective composition of complementary capabilities encoded across distinct preference deltas.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f89313dda7c3" data-article-url="https://arxiv.org/abs/2606.00376" data-article-title="決定論的地平: 拡張推論が失敗し、ツールの委任が必要になったとき" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00376" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00376" target="_blank" rel="noopener">決定論的地平: 拡張推論が失敗し、ツールの委任が必要になったとき</a></h3>
      <p class="summary">拡張された思考連鎖推論は、決定論的な状態追跡タスクのパフォーマンスを低下させる可能性があります。これは、好みのバイアスによるものではなく、デコーダのみの注意の情報理論的能力に根ざした制限によるものです。 (1) 状態追跡容量を $O(H \cdot \log(L/H) \cdot \sqrt{d_h})$ として制限する、補完的な達成可能性構造を備えたアテンション ボトルネック定理を確立します。 (2) 超指数関数的な精度低下をもたらすコンテキスト依存エラー モデル。 (3) 状態空間 Jaccard メトリックにより、機能がプリファレンスの失敗から区別されます。 (4) ツールの委任が必要になる決定論的範囲 $d^* \in [19, 31]$。 12 のモデルと 8 つのタスク ドメイン (SWE-Bench、WebArena、SQL-Multi を含む) にわたって、ツール統合推論は一貫してニューラル思考連鎖を上回ります。プライマリ モデル スイートでは、精度が 86 ～ 94% に達するのに対し、ニューラル思考連鎖では 24 ～ 42% に達します。最適な長さのトレースを微調整すると $&lt;5% の改善が得られ、アーキテクチャ上の上限が確認され、高いモデル間相関 ($r = 0.81$ ～ $0.91$) は、これらの失敗がトレーニング固有のものではなくアーキテクチャ上のものであることを示しています。私たちの結果は、エージェントシステムにおいて純粋な神経推論がハイブリッドアプローチに屈すべき場合についての原則的な指針を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Deterministic Horizon: When Extended Reasoning Fails and Tool Delegation Becomes Necessary</p>
        <p class="orig-summary">Extended chain-of-thought reasoning can degrade performance on deterministic state-tracking tasks, not due to preference biases, but limits rooted in the information-theoretic capacity of decoder-only attention. We establish: (1) an Attention Bottleneck Theorem with a complementary achievability construction, bounding state-tracking capacity as $O(H \cdot \log(L/H) \cdot \sqrt{d_h})$; (2) a context-dependent error model yielding super-exponential accuracy decay; (3) the State-Space Jaccard metric distinguishing capability from preference failures; (4) a Deterministic Horizon $d^* \in [19, 31]$ beyond which tool delegation becomes necessary. Across 12 models and 8 task domains (including SWE-Bench, WebArena, and SQL-Multi), tool-integrated reasoning consistently outperforms neural chain-of-thought; on the primary model suite it reaches 86-94% accuracy versus 24-42% for neural chain-of-thought. Fine-tuning on optimal-length traces yields $&lt;$5% improvement, confirming an architectural ceiling, and high cross-model correlation ($r = 0.81$-$0.91$) indicates these failures are architectural rather than training-specific. Our results provide principled guidance for when pure neural reasoning should yield to hybrid approaches in agentic systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="de37044043c6" data-article-url="https://arxiv.org/abs/2606.00384" data-article-title="VESTA: 統計ツール エージェントを使用した視覚的な探索" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00384" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00384" target="_blank" rel="noopener">VESTA: 統計ツール エージェントを使用した視覚的な探索</a></h3>
      <p class="summary">定量的モデルをデータに適合させることは科学ワークフローの中心的なステップですが、依然として自動化が最も進んでいないステップの 1 つです。最近のエージェントベースのシステムは、言語および視覚言語モデル (VLM) を活用して、統計モデルを繰り返し提案および改良しますが、これらのシステムは、より困難なモデリング タスクに苦戦しています。これらの制限に対処するために、VESTA: Visual Exploration with Statistical Tool Agents を導入します。これは、VLM に動的に拡張する探索ツールキットを装備し、データ変換、仮説に基づく視覚化、堅牢な統計テストを通じてモデルの改良をガイドするフレームワークです。反復的な批評のみに依存する従来のシステムとは異なり、VESTA は、モデルのコンテキストに蓄積され、後で再利用できる診断ツールを選択または作成することにより、改良前および改良中にデータを積極的に探索します。私たちは、ツールなし、専門家が作成した静的なツール、モデルが作成した動的ツールの 3 つのツールキット構成で確立されたベースラインに対して VESTA を評価します。この評価をサポートするために、さまざまな難易度の分布フィッティングと時系列モデリングを対象としたベンチマークである DAWN (自動化されたワークフローと数値モデリングのためのデータセット) を導入し、最終的には初期質量関数や重力波チャープ信号のモデリングを含む現実世界の天文学タスクに到達します。 VESTA の動的なツールの作成は、以前のエージェント パイプラインよりも優れたパフォーマンスを発揮し、複雑なドメイン固有のタスクで最大のメリットが得られることがわかりました。さらに、動的に生成されたツールは、既存のビジュアル ツール作成システムによって生成されたツールよりも大幅に洗練されており、機能ごとにより多くの診断カテゴリをカバーし、VLM 批評家が直接推論できるビジュアル出力を強く好むことを示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">VESTA: Visual Exploration with Statistical Tool Agents</p>
        <p class="orig-summary">Fitting quantitative models to data is a central step in scientific workflows, yet it remains one of the least automated. Recent agent-based systems leverage language and vision-language models (VLMs) to iteratively propose and refine statistical models, but these systems struggle on more challenging modeling tasks. To address these limitations, we introduce VESTA: Visual Exploration with Statistical Tool Agents, a framework that equips VLMs with a dynamically growing exploration toolkit to guide model refinement through data transformations, hypothesis-driven visualizations, and robust statistical tests. Unlike prior systems that rely on iterative critique alone, VESTA actively explores data before and during refinement by selecting or creating diagnostic tools, which accumulate in the model&#x27;s context and can be reused later. We evaluate VESTA against established baselines in three toolkit configurations: no tools, static expert-written tools, and dynamic model-written tools. To support this evaluation, we introduce DAWN (Dataset for Automated Workflows and Numerical Modeling), a benchmark targeting distribution fitting and time series modeling with varying difficulty tiers, and culminating in real-world astronomy tasks including modeling initial mass functions and gravitational-wave chirp signals. We find that VESTA&#x27;s dynamic tool creation outperforms prior agentic pipelines, with the largest gains on complex and domain-specific tasks. We further show that dynamically generated tools are substantially more sophisticated than those produced by existing visual tool-creation systems, covering more diagnostic categories per function and strongly preferring visual outputs that the VLM critic can reason over directly.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="acab70d7bf21" data-article-url="https://arxiv.org/abs/2606.00424" data-article-title="弱い批評家が強い学習者を作る: 拡張可能な監視のためのポリシーに基づく批評の蒸留" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00424" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00424" target="_blank" rel="noopener">弱い批評家が強い学習者を作る: 拡張可能な監視のためのポリシーに基づく批評の蒸留</a></h3>
      <p class="summary">大規模な言語モデルが強化されると、弱いスーパーバイザーは複雑な出力に対して信頼できるラベル、設定、または最終的な判断を提供できなくなる可能性があり、弱から強への一般化とスケーラブルな監視の両方が制限されます。私たちは弱い監督のより扱いやすい形式を研究しています。それは、弱いモデルをラベル付け者や裁判官としてではなく批評家として使用することです。弱い批評家は、タスクを解決したり正しい答えを選択したりする代わりに、強いモデルが自身の知識をより有効に活用できるように、誤解を招かない改訂の方向性を提供するだけで済みます。この設定を *弱い批判者と強い監視* と呼びます。まず、弱い批評によって推論時に凍結された強いモデルを改善できること、そして批評の質がこの改善の鍵であることを示します。次に、私たちは、高品質の批評をフィルタリングし、適応的な自己教師信号を通じて批評家に導かれた行動を強力なモデルに抽出する、進歩的なポリシーに基づく批評の蒸留 (**OPCD**) を提案します。推論と調整のベンチマークに関する実験では、私たちの方法がトレーニング エポックにわたって強力なモデルを改善することが示されており、弱い監視でスケーラブルな監視を実現するための効果的なパスが示唆されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Weak Critics Make Strong Learners: On-Policy Critique Distillation for Scalable Oversight</p>
        <p class="orig-summary">As large language models become stronger, weak supervisors may fail to provide reliable labels, preferences, or final judgments for complex outputs, limiting both weak-to-strong generalization and scalable oversight. We study a more tractable form of weak supervision: using a weak model as a critic rather than as a labeler or judge. Instead of solving the task or selecting the correct answer, the weak critic only needs to provide a non-misleading revision direction that helps the strong model better use its own knowledge. We call this setting *weak-critic strong oversight*. We first show that weak critiques can improve frozen strong models at inference time, and that critique quality is key to this improvement. We then propose progressive on-policy critique distillation (**OPCD**), which filters high-quality critiques and distills critic-guided behavior into the strong model through adaptive self-teacher signals. Experiments on reasoning and alignment benchmarks show that our method improves strong models over training epochs, suggesting an effective path for scalable oversight with weak supervision.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8aa4a40b49c0" data-article-url="https://arxiv.org/abs/2606.00440" data-article-title="SDR: 放射線科レポート作成に対する設定距離報酬" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00440" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00440" target="_blank" rel="noopener">SDR: 放射線科レポート作成に対する設定距離報酬</a></h3>
      <p class="summary">検証可能な報酬を伴う強化学習により、視覚、つまり言語モデルにおける推論が急速に進歩しました。ただし、胸部 X 線レポート生成の場合、レポートは因果関係の推論チェーンではなく、順序付けされていない直交する所見で構成されるため、標準的な報酬 (つまり、完全一致の精度とステップレベルのプロセス) は互換性がありません。私たちはセットベースのビューでこのギャップに対処します。各レポートは文に分割され、凍結された文トランスフォーマーによって埋め込まれ、順序付けされていない埋め込みセットが生成されます。生成された埋め込みと参照埋め込みの間のセット間の距離を、連続した順列不変の報酬として使用することを提案します。 2 つのデータセットと 3 つの視覚言語モデル (Qwen3-VL-2B/4B、Gemma3-4B) にわたって、GRPO を介したセット間の距離ベースの報酬によるポストトレーニングは、すべてのヘッドライン指標 (BERTScore、RadGraph F1、および CheXbert F1) において、教師あり微調整および完全一致 GRPO よりも一貫して平均 \%6.80、\%7.82、\%4.45 の相対値で優れています。それぞれ改善されました）。同じ設定距離により、テスト時の $N$ のベスト選択も可能になります。トレーニング レポートの埋め込みまでの距離によって候補をスコアリングすると、トレーニング済みモデルや 3 つのクローズド ソース LLM (Mistral-Small、Gemini-2.5 Flash-Lite、GPT-4o-mini) でのランダム選択よりも優れたパフォーマンスを発揮し、BERTScore で平均 \%16.4 の相対改善が得られます。ストリーミング シグナルとして使用すると、より効率的な形式のテスト時間スケーリングがサポートされます。つまり、スコアの低い候補を世代途中でプルーニングすると、生成されるトークンが 50\% 以上削減され、同時に $N$ の中で最も優れた選択結果の品質が維持されます。これらの結果を総合すると、胸部 X 線レポート生成におけるトレーニング後とテスト時のスケーリングの両方に対する統一された信号として設定距離報酬が確立されます。私たちのコードは \href{https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA}{available} として公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SDR: Set-Distance Rewards for Radiology Report Generation</p>
        <p class="orig-summary">Reinforcement learning with verifiable rewards has rapidly advanced reasoning in vision--language models. However, for chest X-ray report generation, the standard rewards (i.e. exact-match accuracy and step-level processes) are incompatible because the reports consist of unordered and orthogonal findings, rather than a causal reasoning chain. We address this gap with a set-based view: each report is split into sentences and embedded by a frozen sentence transformer, yielding unordered embedding sets. We propose the use of set-to-set distances between generated and reference embeddings as continuous, permutation-invariant rewards. Across two datasets and three vision--language models (Qwen3-VL-2B/4B, Gemma3-4B), post-training with set-to-set distance based rewards via GRPO consistently outperforms supervised fine-tuning and exact-match GRPO on all headline metrics (BERTScore, RadGraph F1 and CheXbert F1 by average \%6.80, \%7.82 and \%4.45 relative improvements respectively). The same set distances also enable test-time best-of-$N$ selection: scoring candidates by their distance to training-report embeddings outperforms random selection on our trained models as well as three closed-source LLMs (Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini) with on average \%16.4 relative improvement on BERTScore. Used as a streaming signal, they support a more efficient form of test-time scaling: pruning low-scoring candidates mid-generation reduces generated tokens by over 50\% while preserving the Findings quality of full best-of-$N$ selection. Together these results establish set-distance rewards as a unified signal for both post-training and test-time scaling in chest X-ray report generation. Our code is publicly \href{https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA}{available}.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9fd0b71e5ef7" data-article-url="https://arxiv.org/abs/2606.00476" data-article-title="理屈ではなく、言われたことを実行する: LLM エージェントの誠実さのギャップを特定する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00476" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00476" target="_blank" rel="noopener">理屈ではなく、言われたことを実行する: LLM エージェントの誠実さのギャップを特定する</a></h3>
      <p class="summary">LLM エージェントは、自分が述べた推論に基づいて行動しますか?このプロセス忠実度の問題は、ソーシャル シミュレーションで LLM を使用する際の中心となりますが、正しい動作の基準が存在しない場合は測定することが困難です。私たちは、忠実性のギャップを推論 - 結論と結論 - 行動の 2 つのステップに分解することにより、すべての決定に対して検証可能な参照アクションを備えたテキサス ポーカー シミュレーターという、制御された設定でそれを研究します。 2 つのステップは逆に動作します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Doing What They Say, Not What They Reason: Locating the Faithfulness Gap in LLM Agents</p>
        <p class="orig-summary">Do LLM agents act on the reasoning they state? This question of process fidelity is central to using LLMs in social simulation, yet it is hard to measure where no reference for correct behavior exists. We study it in acontrolled setting, a Texas Poker simulator with a verifiable reference action for every decision by decomposing the faithfulness gap into two steps: reasoning-conclusion and conclusion-action. The two steps behave oppositely.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5b06604eed3c" data-article-url="https://arxiv.org/abs/2606.00487" data-article-title="TAPS: 拡散ドラフトによる投機的デコーディングのためのターゲットを意識したプレフィックス ツリー選択" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00487" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00487" target="_blank" rel="noopener">TAPS: 拡散ドラフトによる投機的デコーディングのためのターゲットを意識したプレフィックス ツリー選択</a></h3>
      <p class="summary">並列ドラフトに拡散モデルを使用することは、投機的デコードに対する有望なアプローチです。単一の前方パスで将来の複数の位置にあるトークンを予測することにより、拡散ドラフターはドラフティングの待ち時間を大幅に短縮します。ただし、これによりボトルネックが検証に移ります。単一のシーケンスを検証すると受け入れられる長さが制限されますが、大きなドラフト ツリーを検証するとターゲット モデルの過剰な遅延が発生します。既存のドラフト ツリー手法における主要な不一致を特定します。既存の拡散ツリー手法は、検証がプレフィックス条件付きであることを無視して、周辺確率によってノードをランク​​付けします。その結果、拒否されたプレフィックスの到達不能な子孫を検証する可能性があり、許容利益が制限されながら遅延が増加する可能性があります。これに対処するために、我々は、拡散限界をパス条件付き許容推定値に変換する、ターゲットを意識したプレフィックス選択方法である TAPS を提案します。次に、TAPS は、固定の検証予算の下でコンパクトなプレフィックスが閉じられたサブツリーを選択し、単にドラフト ツリーを拡張するのではなく、承認コストのトレードオフを改善します。多様なデータセットとモデル ファミリにわたる実験では、TAPS がバニラの自己回帰デコードと比較して最大 7.9 倍のロスレス エンドツーエンドの高速化を達成し、最先端の DFlash と DDTree をそれぞれ 1.36 倍と 1.74 倍上回るパフォーマンスを示していることが実証されています。私たちの成果は https://anonymous.4open.science/r/TAPS-EMNLP2026-53DD でご覧いただけます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TAPS: Target-Aware Prefix Tree Selection for Diffusion-Drafted Speculative Decoding</p>
        <p class="orig-summary">Using a diffusion model for parallel drafting is a promising approach for speculative decoding. By predicting tokens at multiple future positions in a single forward pass, diffusion drafters substantially reduce drafting latency. However, this shifts the bottleneck to verification: verifying a single sequence limits acceptance length, while verifying large draft trees incurs excessive target-model latency. We identify a key mismatch in existing draft-tree methods: existing diffusion-tree methods rank nodes by the marginal probability, ignoring that verification is prefix-conditioned. As a result, they may verify unreachable descendants of rejected prefixes, increasing latency with limited acceptance gains. To address this, we propose TAPS, a target-aware prefix selection method that turns diffusion marginals into path-conditioned acceptance estimates. TAPS then selects a compact prefix-closed subtree under a fixed verification budget, improving the acceptance-cost tradeoff rather than simply expanding the draft tree. Experiments across diverse datasets and model families demonstrate that TAPS achieves up to 7.9x lossless end-to-end speedup over vanilla autoregressive decoding, outperforming state-of-the-art DFlash and DDTree by 1.36x and 1.74x respectively. Our work is available at https://anonymous.4open.science/r/TAPS-EMNLP2026-53DD</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bfc615df1806" data-article-url="https://arxiv.org/abs/2606.00506" data-article-title="EnergyMamba: エネルギー消費予測のための不確実性を認識したグラフ強化された選択的状態空間モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00506" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00506" target="_blank" rel="noopener">EnergyMamba: エネルギー消費予測のための不確実性を認識したグラフ強化された選択的状態空間モデル</a></h3>
      <p class="summary">エネルギー消費量の予測は、効率的なグリッド管理、需要側の最適化、持続可能なエネルギー計画に不可欠です。予測パフォーマンスを向上させるために高度な機械学習手法が採用されていますが、既存の研究には 2 つの重要な制限があります。(1) 通常、異なる領域間の空間依存性を明示的にモデル化せずに、純粋に時系列の予測問題としてこのタスクを定式化します。(2) 極端な気象現象などの異常な状況下では、不確実性の推定値を伴う信頼性の高い予測を提供できません。既存の研究を前進させるために、私たちは正確で信頼性の高いエネルギー消費予測のための不確実性を認識した時空間学習フレームワークである EnergyMamba を提案します。これは 2 つの重要なコンポーネントで構成されます。(i) グリッド トポロジから学習した空間コンテキストを時間ダイナミクスに注入し、連成時空間モデリングを可能にする新しいグラフ拡張選択的状態空間モデル (GE-Mamba)、および (ii) 適応逐次等形式化分位点回帰(AS-CQR) モジュールには、潜在的な分布シフトの下で予測間隔を動的に調整するための局所適応正規化とオンライン フィードバック メカニズムが含まれています。フロリダ、ニューヨーク、カリフォルニアの 4 つの大規模な現実世界のデータセットで EnergyMamba を評価します。結果は、EnergyMamba が 15 の最先端のベースラインと比較して、予測精度で約 5% の向上、不確実性の定量化で 6% の向上を達成したことを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">EnergyMamba: An Uncertainty-Aware Graph-Enhanced Selective State Space Model for Energy Consumption Prediction</p>
        <p class="orig-summary">Energy consumption prediction is essential for efficient grid management, demand-side optimization, and sustainable energy planning. Although advanced machine learning methods have been employed for better prediction performance, existing works have two key limitations: (1) they usually formulate this task as a purely time-series prediction problem without explicitly modeling the spatial dependencies among different regions, and (2) they fail to provide reliable predictions with uncertainty estimates under abnormal situations such as extreme weather events. To advance existing research, we propose EnergyMamba, an uncertainty-aware spatiotemporal learning framework for accurate and reliable energy consumption prediction, which comprises two key components: (i) a novel Graph-Enhanced Selective State Space Model (GE-Mamba) that injects spatial context learned from the grid topology into the temporal dynamics, enabling coupled spatiotemporal modeling, and (ii) an Adaptive Sequential Conformalized Quantile Regression (AS-CQR) module, which includes locally adaptive normalization and an online feedback mechanism to dynamically calibrate prediction intervals under potential distribution shifts. We evaluate EnergyMamba on four large-scale real-world datasets from Florida, New York, and California. Results show EnergyMamba achieves around 5% improvement in prediction accuracy and 6% improvement in uncertainty quantification over 15 state-of-the-art baselines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e99cef6df880" data-article-url="https://arxiv.org/abs/2606.00516" data-article-title="LLM 推論のためのしきい値ベースの排他的バッチ処理" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00516" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00516" target="_blank" rel="noopener">LLM 推論のためのしきい値ベースの排他的バッチ処理</a></h3>
      <p class="summary">混合バッチ (MB) (単一バッチでプリフィルとデコードをインターリーブする) は、コンピューティングとメモリの使用率を最大化する効率のため、大規模言語モデル (LLM) 推論の標準的なスケジューリング戦略となっています。ただし、制御された実験を通じて、プリフィルとデコードの干渉により、MB のステップあたりの限界コストが純粋なデコードの限界コストを超えて上昇することがわかりました。高帯域幅の H200 (4.8 TB/秒) では、これはデコード トークンがバッチの 80% を超えた場合にのみ発生します。ただし、帯域幅に制約のある RTX PRO 6000 (1.792 TB/秒) では、このしきい値はわずか 20% にまで下がります。したがって、MB と排他的バッチ処理 (EB) の最適な選択は、基本的に GPU メモリ帯域幅、モデル サイズ、ワークロード構成に依存します。この EB-MB パフォーマンスクロスオーバーの閉形式条件を、漸近的に最適な位相切り替えしきい値と EB のメモリセーフなバッチサイジングとともに導出します。最適化された EB は、帯域幅に制約のある GPU で最大 41.9% 高いスループットを実現します。一方、MB は、より大きなモデルの高帯域幅ハードウェアでもその利点を維持します。当社のハイブリッド スケジューラ EB+ は、この条件をオンラインで適用して、手動介入なしで EB と MB を動的に切り替えます。分散または同時実行シフトのある非定常トラフィックの下では、EB+ はあらゆる設定で最高または最高に近いスループットを達成し、MB を最大 36.4% 上回ります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Threshold-Based Exclusive Batching for LLM Inference</p>
        <p class="orig-summary">Mixed batching (MB)--interleaving prefill and decode in a single batch--has become the standard scheduling strategy for large language model (LLM) inference due to its efficiency in maximizing compute and memory utilization. However, through controlled experiments, we find that prefill-decode interference inflates MB&#x27;s per-step marginal cost above that of pure decode. On the high-bandwidth H200 (4.8 TB/s), this occurs only when decode tokens exceed 80% of the batch; however, on the bandwidth-constrained RTX PRO 6000 (1.792 TB/s), this threshold plummets to just 20%. Consequently, the optimal choice between MB and exclusive batching (EB) fundamentally depends on GPU memory bandwidth, model size, and workload composition. We derive a closed-form condition for this EB-MB performance crossover, along with asymptotically optimal phase-switching thresholds and memory-safe batch sizing for EB. Optimized EB achieves up to 41.9% higher throughput on bandwidth-constrained GPUs, while MB retains its advantage on high-bandwidth hardware with larger models. Our hybrid scheduler EB+ applies this condition online to dynamically switch between EB and MB without manual intervention. Under non-stationary traffic with distribution or concurrency shifts, EB+ attains the highest or near-highest throughput in every setting, outperforming MB by up to 36.4%.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fe9d6aa53331" data-article-url="https://arxiv.org/abs/2606.00518" data-article-title="AI との連携: 代理人による不法行為責任のためのインタラクションベースのフレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00518" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00518" target="_blank" rel="noopener">AI との連携: 代理人による不法行為責任のためのインタラクションベースのフレームワーク</a></h3>
      <p class="summary">Agentic AI システムは、複数のステップにわたって計画を立て、ツールを使用し、時間をかけてタスクを実行できます。このようなシステムが害を及ぼす場合、不法行為法は責任を割り当てるのに苦労します。その理由は、有害な経路がユーザーによって完全に選択されたり、開発者によって明確に予見されたりする可能性がないためです。この論文は、マイケル・ブラットマンの計画理論と人間と人間の共同行動のコモン・ローの扱いに基づいて、代理人的不法行為のための相互作用に基づく枠組みを提案する。私たちは、自律ドリフト、純粋なツールの使用、共同計画という 3 つのインタラクション タイプを区別します。純粋なツールケースは、引き続き通常の製品欠陥および警告原則によって管理されます。共同計画の事例は、独立請負業者の管理テスト、職業上の過誤、および過失による虚偽表示にマッピングされます。自律的ドリフトマップは、優れた厳格な製造物責任の下で、はしゃぎと迂回をマップします。このフレームワークは、ステートフル インタラクション ログを主要な証拠追跡として扱い、裁判所が人間と AI の軌跡が認可された事業からどこに逸脱したか、またどこに責任を負うべきかを推測できるようにします。私たちは、インシデントに基づいた 4 件の事件を解決し、このアカウントを厳格責任および保険ベースの提案と並べて位置づけ、規制上の監視との関係に注目し、制約の検証、認識上の透明性、実行時のグラウンディング、およびフォレンジック ロギングを中心に構築された「合理的なエージェント」標準を提案します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Acting with AI: An Interaction-Based Framework for Agentic Tort Liability</p>
        <p class="orig-summary">Agentic AI systems can plan over multiple steps, use tools, and execute tasks over time. When such systems cause harm, tort law struggles to allocate responsibility because the harmful path may be neither fully chosen by the user nor specifically foreseen by the developer. This paper proposes an interaction-based framework for agentic torts, drawing on Michael Bratman&#x27;s planning theory and on the common law&#x27;s treatment of human-human concerted action. We distinguish three interaction types: autonomous drift, pure tool use, and collaborative planning. Pure tool cases remain governed by ordinary product-defect and warning doctrines; collaborative planning cases map onto the independent contractor control test, professional malpractice, and negligent misrepresentation; autonomous drift maps onto frolic and detour under respondeat superior and strict product liability. The framework treats the stateful interaction log as the primary evidentiary trace, allowing courts to infer where the human-AI trajectory departed from the authorized undertaking and where liability should attach. We resolve four incident-anchored cases, situate the account alongside strict-liability and insurance-based proposals, note its relationship to regulatory oversight, and propose a ``Reasonable Agent&#x27;&#x27; standard built around constraint verification, epistemic transparency, runtime grounding, and forensic logging.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="374a99ad5453" data-article-url="https://arxiv.org/abs/2606.00532" data-article-title="KACE: 数学的推論のための知識適応型コンテキスト エンジニアリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00532" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00532" target="_blank" rel="noopener">KACE: 数学的推論のための知識適応型コンテキスト エンジニアリング</a></h3>
      <p class="summary">コンテキスト エンジニアリングでは、重みを更新せずに大規模な言語モデルを改善できますが、数学的推論には重要な制限があります。成長する 1 つのプロンプトに蓄積されたフィードバックはコンテキストの肥大化を引き起こし、使用できる学習されたガイダンスの量を制限します。既存の方法では、ストレージ、実行全体で学習される内容、使用法、特定の問題に含まれる内容が混同されることが多いため、このプロンプト サイズの上限が継承されます。難易度およびドメインベースの編成を通じてストレージと使用状況を分離する、Knowledge-Adaptive Context Engineering (KACE) を導入します。オフラインでは、内省的な学習ループにより、トレーニング トレースが認識ツリーに抽出されます。認識ツリーとは、問題の難易度と認識領域によって階層化された型付きカードの知識ベースです。各カードは、その原因となった障害に対応する難易度ドメイン ノードに割り当てられます。評価時には、階層ごとの合意ゲートによる階層化された自己整合性により、各問題が簡単、中程度、または困難に動的に分類されます。簡単な問題はカードを取得せずに終了しますが、難しい問題はツリーの一致するブランチのみを取得します。この段階的スキームは、同等のコンピューティングを使用しながら Best-of-N と同等かそれを上回り、78% のペアごとの一致で問題の難易度を分類します。主な経験的貢献は、段階的な自己一貫性によって可能になる、難易度とドメインの階層化された知識ベースの構築と使用です。 AIME 2025では、KACEは62.2パーセントの精度を達成し、同等のソルバーコールバジェットでの固定ベストオブ5自己一貫性よりも10.4ポイントの絶対利得、そして最強の学習コンテキストベースラインである階層化+GEPAよりも5.6ポイントの利得を達成しました。また、MATH-HARD と OlymMATH の検証可能なサブセットでも一貫したゲインが観察されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">KACE: Knowledge-Adaptive Context Engineering for Mathematical Reasoning</p>
        <p class="orig-summary">Context engineering can improve large language models without updating their weights, but mathematical reasoning exposes a key limitation: feedback accumulated in one growing prompt causes context bloat and limits the amount of learned guidance that can be used. Existing methods often conflate storage, what is learned across runs, with usage, what is included for a particular problem, and therefore inherit this prompt-size ceiling. We introduce Knowledge-Adaptive Context Engineering (KACE), which separates storage from usage through difficulty- and domain-based organization. Offline, a self-reflective learning loop distills training traces into an epistemic tree: a knowledge base of typed cards stratified by problem difficulty and epistemic domain. Each card is assigned to the difficulty-domain node corresponding to the failure from which it originated. At evaluation time, tiered self-consistency with per-tier agreement gates dynamically classifies each problem as easy, medium, or hard. Easy problems exit without retrieved cards, while harder problems retrieve only the matching branch of the tree. This tiered scheme matches or exceeds Best-of-N while using comparable compute, and it classifies problem difficulty with 78 percent pairwise concordance. The main empirical contribution is the construction and use of a difficulty- and domain-stratified knowledge base enabled by tiered self-consistency. On AIME 2025, KACE achieves 62.2 percent accuracy, a 10.4-point absolute gain over fixed Best-of-5 self-consistency at a comparable solver-call budget and a 5.6-point gain over the strongest learned-context baseline, Tiered + GEPA. We also observe consistent gains on MATH-HARD and the verifiable subset of OlymMATH.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ee7c599aca16" data-article-url="https://arxiv.org/abs/2606.00555" data-article-title="編集する前にプローブする: 構造ベースの医薬品設計における LLM 薬剤のプローブに基づく分子最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00555" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00555" target="_blank" rel="noopener">編集する前にプローブする: 構造ベースの医薬品設計における LLM 薬剤のプローブに基づく分子最適化</a></h3>
      <p class="summary">構造ベースの医薬品設計では、標的ポケットに対してリガンドを反復的に精製するために LLM 試薬の採用が増えていますが、実行可能なリガンドは、しばしば相反する 2 つの目的、つまり結合親和性と創薬可能性を満たさなければなりませんが、単一の最適化ステップで同時に改善されることはほとんどありません。この困難さを定量化するために、2 つの診断メトリクスを導入します。1 つ目は、1 回の編集で両方の目標が改善される頻度を測定し、2 つ目は、一方の目標の利益が他方の目標の損失を伴う頻度を測定します。これらの診断を現在の LLM エージェント パイプラインに適用すると、一貫した障害モードが明らかになります。エージェントは、ポケット-リガンド複合体が局所的な修飾にどのように反応するかを知らずに分子編集を実行するため、関節の改善が達成されることはほとんどありません。最適化の方向性を選択する前に、制御されたアナログ編集でポケット-リガンド複合体を調査する医薬化学者からインスピレーションを得て、編集応答調査を中心に構築された最適化フレームワークである \textbf{PROBE} を提案します。 PROBE はまずリガンドを編集可能なサイトに分解し、共同利得が考えられる場所、2 つの目的が緊張している可能性が高い場所、および責任の下部構造を変更する必要がある場所を示すポケット固有の \textbf{サイト マップ} を構築します。次に、制御されたプローブ編集を実行し、その応答が \textbf{EditManual} に抽出されます。 PROBE は、サイト マップと EditManual に基づいて、アフィニティ エージェント、ドラッガビリティ エージェント、および共同最適化エージェントが共同して編集を行う反復マルチエージェント ループを実行します。 CrossDocked2020 ベン​​チマークでは、PROBE は最先端のパフォーマンスを達成し、診断メトリクスによって明らかになった障害モードを大幅に軽減します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Probe Before You Edit: Probing-Guided Molecular Optimization for LLM Agents in Structure-Based Drug Design</p>
        <p class="orig-summary">Structure-based drug design increasingly employs LLM agents to iteratively refine ligands against a target pocket, yet a viable ligand must satisfy two often-conflicting objectives -- binding affinity and druggability -- which single optimization steps rarely improve together. To quantify this difficulty, we introduce two diagnostic metrics: the first measures how often a single edit improves both objectives, and the second measures how often a gain on one objective comes with a loss on the other. Applying these diagnostics to current LLM-agent pipelines exposes a consistent failure mode: the agent performs molecular editing without knowing how the pocket-ligand complex responds to local modifications, thus rarely achieving joint improvement. Inspired by medicinal chemists, who probe the pocket-ligand complex with controlled analog edits before choosing an optimization direction, we propose \textbf{PROBE}, an optimization framework built around edit-response probing. PROBE first decomposes the ligand into editable sites and builds a pocket-specific \textbf{site map} that flags where joint gains are plausible, where the two objectives are likely in tension, and where liability substructures should be changed; it then performs controlled probe edits whose responses are distilled into an \textbf{EditManual}. Guided by the site map and EditManual, PROBE runs an iterative multi-agent loop in which an affinity agent, a druggability agent, and a co-optimization agent jointly produce edits. On the CrossDocked2020 benchmark, PROBE achieves state-of-the-art performance and substantially mitigates the failure modes exposed by our diagnostics metrics.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="00bfdbd5597b" data-article-url="https://arxiv.org/abs/2606.00582" data-article-title="PropLLM: ネットワーク障害診断のための伝播を意識したシーン再構築" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00582" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00582" target="_blank" rel="noopener">PropLLM: ネットワーク障害診断のための伝播を意識したシーン再構築</a></h3>
      <p class="summary">ネットワーク障害はトポロジとプロトコルの依存関係に沿って層ごとに伝播しますが、運用システムは通常、伝播チェーンの最後尾で症状のあるアラートのみを監視します。そこでは、異なる根本原因による障害が非常に類似したエンドポイントの症状を生成する可能性があります。既存のアプローチは、ルールベース、機械学習 (ML) ベース、大規模言語モデル (LLM) ベースのいずれであっても、基本的にアラート セットを単一パスで診断にマッピングするため、構造的にこのエンドポイントの曖昧さを解決できません。この論文では、ホップバイホップのシーン再構成パラダイムと LLM の生成推論機能を統合した最初の PropLLM を提案します。エンドポイント アラートから開始して、PropLLM は伝播パスに沿ってホップごとにトレースし、各ホップで二層ナレッジ グラフ (KG) から検証可能な事実証拠を取得します。一方、提案されている時間的因果伝播アテンション (TCPA) メカニズムは、既知のトポロジー的因果事前確率をアテンション計算に直接エンコードして、正しい因果方向に沿ってモデルを導き、最終的に根本原因を特定して障害を特定します。完全に証拠のある因果関係の連鎖を介して入力します。現実世界の Wi-Fi マルチモーダル障害データセットでは、PropLLM は、最も強力なベースラインと比較して、障害タイプの診断精度を 3.9\% 向上させ、根本原因の位置特定精度を 4.7\% 向上させ、幻覚率を 50.8\% 削減します。 TeleLogs 5G データセットの補足実験では、さまざまなネットワーク シナリオにわたる提案された方法の有効性がさらに実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PropLLM: Propagation-Aware Scene Reconstruction for Network Fault Diagnosis</p>
        <p class="orig-summary">Network faults propagate layer by layer along topology and protocol dependencies, yet operations systems typically observe only symptomatic alerts at the tail end of propagation chains, where distinct root-cause faults may produce highly similar end-point symptoms. Existing approaches, whether rule-based, machine learning (ML)-based, or large language model (LLM)-based, fundamentally map the alert set to a diagnosis in a single pass and are structurally incapable of resolving this end-point ambiguity. This paper proposes PropLLM, which is the first to integrate the hop-by-hop scene reconstruction paradigm with the generative reasoning capabilities of LLMs. Starting from end-point alerts, PropLLM traces back hop-by-hop along the propagation path, retrieving verifiable factual evidence from a dual-layer knowledge graph (KG) at each hop, while the proposed Temporal Causal Propagation Attention (TCPA) mechanism encodes known topological causal priors directly into the attention computation to guide the model along the correct causal direction, ultimately localizing the root cause and determining the fault type through a fully evidenced causal chain. On a real-world Wi-Fi multimodal fault dataset, PropLLM improves fault type diagnosis accuracy by 3.9\% and root cause localization accuracy by 4.7\% over the strongest baseline, while reducing the hallucination rate by 50.8\%. Supplementary experiments on the TeleLogs 5G dataset further demonstrate the effectiveness of the proposed method across different network scenarios.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f230d47b3847" data-article-url="https://arxiv.org/abs/2606.00611" data-article-title="TRACE: 長期にわたるエージェントの安全性を確保するためのトラジェクトリのリスクを考慮した圧縮" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00611" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00611" target="_blank" rel="noopener">TRACE: 長期にわたるエージェントの安全性を確保するためのトラジェクトリのリスクを考慮した圧縮</a></h3>
      <p class="summary">長期にわたる LLM エージェントは、まばらで遅延した構成的なリスク信号が局所的な緩和を逃れることが多い長い軌跡にわたって安全性の証拠を生成します。既存のターンレベルまたはショートコンテキストの検出器は、そのような証拠を長期間にわたって確実に保持し、集約するのに苦労しています。私たちは、長期にわたるエージェントの安全性の検出を軌跡レベルの証拠圧縮として再構成し、長期にわたるエージェントの安全性のための軌跡リスク認識圧縮 (TRACE) を提案します。 TRACE は Compressor-Reader 設計を使用します。Compressor は、軌跡レベルの監視の下で完全な軌跡をコンパクトな潜在証拠状態にエンコードし、Reader は安全参照としてこの潜在証拠状態を使用して生の軌跡を判断します。この設計は、分散したリスクの手がかりを集約し、早期の証拠損失を軽減するのに役立ちます。 ASSEBench、Pre-Ex-Bench、R-Judge 全体で、TRACE は評価されたすべてのバックボーンで最高の精度を達成し、強力なベースラインを最大 12.6 パーセントポイント改善します。 LongSafety では、コンテキストの長さが増加しても、TRACE のパフォーマンス低下は小さくなります。注意の視覚化とケーススタディは、圧縮された参照が、読者がリスククリティカルなセグメントに焦点を当て、複数のステップにわたる証拠を回収するのに役立つことを示唆しています。コードは https://github.com/Peregrine123/TRACE_official で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TRACE: Trajectory Risk-Aware Compression for Long-Horizon Agent Safety</p>
        <p class="orig-summary">Long-horizon LLM agents produce safety evidence across long trajectories, where sparse, delayed, and compositional risk signals often escape local moderation. Existing turn-level or short-context detectors struggle to reliably retain and aggregate such evidence over extended horizons. We reframe long-horizon agent safety detection as trajectory-level evidence compression and propose Trajectory Risk-Aware Compression for Long-Horizon Agent Safety (TRACE). TRACE uses a Compressor-Reader design: the Compressor encodes the full trajectory into a compact latent evidence state under trajectory-level supervision, and the Reader judges the raw trajectory with this latent evidence state as a safety reference. This design helps aggregate dispersed risk cues and reduce premature evidence loss. Across ASSEBench, Pre-Ex-Bench, and R-Judge, TRACE achieves the best accuracy on all evaluated backbones, improving over strong baselines by up to 12.6 percentage points. On LongSafety, TRACE shows smaller performance degradation as context length grows. Attention visualizations and case studies suggest that the compressed reference helps the Reader focus on risk-critical segments and recover cross-step evidence. Code is available at https://github.com/Peregrine123/TRACE_official.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="26aa385db017" data-article-url="https://arxiv.org/abs/2606.00618" data-article-title="生成計画モデルの効率的なテスト時間推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00618" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00618" target="_blank" rel="noopener">生成計画モデルの効率的なテスト時間推論</a></h3>
      <p class="summary">生成モデルは AI 計画の強力なパラダイムとして登場しましたが、そのパフォーマンスは依然としてトレーニング データの分布によって制限されています。 1 つのアプローチは、テスト時の計算をスケーリングすることで、推論中に生成されるソリューションを改善することです。より効率的な代替方法は、推論プロセス自体を最適化することです。この論文では、古典的なオープンクローズド リスト (OCL) 検索の修正バージョンがまさにそのような効率的な推論手順を提供することを示します。私たちのアルゴリズムは、中間状態から高速ロールアウトを実行する生成モデルと、候補推論パス間で優先順位を付けるヒューリスティック モデルという 2 つの学習されたコンポーネントを相乗させます。主な貢献には、新しい探索制御メカニズムと、OCL フレームワーク内での学習済みモデルの統合が含まれます。複数の組み合わせ計画ドメインにわたって、私たちのアプローチは、計算効率とソリューションの品質において、ニューロシンボリック検索ベースラインと古典的ソルバーの両方を上回っています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Efficient Test-time Inference for Generative Planning Models</p>
        <p class="orig-summary">Generative models have emerged as a powerful paradigm for AI planning, yet their performance remains constrained by the training data distribution. One approach is to improve generated solutions during inference by scaling test-time compute. A more efficient alternative is to optimize the inference process itself. In this paper, we show that a modified version of a classical Open-Closed List (OCL) search provides just such an efficient inference procedure. Our algorithm synergizes two learned components: a generative model that performs fast rollouts from intermediate states and a heuristic model that prioritizes among candidate reasoning paths. Key contributions include novel exploration control mechanisms and integration of learned models within the OCL framework. Across multiple combinatorial planning domains, our approach outperforms both neurosymbolic search baselines and classical solvers in computational efficiency and solution quality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="38abe95cce4d" data-article-url="https://arxiv.org/abs/2606.00642" data-article-title="隠された思考は秘密ではない: LLM における推論トレースの暴露" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00642" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00642" target="_blank" rel="noopener">隠された思考は秘密ではない: LLM における推論トレースの暴露</a></h3>
      <p class="summary">推論トレースは、大規模な言語モデルの機能を改善および移転するための学習信号の貴重な形式になっています。特に、詳細なトレースは、推論動作をより強力な教師モデルからより弱い生徒モデルに抽出するのに役立ちます。機能移転の価値により、推論モデルを備えた多くの導入システムでは、生の内部トレースを隠し、ユーザーにはせいぜい概要と回答のみを公開するようになりました。その結果、このようなインターフェイスレベルのトレースの隠蔽により、ユーザーはプロンプトを通じて有用な推論の監視を得ることができなくなるのではないかと考えられます。私たちは、この疑問を Reasoning Exposure Prompting (REP) を使って研究します。これは、補助コードのような形式でラップされたシャドウ モデルで生成されたデモンストレーションを使用して、被害者モデルからユーザーに見える推論トレースを生成する、軽量のコンテキスト内引き出し手法です。共通の推論データセット、さまざまな被害者モデル、およびさまざまな学生モデルの蒸留にわたって、REP は有用な推論信号を維持しながら、公開された内部トレースと REP 条件付けされた内部トレース間の類似性を大幅に高めます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Hidden Thoughts Are Not Secret: Reasoning Trace Exposure in LLMs</p>
        <p class="orig-summary">Reasoning traces have become a valuable form of learning signals for improving and transferring the capabilities of large language models. In particular, detailed traces can help distill reasoning behavior from stronger teacher models into weaker student models. The value of capability transfer has motivated many deployed systems with reasoning models to hide raw internal traces and expose at most summaries and answers to users. As a result, we ask whether such interface-level trace hiding prevents users from obtaining useful reasoning supervision through prompting. We study this question with Reasoning Exposure Prompting (REP), a lightweight in-context elicitation method that uses shadow-model-generated demonstrations wrapped in auxiliary code-like formats to raise user-visible reasoning traces from a victim model. Across the common reasoning dataset, different victim models, and different student model distillation, REP substantially increases similarity between exposed and REP-conditioned internal traces while preserving useful reasoning signals.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2fc0f4dd1699" data-article-url="https://arxiv.org/abs/2606.00644" data-article-title="ForeSci: 将来を見据えた AI 研究判断のための LLM エージェントの評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00644" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00644" target="_blank" rel="noopener">ForeSci: 将来を見据えた AI 研究判断のための LLM エージェントの評価</a></h3>
      <p class="summary">AI 研究では、多くの場合、将来の証拠が存在する前に、どのボトルネックを攻撃するか、どの方向を追求するか、プロジェクトをどこに位置付けるべきかなどの決定が必要になります。 LLM エージェントが歴史的証拠に基づいてそのような将来を見据えた研究判断を下せるかどうかを評価するための、時間的に制御されたベンチマークである ForeSci を紹介します。 ForeSci には、急速に変化する 4 つの AI ドメインと 4 つの意思決定ファミリーにわたる 500 のタスクが含まれています。各タスクは、カットオフに調整されたオフラインの知識ベースとペアになっています。カットオフ後のペーパーは生成中に隠され、検証のみに使用されます。将来のイベントのランダムな予測を回避するために、タスクはカットオフ前の分類枝と証拠シグナルから導出され、タスクのカットオフに先立って回答生成バックボーンが選択されます。私たちは、ネイティブ LLM、ハイブリッド RAG、および 4 つのバックボーンにわたる 3 つのリサーチ エージェントの適応を評価します。結果は、明示的な証拠の整理によりトレーサビリティと事実の裏付けが向上しますが、その効果は意思決定ファミリーに大きく依存することを示しています。診断により、証拠と決定の切り離しが繰り返し発生していることが明らかになります。エージェントは、間違った研究対象を予測しながら、関連する証拠を引用する可能性があります。 ForeSci は、将来を見据えた AI 研究上の判断を、研究エージェントを意思決定システムとして評価するための管理されたベンチマークに変えます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ForeSci: Evaluating LLM Agents for Forward-Looking AI Research Judgment</p>
        <p class="orig-summary">AI research often requires decisions before future evidence exists: which bottleneck to attack, which direction to pursue, or where a project should be positioned. We introduce ForeSci, a temporally controlled benchmark for evaluating whether LLM agents can make such forward-looking research judgements from historical evidence. ForeSci contains 500 tasks across four fast-moving AI domains and four decision families. Each task is paired with a cutoff-aligned offline knowledge base; post-cutoff papers are hidden during generation and used only for validation. To avoid random future-event prediction, tasks are derived from pre-cutoff taxonomy branches and evidence signals, and answer-generation backbones are selected to precede the task cutoffs. We evaluate native LLMs, Hybrid RAG, and three research-agent adaptations across four backbones. Results show that explicit evidence organization improves traceability and factual support, but gains depend strongly on the decision family. Diagnostics reveal a recurring evidence-decision decoupling: agents may cite relevant evidence while forecasting the wrong research object. ForeSci turns forward-looking AI research judgement into a controlled benchmark for evaluating research agents as decision-making systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f867d0936858" data-article-url="https://arxiv.org/abs/2606.00671" data-article-title="AXIOM: 検証可能な数学的推論のための信頼優先のニューロシンボリック実行アーキテクチャ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00671" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00671" target="_blank" rel="noopener">AXIOM: 検証可能な数学的推論のための信頼優先のニューロシンボリック実行アーキテクチャ</a></h3>
      <p class="summary">私たちは、自然言語数学的推論のための信頼優先のニューロシンボリック実行アーキテクチャである AXIOM を紹介します。 AXIOM では、言語モデルは厳密に正規化器として機能します。つまり、非公式の問題テキストを、決定論的なコンピューター代数システム (CAS) パイプラインによって消費される狭いスキーマに書き換えます。このパイプラインは、答えを導き出して検証するか、または第一級の出力として棄権します。ルーティングは、問題形状の正規表現、スキーマ固有のプロンプト、および閉じた形式の CAS ハンドラーの間の 1:1:1 の調整に従い、3,100 以上のそのようなルートが出荷され、250 以上の連続した出荷コミットで LOST_CORRECT リグレッションはゼロです。解析可能な信頼性 100.00% で累積正しさ 94.36% (2,592/2,747) の 4 つの MATH カテゴリ (2,747 レコードのベンチマーク全体で確信のある誤答がゼロ)、4 つのドメインすべてがドメインごとの信頼性 100.0% でドメインごとの 70/90/70 の下限を上回っていること、およびレイテンシの中央値に関する経験的結果を報告します。ルールのみのハンドラーで 1 ミリ秒 (lm-eval 算術 20,000 レコード ベンチマークのレコードの 88%)。このアーキテクチャは、パブリック デプロイメントを通じて約 30,000 件の実稼働クエリに対応してきました。私たちが強調する貢献は、最終的な精度の数値ではなく、アーキテクチャが確立する前向きのダイナミクスです。新しいタスクはレジストリを後退させることなく構成されるため、本番環境でログに記録されたすべての棄権は 1 シップ サイクル後の正しい候補となります。このプロパティの背後にある運用規律 (数学テンプレートのバケット化、回帰オラクルとしての LOST_CORRECT スキャン、解析可能優先のオンボーディング、およびファーストクラスの出力としての棄権) は、数学を超えた信頼できる神経記号システムのための移転可能なフレームワークを構成します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AXIOM: A Trust-First Neuro-Symbolic Execution Architecture for Verifiable Mathematical Reasoning</p>
        <p class="orig-summary">We present AXIOM, a trust-first neuro-symbolic execution architecture for natural-language mathematical reasoning. In AXIOM, the language model functions strictly as a canonicalizer: it rewrites informal problem text into a narrow schema consumed by a deterministic Computer-Algebra-System (CAS) pipeline, which derives and verifies the answer or abstains as a first-class output. Routing follows a 1:1:1 alignment between problem-shape regex, schema-specific prompt, and closed-form CAS handler, with 3,100+ such routes shipped and zero LOST_CORRECT regressions across 250+ consecutive ship commits. We report empirical results on 4 MATH categories with a cumulative correctness of 94.36% (2,592/2,747) at 100.00% trust on parseable (zero confident-wrong answers across the full 2,747-record benchmark), all four domains above the per-domain 70/90/70 floor with per-domain trust at 100.0%, and median latency of 1 ms on rule-only handlers (88% of records on the lm-eval arithmetic 20,000-record benchmark). The architecture has served ~30,000 production queries through a public deployment. The contribution we emphasize is not a final accuracy figure but the forward dynamic the architecture establishes: every logged abstain in production is a candidate correct after one ship cycle, since new tasks compose without regressing the registry. The operational discipline behind this property -- math-template bucketing, LOST_CORRECT scan as regression oracle, parseable-first onboarding, and abstain as first-class output -- constitutes a transferable framework for trustworthy neuro-symbolic systems beyond mathematics.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d46352cba7ad" data-article-url="https://arxiv.org/abs/2606.00672" data-article-title="エッジアウェアインタラクションリスクモデリングを使用した、アルツハイマー病患者に対する薬物アウェアな金融搾取の検出" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00672" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00672" target="_blank" rel="noopener">エッジアウェアインタラクションリスクモデリングを使用した、アルツハイマー病患者に対する薬物アウェアな金融搾取の検出</a></h3>
      <p class="summary">アルツハイマー病患者にとって、特に認知機能の安定性が低下している時期には、経済的搾取に対する懸念が高まっています。従来の不正検出システムは通常、財務上の行動のみに依存しており、脆弱性を変える可能性のある臨床的に関連する要因を無視しています。この論文では、服薬アドヒアランスとトランザクションレベルのモニタリングを同期させて、認知的にリスクのある財務イベントの検出を向上させる、投薬を意識したフレームワークを提案します。ハイブリッド シミュレーション データセットは 45 日間にわたって 180 人の患者を対象に構築され、8,100 件の投薬記録と 30,855 件のトランザクションが生成されました。このフレームワークは、金額の異常、ベンダーの新規性、取引頻度、時間の逸脱、および服薬アドヒアランスを、財務のみ、追加の投薬を意識した、および相互作用を意識したロジスティック モデルを通じて評価します。結果は、財務のみのベースラインが世界最高の F1 スコア 0.5000 を獲得したが、相互作用認識モデルは薬剤誘発性脆弱性ウィンドウ中の再現率を 0.7442 から 0.9070 に改善し、ランク付けされた高リスク症例で最高の平均精度を達成したことを示しています。この調査結果は、服薬アドヒアランスが単独の予測因子としてではなく、経済的リスクの文脈上の修飾因子として最も有用であることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Medication-Aware Financial Exploitation Detection for Alzheimer&#x27;s Patients Using Edge-Aware Interaction Risk Modeling</p>
        <p class="orig-summary">Financial exploitation is a growing concern for people with Alzheimer&#x27;s disease, especially during periods of reduced cognitive stability. Conventional fraud detection systems usually rely on financial behavior alone and ignore clinically relevant factors that may alter vulnerability. This paper proposes a medication-aware framework that synchronizes medication adherence with transaction-level monitoring to improve detection of cognitively risky financial events. A hybrid simulation dataset was constructed for 180 patients across 45 days, producing 8,100 medication records and 30,855 transactions. The framework evaluates amount anomaly, vendor novelty, transaction frequency, time deviation, and medication adherence through financial-only, additive medication-aware, and interaction-aware logistic models. Results show that the financial-only baseline obtained the highest global F1-score of 0.5000, but the interaction-aware model improved recall during medication-induced vulnerability windows from 0.7442 to 0.9070 and achieved the highest average precision for ranked high-risk cases. The findings suggest that medication adherence is most useful as a contextual modifier of financial risk rather than as an isolated predictor.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="583f11ccc6bd" data-article-url="https://arxiv.org/abs/2606.00680" data-article-title="事後ハイブリッド ベイジアン ビリーフを使用した正規化されたオフライン ポリシーの最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00680" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00680" target="_blank" rel="noopener">事後ハイブリッド ベイジアン ビリーフを使用した正規化されたオフライン ポリシーの最適化</a></h3>
      <p class="summary">オフライン強化学習 (RL) は、事前に収集されたデータセットからポリシーを最適化することを目的としています。このパラダイムのボトルネックは、認識論的な不確実性を管理することです。これは、限られたデータ範囲 (サンプルレベル) と、有限データから遷移ダイナミクスを特定する際の曖昧さ (モデルレベル) から生じます。これらの不確実性を統一的に定量化するために、ダイナミクス モデルを確率変数として扱い、対応する信念を維持することによってベイジアン RL が提案されています。理論的には魅力的ですが、ベイジアン RL でのポリシーの最適化は、期待値を含む複合目標を解決する必要があるため、依然として計算上困難です。従来の方法は、計算のスケーラビリティが低い検索ベースの手法を採用するか、ベイジアン RL の適応性を犠牲にする制限的な事後仮定を課すかのいずれかでした。これらの制限に対処するために、私たちは事後ハイブリッド ベイジアン ビリーフ (PhyB) を提案します。これは、ダイナミクス モデルのサブセットにわたる凸の組み合わせとして期待値を再定式化します。理論的分析により、この近似によって引き起こされる客観的な不一致には限界があることが実証されています。 PhyB に基づいて、収束までの単調な改善に対するメトリクスに依存しない保証を提供する反復的な正則化ポリシー最適化アルゴリズムを開発します。実証結果は、PhyB がさまざまなベンチマークで最先端のパフォーマンスを達成することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Regularized Offline Policy Optimization with Posterior Hybrid Bayesian Belief</p>
        <p class="orig-summary">Offline reinforcement learning (RL) aims to optimize policies from pre-collected datasets. A bottleneck of this paradigm is managing epistemic uncertainty, which arises from limited data coverage (sample-level) and the ambiguity in identifying transition dynamics from finite data (model-level). To provide a unified quantification of these uncertainties, Bayesian RL has been proposed by treating the dynamics model as a random variable and maintaining a corresponding belief. Despite its theoretical appeal, policy optimization in Bayesian RL remains computationally challenging as it requires solving composite objectives with expectations. Prior methods either employ search-based techniques with poor computational scalability or impose restrictive posterior assumptions that sacrifice the adaptability of Bayesian RL. To address these limitations, we propose Posterior Hybrid Bayesian Belief (PhyB), which reformulates the expectation as a convex combination over a subset of dynamics models. Theoretical analysis demonstrates that the objective discrepancy induced by this approximation remains bounded. Based on PhyB, we develop an iterative regularized policy optimization algorithm that provides metric-agnostic guarantees for monotonic improvement until convergence. Empirical results demonstrate that PhyB achieves state-of-the-art performance on various benchmarks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8dc10c4ae8fb" data-article-url="https://arxiv.org/abs/2606.00708" data-article-title="MOSAIC: 構造化されたエージェント インテリジェンスと構成のためのモジュール式オーケストレーション" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00708" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00708" target="_blank" rel="noopener">MOSAIC: 構造化されたエージェント インテリジェンスと構成のためのモジュール式オーケストレーション</a></h3>
      <p class="summary">自動化されたデータ サイエンスは、構造化されたモデル選択の問題です。ソリューションでは、データ変換、特徴表現、アーキテクチャ、トレーニング手順、評価プロトコル、およびタスクの改良戦略を選択する必要があります。 AutoML システムはこのプロセスの一部を自動化しますが、通常は事前定義されたパイプライン、モデル、ハイパーパラメーター空間内で検索します。 LLM ベースのエージェントは、取得、コード生成、および実行フィードバックを通じて優れた柔軟性を提供しますが、そのモデリングの決定は多くの場合構造化されておらず、検証が難しく、再利用も困難です。メモリベースのモデル選択とワークフロー構築のための構造化エージェント フレームワークである \textsc{MOSAIC} (構造化エージェント インテリジェンスと構成のためのモジュラー オーケストレーション) を紹介します。タスクとデータセットが与えられると、 \textsc{MOSAIC} はセマンティック タスク プロファイルを構築し、以前のケースとソース コード モジュールを取得して、選択されたモデリング コンポーネント、構成、インターフェイス制約、および実行要件を指定する中間表現であるブループリントを構築します。このブループリントは、モデル選択を段階的でコンテキストに基づいた検索に変え、制約のない合成ではなく、取得した証拠での LLM ベースのコード生成を基盤とします。候補モデルは実行によって検証され、診断フィードバック、トレーニング トレース、タスク メトリクス、および失敗を認識した強化学習ポリシーを使用して改良されます。私たちは金融時系列予測と生成に関して \textsc{MOSAIC} をインスタンス化します。モデルは予測精度、分布忠実度、実行信頼性、リスクやテール挙動などの下流財務基準を満たさなければなりません。 AutoML とエージェント ベースラインに対する実験では、\textsc{MOSAIC} がタスクのパフォーマンス、実行の成功、意思決定の追跡可能性を向上させることが示されており、自動化されたデータ サイエンスを構造化され、再利用可能で、実行に基づいたモデル選択として扱うことの価値が実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MOSAIC: Modular Orchestration for Structured Agentic Intelligence and Composition</p>
        <p class="orig-summary">Automated data science is a structured model-selection problem. A solution must choose data transformations, feature representations, architecture, training procedure, evaluation protocol, and refinement strategy for a task. AutoML systems automate parts of this process, but typically search within predefined pipeline, model, and hyperparameter spaces. LLM-based agents offer greater flexibility through retrieval, code generation, and execution feedback, yet their modelling decisions are often unstructured, difficult to verify, and hard to reuse. We introduce \textsc{MOSAIC} (Modular Orchestration for Structured Agentic Intelligence and Composition), a structured agentic framework for memory-grounded model selection and workflow construction. Given a task and dataset, \textsc{MOSAIC} builds a semantic task profile, retrieves prior cases and source-code modules, and constructs a blueprint: an intermediate representation specifying selected modelling components, composition, interface constraints, and execution requirements. This blueprint turns model selection into a staged, context-grounded search and grounds LLM-based code generation in retrieved evidence rather than unconstrained synthesis. Candidate models are validated by execution and refined using diagnostic feedback, training traces, task metrics, and a failure-aware reinforcement learning policy. We instantiate \textsc{MOSAIC} on financial time-series forecasting and generation, where models must satisfy predictive accuracy, distributional fidelity, execution reliability, and downstream financial criteria such as risk and tail behaviour. Experiments against AutoML and agentic baselines show that \textsc{MOSAIC} improves task performance, execution success, and decision traceability, demonstrating the value of treating automated data science as structured, reusable, and execution-grounded model selection.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="85866ea26a10" data-article-url="https://arxiv.org/abs/2606.00718" data-article-title="バイコンポーネント結合組み合わせ最適化のための LLM 主導の共進化自動ヒューリスティック設計" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00718" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00718" target="_blank" rel="noopener">バイコンポーネント結合組み合わせ最適化のための LLM 主導の共進化自動ヒューリスティック設計</a></h3>
      <p class="summary">最近、大規模言語モデル (LLM) が自動ヒューリスティック設計 (AHD) で有望であることが示されていますが、既存の手法は通常、単一の演算子または検索戦略としてヒューリスティックを生成および進化させるため、旅行泥棒問題 (TTP) や旅行購入者問題 (TPP) などの問題における複数の意思決定下部構造間の強い結合をモデル化する能力が制限されています。この研究では、結合組み合わせ最適化における自動ヒューリスティック設計のための LLM 駆動の二重母集団共進化フレームワークである CoEvo-AHD を提案します。個別のヒューリスティックを個別に進化させる従来の方法とは異なり、CoEvo-AHD は LLM を活用して、2 つの密接に関連するオペレーター集団を共進化させます。協調的な評価メカニズムは、ルートと選択のオペレーター間の相互作用を明示的にキャプチャし、ペアごとのスコアリングと相乗的なジョイント クロスオーバーは、結合された決定サブスペース全体でジョイントを改善するための相補的なオペレーター ロジックを発見するのに役立ちます。さらに、ローカル検索デルタ計算など、頻繁に使用されるコア操作を呼び出し可能な関数にカプセル化するツール呼び出し環境ライブラリを設計します。これにより、LLM で生成された演算子が、非効率でエラーが発生しやすい問題固有のループを再実装する代わりに、標準化されたインターフェイスを使用できるようになります。 TTP と TPP に関する実験では、CoEvo-AHD が協調的なヒューリスティックの組み合わせを自動的に発見し、従来のヒューリスティックに対して競争力のあるソリューション品質を達成することが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LLM-Driven Co-Evolutionary Automated Heuristic Design for Bi-Component Coupled Combinatorial Optimization</p>
        <p class="orig-summary">While Large Language Models (LLMs) have recently shown promise in Automated Heuristic Design (AHD), existing methods typically generate and evolve heuristics as a single operator or search strategy, limiting their ability to model strong coupling among multiple decision substructures in problems such as the Traveling Thief Problem (TTP) and the Traveling Purchaser Problem (TPP). In this work, we propose CoEvo-AHD, an LLM-driven dual-population co-evolutionary framework for automated heuristic design in coupled combinatorial optimization. Unlike prior methods that evolve individual heuristics in isolation, CoEvo-AHD leverages LLMs to co-evolve two closely related operator populations. A cooperative evaluation mechanism explicitly captures interactions between route and selection operators, while pairwise scoring and synergistic joint crossover help discover complementary operator logic for joint improvement across coupled decision subspaces. We further design a tool-invocation environment library that encapsulates frequently used core operations, such as local-search delta computation, into callable functions, enabling LLM-generated operators to use standardized interfaces instead of reimplementing inefficient and error-prone problem-specific loops. Experiments on TTP and TPP show that CoEvo-AHD automatically discovers cooperative heuristic combinations and achieves competitive solution quality against traditional heuristics.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ab88147f68f0" data-article-url="https://arxiv.org/abs/2606.00726" data-article-title="潜在報酬ステアリング: 推論 LLM の認知行動を暗黙的に促進する適応推論時間フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00726" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00726" target="_blank" rel="noopener">潜在報酬ステアリング: 推論 LLM の認知行動を暗黙的に促進する適応推論時間フレームワーク</a></h3>
      <p class="summary">強力な推論は、モデルの知識だけでなく、生成中に認知行動がどのように効果的に展開されるかにも依存します。既存の手法は明示的な動作レベルの制御に依存することが多く、推論状態、タスク、モデルによって失敗や必要な修正が異なる場合の適応性が不十分になります。この目的を達成するために、我々は、認知行動を暗黙的に伝達するスパースオートエンコーダ（SAE）潜在状態を最適化することによって認知行動を促進する、適応型推論時間フレームワークである潜在報酬ステアリング（LRS）を提案します。 LRS は、事前に定義された認知行動やそこから導き出されるステアリング方向に依存するのではなく、最終的な答えの正しさによる推論トレースに基づいて潜在報酬モデルをトレーニングし、中間潜在状態の品質を推定します。推論中、報酬勾配は脆弱な潜在状態に対して状態固有の修正方向を提供しますが、報酬と信頼ゲートは報酬信号が脆弱であるとフラグを立てた状態への介入を制限します。複数の推論 LLM バックボーンとベンチマークに関する実験では、当社の推論がさまざまなベースラインよりもパフォーマンスを一貫して向上させていることが示されており、事後分析ではさらに、当社の推論が元の推論エラーを修正する良好な認知行動を暗黙のうちに促進していることが示されています。コードは https://github.com/jiakanglee/Latent-Reward-Steering から入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Latent Reward Steering: An Adaptive Inference-Time Framework that Implicitly Promotes Cognitive Behaviors in Reasoning LLMs</p>
        <p class="orig-summary">Strong reasoning depends not only on model knowledge but also on how effectively cognitive behaviors are deployed during generation. Existing methods often rely on explicit behavior-level control, making them insufficiently adaptive when failures and required corrections vary across reasoning states, tasks, and models. To this end, we propose Latent Reward Steering (LRS), an adaptive inference-time framework that promotes cognitive behaviors by optimizing the sparse-autoencoder (SAE) latent states that implicitly carry them. Rather than relying on predefined cognitive behaviors or steering directions derived from them, LRS trains a latent reward model on reasoning traces by final answer correctness to estimate the quality of intermediate latent states. During inference, reward gradients provide state-specific correction directions for fragile latent states, while a reward and confidence gate restricts intervention to states the reward signal flags as fragile. Experiments on multiple reasoning LLM backbones and benchmarks show that \ours consistently improves performance over various baselines, and post-hoc analyses further indicate that \ours implicitly promotes good cognitive behaviors that fix the original reasoning errors. Code is available at: https://github.com/jiakanglee/Latent-Reward-Steering.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ae3a8a5d44a8" data-article-url="https://arxiv.org/abs/2606.00729" data-article-title="国家学習能力としての AI 主権: フランス、米国、中国に関する人間中心の学習力学の視点" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00729" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00729" target="_blank" rel="noopener">国家学習能力としての AI 主権: フランス、米国、中国に関する人間中心の学習力学の視点</a></h3>
      <p class="summary">フランスでは、人工知能は、投資、計算能力、規制、雇用、主権、教育の観点からよく議論されます。通常、これらのディメンションは個別に扱われます。この観点に関する論文は、統一的な解釈を提案しています。つまり、フランスは \emph{国家的な AI 学習システム} として理解されるべきです。エントロピー制御された表現学習のための動的フレームワークとして最近策定された人間中心学習力学 (HCLM) に基づいて、私たちは国家 AI 開発を情報注入とエントロピー散逸の間の制御されたバランスとして解釈します。情報注入は、コンピューティング、データ、人材、研究、資本、産業展開、および組織的実験に対応します。エントロピー散逸は、組織の複雑さ、調整摩擦、エネルギー制約、規制の不確実性、人材の流動性の圧力、産業吸収を強化する機会に対応します。中心的な主張は、AI の主権は規模だけから生まれるのではなく、自国の情報ダイナミクスを規制する国の能力から生まれるというものです。この論文は、HCLM をニューラル スケーリング則、内生的成長理論、創造的破壊、およびゲーム理論と結びつけます。同論文は、フランスのAI論争は、技術楽観主義と規制優先の慎重論という二項対立を超えて進むべきだと主張している。競争力のある人間中心の AI 戦略には、不安定、不平等、またはエネルギー集約的な拡大を回避しながら、情報注入が制度的消散よりも早く成長する制御された体制が必要です。私たちは、数学的モデル、測定可能な政策指標、ゲーム理論的命題、国家 AI 体制の具体的なシミュレーション、およびフランスに対する具体的な政策への影響を提供します。提案された視点は、AI 政策をオープンで戦略的な非平衡学習システムのガバナンスとして再構成します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AI Sovereignty as National Learning Capacity: A Human-Centered Learning Mechanics Viewpoint on France, the United States, and China</p>
        <p class="orig-summary">Artificial Intelligence is often discussed in France in terms of investment, compute capacity, regulation, employment, sovereignty, and education. These dimensions are usually treated separately. This viewpoint paper proposes a unified interpretation: France should be understood as a \emph{national AI learning system}. Building on Human-Centered Learning Mechanics (HCLM), recently formulated as a dynamical framework for entropy-regulated representation learning, we interpret national AI development as a controlled balance between information injection and entropy dissipation. Information injection corresponds to compute, data, talent, research, capital, industrial deployment, and institutional experimentation. Entropy dissipation corresponds to organizational complexity, coordination frictions, energy constraints, regulatory uncertainty, talent mobility pressures, and opportunities to strengthen industrial absorption. The central claim is that AI sovereignty does not emerge from scale alone but from a country&#x27;s capacity to regulate its own information dynamics. This paper connects HCLM with neural scaling laws, endogenous growth theory, creative destruction, and game theory. It argues that the French AI debate should move beyond the binary opposition between techno-optimism and regulation-first caution. A competitive and human-centered AI strategy requires a controlled regime in which information injection grows faster than institutional dissipation, while avoiding unstable, unequal, or energy-intensive expansion. We provide a mathematical model, measurable policy indicators, game-theoretic propositions, illustrative simulations of national AI regimes, and concrete policy implications for France. The proposed viewpoint reframes AI policy as the governance of an open, strategic, non-equilibrium learning system.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7eb747a8471c" data-article-url="https://arxiv.org/abs/2606.00732" data-article-title="SHARP: 長距離非定常時間パターン認識のための睡眠ベースの階層的加速再生" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00732" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00732" target="_blank" rel="noopener">SHARP: 長距離非定常時間パターン認識のための睡眠ベースの階層的加速再生</a></h3>
      <p class="summary">長距離の非定常時間パターンを学習することは、特に厳密なストリーミング設定において、現代のシーケンス モデルにとって依然として中心的な課題です。これらの設定では、データは順番に到着するため、過去の観測を同時に再検討することなく、単一パスで処理する必要があります。リカレント ニューラル ネットワークやトランスフォーマーを含む標準アーキテクチャは、時間軸全体にわたる切り詰められたバックプロパゲーション、または長距離クレジット割り当ての明示的な入力ウィンドウの長さによって制約されます。これらの制限に対処するために、私たちは、時間学習を 2 つの相補的なコンポーネントに分解するフレームワークである SHARP (Sleep-based Hierarchical Accelerated Replay) を提案します。1 つは過去の入力の構造化された履歴を蓄積するメモリ モジュール、もう 1 つはこのメモリ上で動作するパターン認識モジュールです。この分離により、長距離クレジット割り当ての多くのステップにわたる時間にわたるバックプロパゲーションの必要性がなくなり、非定常ダイナミクスへのリソース効率と計算効率の高い適応が可能になります。齧歯動物の徐波睡眠中に観察される再生の加速にヒントを得て、SHARP は、時間的に構造化された記憶追跡が加速された形で再生され、より高いレベルの記憶表現に統合されるオフライン (睡眠) フェーズを組み込んでおり、長距離のコンテキスト保持を向上させます。制御されたシミュレーションとアブレーション研究を通じて、提案されたフレームワークの主要な特性を特徴付けます。 text8 や PG-19 などのベンチマーク データセットでは、SHARP が、現在のストリームから学習を継続し、将来の未確認データに一般化しながら、以前に確認されたデータに対するネクスト トークン予測パフォーマンスを維持することにより、反復ベースラインよりも向上することを実証しました。これらの利点は、線形時間の計算コストのみで指数関数的に増加する効果的な時間コンテキストを生み出す階層構造によって実現されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SHARP: Sleep-based Hierarchical Accelerated Replay for Long Range Non-Stationary Temporal Pattern Recognition</p>
        <p class="orig-summary">Learning long-range non-stationary temporal patterns remains a core challenge for modern sequence models, particularly in strict streaming settings. In these settings, data arrive sequentially and must be processed in a single pass without simultaneously revisiting past observations. Standard architectures, including recurrent neural networks and transformers, are constrained by either truncated backpropagation through time horizon or explicit input window length for long range credit assignment. To address these limitations, we propose SHARP (Sleep-based Hierarchical Accelerated Replay), a framework that decomposes temporal learning into two complementary components: a memory module that accumulates a structured history of past inputs, and a pattern-recognition module that operates over this memory. This separation enables resource- and compute-efficient adaptation to non-stationary dynamics by eliminating the need for backpropagation through time across many steps for long-range credit assignment. Inspired by the accelerated replay observed in rodents during slow-wave sleep, SHARP incorporates offline (sleep) phases in which temporally structured memory traces are replayed in an accelerated form and integrated into higher-level memory representations, improving long-range context retention. Through controlled simulations and ablation studies, we characterize the key properties of the proposed framework. In benchmark datasets such as text8 and PG-19, we demonstrate that SHARP improves over recurrent baselines by retaining next-token predictive performance on previously seen data while continuing to learn from the current stream and generalizing to future unseen data. These gains are enabled by its hierarchical structure, which yields an exponentially increasing effective temporal context with only linear-time computational cost.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="94a2ea409d17" data-article-url="https://arxiv.org/abs/2606.00756" data-article-title="CoMIC: クラウドエッジ システムにおける長期的な LLM エージェントのための共同メモリと洞察の循環" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00756" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00756" target="_blank" rel="noopener">CoMIC: クラウドエッジ システムにおける長期的な LLM エージェントのための共同メモリと洞察の循環</a></h3>
      <p class="summary">軽量のラージ言語モデル (LLM) エージェントをエッジ サーバーにデプロイすると、待ち時間が短縮され、エージェント サービスがユーザーに近づくことができます。しかし、リソースに制約のあるエッジ モデルは、永続メモリ、サブゴールの追跡、およびリフレクションを必要とする長期的なタスクに苦戦することがよくあります。導入後のエッジ モデルの微調整はコストがかかり、異種ノード間で拡張するのは困難ですが、純粋にローカル メモリではエージェントのエクスペリエンスが孤立し、プロンプト コンテキストが増加することになります。私たちは、協調記憶と洞察循環のためのパラメータ更新不要のクラウドエッジ フレームワークである \textsc{CoMIC} を提案します。 \textsc{CoMIC} は \textit{集中反射、分散実行} 設計に従っています。エッジ エージェントはサブ目標指向の階層メモリと関連する履歴の選択的再拡張を使用してローカルで実行されますが、クラウド側の LLM 批評家は完了した軌跡を非同期的に評価し、再利用可能なエクスペリエンスをフィルタリングし、セマンティックなサブ目標識別子をキーとしたエージェント間のガイダンスを集約します。 \textsc{CoMIC} は、シンボリック プランニングとテキスト インタラクションにわたる 5 つの長期的なエージェント タスクにわたって、弱いエッジ エージェントの進捗率とアクションのグラウンディングを向上させ、モデル パラメーターを更新せずにタスクに依存した成功率の向上をもたらします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CoMIC: Collaborative Memory and Insights Circulation for Long-Horizon LLM Agents in Cloud-Edge Systems</p>
        <p class="orig-summary">Deploying lightweight Large Language Model (LLM) agents on edge servers can reduce latency and move agentic services closer to users, but resource-constrained edge models often struggle with long-horizon tasks that require persistent memory, subgoal tracking, and reflection. Fine-tuning edge models after deployment is costly and difficult to scale across heterogeneous nodes, while purely local memory leaves agents with isolated experience and growing prompt context. We propose \textsc{CoMIC}, a parameter-update-free cloud-edge framework for Collaborative Memory and Insights Circulation. \textsc{CoMIC} follows a \textit{Centralized Reflection, Decentralized Execution} design: edge agents execute locally using subgoal-oriented hierarchical memory and selective re-expansion of relevant histories, while a cloud-side LLM critic asynchronously evaluates completed trajectories, filters reusable experience, and aggregates cross-agent guidance keyed by semantic subgoal identifiers. Across five long-horizon agent tasks spanning symbolic planning and text interaction, \textsc{CoMIC} improves progress rate and action grounding for weak edge agents and yields task-dependent success-rate gains without updating model parameters.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2eb1f11eb720" data-article-url="https://arxiv.org/abs/2606.00765" data-article-title="FALAT: 依存関係に基づく検索による LLM エージェントの軌跡の障害のトレース" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00765" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00765" target="_blank" rel="noopener">FALAT: 依存関係に基づく検索による LLM エージェントの軌跡の障害のトレース</a></h3>
      <p class="summary">LLM ベースのエージェントは、推論ステップ、ツール呼び出し、エージェント間通信を含む長い軌跡を通じて複雑なタスクを解決することが増えています。ただし、これらのエージェントが失敗すると、どのエージェントが失敗の原因となったのか、どのステップが決定的なエラーを引き起こしたのかが不明瞭になることがよくあります。この帰属の問題は、間違いが軌跡全体に伝播する可能性があるため、困難です。後のアクションは間違っているように見える可能性がありますが、それは、それが以前の破損した状態に依存しているためです。したがって、障害の属性を独立したステップレベルの分類として扱うことはできません。我々は、LLM エージェントの軌跡における障害の原因を特定するための診断フレームワークである FALAT を提案します。 FALAT は、属性を依存関係に基づく検索問題としてフレーム化します。まず、タスクがどのように解決されるべきかという期待値を構築し、この期待値を使用して軌跡内の疑わしい領域を特定します。次に、決定、ツール出力、エージェント メッセージ間の依存関係を追跡し、エラーを引き起こすステップと、以前の間違いを単に継承または伝播するステップを区別します。最後に、FALAT は、候補ステップを修正するだけで期待される結果を回復するのに十分であるかどうかを評価し、責任のあるエージェントと決定的な失敗ステップの両方を特定できるようにします。私たちは Who&amp;When ベンチマークで FALAT を評価します。これには、アルゴリズムによって生成されたものと手動で作成されたマルチエージェントの障害軌跡の両方が含まれます。結果は、FALAT が責任のあるエージェントと決定的なステップの帰属を一貫して改善していることを示しています。その最良の構成では、アルゴリズムで生成された軌道では 46.0% のステップレベルの精度を達成し、より困難な手作りの軌道では 29.1% を達成し、特殊なアトリビューション ベースラインやスタンドアロン LLM による直接プロンプトを上回ります。これらの発見は、LLM エージェント システムにおける信頼性の高い障害診断には、依存関係を意識した推論が不可欠であることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">FALAT: Tracing Failures in LLM Agent Trajectories via Dependency-Guided Search</p>
        <p class="orig-summary">LLM-based agents increasingly solve complex tasks through long trajectories involving reasoning steps, tool calls, and inter-agent communication. However, when these agents fail, it is often unclear which agent caused the failure and which step introduced the decisive error. This attribution problem is challenging because mistakes can propagate across the trajectory: later actions may appear incorrect, but only because they depend on an earlier corrupted state. Therefore, failure attribution cannot be treated as independent step-level classification. We propose FALAT, a diagnostic framework for failure attribution in LLM agent trajectories. FALAT frames attribution as a dependency-guided search problem. It first constructs an expectation of how the task should be solved and uses this expectation to identify suspicious regions in the trajectory. It then traces dependencies among decisions, tool outputs, and agent messages to distinguish error-introducing steps from steps that merely inherit or propagate prior mistakes. Finally, FALAT evaluates whether correcting a candidate step would be sufficient to recover the expected outcome, allowing it to identify both the responsible agent and the decisive failure step. We evaluate FALAT on the Who&amp;When benchmark, which includes both algorithm-generated and hand-crafted multi-agent failure trajectories. The results show that FALAT consistently improves responsible-agent and decisive-step attribution. Its best configurations achieve 46.0% step-level accuracy on algorithm-generated trajectories and 29.1% on the more challenging hand-crafted trajectories, outperforming specialized attribution baselines and direct prompting with standalone LLMs. These findings suggest that dependency-aware reasoning is essential for reliable failure diagnosis in LLM agent systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="270a97df02c5" data-article-url="https://arxiv.org/abs/2606.00807" data-article-title="インタラクション中心のインテリジェンス: 共創 AI およびヒューマン AI システムにおける主要な分析単位としてのインタラクションを目指して" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00807" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00807" target="_blank" rel="noopener">インタラクション中心のインテリジェンス: 共創 AI およびヒューマン AI システムにおける主要な分析単位としてのインタラクションを目指して</a></h3>
      <p class="summary">従来の人工知能は、主に、境界のあるエージェント内で発生する分離された計算として知能を概念化していました。従来の AI、機械学習、および多くの生成システムにわたって、主要な分析単位は依然として、出力、ベンチマーク、予測精度、または最適化パフォーマンスを通じて評価される個々のモデルまたは自律システムです。これらのアプローチは大きな進歩をもたらしましたが、知性、創造性、意味、適応行動の出現における相互作用の役割については過小理論化されていることがよくあります。この論文では、共創 AI およびより広範なインタラクション中心のインテリジェンスの分析の主要な単位としてインタラクションを提案します。この論文は、分散認知、身体化認知、実行、参加型センスメイキング、人間とコンピューターの相互作用、および計算による創造性を基に、知能の関係性の説明がますます高まっていく歴史的進歩をたどります。 Creative Sense-Making、定量化された共同創造、Drawing Apprentice や AI Drawing Partner などの共同創造システムに関するこれまでの研究に基づいて、内部計算のみを通じてではなく、エージェント、環境、社会技術システム間の相互作用ダイナミクスの進化を通じて知能が出現すると主張しています。この論文では、人間と AI の共創、協調的な創発、適応的な参加、およびインタラクション ダイナミクスを理解するためのフレームワークとして、インタラクション中心のインテリジェンスを紹介しています。このフレームワークは、生成された出力のみを通じて知能を評価するのではなく、相互作用の軌跡、調整パターン、参加型関与、適応的規制、および時間の経過とともに展開される相互作用ドリフトに重点を置いています。説明可能な共創 AI、ハイブリッド インテリジェンス、能動的 AI、および将来の人間と AI システムの意味について議論します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Interaction-Centered Intelligence: Toward Interaction as the Primary Unit of Analysis in Co-Creative AI and Human-AI Systems</p>
        <p class="orig-summary">Traditional artificial intelligence has largely conceptualized intelligence as isolated computation occurring within bounded agents. Across classical AI, machine learning, and many generative systems, the dominant unit of analysis remains the individual model or autonomous system evaluated through outputs, benchmarks, prediction accuracy, or optimization performance. While these approaches have produced major advances, they often under-theorize the role of interaction in the emergence of intelligence, creativity, meaning, and adaptive behavior. This paper proposes interaction as the primary unit of analysis for co-creative AI and interaction-centered intelligence more broadly. Drawing from distributed cognition, embodied cognition, enaction, participatory sense-making, human-computer interaction, and computational creativity, the paper traces a historical progression toward increasingly relational accounts of intelligence. Building upon prior work in Creative Sense-Making, quantified co-creation, and co-creative systems such as the Drawing Apprentice and AI Drawing Partner, it argues that intelligence emerges through evolving interaction dynamics among agents, environments, and socio-technical systems rather than solely through internal computation. The paper introduces Interaction-Centered Intelligence as a framework for understanding human-AI co-creation, collaborative emergence, adaptive participation, and interactional dynamics. Rather than evaluating intelligence solely through generated outputs, the framework emphasizes interaction trajectories, coordination patterns, participatory engagement, adaptive regulation, and interactional drift unfolding through time. Implications for explainable co-creative AI, hybrid intelligence, enactive AI, and future human-AI systems are discussed.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="90920c8e83cd" data-article-url="https://arxiv.org/abs/2606.00809" data-article-title="NBQ: 動的プロファイリングの次に最適な質問" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00809" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00809" target="_blank" rel="noopener">NBQ: 動的プロファイリングの次に最適な質問</a></h3>
      <p class="summary">ポッドキャスト、採用画面、マーケットプレイスなど、知識発見のための現実世界の会話環境の多くでは、目的に基づいて個人を理解する必要があります。私たちは Next-Best-Question (NBQ) 問題を研究します。つまり、面接官は各ターンで、すでに学んだ内容と会話の目標を考慮して、最も多くの情報が得られると期待される質問をする必要があります。私たちは、多様な候補質問のプールをシードし、コンパクトで継続的に更新されるユーザー状態を維持し、ターンバジェット内で次の質問を適応的に選択し、結果として得られる自由形式の対話を構造化されたベクトルベースのユーザープロファイルに抽出するプラグアンドプレイフレームワークであるNBQを提案します。要求の厳しいアプリケーションとして、相互マッチメイキング用の NBQ をインスタンス化します。この場合、互換性は相互である必要があり、各人は自己記述と相手の好みの表現の両方によってモデル化されます。大規模なマッチングをサポートするために、二次ペアごとのスコアリングから近似ベクトル検索への相互マッチングを再キャストする効率的な検索レイヤーである QuickMatch をさらに導入します。実験によると、NBQ はユーザー プロファイリングの品質を AC@T と AR@T でそれぞれ最大 13.6% と 14.0% 向上させ、一方、QuickMatch は検索を最大 22.9 倍高速化し、再現率は最大 0.989 です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">NBQ: Next-Best-Question for Dynamic Profiling</p>
        <p class="orig-summary">Many real-world conversational settings for knowledge discovery, including podcasts, hiring screens, and marketplaces, require a purpose-driven understanding of a person. We study the Next-Best-Question (NBQ) problem: at each turn, an interviewer should ask the question with the highest expected information gain given what has already been learned and the conversation goal. We propose NBQ, a plug-and-play framework that seeds a diverse pool of candidate questions, maintains a compact and continuously updated user state, adaptively selects the next question within a turn budget, and distills the resulting free-form dialogue into a structured vector-based user profile. As a demanding application, we instantiate NBQ for reciprocal matchmaking, where compatibility must be mutual and each person is modeled by both self-description and counterpart-preference representations. To support large-scale matching, we further introduce QuickMatch, an efficient retrieval layer that recasts reciprocal matching from quadratic pairwise scoring to approximate vector search. Experiments show that NBQ improves user profiling quality by up to 13.6% and 14.0% in AC@T and AR@T, respectively, while QuickMatch accelerates retrieval by up to 22.9x with recall up to 0.989.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4a92141152a3" data-article-url="https://arxiv.org/abs/2606.00819" data-article-title="デコーダ層スキップによる大規模言語モデルの幻覚の軽減" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00819" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00819" target="_blank" rel="noopener">デコーダ層スキップによる大規模言語モデルの幻覚の軽減</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、さまざまな自然言語タスクにわたって優れたパフォーマンスを達成していますが、その出力には幻覚、つまり事実の情報と一致しないコンテンツが含まれることがよくあります。この研究では、デコードプロセスの包括的な層ごとの分析を実施し、幻覚がより深いデコーダ層から発生する傾向があることを明らかにしました。この問題に対処するために、幻覚を生成しやすい層を動的にスキップする新しいデコード フレームワークである \textbf{DeLask} (\textbf{De}coder \textbf{La}yer \textbf{Sk}ipping) を導入します。 DeLask は、$L$ 層の Transformer の順方向計算が条件付きで勾配降下法の $L$ ステップと同等であるという理論的な洞察を活用します。連続するデコーダ ステップから導出された勾配間のコサイン類似度を計算することで \emph{ドリフタンス値} を定義し、降下方向が反転したときに問題のある層を特定します。 DeLask は、そのような層を完全に破棄するのではなく、その隠れ状態を先行層と部分的に集約することにより、誤った信号を抑制しながら一貫性を維持します。さまざまな LLM とベンチマークにわたる広範な実験により、DeLask が一貫して幻覚を軽減し、全体的な信頼性を向上させ、大規模な言語モデルの堅牢性を向上させるための軽量で一般化可能なデコード フレームワークを提供することが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Mitigating Hallucinations in Large Language Models Via Decoder Layer Skipping</p>
        <p class="orig-summary">Large Language Models (LLMs) have achieved strong performance across diverse natural language tasks, yet their outputs often suffer from hallucinations -- content that is misaligned with factual information. In this work, we conduct a comprehensive layer-wise analysis of the decoding process and reveal that hallucinations tend to originate from deeper decoder layers. To address this issue, we introduce \textbf{DeLask} (\textbf{De}coder \textbf{La}yer \textbf{Sk}ipping), a novel decoding framework that dynamically skips layers prone to producing hallucinations. DeLask leverages the theoretical insight that the forward computation of an $L$-layer Transformer is conditionally equivalent to $L$ steps of gradient descent. We define a \emph{driftance value} by computing the cosine similarity between gradients derived from consecutive decoder steps, identifying problematic layers when the descent direction reverses. Rather than discarding such layers entirely, DeLask partially aggregates their hidden states with preceding layers, thereby preserving consistency while suppressing erroneous signals. Extensive experiments across diverse LLMs and benchmarks demonstrate that DeLask consistently mitigates hallucinations and enhances overall reliability, providing a lightweight and generalizable decoding framework for improving the robustness of large-scale language models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4c41f8280682" data-article-url="https://arxiv.org/abs/2606.00831" data-article-title="サブリミナル学習は LoRA のアーティファクトです" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/alibaba/" data-entity="alibaba">Alibaba</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00831" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00831" target="_blank" rel="noopener">サブリミナル学習は LoRA のアーティファクトです</a></h3>
      <p class="summary">サブリミナル学習は、言語モデルが一見無害なデータを通じて他のモデルに行動特性を伝達できる現象です (Cloud et al., 2025)。サブリミナル学習では、行動特性（猫への執着など）を持つ教師モデルは、この猫への執着を、教師が生成した数値シーケンスのみで微調整された生徒モデルに伝えることができます。この論文では、この予期せぬ行動伝達はどのようにして起こるのでしょうか?私たちは、サブリミナル学習が LoRA のアーティファクトであることを示します。サブリミナル学習が発生すると、送信は LoRA ランクと逆 U 字型の関係になります。また、完全に微調整すると消えます。私たちは、サブリミナル学習が微調整と評価中に見られるコンテキストに大きく依存していることを示します。たとえば、微調整中のデフォルトのシステム プロンプト (「あなたは Qwen、Alibaba Cloud によって作成されました。あなたは役に立つアシスタントです。」) を持つ Qwen モデルは、システム プロンプトが含​​まれていない場合、生成中に潜在意識学習を示しません。さらに、サブリミナル動作が微調整と評価の両方で見られるトークン (モデルのデフォルトのシステム プロンプト、標準のチャット テンプレート トークンなど) での計算に局所化されていることを示します。全体として、サブリミナル学習は、LoRA のハイパーパラメータとコンテキストの微調整による脆弱な成果物であるようで、行動伝達の不安定なチャネルとなっています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Subliminal Learning is a LoRA Artifact</p>
        <p class="orig-summary">Subliminal learning is a phenomenon where language models can transmit behavioral traits to other models through seemingly innocuous data (Cloud et al., 2025). In subliminal learning, a teacher model with a behavioral trait (e.g. obsession with cats) can transmit this cat obsession to a student model finetuned only on numerical sequences generated by the teacher. In this paper, we ask: how does this unexpected behavioral transmission occur? We show that subliminal learning is a LoRA artifact. When subliminal learning occurs, transmission has an inverted U-shaped relationship with LoRA rank; it also disappears with full finetuning. We show that subliminal learning is highly dependent on the context seen during finetuning and evaluation. For example, a Qwen model with the default system prompt during finetuning (&quot;You are Qwen, created by Alibaba Cloud. You are a helpful assistant.&quot;) does not show subliminal learning during generation when no system prompt is included. We further demonstrate that subliminal behavior is localized to computation at tokens seen during both finetuning and evaluation (e.g. the model&#x27;s default system prompt, the standard chat template tokens, etc.). Overall, subliminal learning seems to be a fragile artifact of LoRA hyperparameters and finetuning context, making it an unstable channel for behavioral transmission.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d15f0bc5db04" data-article-url="https://arxiv.org/abs/2606.00838" data-article-title="RL における仕様からのスケーラブルな帰納的一般化のための分離された動作クローニング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00838" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00838" target="_blank" rel="noopener">RL における仕様からのスケーラブルな帰納的一般化のための分離された動作クローニング</a></h3>
      <p class="summary">帰納的一般化は、帰納的に関連するタスク インスタンスが帰納的に関連するポリシーを許可する強化学習 (RL) 一般化のフレームワークです。これまでの研究では、RL で直接学習した高次のポリシー進化関数を介してこの構造を捉えていましたが、トレーニングのスケーラビリティが低いという問題がありました。トレーニング タスクが増大するにつれて、集約された報酬フィードバックがノイズを増やして競合するようになり、トレーニングが不安定になり、一般化が弱まりました。私たちは、タスク固有のポリシーの学習を進化関数の学習から分離する、分離された行動クローニング アプローチである DIBS を提案します。まず、標準的な RL を介してタスクごとに個々の教師のポリシーを学習し、次に、教師がラベル付けした状態と行動のペアの行動複製を介して進化関数を適合させます。これにより、ノイズの多い報酬集計が高密度で安定した監視に置き換えられます。 DIBS は、既存の RL およびメタ RL アルゴリズムに対して、トレーニングの安定性とゼロショット汎化の両方において大幅な改善を実現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Decoupled Behavioral Cloning for Scalable Inductive Generalization in RL from Specifications</p>
        <p class="orig-summary">Inductive generalization is a framework for reinforcement learning (RL) generalization in which inductively related task instances admit inductively related policies. Prior work captures this structure via a higher-order policy-evolution function learned directly with RL, but suffers from poor training scalability: as training tasks grow, aggregated reward feedback becomes noisy and conflicting, destabilizing training and weakening generalization. We propose DIBS, a decoupled behavioral cloning approach that separates learning task-specific policies from learning the evolution function. We first learn individual teacher policies per task via standard RL, then fit the evolution function via behavioral cloning on teacher-labeled state-action pairs. This replaces noisy reward aggregation with dense, stable supervision. DIBS achieves significant improvements in both training stability and zero-shot generalization against existing RL and meta-RL algorithms.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6e77a28da5e5" data-article-url="https://arxiv.org/abs/2606.00840" data-article-title="強化学習一般化の証明書に基づく評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00840" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00840" target="_blank" rel="noopener">強化学習一般化の証明書に基づく評価</a></h3>
      <p class="summary">この研究では、目に見えないタスクを一般化する能力における強化学習 (RL) アルゴリズムのパフォーマンスを評価するためのロジック主導のフレームワークを紹介します。私たちのフレームワークは、タスクのダイナミクスの構造的類似性を特徴とする帰納的リーチ回避タスクのファミリーを定義し、汎化機能の評価を可能にします。重要な条件を強制することで RL アルゴリズムによって生成された軌跡を検証するニューラル証明書関数を導入します。これにより、RL の一般化に対するリトマス試験紙として機能します。私たちは、困難な連続環境において、いくつかの最先端の一般化可能な RL アルゴリズムの一般化を証明する際の私たちの方法の能力を経験的に実証します。私たちの結果は、証明書機能違反の割合が低いほど、成功したテスト タスクの数が多いことと相関していることを示しており、RL アルゴリズムの一般化機能を評価および区別する際のフレームワークの有効性が強調されています。この研究は、RL の一般化をベンチマークするための原則に基づいたアプローチを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Certificate-Guided Evaluation of Reinforcement Learning Generalization</p>
        <p class="orig-summary">This work presents a logic-driven framework to evaluate the performance of reinforcement learning (RL) algorithms in their ability to generalize to unseen tasks. Our framework defines a family of inductive reach-avoid tasks, characterized by structural similarities in task dynamics, enabling evaluation of generalization capabilities. We introduce a neural certificate function that validates trajectories generated by RL algorithms by enforcing key conditions, thereby serving as a litmus test for RL generalization. We empirically demonstrate our method&#x27;s capability in certifying generalization for several state-of-the-art generalizable RL algorithms on challenging continuous environments. Our results show that a lower percentage of certificate function violations correlates with a higher number of test tasks successfully solved, highlighting the effectiveness of our framework in evaluating and distinguishing generalization capabilities of RL algorithms. This work provides a principled approach for benchmarking RL generalization.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3950ccd1b074" data-article-url="https://arxiv.org/abs/2606.00902" data-article-title="Ryze: 生物医学論文からの証拠が豊富なデータ合成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00902" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00902" target="_blank" rel="noopener">Ryze: 生物医学論文からの証拠が豊富なデータ合成</a></h3>
      <p class="summary">科学論文における有効な回答は、図、表、チャート、キャプション、および参照テキストに分割された証拠に依存するため、汎用 VLM は生物医学研究では依然として信頼できません。既存のトレーニング後のパイプラインは、コストのかかる専門家のアノテーションと、この証拠構造を損なう合成データによってボトルネックになっています。私たちは、未処理の生物医学論文を証拠が豊富なトレーニング セットとドメインに特化した VLM に変換する完全自動システムである Ryze を紹介します。 Ryze は、完全な裏付け証拠 (ビジュアル要素、キャプション、抽出された構造、および参照段落) と QA ペアを合成し、チャート/表を意識した抽出と LLM ベースのクレンジングによってレイアウトおよび OCR エラーを削減し、教師あり微調整と強化学習を組み合わせた進捗ゲート型トレーニング後の戦略を適用します。 Qwen3-VL-8B から始めて、Ryze は BioVLM-8B を 200 ドル未満で生産し、LAB-Bench で 48.0% の加重精度を達成し、ベース モデルを +12.6 パーセンテージ ポイント (pp) 上回り、GPT-5.2 を +3.8 pp 上回りました。Ryze をトレーニング済み BioVLM-8B モデルとともにオープンソースとしてリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Ryze: Evidence-Enriched Data Synthesis from Biomedical Papers</p>
        <p class="orig-summary">General-purpose VLMs remain unreliable for biomedical research because valid answers in scientific papers depend on evidence split across figures, tables, charts, captions, and referring text. Existing post-training pipelines are bottlenecked by costly expert annotation and by synthetic data that drops this evidence structure. We present Ryze, a fully automated system that converts raw biomedical papers into an evidence-enriched training set and a domain-specialized VLM. Ryze synthesizes QA pairs with complete supporting evidence (visual element, caption, extracted structure, and referring paragraphs), reduces layout and OCR errors via chart/table-aware extraction and LLM-based cleansing, and applies a progress-gated post-training strategy combining supervised fine-tuning with reinforcement learning. Starting from Qwen3-VL-8B, Ryze produces BioVLM-8B at under USD 200, achieving 48.0% weighted accuracy on LAB-Bench, outperforming the base model by +12.6 percentage points (pp) and surpassing GPT-5.2 by +3.8 pp. We release Ryze as open source together with the trained BioVLM-8B model.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c39a56596387" data-article-url="https://arxiv.org/abs/2606.00914" data-article-title="敵対的なフィードにより LLM エージェントの決定がデフォルトに反して誘導される" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00914" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00914" target="_blank" rel="noopener">敵対的なフィードにより LLM エージェントの決定がデフォルトに反して誘導される</a></h3>
      <p class="summary">LLM エージェントは、ソーシャル フィード、検索結果、取得コンテキスト、電子メール キューなど、ランク付けされた外部情報ストリームを消費した後に動作することが増えていますが、安全性評価では、ほとんどの場合、モデルまたはユーザー プロンプトが単独でテストされ、エージェントが動作する直前に何を読み取るかを決定する上流のランカーは決してテストしません。モデル、ペルソナ、トピック、および最終的な意思決定プロンプトを固定し、その前の 10 ターンの「スクロール」フェーズ中にエージェントが遭遇する投稿の構成と順序のみを変更する制御されたプロトコルを導入して、下流の意思決定に対するフィード キュレーションの因果関係を分離します。 3 つの独立したラボからの 4 つの最新のオープン命令 LLM に対する 2,785 件の意思決定ロールアウトを通じて、敵対的降伏、デフォルトの飽和、およびモデルが真に不確実であった決定 (最も明確なケースでは 5% から 100%、Fisher p は 3 x 10^-10 と低い) を一方的なフィードが示唆するものの、取り除くことができないデフォルト方向の非対称性という 3 つの応答体制を特定しました。すでに支持されているか、しっかりと保持されているもの。この影響は用量反応曲線に従い、執筆スタイルのアーティファクトを排除するジェネレーター交換後も存続し、展開承認ゲートの削除やアクセス制御の緩和などのセキュリティ関連の選択を含むいくつかの意思決定領域にわたって一般化され、2 つの単純なフィードレベルの防御によって部分的に緩和されます。フロンティア モデルはデフォルトを保持します。私たちは、レコメンダーを LLM エージェント用の実用的なデフォルト境界付きコントロール サーフェスとして特徴付け、エージェントの評価では最終的なプロンプトのみではなくフィード層を監査する必要があると主張します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Adversarial Feeds Steer LLM Agent Decisions Against Their Defaults</p>
        <p class="orig-summary">LLM agents increasingly act after consuming ranked external information streams such as social feeds, search results, retrieval contexts, and email queues, yet safety evaluations almost always test the model or the user prompt in isolation, never the upstream ranker that decides what the agent reads just before it acts. We introduce a controlled protocol that holds the model, persona, topic, and final decision prompt fixed and varies only the composition and ordering of the posts an agent encounters during a preceding ten-turn &quot;scrolling&quot; phase, isolating the causal effect of feed curation on a downstream decision. Across 2,785 decision rollouts on four modern open instruct LLMs from three independent labs, we identify three response regimes: adversarial capitulation, default saturation, and a default-direction asymmetry in which a one-sided feed tips a decision the model was genuinely uncertain about (in the clearest cases from 5% to 100%; Fisher p as low as 3 x 10^-10) but cannot dislodge one it already favors or holds firmly. The effect follows a dose-response curve, survives a generator swap that rules out a writing-style artifact, generalizes across several decision domains including security-relevant choices such as removing a deployment approval gate or relaxing access controls, and is partly mitigated by two simple feed-level defenses; a frontier model retains its default. We characterize the recommender as a practical, default-bounded control surface for LLM agents, and argue that agent evaluations must audit the feed layer rather than the final prompt alone.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="87087db52f5d" data-article-url="https://arxiv.org/abs/2606.00935" data-article-title="大規模言語モデルにおける機能崩壊時の関係介入: 語彙統計的アブレーションと構造 x レジスタ階乗" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00935" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00935" target="_blank" rel="noopener">大規模言語モデルにおける機能崩壊時の関係介入: 語彙統計的アブレーションと構造 x レジスタ階乗</a></h3>
      <p class="summary">小規模な言語モデルで機能崩壊中に提供されるリレーショナルスタイルの介入が、技術的なフィードバック、語彙が一致するスクランブル制御、および 2 つの実用的な次元のそれぞれから区別できる崩壊後の動作を生成するかどうかをテストします。 Qwen3.5-4B と意図的に壊れた bash ツールを使用して、マッチドペア設計 (50 タスク) の 6 つの条件にわたって 300 のエピソードを実行しました。介入なし (A)、技術的/非個人的 (B)、リレーショナル / 一人称 (C)、スクランブル リレーショナル (D)、技術的 / 一人称 (E)、およびリレーショナル / 非個人的 (F) です。 E と F は、B と C とともに 2x2 階乗を形成し、関係構造 (承認、免除、代理権回復、無条件受諾) を送信者登録 (一人称対非人称) から切り離します。 2 つの主要な調査結果を報告します。まず、注意と行動の解離です。注意は語彙上の驚きに続きます (D &gt; F &gt; C &gt; E &gt; B、すべて q_FDR &lt; 10^{-10})。スクランブルされたメッセージが最も多くの注意を獲得します。しかし、行動的には A ～ B ～ D &lt; E ～ F &lt;&lt; C です。第二に、階乗は C の効果を局所化します。関係構造単独 (F) も一人称レジスタ単独 (E) も、C の行動特性を複製しません。両方の次元の主効果は個別に重要であり、構造とレジスタの相互作用は永続性に関して重要です (p = 0.046)。感情プローブでは 3 番目の解離が現れます。F は、ベースライン動作のみを生成しているにもかかわらず、8 つのプローブのうち 7 つで C を追跡します。これは、関係構造のみが、一人称レジスターと組み合わせた場合にのみ動作に変換されるプローブレベルの状態をインストールすることを示しています。モデルの処理は、注意 (語彙的な驚きによって順序付け)、プローブレベルの状態 (構造によって順序付け)、および行動 (両方の結合によって順序付け) という 3 つの解離可能な段階に分解されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Relational Intervention During Functional Collapse in Large Language Models: A Lexical-Statistical Ablation and a Structure x Register Factorial</p>
        <p class="orig-summary">We test whether a relational-style intervention delivered during functional collapse in a small language model produces post-collapse behavior distinguishable from technical feedback, from a lexically-matched scrambled control, and from each of the two pragmatic dimensions in isolation. Using Qwen3.5-4B with a deliberately broken bash tool, we run 300 episodes across six conditions in a matched-pairs design (50 tasks): no intervention (A), technical/impersonal (B), relational/first-person (C), scrambled relational (D), technical/first-person (E), and relational/impersonal (F). E and F form a 2x2 factorial with B and C that dissociates relational structure (acknowledgment, absolution, agency restoration, unconditional acceptance) from sender register (first-person vs. impersonal). We report two main findings. First, an attention-behavior dissociation: attention follows lexical surprise (D &gt; F &gt; C &gt; E &gt; B, all q_FDR &lt; 10^{-10}), with the scrambled message capturing the most attention; yet behaviorally A ~ B ~ D &lt; E ~ F &lt;&lt; C. Second, the factorial localizes the C effect: neither relational structure alone (F) nor first-person register alone (E) replicates C&#x27;s behavioral signature; main effects of both dimensions are individually significant, and the structure x register interaction is significant on persistence (p = 0.046). A third dissociation emerges in emotion probes: F tracks C on 7 of 8 probes despite producing only baseline behavior, indicating that relational structure alone installs a probe-level state that only translates into behavior when paired with first-person register. The model&#x27;s processing decomposes into three dissociable stages: attention (ordered by lexical surprise), probe-level state (ordered by structure), and behavior (ordered by the conjunction of both).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b1a6398b547b" data-article-url="https://arxiv.org/abs/2606.00959" data-article-title="部分情報分解によるマルチモーダル言語モデルにおけるモダリティ相互作用の理解に向けて" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00959" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00959" target="_blank" rel="noopener">部分情報分解によるマルチモーダル言語モデルにおけるモダリティ相互作用の理解に向けて</a></h3>
      <p class="summary">マルチモーダル大規模言語モデル (MLLM) におけるモダリティの相互作用を理解することは、信頼性の高い展開の中心となります。私たちは、表現の整合性や結果ベースの評価を超えて、感覚入力と言語入力の固有、冗長、相乗的な寄与を分離する意思決定レベルのフレームワークとして、部分情報分解 (PID) を導入します。 PID は、視覚と言語のベンチマーク全体にわたって、反復的なモダリティ使用プロファイルを明らかにします。推論とグラウンディング指向のタスクは高い相乗効果を示す傾向があるのに対し、専門家と知識指向のタスクは言語固有の依存性が強いことを示します。これらのプロファイルはモデルファミリー全体で一般化され、モダリティレベルの介入に対する感度を予測します。さらに、感覚 PID を使用して PID を三峰性システムに拡張し、言語をビデオとオーディオの情報利得を分解するための制御変数として扱います。感覚 PID をオムニモーダル モデルに適用すると、聴覚と視覚の融合タスクにおいても、視覚情報によって支配される感覚相乗効果のボトルネックが明らかになります。最後に、PID に基づく再重み付けは、マルチモーダル推論とグラウンディングのパフォーマンスを向上させるための最初の証拠を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Towards Understanding Modality Interaction in Multimodal Language Models via Partial Information Decomposition</p>
        <p class="orig-summary">Understanding modality interaction in multimodal large language models (MLLMs) is central to reliable deployment. We introduce Partial Information Decomposition (PID) as a decision-level framework that separates unique, redundant, and synergistic contributions of sensory and linguistic inputs, beyond representation alignment and outcome-based evaluation. Across vision--language benchmarks, PID reveals recurring modality-use profiles: reasoning and grounding-oriented tasks tend to exhibit high synergy, whereas expert and knowledge-oriented tasks show stronger language-unique reliance. These profiles generalize across model families and predict sensitivity to modality-level interventions. We further extend PID to tri-modal systems with Sensory PID, treating language as a control variable to decompose video--audio information gain. Applied to omni-modal models, Sensory PID reveals a sensory synergy bottleneck dominated by visual information even on audio--visual fusion tasks. Finally, PID-guided reweighting provides initial evidence for improving multimodal reasoning and grounding performance.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1c8f63d9deed" data-article-url="https://arxiv.org/abs/2606.00970" data-article-title="壊滅的な状態にある MDP におけるベルマン最適性からのプロスペクト理論の動作" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00970" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00970" target="_blank" rel="noopener">壊滅的な状態にある MDP におけるベルマン最適性からのプロスペクト理論の動作</a></h3>
      <p class="summary">私たちは、破滅的な状態を吸収するマルコフ意思決定プロセスにおけるリスク中立制御を研究します。報酬は線形であり、エージェントに効用曲率、確率重み付け、フレーミング依存性がないにもかかわらず、標準的なベルマン最適性は 3 つのプロスペクト理論のようなシグネチャを生成します。S 字型の価値関数プロファイル (大惨事付近では凸、遠方場では凹)、内生的損失感度係数 $\lambda^*(S) &gt; 1$、および反射効果ポリシーの逆転です。 495 の構成全体で、最適な政策は、リスクのあるアクションの即時期待値が高いにもかかわらず、ポジティブ ドリフト (成長) レジームでは大惨事近くで安全な役割を果たし、ネガティブ ドリフト (衰退) レジームでは、安全なアクションの即時期待損失が低いにもかかわらず、大惨事近くで危険な役割を果たします。勝利確率 $p$、ペイオフの非対称性 $r = |\Delta_\ell/\Delta_w|$、および割引係数 $\beta$ のみに依存し、数値解を $R^2 = 0.999$ に一致させる漸近損失回避プラトー $\bar{\lambda}$ の閉形式式を導出します。このメカニズムは非対称的なペイオフを必要としません。 3 つの非対称レベルで $(p,\beta)$ をスイープすると、1 を超える $\bar{\lambda}$ の非対称割合は、$r = 1.25$ で中央値 4.6%、$r = 2$ で 13.9% に上昇し、テストしたすべてのセルで境界寄与が非対称寄与を上回りました。この現象は、表形式の Q 学習 (モデルフリー エージェントは、相関関係 0.98 の成長と 1.00 の衰退で $V^*$ を再現します) およびガウス、ヘビーテール スチューデント $t_3$、およびステップ サイズの最大 50% までの非対称スキュー法線ノイズを伴う確率的遷移下で持続します。漸近プラトーはセーフ チャネルの 0.41% 以内で閉形式予測を追跡します。ノイズ、および危険なチャネルまたは両方のチャネルのノイズが 9.6% 以内であること。これらの結果は、故障状態の吸収が、最適な制御下での見通し理論のような動作を実現するための十分な構造メカニズムであることを特定します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Prospect-Theory Behavior from Bellman Optimality in MDPs with Catastrophic States</p>
        <p class="orig-summary">We study risk-neutral control in Markov decision processes with an absorbing catastrophic state. Even though rewards are linear and the agent has no utility curvature, probability weighting, or framing dependence, standard Bellman optimality produces three prospect-theory-like signatures: an S-shaped value-function profile (convex near catastrophe, concave in the far field), an endogenous loss-sensitivity coefficient $\lambda^*(S) &gt; 1$, and a reflection-effect policy reversal. Across 495 configurations, the optimal policy plays safe near catastrophe in positive-drift (growth) regimes despite the risky action&#x27;s higher immediate expected value, and plays risky near catastrophe in negative-drift (decline) regimes despite the safe action&#x27;s lower immediate expected loss. We derive a closed-form expression for the asymptotic loss-aversion plateau $\bar{\lambda}$ that depends only on win probability $p$, payoff asymmetry $r = |\Delta_\ell/\Delta_w|$, and discount factor $\beta$, and matches numerical solutions to $R^2 = 0.999$. The mechanism does not require asymmetric payoffs. Across a sweep of $(p,\beta)$ at three asymmetry levels, the asymmetry share of $\bar{\lambda}$ above unity has median 4.6% at $r = 1.25$ and rises to 13.9% at $r = 2$, with the boundary contribution exceeding the asymmetry contribution in every cell tested. The phenomena persist under tabular Q-learning (a model-free agent reproduces $V^*$ at correlation 0.98 in growth and 1.00 in decline) and under stochastic transitions with Gaussian, heavy-tailed Student-$t_3$, and asymmetric skew-normal noise up to 50% of the step size, where the asymptotic plateau tracks the closed-form prediction within 0.41% for safe-channel noise and within 9.6% for risky-channel or both-channel noise. These results identify absorbing failure states as a sufficient structural mechanism for prospect-theory-like behavior under optimal control.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="03d4b475c14c" data-article-url="https://arxiv.org/abs/2606.00991" data-article-title="交通システムの管理と運用における大規模言語モデル: テキスト推論からマルチモーダル意思決定サポートまで" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00991" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00991" target="_blank" rel="noopener">交通システムの管理と運用における大規模言語モデル: テキスト推論からマルチモーダル意思決定サポートまで</a></h3>
      <p class="summary">交通システムの管理と運用 (TSMO) は、さまざまなセンサー ストリーム、インシデント レポート、旅行者のフィードバック、視覚的観察からの異種データのタイムリーな解釈にますます依存しています。新しいマルチモーダル大規模言語モデル (MM-LLM) を含む大規模言語モデル (LLM) は、これらの構造化入力と非構造化入力をオペレーター向けの意思決定サポートに統合するための新しいメカニズムを提供します。この調査報告書では、TSMO における LLM および MM-LLM ベースのアプリケーションを、輸送業務とサービス (供給)、モビリティとフリート サービス (需要)、データ、モデリング、意思決定サポートの 3 つのドメインにわたってレビューします。 PRISMA に基づいたスクリーニング プロセスを使用して、運用指向のアプリケーションをプロトタイプや新しいコンセプトから区別しながら、現在の研究を総合します。さらに、データの異質性、リアルタイム推論、説明可能性、マルチモーダル融合、ガバナンスにおける繰り返し発生する課題を特定します。最後に、局地的な適応、エッジ導入、ベンチマーク、および機関を越えたコラボレーションにおける既存のギャップと将来の方向性について概説します。全体として、LLM ベースのシステムは意思決定支援レイヤーとして最も有望であるように見えます。MM-LLM は、異種のテキスト、ビジュアル、およびセンサー入力を統合する必要がある場合に特別な価値を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Large Language Models in Transportation Systems Management and Operations: From Text Reasoning to Multi-modal Decision Support</p>
        <p class="orig-summary">Transportation systems management and operations (TSMO) increasingly depends on timely interpretation of heterogeneous data, from various sensor streams, incident reports, traveler feedback, and visual observations. Large language models (LLMs), including emerging multi-modal large language models (MM-LLMs), provide a new mechanism for integrating these structured and unstructured inputs into operator-facing decision support. This survey paper reviews LLM- and MM-LLM-based applications in TSMO across three domains: transportation operations &amp; services (supply), mobility &amp; fleet services (demand), and data, modeling &amp; decision support. Using a PRISMA-guided screening process, we synthesize current studies while distinguishing operationally oriented applications from prototype and emerging concepts. We further identify recurring challenges in data heterogeneity, real-time inference, explainability, multi-modal fusion, and governance. Finally, we outline existing gaps and future directions in localized adaptation, edge deployment, benchmarking, and cross-agency collaboration. Overall, LLM-based systems appear most promising as a decision-support layer, with MM-LLMs offering particular value when heterogeneous text, visual, and sensor inputs must be integrated.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bdd9dc0b6039" data-article-url="https://arxiv.org/abs/2606.00995" data-article-title="サブリミナル学習はベクトル蒸留を操る" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00995" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00995" target="_blank" rel="noopener">サブリミナル学習はベクトル蒸留を操る</a></h3>
      <p class="summary">サブリミナル学習とは、教師の出力を微調整した場合に、出力が意味的にそれらの特性と無関係であるにもかかわらず、生徒の言語モデルが教師の特性 (システムが促すフクロウの好みなど) を獲得することを指します。セマンティックな意味を持たないデータがどのようにして特定のセマンティックな特徴を伝達できるのかについては、依然として十分に理解されていません。この研究では、サブリミナル学習が単一のステアリング ベクトル、つまりモデルの活性化に追加されるベクトルによって媒介されることを示します。 2 つのオープンソース モデル全体で、教師のシステム プロンプトはステアリング ベクトルによってよく近似されており、生徒の行動は微調整を通じて調整されたベクトルを学習することによって駆動されることがわかりました。ステアリング ベクトルによって適切に近似されていないシステム プロンプトは潜在的に学習されません。これは、ステアリング ベクトル蒸留の特殊なケースであり、ステアリングされた教師の出力で訓練された生徒が、そのステアリングを模倣することを学びます。一連のセマンティック ベクトルとランダム ベクトルに対するステアリング ベクトル蒸留を示します。モデルのアクティベーションにセマンティック ベクトルを追加すると、その動作にモデルに依存しない効果とモデル固有 (つまり、非セマンティック) の両方の効果が生じる可能性があるため、生成された非セマンティック データはセマンティック効果を持つベクトルを送信でき、サブリミナル学習が可能になります。これは、サブリミナル学習がモデル間で移行しない理由も説明します。言語モデルにおけるサブリミナル学習には適応オプティマイザーが必要であることがわかりました。ステアリングされたデータの活性化勾配はステアリング方向に沿って小さいながらも一貫した成分を運びますが、非適応オプティマイザーは外れ値の勾配が優勢になることを許可することでこれを妨げます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Subliminal Learning Is Steering Vector Distillation</p>
        <p class="orig-summary">Subliminal learning refers to a student language model acquiring a teacher&#x27;s traits (e.g. a system-prompted preference for owls) when fine-tuned on the teacher&#x27;s outputs, despite the outputs being semantically unrelated to those traits. It remains poorly understood how data without semantic meaning can transfer specific semantic traits. In this work, we show that subliminal learning is mediated by a single steering vector, i.e. a vector added to the model&#x27;s activations. Across two open-source models, we find that the teacher&#x27;s system prompt is well approximated by a steering vector, and that the student&#x27;s behavior is driven by learning an aligned vector over fine-tuning. System prompts that are not well approximated by steering vectors are not subliminally learned. This is a special case of steering vector distillation, in which a student trained on the outputs of a steered teacher learns to imitate that steering. We demonstrate steering vector distillation on a range of semantic and random vectors. Adding a semantic vector to a model&#x27;s activations can have both model-independent and model-specific (i.e. non-semantic) effects on its behavior, so generated data that is non-semantic can transmit a vector with semantic effects, enabling subliminal learning. This also explains why subliminal learning does not transfer between models. We find that adaptive optimizers are necessary for subliminal learning in language models: activation gradients on steered data carry a small but consistent component along the steering direction, and non-adaptive optimizers impede this by allowing outlier gradients to dominate.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6289510b28de" data-article-url="https://arxiv.org/abs/2606.01012" data-article-title="積層二層材料の特性予測: マルチモーダル学習アプローチ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01012" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01012" target="_blank" rel="noopener">積層二層材料の特性予測: マルチモーダル学習アプローチ</a></h3>
      <p class="summary">材料科学用 AI は、材料発見を加速し、正確な特性予測を生成することを目的とした、科学用 AI の重要なトピックです。二重層 2D 材料の積層は、新しい機能と固有の現象を備えた新しい材料を探索するために不可欠であり、現実世界のさまざまなアプリケーション向けの新しい 2D 二重層の作成を可能にします。二層 vdWs 材料の研究は、実験および計算の観点から大幅に進歩しました。さまざまな二重層材料のサイズを実験的に合成することに成功しており、ハイスループット コンピューティング技術の利用の増加により、いくつかの計算二次元材料データベースが構築されています。ただし、AI を使用して二重層の積層をモデル化し、新しい特性を予測する方法はまだ研究されておらず、さらなる研究研究が必要です。この研究では、新しい機能や複数の機能を共同で可能にする異種材料間の界面を研究し、与えられた構成下での異なる機能材料層の垂直統合（積層）から生じる新しい特性を予測するための、新しいマルチモーダル学習アプローチを提案します。包括的な実験により、ベースライン手法と比較して、私たちのアプローチの有効性と効率性が実証されています。私たちのコードは https://github.com/AnVuong123/bimat ml で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Property Prediction of Stacked Bilayer Materials: A Multimodal Learning Approach</p>
        <p class="orig-summary">AI for materials science is a critical topic within AI for science, aiming to accelerate materials discovery and produce accurate property predictions. Bilayer 2D material stacking is essential for exploring new materials with novel functions and inherent phenomena, enabling the creation of new 2D bilayers for diverse real-world applications. Research on bilayer vdWs materials has made significant progress from experimental and computational perspectives. Various bilayer materials have been successfully synthe sized experimentally and the increasing utilization of high-throughput computing technology has con structed several computational two-dimensional materials databases. However, the use of AI to model bilayer stacking and predict new properties remains underexplored, necessitating further research studies. In this work, we propose a novel multimodal learning approach to study the interfaces between dissimilar materials that jointly enable new or multiple functions, and to predict new properties arising from the vertical integration (stacking) of different functional material layers under given configurations. Comprehensive experiments demonstrate the effectiveness and efficiency of our approach compared to baseline methods. Our code is available at https://github.com/AnVuong123/bimat ml.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="17ab7bde1987" data-article-url="https://arxiv.org/abs/2606.01013" data-article-title="AI レビューは紙の製図を改善できるか? 20 件のコンピュータ アーキテクチャの提出に関する実証的研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01013" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01013" target="_blank" rel="noopener">AI レビューは紙の製図を改善できるか? 20 件のコンピュータ アーキテクチャの提出に関する実証的研究</a></h3>
      <p class="summary">人工知能 (AI) の研究はこれまで以上に急速に進歩しています。対応する研究論文も同様です。 AI によって生成された論文の爆発的な量は査読に負担をかけており、AI によって生成された査読が、広範かつ卑劣な可能性を持って使用されるようになりました。しかし、機密性、品質、公平性に関する関連する倫理的懸念が提起されており、広範な研究コミュニティで合意に達していません。この議論はしばらく続くと予想されますが、それまでの間、私たちは代わりの実践的な質問をします: \textit{AI レビューは論文のドラフトを改善できますか?} 私たちは、さまざまなレベルの投稿系統を持つ 20 件のコンピューター アーキテクチャ論文を研究し、AI レビューが人間のレビューとどの程度一致しているかを明らかにします。これは、私たちが定義する一連の指標によって定量化されます。ケーススタディを実施するために、ドラフト論文の構造化された AI レビューを生成する Web UI 統合ツール \emph{AI-Paper-Review} を構築します。これは https://github.com/unarylab/ai-paper-review で入手できます。このツールは、AI レビュー担当者とクラスターの多様なプールから複数の AI レビュー担当者を選択し、レビュー コメントの共通性と重要性に基づいてコメントをランク付けします。また、AI のコメントと人間のコメントを調整して、メトリクスベースの検証を容易にすることもできます。このケーススタディは、AI レビューは人間によって引き起こされた問題のかなりの部分をカバーできるが、人間によるレビューでは欠けている問題も提起することを示しています。この論文は、現段階で査読に AI を使用することを推奨するものではなく、(1) AI レビューがどのように論文起草を改善できるか、(2) AI ベースの査読の可能性と限界について研究することを目的としています。このツールとケーススタディ データのリリースは、このテーマに関する将来の研究を促進することを目的としています。査読に悪用すると、主要な学術機関の倫理ポリシーに違反することになります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Can AI Review Improve Paper Drafting? An Empirical Study on 20 Computer Architecture Submissions</p>
        <p class="orig-summary">Research is advancing faster than ever with artificial intelligence (AI); and so are the corresponding research papers. The exploding volume of AI-generated papers have put a strain to peer review, leading to the usage of AI-generated review, potentially wide yet sneaky. However, relevant ethical concerns about confidentiality, quality, and fairness are raised and no consensus has been reached in the broad research community. We expect the debate to continue for a while, but in the meantime, we ask an alternative, practical question: \textit{can AI review improve paper drafting?} We study 20 computer architecture papers, with varying levels of submission lineage, to expose how well AI review aligns with human review, quantified by a set of metrics we define. To conduct the case study, we build a web UI-integrated tool, \emph{AI-Paper-Review}, that generates structured AI review of a draft paper, available at https://github.com/unarylab/ai-paper-review. This tool selects several AI reviewers from a diverse pool of AI reviewers and clusters and ranks their comments based on commonality and importance of review comments. It also allows to align AI comments with human comments to facilitate metric-based validation. The case study shows that AI review can cover a significant fraction of human-raised issues, but also raises issues missing in human review. This paper is not intended to encourage using AI for peer review at the current stage, but to study that (1) how AI review can improve paper drafting and (2) the potential and limitation of AI-based peer review. The release of the tool and the case study data is intended to instigate future research on this topic. Misuse for peer review would violate the ethics policies from major academic venues.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3e1696d1b32e" data-article-url="https://arxiv.org/abs/2606.01020" data-article-title="ソクラテス的質問と批判的議論を通じて一般の人に論理的誤りについて教えることで、誤った情報の根源に取り組む" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01020" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01020" target="_blank" rel="noopener">ソクラテス的質問と批判的議論を通じて一般の人に論理的誤りについて教えることで、誤った情報の根源に取り組む</a></h3>
      <p class="summary">多くの人にとって、日常的な議論の論理的誤りを特定するのは困難です。この課題は、悪意のあるエージェントが誤った議論を展開して誤った情報を大規模に広める可能性がある大規模言語モデル (LLM) の時代にさらに増幅されます。この研究では、ソリューションの一部として LLM の可能性を探ります。 LFTutor は、LLM を使用して素人を指導し、論理的誤りについて学ぶのに役立つインテリジェントな個別指導システムです。 LFTutor は、意図に基づいたソクラテス式の質問と重要な議論の原則を統合し、学習者が推論を熟考するよう積極的に関与させます。自動評価と人間による評価の両方を通じて、LFTutor がこれらの教育戦略を欠いているベースライン LLM よりも大幅に優れていることを実証します。この研究は、LLM と教育的足場を組み合わせて、AI 時代における批判的思考と議論のリテラシーを促進するという可能性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Tackling the Root of Misinformation by Teaching Laypeople about Logical Fallacies via Socratic Questioning and Critical Argumentation</p>
        <p class="orig-summary">Identifying logical fallacies in everyday discourse is challenging for many people. This challenge is amplified in the era of Large Language Models (LLMs), where malicious agents can deploy fallacious arguments to disseminate misinformation at scale. In this work, we explore the potential of LLMs as part of the solution. We introduce LFTutor, an intelligent tutoring system which uses LLMs to tutor laypeople and help them learn about logical fallacies. LFTutor integrates intent-driven Socratic questioning and critical argumentation principles to actively engage learners to reflect on their reasoning. Through both automatic and human evaluations, we demonstrate that LFTutor significantly outperforms baseline LLMs lacking these pedagogical strategies. This work highlights the promise of combining LLMs with pedagogical scaffolding to foster critical thinking and argument literacy in the age of AI.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4e1cb4be8916" data-article-url="https://arxiv.org/abs/2606.01033" data-article-title="TriLens: ホワイトボックス幻覚検出のためのレイヤーごとのロジットレンズエントロピー" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01033" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01033" target="_blank" rel="noopener">TriLens: ホワイトボックス幻覚検出のためのレイヤーごとのロジットレンズエントロピー</a></h3>
      <p class="summary">言語モデルが幻覚を起こすと、最終的な答えは間違っていますが、その間違いはモデル内で必ずしも目に見えないわけではありません。さまざまな内部経路が不確実なままであったり、それらがどれだけ速く研ぎ澄まされるかについて意見が一致しなかったり、出力が生成される前に競合する継続にコミットしたりする可能性があります。この直感をコンパクトな表現に変換するホワイトボックス検出器である TriLens を紹介します。TriLens は、各層でマルチヘッドセルフアテンション出力、フィードフォワード出力、およびモデル独自のロジットレンズを介した残差ストリームを読み取り、各読み出しのエントロピーのみを記録します。結果として得られる 3L 次元の軌跡は、高次元の隠れ状態を保存したり、複数の世代をサンプリングしたりすることなく、深度全体およびモジュール全体にわたって確実性がどのように形成されるかを示します。この単純な信号は、命令調整された LLM と QA ベンチマークにわたる強力な検出器を生成し、私たちの分析では、3 つのモジュールごとのエントロピーの軌跡が相補的な証拠を提供することを示しています。 TriLens は、幻覚検出は、最終層が予測する内容だけでなく、内部計算がどのように安定するかを追跡することで恩恵を受ける可能性があることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TriLens: Per-Layer Logit-Lens Entropy for White-Box Hallucination Detection</p>
        <p class="orig-summary">When a language model hallucinates, the final answer is wrong, but the mistake is not necessarily invisible inside the model. Different internal pathways may remain uncertain, disagree in how quickly they sharpen, or commit to competing continuations before the output is produced. We introduce TriLens, a white-box detector that turns this intuition into a compact representation: at every layer, it reads the multi-head self-attention output, the feed-forward output, and the residual stream through the model&#x27;s own logit lens, then records only the entropy of each readout. The resulting 3L-dimensional trajectory describes how certainty forms across depth and across modules, without storing high-dimensional hidden states or sampling multiple generations. This simple signal yields a strong detector across instruction-tuned LLMs and QA benchmarks, and our analyses show that the three module-wise entropy trajectories provide complementary evidence. TriLens suggests that hallucination detection can benefit from tracking how internal computation settles, not only what the final layer predicts.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9de865ce6c0c" data-article-url="https://arxiv.org/abs/2606.01046" data-article-title="TravelEval: LLM を活用した旅行計画エージェントを評価するための包括的なベンチマーク フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01046" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01046" target="_blank" rel="noopener">TravelEval: LLM を活用した旅行計画エージェントを評価するための包括的なベンチマーク フレームワーク</a></h3>
      <p class="summary">大規模言語モデル (LLM) の開発により、旅行計画アプリケーションは大幅に改善されましたが、そのようなモデルの評価は既存のベンチマークの制限によって制限されています。1) 制約遵守を重視しすぎて、時空間コストなどの多次元の品質が無視されている。 2) 現実世界の信頼性と主要分野 (宿泊施設、交通機関など) をカバーしていないデータセット。 3) 計画全体の評価に必要な重要な詳細 (毎日の宿泊施設や訪問ペースの影響など) が欠けている個別の日次計画評価。このギャップに対処するために、現実的かつ包括的なベンチマークである TravelEval を導入します。 TravelEval の特徴は、1) 精度、コンプライアンス、時間性、空間性、経済性、およびユーティリティの側面にわたって計画を総合的に評価するための新しい 6 次元の評価フレームワークです。 2) 正確な宿泊料金設定と本物の都市間交通データを備えた非常に現実的なデータ サンドボックス。 3) API に統合された地理情報ときめ細かい待ち時間を使用して完全な旅行計画をエミュレートする、シミュレーションベースのグローバル評価方法。 TravelEval を使用して 12 の主流アプローチを評価すると、LLM がグローバルに最適化された多次元計画 (特に時空間推論と予算順守) に苦戦していることや、エージェント推論戦略では一貫した改善が見られないことなど、いくつかの貴重な洞察が明らかになりました。簡潔に言えば、TravelEval は、根拠のある時空間エミュレーションと包括的なメトリクスによって旅行計画の評価を容易にし、LLM を利用した旅行計画の研究とアプリケーションを進めるための強固な基盤を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TravelEval: A Comprehensive Benchmarking Framework for Evaluating LLM-Powered Travel Planning Agents</p>
        <p class="orig-summary">The development of Large Language Models (LLMs) has significantly improved travel planning applications, yet evaluating such models is limited by existing benchmarks&#x27; limitations: 1) overemphasis on constraint compliance, neglecting multi-dimensional qualities like spatio-temporal cost; 2) datasets lacking real-world authenticity and coverage in key areas (e.g., lodging, transport); and 3) isolated daily plan assessments that miss critical details (e.g., the impact of daily accommodation and visit pacing) needed for entire plan&#x27;s evaluation. To address this gap, we introduce TravelEval, a realistic and comprehensive benchmark. TravelEval features 1) a novel six-dimensional evaluation framework to holistically assess plans across accuracy, compliance, temporality, spatiality, economy, and utility dimensions; 2) a highly realistic data sandbox with precise accommodation pricing and authentic intercity transportation data; and 3) a simulation-based global evaluation method that emulates complete travel plans with API-integrated geographic information and fine-grained queuing time. Evaluating 12 mainstream approaches with TravelEval reveals several valuable insights, such that LLMs struggle with globally-optimized multi-dimensional planning (especially in spatio-temporal reasoning and budget compliance), and agentic reasoning strategies offer no consistent improvement. Concisely, TravelEval facilitates travel plan evaluation via grounded spatio-temporal emulation and comprehensive metrics, providing a robust foundation for advancing LLM-powered travel planning research and applications.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ea3b18153f20" data-article-url="https://arxiv.org/abs/2606.01053" data-article-title="AnyEdit++: ベイジアン サプライズによる適応型の長い形式の知識編集" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01053" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01053" target="_blank" rel="noopener">AnyEdit++: ベイジアン サプライズによる適応型の長い形式の知識編集</a></h3>
      <p class="summary">大規模言語モデルで複雑な長い形式の知識を編集することは、生成の一貫性を維持することが難しいため、依然として大きな課題です。 AnyEdit などの既存の自己回帰メソッドは長さの制約を緩和しますが、論理構造を無視し、一貫性を損なう固定ウィンドウ チャンキングに依存しています。これに対処するために、ベイジアン サプライズに基づいてセマンティック境界を動的に識別する適応セグメンテーション メカニズムであるベイズ チャンクを組み込んだ構造認識フレームワークである AnyEdit++ を紹介します。我々は、2 つの重要な原則を確立する理論的フレームワークでこのアプローチを裏付けています。(1) 構造的独立性: アンカー キーが幾何学的に直交している場合 (サプライズベースの境界によって自然に満たされるが、固定ウィンドウによって違反される条件)、セグメント間の干渉が最小限に抑えられることを証明します。(2) 因果的局所性: これらのセマンティック ピークに注入された更新が、任意の分割点と比較して厳密に優れた制御を生み出すことを実証します。数学的推論、コード生成、ナラティブ タスクにわたる広範な実験により、AnyEdit++ が最先端のベースラインと比較して優れたパフォーマンスと堅牢性を実現することが実証され、効果的な長文ナレッジ編集には構造認識が重要であることが検証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AnyEdit++: Adaptive Long-Form Knowledge Editing via Bayesian Surprise</p>
        <p class="orig-summary">Editing complex, long-form knowledge in Large Language Models remains a significant challenge due to the difficulty of maintaining generation coherence. Existing autoregressive methods like AnyEdit alleviate length constraints but rely on Fixed-window Chunking, which disregards logical structure and compromises consistency. To address this, we present AnyEdit++, a structure-aware framework incorporating Bayes-Chunk, an adaptive segmentation mechanism that dynamically identifies semantic boundaries based on Bayesian Surprise. We underpin this approach with a theoretical framework establishing two key principles: (1) Structural Independence: we prove that cross-segment interference is minimized when anchor keys are geometrically orthogonal (a condition naturally satisfied by our surprisal-based boundaries but violated by fixed windows), and (2) Causal Locality: we demonstrate that updates injected at these semantic peaks yield strictly superior control compared to arbitrary split points. Extensive experiments across mathematical reasoning, code generation, and narrative tasks demonstrate that AnyEdit++ achieves superior performance and robustness compared to state-of-the-art baselines, validating that structural awareness is critical for effective long-form knowledge editing.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fb9008d5d21a" data-article-url="https://arxiv.org/abs/2606.01062" data-article-title="DAG-MoE: 専門家の混合における単純な混合から構造的集合体へ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01062" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01062" target="_blank" rel="noopener">DAG-MoE: 専門家の混合における単純な混合から構造的集合体へ</a></h3>
      <p class="summary">専門家混合 (MoE) モデルは、大規模な言語モデルの計算コストからパラメーター数を切り離すための主要なアプローチとなっていますが、MoE のパフォーマンスを効果的にスケーリングすることは依然として課題です。これまでの研究では、きめの細かいエキスパートはエキスパートの組み合わせのスペースを拡大し、柔軟性を向上させますが、同時にかなりのルーティングのオーバーヘッドを課し、新たなスケーラビリティのボトルネックを生み出すことがわかっています。このペーパーでは、スケーリングの補完軸、つまり専門家の成果がどのように集約されるかを検討します。我々は理論的に、標準的な加重加算集約を構造集約に置き換えることで、エキスパートやルーターを変更することなくエキスパートの組み合わせ空間を拡張し、単一の MoE レイヤー内で複数ステップの推論が可能になることを示します。この目的を達成するために、我々は、選択された専門家の間で最適な集約構造を自動的に学習する軽量モジュールを採用するスパース MoE フレームワークである DAG-MoE を提案します。標準の言語モデリング設定での大規模な実験により、DAG-MoE が事前トレーニングと微調整の両方でパフォーマンスを一貫して向上させ、従来の MoE ベースラインを上回っていることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DAG-MoE: From Simple Mixture to Structural Aggregation in Mixture-of-Experts</p>
        <p class="orig-summary">Mixture-of-Experts (MoE) models have become a leading approach for decoupling parameter count from computational cost in large language models, yet effectively scaling MoE performance remains a challenge. Prior work shows that fine-grained experts enlarge the space of expert combinations and improve flexibility, but they also impose substantial routing overhead, creating a new scalability bottleneck. In this paper, we explore a complementary axis for scaling -- how expert outputs are aggregated. We theoretically show that replacing the standard weighted-summation aggregation with structural aggregation expands the expert-combination space without altering the experts or router, and enables possible multi-step reasoning within a single MoE layer. To this end, we propose DAG-MoE, a sparse MoE framework that employs a lightweight module to automatically learn the optimal aggregation structure among the selected experts. Extensive experiments under standard language modeling settings show that DAG-MoE consistently improves performance in both pretraining and fine-tuning, surpassing traditional MoE baselines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c9174fe54870" data-article-url="https://arxiv.org/abs/2606.01063" data-article-title="MindClaw: 精密な介入のための閉ループの具体化された精神状態推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01063" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01063" target="_blank" rel="noopener">MindClaw: 精密な介入のための閉ループの具体化された精神状態推論</a></h3>
      <p class="summary">Theory of Mind (ToM) を使用すると、エージェントは他のアクターの信念、目標、意図について推論することができます。これは人間中心の身体的支援に不可欠です。既存の ToM ベンチマークは高度なテキスト認識とマルチモーダルな精神状態認識を備えていますが、主にオフラインの質問応答や最終的な行動の予測を評価します。これらは、具体化されたエージェントが変化する環境とのつながりを維持できるかどうか、行為者固有の信念を更新できるかどうか、推論が必要な場合を判断できるかどうか、助けが役立つ場合にのみ介入できるかどうかを完全にテストしていません。 MindPower を基盤として、ロボット中心の ToM 推論をリアルタイムの閉ループ設定に拡張し、精密な介入を伴う身体化された精神状態推論のためのフレームワークである MindClaw を導入します。 MindClaw は、マルチソース入力、信念記憶、身体化された認知トリガー スキル、精神的推論、およびアクション生成を接続し、エージェントが介入が不要な場合は沈黙を保ちながら、適切なタイミングで役立つアクションを出力できるようにします。実験によれば、直接的な VLM ベースラインはタスクの認識と介入の調整に苦労する一方、MindClaw は最高の全体的なパフォーマンスを達成し、閉ループで組み込まれた ToM 支援におけるトリガー スキルの最適化の重要性を示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MindClaw: Closed-Loop Embodied Mental-State Reasoning for Precision Intervention</p>
        <p class="orig-summary">Theory of Mind (ToM) enables an agent to reason about another actor&#x27;s beliefs, goals, and intentions, which is essential for human-centered embodied assistance. Existing ToM benchmarks have advanced text and multimodal mental-state recognition, but they mostly evaluate offline question answering or final action prediction. They do not fully test whether an embodied agent can stay connected to a changing environment, update actor-specific beliefs, decide when reasoning is needed, and intervene only when help is useful. Building on MindPower, we extend robot-centric ToM reasoning to a real-time closed-loop setting and introduce MindClaw, a framework for embodied mental-state reasoning with precision intervention. MindClaw connects multi-source inputs, belief memory, an embodied cognitive trigger skill, mental reasoning, and action generation, allowing the agent to output helpful actions at the right time while remaining silent when intervention is unnecessary. Experiments show that direct VLM baselines struggle with task awareness and intervention calibration, while MindClaw achieves the best overall performance, demonstrating the importance of trigger-skill optimization for closed-loop embodied ToM assistance.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bd44c72dff0c" data-article-url="https://arxiv.org/abs/2606.01066" data-article-title="モデルがバグを学習する前:ファジング RLVR 検証器" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01066" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01066" target="_blank" rel="noopener">モデルがバグを学習する前:ファジング RLVR 検証器</a></h3>
      <p class="summary">検証可能な報酬を伴う強化学習 (RLVR) は、人間の嗜好ラベルを、数学解答チェッカー、JSON ツール呼び出しバリデーター、コード単体テスト ハーネスなどの実行可能な報酬関数に置き換えます。そのため、報酬の一部はソフトウェア成果物になります。検証者が間違っている場合、最適化によってバグが学習される可能性があります。私たちは、敵対的補完を生成し、バグのあるより厳密な参照検証器を比較し、ペアの決定をログに記録し、偽陽性、偽陰性、不一致、エクスプロイト、および不確実性のメトリクスを報告する軽量の検証器ファジング フレームワークを使用してこの障害モードを研究します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Before the Model Learns the Bug:Fuzzing RLVR Verifiers</p>
        <p class="orig-summary">Reinforcement learning with verifiable rewards (RLVR) replaces human preference labels with executable reward functions such as math answer checkers, JSON tool-call validators, and code unit-test harnesses. That makes the reward partly a software artifact: if the verifier is wrong, optimization can learn the bug. We study this failure mode with a lightweight verifier-fuzzing framework that generates adversarial completions, compares buggy and stricter reference verifiers, logs paired decisions, and reports false-positive, false-negative, disagreement, exploit, and uncertainty metrics.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bc6625541a9c" data-article-url="https://arxiv.org/abs/2606.01094" data-article-title="CAREAgent: 構造化推論を備え、オーダー生成用にツールが統合された臨床エージェント" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01094" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01094" target="_blank" rel="noopener">CAREAgent: 構造化推論を備え、オーダー生成用にツールが統合された臨床エージェント</a></h3>
      <p class="summary">臨床オーダーの生成は、臨床上の意思決定と現実世界の実践の間の重要な橋渡しとして機能し、医療上の決定を具体的で実行可能なオーダーに変換します。既存のエージェントは主に大まかな意思決定に重点を置き、臨床オーダーに必要な詳細で実行可能な情報を無視しています。このギャップに対処するために、臨床オーダー生成エージェントである CAREAgent を提案します。そのトレーニングをサポートするために、2 段階のエージェント推論データ構築手法を導入します。まず、現実的な臨床ツールの使用状況に合わせた検証可能な推論軌跡を構築するエージェント フレームワークを設計します。次に、形式の準拠性、順序の妥当性、臨床的妥当性によって推論の軌跡をフィルタリングします。構築されたデータに基づいて、モデルはまず教師あり微調整によってトレーニングされ、基本的な推論形式と医学的知識を取得します。その後、多次元の報酬関数を使用した強化学習によって最適化され、複雑な臨床推論能力が強化されます。複数のベンチマークの実験により、CAREAgent の有効性が実証されています。 ClinicalBench (トレーニング中には確認できません) では、CAREAgent は F1 スコアを、単一エージェント、マルチエージェント、およびエージェント推論方法と比較して、それぞれ 5.05%、2.09%、0.86% 改善しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CAREAgent: Clinical Agent with Structured Reasoning and Tool-Integrated for Order Generation</p>
        <p class="orig-summary">Clinical order generation serves as a critical bridge between clinical decision-making and real-world practice, translating medical decisions into concrete and executable orders. Existing agents mainly focus on coarse-grained decisions and overlook the fine-grained, executable information required for clinical orders. To address this gap, we propose CAREAgent, an agent for clinical order generation. To support its training, we introduce a two-stage agentic reasoning data construction method. First, we design an agent framework that constructs verifiable reasoning trajectories aligned with realistic clinical tool usage. Second, we filter reasoning trajectories by format compliance, order validity, and clinical plausibility. Building on the constructed data, the model is first trained via supervised fine-tuning to acquire fundamental reasoning formats and medical knowledge, and is subsequently optimized through reinforcement learning with multi-dimensional reward functions to enhance complex clinical reasoning capabilities. Experiments on multiple benchmarks demonstrate the effectiveness of CAREAgent. On ClinicalBench (unseen during training), CAREAgent improves the F1 score by 5.05%, 2.09%, and 0.86% over the single-agent, multi-agent, and agentic reasoning methods, respectively.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="28414f9c5c8d" data-article-url="https://arxiv.org/abs/2606.01120" data-article-title="RAG ベースのファクトチェックにおける証拠前の認識状態に対する LLM 仲裁動作の診断" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01120" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01120" target="_blank" rel="noopener">RAG ベースのファクトチェックにおける証拠前の認識状態に対する LLM 仲裁動作の診断</a></h3>
      <p class="summary">RAG ベースのファクトチェックでは、特定の主張を取得した証拠と照合するための検証者として LLM が使用されることが増えています。彼らのパラメトリック知識は、取得されたコンテキストと矛盾する可能性のある事前証拠の傾向を誘発する可能性がありますが、既存の評価フレームワークは、そのような事前コンテキストの不一致を特徴付けたり、検証者がパラメトリック信号とコンテキスト信号の間でどのように調停するかを測定したりすることはありません。 \textsc{PAVE} (\emph{事前認識検証者評価}) を導入します。これは、事前証拠の正確さと信頼性に基づいて LLM 検証者を 4 つの認識論的状態に階層化し、この新しいベンチマークでの調停動作を評価します。つまり、誤解を招く証拠の下で正しい事前検証を維持するかどうか、正確な証拠が提供されたときに間違った事前検証を修正するかどうかを評価します。 7 つの LLM にわたる実験では、信頼性が低く、モデルに大きく依存する事前コンテキスト アービトレーションが明らかになり、現実世界の RAG ベースのファクトチェック アプリケーションにおける検証者の選択の重要性が強調されています。これらの発見に基づいて、基礎となるモデルを変更することなく事実の信頼性を向上させ、多様な LLM ファミリ間で競争力のあるパフォーマンスを実現する、軽量の JSD ベースのテスト時間調停手法を提案します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Diagnosing LLM Arbitration Behavior over Pre-evidence Epistemic States in RAG-based Fact-Checking</p>
        <p class="orig-summary">In RAG-based fact-checking, LLMs are increasingly used as verifiers to check given claims against retrieved evidence. Their parametric knowledge can induce pre-evidence tendencies that may conflict with the retrieved context, yet existing evaluation frameworks do not characterize such prior-context discrepancy or measure how verifiers arbitrate between parametric and contextual signals. We introduce \textsc{PAVE} (\emph{Prior-Aware Verifier Evaluation}), a diagnostic testbed that stratifies an LLM verifier into four epistemic states based on the correctness and confidence of its pre-evidence prior and evaluates its arbitration behavior on this new benchmark, i.e., whether it persists in correct prior under misleading evidence, and whether it corrects wrong prior when accurate evidence is provided. Experiments across seven LLMs reveal unreliable and highly model-dependent prior-context arbitration, highlighting the importance of verifier selection for real-world RAG-based fact-checking applications. Based on these findings, we propose a lightweight JSD-based test-time arbitration method that improves factual reliability without modifying the underlying model, achieving competitive performance across diverse LLM families.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="12e5c6ee774a" data-article-url="https://arxiv.org/abs/2606.01139" data-article-title="SkillRevise: トレース条件付きスキル リビジョンによる LLM 作成エージェント スキルの向上" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01139" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01139" target="_blank" rel="noopener">SkillRevise: トレース条件付きスキル リビジョンによる LLM 作成エージェント スキルの向上</a></h3>
      <p class="summary">エージェント スキルは、LLM エージェントがワークフローを実行し、制約を検証し、障害から回復できるようにする手順的な成果物です。既存の自己進化手法は、蓄積された軌跡を利用してスキルを磨きます。しかし、初期の不完全なスキルしか利用できないコールドスタート環境では苦戦します。したがって、スキル構築はデフォルトでエキスパートオーサリングまたはワンショット LLM 生成になります。専門家が作成したスキルはコストが高く、LLM エージェントが実際にタスクを実行する方法と一致していない可能性があります。一方、ワンショットで生成されたスキルは、構文的には適切ですが、動作が弱い可能性があります。このギャップを埋めるために、私たちは、これらの初期スキルを反復的に改善するように設計された実行ベースのフレームワークである SkillRevise を提案します。 SkillRevise は、実行の証拠からスキルの欠陥を診断し、一般的なメモリから関連する修復原則を取得し、実行に固定された編集を適用します。候補者を再実行し、経験的な有用性を測定することで、最適なスキル バージョンを体系的に保持します。 3 つのベンチマークと 5 つの LLM で評価したところ、SkillRevise はワンショット ベースラインを大幅に上回り、SkillsBench でのベース エージェントの成功率が 36.05% から 61.63% に向上しました。さらに、改訂されたスキルはモデル間での強力な移行性を示し、モデル固有のアーティファクトに関する一般化された手順の知識を取得します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SkillRevise: Improving LLM-Authored Agent Skills via Trace-Conditioned Skill Revision</p>
        <p class="orig-summary">Agent skills are procedural artifacts that enable LLM agents to execute workflows, verify constraints, and recover from failures. Existing self-evolving methods refine skills using accumulated trajectories. However, they struggle in cold-start settings, where only an initial, imperfect skill is available. Consequently, skill construction defaults to expert authoring or one-shot LLM generation. Expert-authored skills are costly and may not align with how LLM agents actually execute tasks, while one-shot generated skills can be syntactically well formed yet behaviorally weak. To bridge this gap, we propose SkillRevise, an execution-grounded framework designed to iteratively refine these initial skills. SkillRevise diagnoses skill defects from execution evidence, retrieves relevant repair principles from a general memory, and applies execution-anchored edits. By re-executing candidates and measuring empirical utility, it systematically retains the optimal skill version. Evaluated across three benchmarks and five LLMs, SkillRevise substantially outperforms one-shot baselines, improving the base agent&#x27;s success rate on SkillsBench from 36.05% to 61.63%. Furthermore, the revised skills exhibit strong cross-model transferability, capturing generalized procedural knowledge over model-specific artifacts.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="24bbc5761a64" data-article-url="https://arxiv.org/abs/2606.01145" data-article-title="Reasoning4Sciences: 推論言語モデルをすべての科学分野に橋渡しする" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01145" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01145" target="_blank" rel="noopener">Reasoning4Sciences: 推論言語モデルをすべての科学分野に橋渡しする</a></h3>
      <p class="summary">推論言語モデル (RLM) は科学研究のための強力なツールとして急速に台頭していますが、その影響は主に「ハード サイエンス」分野に集中しています。他の科学分野での RLM の導入が遅い、または導入されていないことが、研究の生産性の差の拡大を引き起こしています。この調査では、欧州研究評議会 (ERC) が使用する社会科学と人文科学、物理科学と工学、生命科学にわたる分類に従って、28 の科学分野にわたる RLM の採用に関する初めての包括的な分析を提供します。私たちは、RLM がどのように開発、評価され、分野全体に適用されるかを調査します。さらに、利用可能なドメイン固有の開発および評価リソースに基づいた成熟度指向の評価フレームワークを導入し、公開されているリソースのみを考慮した場合にさらに顕著になる RLM 成熟度の実質的な格差を明らかにします。最後に、分野を超えて普及しつつある現在の実装パラダイム、現在の課題、科学全体で RLM の導入を可能にする将来の方向性を強調します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Reasoning4Sciences: Bridging Reasoning Language Models to All Scientific Branches</p>
        <p class="orig-summary">While Reasoning Language Models (RLMs) are rapidly emerging as powerful tools for scientific research, their impact is primarily concentrated in &quot;hard science&quot; fields. The slow -- or lack of -- adoption of RLMs in other branches of science is causing a widening gap in research productivity. In this survey, we provide the first comprehensive analysis of RLM adoption across 28 scientific disciplines following the classification used by the European Research Council (ERC), spanning the Social Sciences and Humanities, Physical Sciences and Engineering, and Life Sciences. We examine how RLMs are developed, evaluated, and applied across disciplines. Furthermore, we introduce a maturity-oriented assessment framework based on available domain-specific development and evaluation resources, revealing substantial disparities in RLM maturity that become even more pronounced when only publicly available resources are considered. Finally, we highlight current implementation paradigms that are gaining popularity across disciplines, current challenges, and future directions in enabling RLM adoption across science.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1564b634d49e" data-article-url="https://arxiv.org/abs/2606.01160" data-article-title="形式数学検証における生成的報酬モデリングの期待値の調整" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01160" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01160" target="_blank" rel="noopener">形式数学検証における生成的報酬モデリングの期待値の調整</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、リーン 4 などの形式的な対話型定理証明器で使用されることが増えています。強化学習または検索手法を使用してこれらのシステムを拡張するには、中間の推論ステップを評価できるプロセス報酬モデル (PRM) が必要です。既存の報酬モデルの設計では、実際的なトレードオフが明らかになります。バリューヘッド モデルは連続スコアを提供しますが、生成モデル インターフェイスを変更します。一方、生成報酬モデルはテキストの根拠を保持しますが、数値がトークン間で分割されるため、連続浮動小数点回帰との一致が不十分です。モデルのトークン分布から連続スコアを抽出しながら、表面出力を離散的に保つ報酬モデリング手順である Expected Value Alignment (EVA) を導入します。モデルは構造化された JSON 形式で整数スコアを出力し、EVA は対応するアンカー トークンのロジットに対する期待値として連続スコアを計算します。トレーニングでは、因果言語モデリングの目的と、これらの期待値に対する補助平均二乗誤差損失を組み合わせます。リーン 4 形式検証用の報酬モデルである \textit{Leibniz} で EVA をインスタンス化し、ゼロショットおよび報酬モデリングのベースラインに対して評価します。この評価では、継続的なロジットベースのスコアリングにより、生成的批評の解釈可能性を維持しながら、離散化アーティファクトが大幅に削減されることが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Expected Value Alignment for Generative Reward Modeling in Formal Mathematics Verification</p>
        <p class="orig-summary">Large Language Models (LLMs) are increasingly used with formal interactive theorem provers such as Lean 4. Scaling these systems with reinforcement learning or search methods requires process reward models (PRMs) that can evaluate intermediate reasoning steps. Existing reward-model designs expose a practical trade-off. Value-head models provide continuous scores but modify the generative model interface, while generative reward models preserve textual rationales but are poorly matched to continuous floating-point regression because numeric values are split across tokens. We introduce Expected Value Alignment (EVA), a reward-modeling procedure that keeps the surface output discrete while extracting continuous scores from the model&#x27;s token distribution. The model emits integer scores in a structured JSON format, and EVA computes a continuous score as the expectation over the logits of the corresponding anchor tokens. Training combines the causal language modeling objective with an auxiliary mean squared error loss on these expected values. We instantiate EVA in \textit{Leibniz}, a reward model for Lean 4 formal verification, and evaluate it against zero-shot and reward-modeling baselines. The evaluation demonstrates that continuous logit-based scoring significantly reduces discretization artifacts while retaining the interpretability of generative critiques.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5a470e0e8fa8" data-article-url="https://arxiv.org/abs/2606.01162" data-article-title="専門家の混合による、さまざまな期限を持つ動的なクラウド ワークフローの巧みなスケジューリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01162" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01162" target="_blank" rel="noopener">専門家の混合による、さまざまな期限を持つ動的なクラウド ワークフローの巧みなスケジューリング</a></h3>
      <p class="summary">クラウド コンピューティングにおけるワークフロー スケジューリングでは、さまざまな期限を持つ動的に到着するグラフ構造のワークフローを、常に変化する仮想マシン リソースにインテリジェントに割り当てる必要があります。しかし、既存の深層強化学習 (DRL) スケジューラーは、多様なスケジューリング シナリオの処理に苦労する厳格な単一パス推論アーキテクチャによって依然として制限されています。 \textbf{DEFT} (\textbf{D}eadline-p\textbf{E}rceptive Mixture-o\textbf{F}-Exper\textbf{t}s) を導入します。これは、さまざまなレベルの締め切り厳しさを管理するように訓練された専門家の専門家混合を活用する革新的な DRL ポリシー アーキテクチャです。私たちの知る限り、DEFT は動的なクラウド ワークフロー スケジューリングのための専門家混合アーキテクチャを導入して検証した最初の企業です。 DEFT は、最も適切な専門家を通じて意思決定を適応的に行うことで、単一の専門家では達成できない広範な期限要件を満たすことができます。 DEFT の中心となるのは、ワークフローの期限と DAG、タスクの状態、VM の状態をエンコードする \textbf{graph-adaptive} ゲート メカニズムです。クロス アテンションを使用して、きめ細かく期限に敏感な方法でエキスパートのアクティベーションをガイドします。動的なクラウド ワークフロー ベンチマークの実験では、DEFT が実行コストと期限違反を大幅に削減し、複数の最先端の DRL ベースラインを上回るパフォーマンスを示していることが実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Deft Scheduling of Dynamic Cloud Workflows with Varying Deadlines via Mixture-of-Experts</p>
        <p class="orig-summary">Workflow scheduling in cloud computing demands the intelligent allocation of dynamically arriving, graph-structured workflows with varying deadlines onto ever-changing virtual machine resources. However, existing deep reinforcement learning (DRL) schedulers remain limited by rigid, single-path inference architectures that struggle to handle diverse scheduling scenarios. We introduce \textbf{DEFT} (\textbf{D}eadline-p\textbf{E}rceptive Mixture-o\textbf{F}-Exper\textbf{t}s), an innovative DRL policy architecture that leverages a specialized mixture of experts, each trained to manage different levels of deadline tightness. To our knowledge, DEFT is the first to introduce and validate a Mixture-of-Experts architecture for dynamic cloud workflow scheduling. By adaptively routing decisions through the most appropriate experts, DEFT is capable of meeting a broad spectrum of deadline requirements that no single expert can achieve. Central to DEFT is a \textbf{graph-adaptive} gating mechanism that encodes workflow deadlines and DAGs, task states, and VM conditions, using cross-attention to guide expert activation in a fine-grained, deadline-sensitive manner. Experiments on dynamic cloud workflow benchmarks demonstrate that DEFT significantly reduces execution cost and deadline violations, outperforming multiple state-of-the-art DRL baselines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6761ba896b4e" data-article-url="https://arxiv.org/abs/2606.01185" data-article-title="「スキルの問題」: 湖畔エージェントのデータ中心の最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01185" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01185" target="_blank" rel="noopener">「スキルの問題」: 湖畔エージェントのデータ中心の最適化</a></h3>
      <p class="summary">コーディング エージェントはデータ インフラストラクチャのユーザーになりつつありますが、その成功はモデルの品質だけでなく、エージェントにシステムの使用方法を教えるスキルと環境ファイルにも依存します。私たちは、分岐湖のバウプランで活動するエージェント向けにこれらのアーティファクトを最適化する方法を研究します。私たちの設定では、ヘッドレス API と Git のようなデータ プリミティブは、コード、ブランチ、コミット、マージを通じてデータ ワークフローを公開します。私たちの中心的な観察は、分岐レイクハウスがデータ エージェントの評価を出力マッチング問題から状態検証問題に変えるということです。エージェントが生成したパイプライン コードは、具体的で検査可能なレイクハウスの変更を引き起こします。タスクと検証子のペアを生成し、隔離されたサンドボックスで候補スキルを実行し、トレースレベルの信号とレイクハウスの状態に対するプログラムによるチェックの両方を使用して軌跡をスコアリングする、データ中心の最適化パイプラインを紹介します。 25 のタスクに関する事前評価では、最適化されたスキルにより精度が 31.9% 向上しました。これらの結果は、書き込みパス データ ワークフローが、読み取り専用タスクを超えてエージェントのスキルを最適化するための有用な基盤を提供することを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">&quot;Skill issues&#x27;&#x27;: data-centric optimization of lakehouse agents</p>
        <p class="orig-summary">Coding agents are becoming users of data infrastructure, but their success depends not only on model quality: it also depends on the skills and environment files that teach agents how to use a system. We study how to optimize these artifacts for agents operating on a branching lakehouse, Bauplan. In our setting, headless APIs and Git-like data primitives expose data workflows through code, branches, commits, and merges. Our central observation is that a branching lakehouse turns data-agent evaluation from an output-matching problem into a state-verification problem: agent-generated pipeline code induces concrete, inspectable lakehouse changes. We present a data-centric optimization pipeline that generates task-verifier pairs, executes candidate skills in isolated sandboxes, and scores trajectories using both trace-level signals and programmatic checks over lakehouse state. In a preliminary evaluation on 25 tasks, optimized skills improve accuracy by 31.9%. These results suggest that write-path data workflows provide a useful substrate for optimizing agent skills beyond read-only tasks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2b95b79e2452" data-article-url="https://arxiv.org/abs/2606.01189" data-article-title="モデルサイエンスの事例: 検証、探索、方向転換、改良" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01189" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01189" target="_blank" rel="noopener">モデルサイエンスの事例: 検証、探索、方向転換、改良</a></h3>
      <p class="summary">私たちは、AI コミュニティがベンチマークを超えて、モデル分析における分散した取り組みを体系的な分野、つまりモデル サイエンスと呼ぶ方向に統合する準備ができていると主張します。複雑な AI モデルは現在、何十億ものユーザーにサービスを提供していますが、それらがどのように機能するかについての私たちの理解は、それらを導入する能力よりもはるかに遅れています。数十年にわたるベンチマーク主導の研究により、目覚ましい進歩がもたらされました。広範なリーダーボード、幅広いパフォーマンス指標、さまざまなタスクにわたる追跡能力の向上などです。しかし、この成功はベンチマークの限界も明らかにしました。ベンチマークは、モデルが機能するかどうかを示しますが、成功または失敗する理由は示さず、幻覚やショートカットなどの重大な障害モードを見逃しているからです。確立された科学の先例が今後の方向性を示しています。認知科学は、複雑なシステムを理解するには補完的なレベルの分析が必要であることを示しています。神経科学は、単一症例の詳細な研究により、集団研究が見逃しているものを明らかにすることを実証しています。医学では、研究実践と並行して専門的なトレーニングも発展させなければならないと教えています。そして農業モデルは、共有インフラと原則がどのように累積的な進歩を可能にするかをモデル化します。これらのレッスンは、モデル サイエンスの 3 つの基礎を学びます。まず、モデルの動作に関する補完的な質問に対処する、検証、探索、操縦、および調整という 4 つの機能的観点を中心に研究を統合することを提案します。次に、蓄積された知識に必要なインフラストラクチャ、つまりデータセット、モデル、調査結果のカタログについて説明します。第三に、モデルファミリーだけでなく、個々のモデルインスタンスを詳細に分析する必要性を強調します。これは、単一のケースでは、集団研究が見逃しているものが明らかになる可能性があるためです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Case for Model Science: Verify, Explore, Steer, Refine</p>
        <p class="orig-summary">We argue that the AI community is now ready to move beyond benchmarking and consolidate scattered efforts in model analysis into a systematic discipline, a direction we term Model Science. Complex AI models now serve billions of users, yet our understanding of how they work lags far behind our ability to deploy them. Decades of benchmark-driven research have delivered remarkable progress: extensive leaderboards, a wide range of performance metrics, tracking capability gains across diverse tasks; yet this success has also revealed the limits of benchmarks as they tell us whether models perform but not why they succeed or fail, they miss critical failure modes, such as hallucinations or shortcuts. Precedents from established sciences point the way forward: cognitive science shows that understanding complex systems requires complementary levels of analysis; neuroscience demonstrates that deep study of single cases reveals what population studies miss; medicine teaches that specialised training must develop alongside research practice; and agriculture models how shared infrastructure and principles enable cumulative progress. These lessons inform three foundations for Model Science. First, we propose to consolidate research around four functional perspectives: Verify, Explore, Steer, and Refine that address complementary questions about model behaviour. Second, we discuss the required infrastructure for cumulative knowledge: catalogues of datasets, models and findings. Third, we highlight the need for deep analysis of individual model instances, not just model families, because single cases can reveal what population studies miss.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5690de0ae4d5" data-article-url="https://arxiv.org/abs/2606.01199" data-article-title="LLM エージェントは長期的な組織ダイナミクスを維持できるか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01199" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01199" target="_blank" rel="noopener">LLM エージェントは長期的な組織ダイナミクスを維持できるか?</a></h3>
      <p class="summary">大規模な言語エージェントは社会シミュレーションにますます使用されていますが、目標が階層を通じて伝達され、タスクが事前の実行に依存し、成果物が長い期間にわたって蓄積される構造化された組織において、言語エージェントが一貫した動作を維持できるかどうかは依然として不明です。私たちは、長期的な組織シミュレーションをメモリ中心の調整問題として定式化し、TaskWeave を導入します。TaskWeave は、定式化、パーティション、診断、整列サイクルを通じて計画状態を維持し、依存関係を認識したトレース メモリを通じて実行を基盤とする階層型エージェント フレームワークです。私たちは、1 年間にわたる IT 企業シミュレーションで TaskWeave を評価し、組織の一貫性、実行基盤、下流のエンタープライズ NLP ユーティリティに関して他のマルチエージェント フレームワークと比較しました。実験では、TaskWeave が、根拠のある成果物を生成し、外部環境に適応しながら、一貫性のある長期的な組織ダイナミクスをサポートしていることが示されています。これらの発見は、構造化シ​​ミュレーション メモリが信頼性の高い LLM ベースの組織シミュレータを構築するための重要なメカニズムであることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Can LLM Agents Sustain Long-Horizon Organizational Dynamics?</p>
        <p class="orig-summary">Large language agents are increasingly used for social simulation, yet it remains unclear whether they can sustain coherent behavior in structured organizations, where goals must propagate through hierarchy, tasks depend on prior execution, and artifacts accumulate over long horizons. We formulate long-horizon organizational simulation as a memory-centered coordination problem and introduce TaskWeave, a hierarchical agentic framework that maintains planning states through a Formulate-Partition-Diagnose-Align cycle and grounds execution through dependency-aware trace memory. We evaluate TaskWeave in a year-long IT company simulation and compare it with other multi-agent frameworks on organizational coherence, execution grounding, and downstream enterprise NLP utility. Experiments show that TaskWeave supports coherent and long-horizon organizational dynamics while producing grounded artifacts and adapting to external environments. These findings suggest that structured simulation memory is a key mechanism for building reliable LLM-based organizational simulators.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="68b0f38ad4c6" data-article-url="https://arxiv.org/abs/2606.01202" data-article-title="知恵の形: 言語モデルにおける意思決定の軌跡" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01202" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01202" target="_blank" rel="noopener">知恵の形: 言語モデルにおける意思決定の軌跡</a></h3>
      <p class="summary">言語モデルは、出力層で単純に答えを選択するわけではありません。 Qwen2.5-7B-Instruct、Llama-3.1-8B-Instruct、Mistral-7B-Instruct-v0.3 にわたる 9,000 のトラジェクト MMLU スタディでは、回答のスコアは構造化された方法で深度全体に移動します。各軌跡は、現在の解答マージン、そのマージンにおける次の層の変更、および決定フリップからの距離という 3 つの量で記述されます。主な経験的状況は、正しさと安定性は異なるということです。最大のグループは不安定で正しいものであり、安定して正しいものではありません。次に、トレースされたサブセットは、何がマージンを動かすのかを尋ねます。安定した正しいケースでは、平均注意スカラーは正しい方向を向いていますが、平均 MLP スカラーはそうではありません。スパン削除では、回答をサポートするテキストを削除すると余白が損なわれ、気が散るようなテキストを削除すると余白が有効になることがわかります。この結果は回路の完全な説明にはなりません。これは、どの答えが解決され、どの答えが脆弱なままで、どの測定されたソースがそれらを動かしているのかを確認する再現可能な方法です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Shape of Wisdom: Decision Trajectories in Language Models</p>
        <p class="orig-summary">Language models do not simply choose an answer at the output layer. In a 9,000-trajectory MMLU study across Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, and Mistral-7B-Instruct-v0.3, the score of the answer moves across depth in structured ways. We describe each trajectory with three quantities: the current answer margin, the next-layer change in that margin, and the distance from a decision flip. The main empirical picture is that correctness and stability are different: the largest group is unstable-correct, not stable-correct. A traced subset then asks what moves the margin. In stable-correct cases, the average attention scalar points in the correct direction, while the average MLP scalar does not; span deletion shows that removing answer-supporting text hurts the margin and removing distractor-like text helps it. The result is not a full circuit explanation. It is a reproducible way to see which answers are settled, which remain fragile, and which measured sources move them.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="979b52daab72" data-article-url="https://arxiv.org/abs/2606.01224" data-article-title="マルチモーダルデータ分析に基づく高度な数学学習行動予測と学術早期警告モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01224" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01224" target="_blank" rel="noopener">マルチモーダルデータ分析に基づく高度な数学学習行動予測と学術早期警告モデル</a></h3>
      <p class="summary">リスクにさらされている生徒の早期発見とタイムリーな学術的介入は、高度な数学教育において大きな課題となっています。複雑な概念的階層と非線形な学習軌道が生徒の学業成績を妨げることが多いからです。この研究では、マルチモーダルデータ分析を採用して、学習行動予測と学術的早期警告のための動的なフレームワークを構築しました。階層的な知識グラフ オントロジーを構築し、問題の難易度や生徒の成績に応じた適応的なエッジの重み付けを実現し、異種グラフの注意と時系列モデリングを組み合わせて生徒の進化する知識状態を捉えます。学期にわたるマルチモーダル データセットに対する実証テストにより、この方法が高リスクの学生を正確に特定し、エラーの伝播を効果的に追跡できることが証明されました。的を絞った介入により、学生の知識習得が大幅に向上し、学業上のリスクが軽減されます。その結果、ナレッジ グラフ分析とマルチモーダル時相モデリングを統合することで、高度な数学教育に対して、より効率的でパーソナライズされた学習サポートを提供できることが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Advanced Mathematics Learning Behavior Prediction and Academic Early Warning Model Based on Multimodal Data Analysis</p>
        <p class="orig-summary">Early detection of at-risk students and timely academic intervention pose major challenges in advanced mathematics education, where complex conceptual hierarchies and nonlinear learning trajectories often hold back students&#x27; academic performance. This study adopts multimodal data analytics to build a dynamic framework for learning behavior prediction and academic early warning. It constructs a hierarchical knowledge graph ontology, realizes adaptive edge weighting according to problem difficulty and student performance, and combines heterogeneous graph attention with temporal sequence modeling to capture students&#x27; evolving knowledge states. Empirical tests on semester-long multimodal datasets prove that this method can accurately identify high-risk students and effectively track error propagation. Targeted interventions greatly improve students&#x27; knowledge mastery and reduce academic risks. The results verify that integrating knowledge graph analytics with multimodal temporal modeling can deliver more efficient and personalized learning support for advanced mathematics education.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c95d993eecee" data-article-url="https://arxiv.org/abs/2606.01229" data-article-title="グリーンビルディングのためのエネルギー効率の高い設計プラットフォームにおけるアルゴリズムの適用" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01229" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01229" target="_blank" rel="noopener">グリーンビルディングのためのエネルギー効率の高い設計プラットフォームにおけるアルゴリズムの適用</a></h3>
      <p class="summary">グリーンビルディングの設計では、効率を向上させ全体的な最適化を達成するために、コンピュータ支援のエネルギー評価が広く使用されています。このペーパーでは、ビルディング インフォメーション モデリング (BIM)、センサー操作データ、および堅牢なアルゴリズムを使用した高度なシミュレーション ワークフローを組み合わせたプラットフォームを紹介します。このプラットフォームは、動的エネルギー シミュレーションと進化的な多目的最適化を備えたマルチレイヤー サービス アーキテクチャを使用し、高性能 C++ コアと適応エージェント モデルを介して接続されています。事例として選ばれたのは中層オフィスビルです。建物外壁の特徴と占有パターンに関するデータを収集するために、5 つの代表的なエリアが選択されました。前処理後、欠落しているセンサー データは年間記録の 3.2% を占め、すべての変数は 15 分間の内挿を使用して標準化されました。 40 回の最適化ラウンドの後、平方メートルあたりの年間エネルギー消費量は 315 kWh/m2 から 223 kWh/m2 に 29.3% 減少しました。居住者のライフサイクルコストの増加は 3.7% に限定され、不快な時間は年間 70 時間未満に減少しました。パレート最適解の分析により、エンベロープ U 値の範囲は 1.05 ～ 1.57 W/m2K、夜間換気量の範囲は 2.1 ～ 3.6 h-1 であり、どちらもエネルギー性能と密接に関連していることが示されています。その結果、統合されたアルゴリズム フレームワークが、グリーン ビルディング設計に優れたスケーラビリティ、強力なパフォーマンス、および技術的実現可能性を提供することが確認されました。このプラットフォームは、設計エンジニアやサステナビリティ専門家に信頼性の高い意思決定支援ツールを提供し、データに基づいてエネルギー効率の高い建物を正確に提供できるようにします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Application of Algorithms in Energy-Efficient Design Platforms for Green Building</p>
        <p class="orig-summary">During green building design, computer-aided energy assessment is widely used to improve efficiency and achieve overall optimization. This paper presents a platform that combines Building Information Modeling (BIM), sensor operational data, and advanced simulation workflows using robust algorithms. The platform uses a multi-layer service architecture with dynamic energy simulation and evolutionary multi-objective optimization, connected via a high-performance C++ core and adaptive agent models. A mid-rise office building was selected as the case study. Five representative areas were chosen to collect data on building envelope characteristics and occupancy patterns. After preprocessing, missing sensor data accounted for 3.2% of annual records, and all variables were standardized using 15-minute interpolation. After 40 optimization rounds, annual energy consumption per square meter dropped by 29.3% from 315 kWh/m2 to 223 kWh/m2. The lifecycle cost increase for occupants was limited to 3.7%, and discomfort hours were reduced to under 70 hours per year. Analysis of Pareto optimal solutions shows that the envelope U-value ranges from 1.05 to 1.57 W/m2K, and nighttime ventilation rate ranges from 2.1 to 3.6 h-1, both closely linked to energy performance. The results confirm that the integrated algorithm framework offers good scalability, strong performance, and technical feasibility for green building design. This platform provides a reliable decision-support tool for design engineers and sustainability practitioners, enabling accurate, data-driven delivery of energy-efficient buildings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0b608a6da1df" data-article-url="https://arxiv.org/abs/2606.01230" data-article-title="HomeFlow: 検証可能なシミュレーションによるスマート ホーム エージェント トレーニング用のデータ フライホイール" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01230" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01230" target="_blank" rel="noopener">HomeFlow: 検証可能なシミュレーションによるスマート ホーム エージェント トレーニング用のデータ フライホイール</a></h3>
      <p class="summary">大規模言語モデル エージェントは、テキストのみの対話を超えて、スマート ホームを代表的な領域として、物理世界の制御へと移行しています。実際の家庭内の交流には、あいまいな意図を理解し、動的な環境で動作し、複数ターンの推論を実行する必要があります。ただし、既存の方法では、スマート ホーム エージェント用の高品質のトレーニング データを生成するのが困難です。私たちは、このドメインの検証可能なデータ フライホイールである HomeFlow を提案します。 HomeFlow は、統合シミュレーション環境として HomeEnv を使用し、HomeMaker を使用してさまざまなホーム設定を手続き的に生成します。その後、Blueprint がオープンエンドのユーザー インテントを実行可能な状態ベースの成功条件にコンパイルし、MCTS-Flow が環境ガイド付きツリー検索を通じて多様で検証可能なマルチターンの軌跡を合成します。次に、教師あり微調整と段階的 RLVE によってエージェントを最適化し、本物の物理的フィードバックによる反復的な改善を促進します。さらに、SmartHome-Bench を構築して、さまざまなスマート ホーム タスクにわたってエージェントを評価します。このベンチマークでは、HomeFlow-RL-4B と HomeFlow-RL-8B は 84.60% と 87.03% のタスク成功率を達成しています。 HomeFlow-RL-8B が主要な GPT-5.5 を 1.23 パーセントポイントも上回っていることは注目に値します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">HomeFlow: A Data Flywheel for Smart Home Agent Training with Verifiable Simulation</p>
        <p class="orig-summary">Large language model agents are moving beyond text-only interaction toward physical-world control, with smart homes as a representative domain. Real domestic interaction requires understanding ambiguous intents, operating in dynamic environments, and performing multi-turn reasoning. However, existing methods struggle to generate high-quality training data for smart home agents. We propose HomeFlow, a verifiable data flywheel for this domain. HomeFlow uses HomeEnv as a unified simulation environment and HomeMaker to procedurally generate diverse home settings. Subsequently, Blueprint compiles open-ended user intents into executable state-based success conditions, while MCTS-Flow synthesizes diverse, verifiable multi-turn trajectories through environment-guided tree search. We then optimize the agents via supervised fine-tuning and step-wise RLVE, which facilitates iterative improvement through authentic physical feedback. We further construct SmartHome-Bench to evaluate the agent across various smart home tasks. On this benchmark, HomeFlow-RL-4B and HomeFlow-RL-8B achieve task success rates of 84.60% and 87.03%. It is worth noting that HomeFlow-RL-8B even surpasses the leading GPT-5.5 by 1.23 percentage points.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2d019c3b9eea" data-article-url="https://arxiv.org/abs/2606.01237" data-article-title="マルチモーダル コネクトームを使用した説明可能な認知機能低下診断のためのブレイン アトラスに基づく生成的反事実的注意" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01237" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01237" target="_blank" rel="noopener">マルチモーダル コネクトームを使用した説明可能な認知機能低下診断のためのブレイン アトラスに基づく生成的反事実的注意</a></h3>
      <p class="summary">軽度認知障害（MCI）と主観的認知機能低下（SCD）は、早期アルツハイマー病の継続と密接に関連しており、早期のリスク評価と介入には正確で説明可能な診断が重要です。既存のコネクトームベースの深層学習モデルは分類パフォーマンスを向上させることができますが、多くの場合、疾患に関連した機能的および構造的な接続性の変化についての洞察は限定的です。この論文では、マルチモーダル脳コネクトームを使用した説明可能な認知機能低下診断のための、アトラス知識に基づく生成的反事実的注意誘導ネットワーク (GCAN) を提案します。 GCAN は、ソースからターゲットへの反事実生成問題として診断を定式化します。この問題では、ターゲット ラベルのコネクトームがソース ラベルの入力から生成され、それらの差異が反事実のアテンション マップの構築に使用されます。コネクトーム トポロジを維持するために、アトラス対応双方向トランスフォーマー (AABT) は、ブレイン アトラスの制約の下でネットワーク レベルのトークンのエンコードとデコードを実行します。このフレームワークは、機能接続 (FC) から結合機能および構造接続 (SC) モデリングにさらに拡張され、相補的な機能再編成と構造トポロジーの変化の反事実分析が可能になります。病院で収集されたデータセットと ADNI データセットに関する実験では、GCAN が HC 対 SCD、HC 対 MCI、および SCD 対 MCI 分類タスク全体で競争力のあるパフォーマンスを達成していることが示されています。視覚化、円形コネクトーム分析、CAM ベースの比較、アブレーション研究、信頼区間分析は、提案されたフレームワークの解釈可能性と信頼性をさらにサポートします。モダリティ固有の FC および SC の事前トレーニング済み分類器は、データ漏洩を防ぐために下流の診断分類器から分離されながら、反事実生成のためのターゲット状態事前分布を提供するために使用されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Brain-Atlas-Guided Generative Counterfactual Attention for Explainable Cognitive Decline Diagnosis Using Multimodal Connectomes</p>
        <p class="orig-summary">Mild cognitive impairment (MCI) and subjective cognitive decline (SCD) are closely associated with the early Alzheimer&#x27;s disease continuum, where accurate and explainable diagnosis is important for early risk assessment and intervention. Existing connectome-based deep learning models can improve classification performance but often provide limited insight into disease-related functional and structural connectivity changes. This paper proposes an atlas-knowledge-guided Generative Counterfactual Attention-guided Network (GCAN) for explainable cognitive decline diagnosis using multimodal brain connectomes. GCAN formulates diagnosis as a source-to-target counterfactual generation problem, where target-label connectomes are generated from source-label inputs and their differences are used to construct counterfactual attention maps. To preserve connectome topology, an Atlas-aware Bidirectional Transformer (AABT) performs network-level token encoding and decoding under brain-atlas constraints. The framework is further extended from functional connectivity (FC) to joint functional and structural connectivity (SC) modeling, enabling counterfactual analysis of complementary functional reorganization and structural topology changes. Experiments on hospital-collected and ADNI datasets show that GCAN achieves competitive performance across HC vs. SCD, HC vs. MCI, and SCD vs. MCI classification tasks. Visualization, circular connectome analysis, CAM-based comparison, ablation studies, and confidence interval analysis further support the interpretability and reliability of the proposed framework. Modality-specific FC and SC pre-trained classifiers are used to provide target-state priors for counterfactual generation while being separated from the downstream diagnostic classifier to prevent data leakage.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1b2182ab7a12" data-article-url="https://arxiv.org/abs/2606.01246" data-article-title="SIRIUS-SQL: 実行フィードバックにおける複数候補のテキストから SQL への固定" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01246" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01246" target="_blank" rel="noopener">SIRIUS-SQL: 実行フィードバックにおける複数候補のテキストから SQL への固定</a></h3>
      <p class="summary">複雑なスキーマでの Text-to-SQL は単一パスでは信頼性が低いため、最近のシステムでは複数の SQL 候補を生成し、投票によってエラーを除外します。しかし、投票だけでは十分ではありません。なぜなら、複数候補のレシピには 3 つの複合的な弱点があるからです。1) 単一のジェネレーターからより多くのサンプリングを行うと、ますます冗長な候補が生成されます。2) 既存のパイプラインは、クリーンでない実行結果ごとに 1 つの一般的な修正を適用しますが、実行時エラー、タイムアウト、および空の結果は、それぞれ正確性からの距離が異なることを示します。3) 既存のセレクターは、結果の多数決やペアごとの SQL 比較などの単一の角度に依存しており、他の角度で検出できるものを見逃しています。 3 つの弱点すべてに対処する SIRIUS-SQL を紹介します。難易度を平滑化する RL レシピは、スペシャリストが残したギャップを埋めるジェネラリスト LLM と組み合わせて、多様な実行可能な SQL 候補を生成するように SIRIUS-32B をトレーニングします。実行ベースのライフサイクルにより、各結果が分類され、候補者がプールに再参加する前に対象を絞った修復が適用されます。信頼度ゲート型ハイブリッド セレクターは、実行結果の一致とペアごとの SQL 形式の判断を組み合わせ、ほぼ同点のケースのみを決定論的な構造チェックにエスカレートします。 SIRIUS-SQL は、BIRD 開発では 75.88%、SPIDER テストでは 91.20% に達しました。 3 つのジェネラリスト ペアのうち 2 つは、BIRD 開発で公開されている最強の複数候補システムである Agentar-Scale-SQL を上回っています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SIRIUS-SQL: Anchoring Multi-Candidate Text-to-SQL in Execution Feedback</p>
        <p class="orig-summary">Text-to-SQL on complex schemas is unreliable on a single pass, so recent systems generate multiple SQL candidates and let voting filter out errors. Yet voting alone is not enough, because the multi-candidate recipe has three coupled weaknesses: 1) sampling more from a single generator produces increasingly redundant candidates, 2) existing pipelines apply one generic correction to every non-clean execution result, while runtime errors, timeouts, and empty results each indicate a different distance from correctness, and 3) existing selectors rely on a single angle such as result-majority voting or pairwise SQL comparison, missing what other angles would have caught. We present SIRIUS-SQL, which addresses all three weaknesses. A difficulty-smoothing RL recipe trains SIRIUS-32B to generate diverse executable SQL candidates, paired with a generalist LLM that fills in gaps left by the specialist. An execution-grounded lifecycle classifies each outcome and applies targeted repair before candidates re-enter the pool. A confidence-gated hybrid selector combines execution-result agreement with pairwise SQL-form judgment, escalating only near-tied cases to a deterministic structural check. SIRIUS-SQL reaches 75.88% on BIRD dev and 91.20% on SPIDER test. Two of three generalist pairings surpass Agentar-Scale-SQL, the strongest published multi-candidate system on BIRD dev.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="374a4faba7fc" data-article-url="https://arxiv.org/abs/2606.01269" data-article-title="局所比較で訓練されたトランスフォーマーの創発順序幾何学" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01269" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01269" target="_blank" rel="noopener">局所比較で訓練されたトランスフォーマーの創発順序幾何学</a></h3>
      <p class="summary">推移的推論は、隣接する関係 (A &lt; B、B &lt; C) のみを知っていることから A &lt; C を推論するという課題です。人間や動物は、論理的な連鎖ではなく、アナログの精神的数直線を介して解決します。その特徴は、象徴的な距離効果です。つまり、遠くの比較は近くの比較よりも簡単です。トランスフォーマーが同じプリミティブを取得し、隠された全順序からの隣接する比較のみで小さなモデルをトレーニングし、目に見えない遠くのペアへの一般化を評価するかどうかを尋ねます。私たちは、分布外一般化が顕著な幾何学的再編成と並行して出現していることを発見しました。エンティティの埋め込みは、主軸が隠れた順位をほぼ完璧な忠実度で回復する 1 次元多様体に崩壊します。この構造は、グロッキングのような過渡ダイナミクスを生み出す方法での最適化に敏感です。重要なのは、精度が限界に達している場合でも、決定の信頼性と幾何学的分離は両方ともランク距離に単調にスケールし、人間、霊長類、齧歯動物に対する数十年の行動実験で観察された象徴的な距離の効果を直接反映していることです。これらの結果は、学習された表現の幾何学における 50 年来の行動規則性の根拠となり、認知科学と現代のニューラル ネットワークの橋渡しとなる推移的推論の機構的な説明を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Emergent Ordinal Geometry in Transformers Trained on Local Comparisons</p>
        <p class="orig-summary">Transitive inference is the challenge of inferring that A &lt; C from knowing only adjacent relations (A &lt; B, B &lt; C). It is solved by humans and animals not through logical chaining but via an analogue mental number line, whose signature is the symbolic distance effect: distant comparisons are easier than nearby ones. We ask whether Transformers acquire the same primitive, training small models exclusively on adjacent comparisons from a hidden total order and evaluating generalization to unseen distant pairs. We find that out-of-distribution generalization emerges alongside a striking geometric reorganization: entity embeddings collapse onto a one-dimensional manifold whose principal axis recovers the hidden rank order with near-perfect fidelity, and this structure is sensitive to optimization in ways that produce grokking-like transient dynamics. Critically, even when accuracy is at ceiling, decision confidence and geometric separation both scale monotonically with rank distance, directly mirroring the symbolic distance effect observed across decades of behavioural experiments on humans, primates, and rodents. These results ground a 50-year-old behavioural regularity in the geometry of learned representations, offering a mechanistic account of transitive inference that bridges cognitive science and modern neural networks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="738ba71f4211" data-article-url="https://arxiv.org/abs/2606.01279" data-article-title="ANDES: 自律的な命令調整のためのエージェント ネイティブ データ進化型合成ツール" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01279" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01279" target="_blank" rel="noopener">ANDES: 自律的な命令調整のためのエージェント ネイティブ データ進化型合成ツール</a></h3>
      <p class="summary">AI エージェントは、AI 研究自体、特にベース LLM を調整されたアシスタントに変換する重要なトレーニング後のフェーズを自動化するという任務をますます受けています。しかし、最近の評価では、フロンティアエージェントでさえこの任務を遂行するのに苦労していることが明らかになりました。ポストトレーニングの成功は基本的に高品質のデータの取得にかかっていますが、オープン Web からターゲットを絞ったトレーニング データセットを自律的にキュレーションするエージェントに依存すると、深刻な課題が生じます。ノイズの多い Web 環境内でデータの検索、フィルタリング、バランシングという長期的なタスクを実行すると、エージェントの限られたコンテキストに負荷がかかることが多く、最終的にはデータセットの品質が低下し、ダウンストリーム トレーニングのパフォーマンスが最適化されません。このギャップを埋めるために、データ生成をプラグアンドプレイの \emph{エージェント スキル} として再考するフレームワークである Andes (Agent Native Data Evolving Synthesis) を導入します。 \textsc{Andes} は、エージェントに複雑なデータ収集戦略を一から考案させるのではなく、インテリジェントな抽象化レイヤーを提供します。自己進化する World Tree ルーティング メカニズムと実用的な診断レポートを活用することで、トレーナー エージェントが対話型の閉ループ インターフェイスを通じてデータ合成を動的に操作できるようになります。厳しいコンピューティング制約の下で、根本的に弱いエージェントに Andes を装備すると、自動調整が向上し、PostTrainBench での最先端のパフォーマンスと堅牢なクロスタスクの汎化が確保されることを実証します。私たちのプロジェクトは https://github.com/zzy1127/ANDES で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ANDES: Agent Native Data Evolving Synthesis Tool for Autonomous Instruction Alignment</p>
        <p class="orig-summary">AI agents are increasingly being tasked with automating AI research itself, particularly the critical post-training phase that transforms base LLMs into aligned assistants. However, recent evaluations reveal that even frontier agents struggle to perform this task. While the success of post-training fundamentally relies on acquiring high-quality data, relying on agents to autonomously curate targeted training datasets from the open web introduces severe challenges. Executing the long-horizon tasks of searching, filtering, and balancing data within noisy web environments frequently overwhelms an agent&#x27;s limited context, ultimately leading to degraded dataset quality and suboptimal downstream training performance. To bridge this gap, we introduce Andes (Agent Native Data Evolving Synthesis), a framework that reimagines data generation as a plug-and-play \emph{agent skill}. Rather than forcing agents to devise complex data-gathering strategies from scratch, \textsc{Andes} provides an intelligent abstraction layer. By leveraging a self-evolving World Tree routing mechanism and actionable diagnostic reports, it allows trainer agents to dynamically steer data synthesis through an interactive, closed-loop interface. We demonstrate that under strict compute constraints, equipping foundationally weaker agents with Andes improves automated alignment, securing state-of-the-art performance on PostTrainBench and robust cross-task generalization. Our project is available at https://github.com/zzy1127/ANDES.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1d7c4ba1d155" data-article-url="https://arxiv.org/abs/2606.01314" data-article-title="SkillSmith: 自己改善エージェント システムのための共進化スキルとツール" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01314" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01314" target="_blank" rel="noopener">SkillSmith: 自己改善エージェント システムのための共進化スキルとツール</a></h3>
      <p class="summary">最近の自己進化エージェントは、実行を通じてスキルを発見、洗練、蓄積できることを示しています。ただし、既存のスキル進化フレームワークは通常、固定ツール層を想定し、各スキルを個別に評価するため、ツールレベルの障害を修復したり、スキル間の相互作用を推論したりする能力が制限されています。私たちは、相乗効果を意識したスキルとツールの共進化フレームワークである SkillSmith を提案します。 SkillSmith は、リフレクションによってスキルとツールを共同で変更するアトミック バンドルを生成する統合提案スペースを導入します。これにより、スキルの進化により再利用可能な機能のギャップが特定された場合に、ツールをラップ、編集、構成、分割、または廃止できるようになります。この共同研究を導くために、SkillSmith はロトカ・ヴォルテラ力学にヒントを得た生態学的実用モデルを維持しています。このモデルでは、実行トレースから推定された相互作用行列がスキル間のペアの相補性と競合を捉え、検索、突然変異の優先順位付け、およびリタイアのための圧力シグナルを提供します。さらに、SkillSmith は、失敗の兆候、原因の帰属、救済策などのアンチパターンを記録し、既知の間違いを繰り返す診断と拒否権の提案を迅速化します。 WildClawBench を含む 3 つのベンチマークと 5 つの Qwen3.5 モデル スケールでの実験では、SkillSmith が一貫して強力なベースラインを上回り、タスクの複雑さと複数スキルの同時アクティベーションが増加するにつれて向上することがわかりました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SkillSmith: Co-Evolving Skills and Tools for Self-Improving Agent Systems</p>
        <p class="orig-summary">Recent self-evolving agents have shown that skills can be discovered, refined, and accumulated through execution. However, existing skill-evolution frameworks typically assume a fixed tool layer and evaluate each skill independently, limiting their ability to repair tool-level failures or reason about interactions among skills. We propose SkillSmith, a synergy-aware skill-tool co-evolution framework. SkillSmith introduces a unified proposal space in which reflection produces atomic bundles that jointly modify skills and tools, allowing tools to be wrapped, edited, composed, split, or retired when skill evolution identifies a reusable capability gap. To guide this joint search, SkillSmith maintains an ecological utility model inspired by Lotka-Volterra dynamics, where an interaction matrix estimated from execution traces captures pairwise complementarity and conflict among skills and provides pressure signals for retrieval, mutation prioritization, and retirement. Furthermore, SkillSmith records anti-patterns, including failure signatures, causal attributions, and remedies, to accelerate diagnosis and veto proposals that repeat known mistakes. Experiments on three benchmarks, including WildClawBench, and five Qwen3.5 model scales show that SkillSmith consistently outperforms strong baselines, with gains that amplify as task complexity and multi-skill co-activation increase.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e65f0fb53ae7" data-article-url="https://arxiv.org/abs/2606.01316" data-article-title="Science Earth: AI ネイティブの科学的発見のための地球規模のオペレーティング システムを目指して" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01316" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01316" target="_blank" rel="noopener">Science Earth: AI ネイティブの科学的発見のための地球規模のオペレーティング システムを目指して</a></h3>
      <p class="summary">科学的発見には、広大な探索空間にわたる知性、忍耐力、偶然の発見が必要です。現在、最高の科学的能力は依然としてサイロ化されており、ある AI システムは生物学的分析用、別の AI システムは臨床推論、数学的導出、材料シミュレーション用というように、質問に必要なすべてのスキルを事前に設計されたチームは予測できません。 Science Earth は地球規模の科学ランタイムであり、シミュレーション クラスター、ウェットラボ ロボット、プルーフ エンジン、シングルセル パイプラインなど、あらゆる機能を他の機能に接続でき、質問自体からコラボレーション構造が生まれます。その基盤となる EACN プロトコルにより、誰が誰と会うのかを事前に知らなくても、各機能が相互に発見し、タスクの所有権を交渉し、互換性のない証拠基準間で裁定を行うことができます。これにより、組織化の課題はワークフロー設計からオープンエンドの接続へと移行します。 2 回の実行により、構造的に異なる条件下でこれが検証されました。太平洋横断の高次倉本同期研究では、エージェントは、ローレンツ限界外で破綻するオット・アントンセン解析理論の閉包率の仮定を 30 分以内に特定し、修正しました。 488 万セルの Kang 2024 汎がんアトラスでの 8 つの薬剤の単一セルの実行では、異種機能が 64.9 時間のウィンドウにわたって 1 つの構造外部命令と結合され、3 つの新しい結果層が生成され、隣接する CCR8-TIGIT+ Treg サブセットに関する独立したウェットラボ研究に対して所見を固定しました。これらのケースは、最初の経験的な読み取りであり、ベンチマークのスイープではありません。彼らは、AI の機能が真に接続可能になり、問題から調整が生まれると、科学的推論が分散型の自己修正プロセスとなり、AI ネイティブの発見を地球規模に拡大するための一歩となることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Science Earth: Towards A Planet-Scale Operating System for AI-Native Scientific Discovery</p>
        <p class="orig-summary">Scientific discovery demands intelligence, perseverance, and serendipity across vast search spaces. Today, top scientific capabilities remain siloed--one AI system for biological analysis, another for clinical reasoning, mathematical derivation, or materials simulation--and no pre-designed team can anticipate every skill a question will need. Science Earth is a planet-scale scientific runtime in which any capability--a simulation cluster, a wet-lab robot, a proof engine, a single-cell pipeline--can connect to any other, with collaboration structure emerging from the question itself. Its underlying EACN protocol lets capabilities discover one another, negotiate task ownership, and adjudicate across incompatible evidentiary standards without prior knowledge of who will meet whom. This shifts the organizing challenge from workflow design to open-ended connectivity. Two runs validate this under structurally distinct conditions. In a trans-Pacific higher-order Kuramoto synchronization study, agents identified and corrected a closure-ratio assumption in Ott-Antonsen analytic theory that fails outside the Lorentzian limit, within thirty minutes. In an eight-agent single-cell run on the 4.88M-cell Kang 2024 pan-cancer atlas, heterogeneous capabilities coupled over a 64.9-hour window with one structural external instruction, producing three new result layers and anchoring findings against an independent wet-lab study on an adjacent CCR8- TIGIT+ Treg subset. These cases are a first empirical reading, not a benchmark sweep. They show that when AI capabilities are truly connectable and coordination emerges from the problem, scientific reasoning becomes a distributed, self-correcting process--a step towards scaling AI-native discovery to the planet.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f3da87ae4179" data-article-url="https://arxiv.org/abs/2606.01351" data-article-title="オーケストレーターを認識する: LLM マルチエージェント システムのエントロピー ダイナミクスの視点" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01351" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01351" target="_blank" rel="noopener">オーケストレーターを認識する: LLM マルチエージェント システムのエントロピー ダイナミクスの視点</a></h3>
      <p class="summary">シングルターン モデルからマルチ エージェント システム (MAS) への移行により、問題解決機能の強化が期待できますが、集中型オーケストレーション トポロジは依然として脆弱性の重要な点です。これを分析するために、タスク解決と累積的なコンテキスト読み込みの競合する力によって支配されるシステムとしてオーケストレーション プロセスをモデル化する、平均場エントロピー ダイナミクス フレームワークを提案します。検証を容易にするために、高密度の中間チェックポイントを備えたプロセス検証可能で複雑性の高いベンチマークを合成するマルチエージェント パイプラインである逆ワークフロー生成 (IWG) を導入します。私たちは、エントロピー力学モデルが経験的な軌跡に適合し、システムの安定性とパフォーマンスの崩壊を定量化する物理的に解釈可能なパラメーターを提供することを実証します。重要なことに、私たちの分析は「推論の罠」を明らかにしました。推論を重視したモデルは、孤立したタスクでは優れていますが、コンテキストの圧迫によりオーケストレーターとしては失敗することがよくあります。オーケストレーターの基礎となる物理メカニズムを解明し、システムの不確実性を定量化することで、MAS のアーキテクチャ設計に関する洞察が得られます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Recognize Your Orchestrator: An Entropy Dynamics Perspective for LLM Multi-Agent Systems</p>
        <p class="orig-summary">The transition from single-turn models to Multi-Agent Systems (MAS) promises enhanced problem-solving capabilities, yet the centralized orchestration topology remains a critical point of fragility. To analyze this, we propose a Mean-Field Entropy Dynamics framework, modeling the orchestration process as a system governed by the competing forces of task resolution and cumulative context loading. To facilitate validation, we introduce Inverse Workflow Generation (IWG), a multi-agent pipeline that synthesizes process-verifiable, high-complexity benchmarks with dense intermediate checkpoints. We demonstrate that our entropy dynamics model fits empirical trajectories, providing physically interpretable parameters that quantify system stability and performance collapse. Crucially, our analysis uncovers a ``Reasoning Trap&quot;: while reasoning-heavy models excel in isolated tasks, they frequently fail as orchestrators due to context squeezing. Elucidating the physical mechanisms underlying the Orchestrator and quantifying systemic uncertainty offers insights for the MASs&#x27; architectural design.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="677abdc9b70a" data-article-url="https://arxiv.org/abs/2606.01352" data-article-title="FlowTime: フローベースのパーソナライズされた事前予測による継続的な生成総再生時間予測に向けて" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01352" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01352" target="_blank" rel="noopener">FlowTime: フローベースのパーソナライズされた事前予測による継続的な生成総再生時間予測に向けて</a></h3>
      <p class="summary">総再生時間は、ショートビデオ レコメンダー システムにおける深いユーザー エンゲージメントを最適化するための極めて重要な指標として浮上しています。ただし、現在の総再生時間予測 (WTP) 方法には、パラダイム固有の固有の制限があります。直接回帰は単峰性ガウス仮定による平均値の崩壊に直面しますが、順序回帰は厳密な離散化による量子化誤差によって妨げられます。同様に、離散生成回帰は、高い推論レイテンシーとヒューリスティックな語彙設計に苦労します。これらの特定の欠陥以外にも、ユーザーとアイテムのインタラクション パターンの本質的な多様性と異質性を捉えることができないという共通の欠陥があります。これらの課題に対処するために、私たちはまず因果関係の観点から WTP 問題を再検討し、これらのユーザー固有のパターンを総再生時間の結果を調整する構造的交絡因子として特定します。そこでは、同一の関心が、多様なユーザーの習慣に条件付けられた異なる総再生時間の結果として現れます。次に、新しい (または 4 番目の) パラダイムである連続生成回帰を正式に提案し、ワンステップ生成変分オートエンコーダーを利用した新しい手法である FlowTime を紹介します。 FlowTime は、連続潜在空間の表現力を維持しながら、反復ノイズ除去の遅延を効果的に回避します。さらに、NF を利用して標準ガウス事前分布を複雑な履歴条件付き多様体にワープするフローベースのパーソナライズされた事前分布を設計します。これにより、マルチモーダルな相互作用パターンの適応モデリングが可能になります。最後に、厳格なベンチマーク標準を確立するための新しいパーソナライゼーション メトリックとともに、初のオープンソース WTP ライブラリである TimeRec を構築します。広範なオフライン実験とオンライン A/B テストにより、SOTA メソッドに対する FlowTime の大きな優位性が実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">FlowTime: Towards Continuous Generative Watch Time Prediction via Flow-based Personalized Priors</p>
        <p class="orig-summary">Watch time has emerged as a pivotal metric for optimizing deep user engagement in short-video recommender systems. However, current methods of watch time prediction (WTP) suffer from inherent paradigm-specific limitations. Direct Regression faces mean-collapse due to unimodal Gaussian assumptions, while Ordinal Regression is hampered by quantization errors from rigid discretization. Similarly, Discrete Generative Regression struggles with high inference latency and heuristic vocabulary design. Beyond these specific flaws, a shared deficiency is the inability to capture the intrinsic multimodality and heterogeneity of User-Item Interaction Patterns. To address these challenges, we first revisit the WTP problem from a causal perspective and identify these user-specific patterns as structural confounders that modulate watch time outcomes, where identical interests manifest as distinct watch time outcomes conditioned on diverse user habits. Then, we formally propose a new (or the fourth) paradigm -- Continuous Generative Regression, and introduce FlowTime, a novel method utilizing a One-step Generative Variational Autoencoder. FlowTime effectively circumvents the latency of iterative denoising while maintaining the expressivity of continuous latent spaces. Furthermore, we design a Flow-based Personalized Prior that leverages NFs to warp a standard Gaussian prior into a complex, history-conditioned manifold, thereby enabling the adaptive modeling of multimodal interaction patterns. Finally, we build TimeRec, the first open-source WTP Library, alongside a novel personalization metric to establish a rigorous benchmarking standard. Extensive offline experiments and online A/B tests demonstrate FlowTime&#x27;s significant superiority over SOTA methods.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c7d7dc5734de" data-article-url="https://arxiv.org/abs/2606.01365" data-article-title="障害を認識した可観測性によるマルチエージェント LLM システムの無駄な計算の早期診断" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01365" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01365" target="_blank" rel="noopener">障害を認識した可観測性によるマルチエージェント LLM システムの無駄な計算の早期診断</a></h3>
      <p class="summary">ツールを使用するマルチエージェント大規模言語モデル (LLM) システムは、応答を生成する前に、モデル トークン、ツール呼び出し、再試行、コード実行による計算を費やします。実行が失敗した場合、最終応答の評価によって終点が明らかになりますが、通常は、軌道が回復可能な進行を停止した時点ではありません。このペーパーでは、マルチエージェント LLM トレースにおける無駄な計算を診断するための障害認識可観測性フレームワークを紹介します。このフレームワークは、ツールの信頼性、実行の回復、オーケストレーション ループ、証拠の可用性、情報の変更、予算のプレッシャーなど、繰り返し発生する障害モードをオンライン トレース信号にマッピングします。 3 エージェントの質問応答システムでフレームワークをインスタンス化し、同一の実行上限の下で 165 の GAIA 検証トレースで評価します。運用上の失敗は依然として一般的です。レベル 1 の実行は 22/53 回、レベル 2 の実行は 33/86 回、レベル 3 の実行は 12/26 回で、使用可能な最終応答を生成できませんでした。トレースは、不十分な証拠、反復アクション ループ、最大ステップ終了、ツール失敗の連続発生、有用な出力なしで成功する実行呼び出しなど、これらの結果の背後にあるさまざまなメカニズムを明らかにします。平均トークン使用量はレベル 1 の 8,152 トークンからレベル 3 の 16,389 トークンに増加しますが、証拠の入手可能性と文レベルのサポートは異なります。キャッシュされた 10 トレースの LLM ジャッジ グラウンディング監査により、安価なオンライン シグナルとより深いセマンティック メトリクスが相補的な障害層を捉えていることがわかります。その結果、障害を認識する可観測性は、生の実行ログと最終応答の精度の間の診断レイヤーとして位置付けられます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Early Diagnosis of Wasted Computation in Multi-Agent LLM Systems via Failure-Aware Observability</p>
        <p class="orig-summary">Tool-using multi-agent large language model (LLM) systems spend computation through model tokens, tool calls, retries, and code execution before producing an answer. When a run fails, final-answer evaluation reveals the endpoint but usually not the point at which the trajectory stopped making recoverable progress. This paper introduces a failure-aware observability framework for diagnosing wasted computation in multi-agent LLM traces. The framework maps recurring failure modes to online trace signals, including tool reliability, execution recovery, orchestration loops, evidence availability, information change, and budget pressure. We instantiate the framework in a three- agent question-answering system and evaluate it on 165 GAIA validation traces under identical execution caps. Operational failures remain common: 22/53 level-1 runs, 33/86 level-2 runs, and 12/26 level-3 runs fail to produce a usable final answer. The traces expose different mechanisms behind these outcomes, including insufficient evidence, repeated-action loops, max-step termination, tool-failure streaks, and execution calls that succeed without useful output. Mean token use rises from 8,152 tokens at level 1 to 16,389 tokens at level 3, while evidence availability and sentence-level support diverge. A cached 10-trace LLM-judge grounding audit shows that cheap online signals and deeper semantic metrics capture complementary layers of failure. The results position failure-aware observability as a diagnostic layer between raw execution logs and final-answer accuracy.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d07ba3104a29" data-article-url="https://arxiv.org/abs/2606.01386" data-article-title="GuidaPA: Federated Learning を介した行政向けプライバシー保護チャットボット" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01386" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01386" target="_blank" rel="noopener">GuidaPA: Federated Learning を介した行政向けプライバシー保護チャットボット</a></h3>
      <p class="summary">イタリア行政 (PA) 向けのプライバシー保護チャットボットである GuidaPA を紹介します。GuidaPA は、2 つの国家 PA プラットフォームである SIGESON と SIDFORS の文書に基づいて Federated Learning (FL) 経由でトレーニングされました。私たちのコーパスには、約 8 ページの SIGESON マニュアルと 31 ページの SIDFORS マニュアル/FAQ が含まれています。この調査では安全な代理として公的文書を使用していますが、意図された展開は、規制や組織の制約により一元的にプールできない制限された内部ソース (チケット、役員マニュアル、データベースの抜粋など) にまで拡張されます。 GuidaPA は、ロールベースのアクセス制御、安全なクライアント側の前処理、非 IID 効果の明示的なモニタリング、および大規模な言語モデルのパラメータ効率の高いフェデレーテッド微調整を統合します。 QLoRA (4 ビット) をクライアントごとに 80/20 のトレーニングとテストに分割した 15 のフェデレーション ラウンドにわたって使用し、ROUGE、BLEU-4、および METEOR の応答品質を評価しました。最適なフェデレーション モデルは、ROUGE-1/2/L 61.10/55.77/59.44、BLEU-4 45.02、METEOR 63.94 を達成しており、データをオンサイトに維持しながらプライベート集中微調整に近い値を実現します。汎用ベースラインと比較して、ドメイン微調整により、ROUGE-1 は 41.45 から 62.18 に、BLEU-4 は 26.97 から 50.90 に改善されました。全体として、結果は、FL が集中的なデータ共有なしで公共サービス向けに高品質の会話型 AI を提供できることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GuidaPA: Privacy-Preserving Chatbot for Public Administration via Federated Learning</p>
        <p class="orig-summary">We present GuidaPA, a privacy-preserving chatbot for the Italian Public Administration (PA) trained via Federated Learning (FL) on documentation from two national PA platforms, SIGESON and SIDFORS. Our corpus includes approximately 8 pages of SIGESON manuals and 31 pages of SIDFORS manuals/FAQs; while this study uses public documentation as a safe proxy, the intended deployment extends to restricted internal sources (e.g., tickets, officer manuals, database extracts) that can not be centrally pooled due to regulatory and organizational constraints. GuidaPA integrates role-based access control, secure client-side preprocessing, explicit monitoring of non-IID effects, and parameter-efficient federated fine-tuning of large language models. Using QLoRA (4-bit) over 15 federated rounds with an 80/20 train-test split per client, we evaluate answer quality with ROUGE, BLEU-4, and METEOR. The best federated model achieves ROUGE-1/2/L of 61.10/55.77/59.44, BLEU-4 of 45.02, and METEOR of 63.94-close to private centralized fine-tuning while keeping data on-site. Compared to the general-purpose baseline, domain fine-tuning improves ROUGE-1 from 41.45 to 62.18 and BLEU-4 from 26.97 to 50.90. Overall, the results indicate that FL can deliver high-quality conversational AI for public services without centralized data sharing</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="afcdccdc4728" data-article-url="https://arxiv.org/abs/2606.01416" data-article-title="信頼性の高いツールで拡張された大規模言語モデル システムのための自己修復エージェント オーケストレーター" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01416" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01416" target="_blank" rel="noopener">信頼性の高いツールで拡張された大規模言語モデル システムのための自己修復エージェント オーケストレーター</a></h3>
      <p class="summary">ツール拡張大規模言語モデル (LLM) エージェントは、計画、取得、ツールの呼び出し、検証、メモリ、回復を調整するオーケストレーション層に依存します。これらのシステムでは、障害はモデル エラーだけでなく、ツールのタイムアウト、不正な形式の引数、古いコンテキスト、矛盾した証拠、再試行ループ、未検証の中間出力などのオーケストレーション レベルの問題からも発生します。このペーパーでは、信頼性を制限されたランタイム制御問題として扱う自己修復エージェント オーケストレーターについて説明します。オーケストレーターは、観測可能な障害信号を推定された障害クラスにマッピングし、明示的な予算に基づいて対象となる回復アクションを選択し、回復した軌跡を検証して、可観測性トレースを記録します。静的ワークフロー、再試行のみ、ReAct スタイル、および完全な再計画ベースラインに対して、100 タスク制御のフォールト挿入ベンチマークでアプローチを評価します。自己修復ではタスクの成功率が 98.8\% に達します。これに対し、再試行のみの場合は 94.5\%、完全な再計画の場合は 93.8\% です。一致するリカバリ予算スイープでは、テストされたすべての予算で自己修復が再試行のみのパフォーマンスと完全な再計画よりも優れており、1 回のリカバリ試行で最大の差があり、それぞれ 94.0\% 対 85.3\% および 88.2\% であることが示されています。制御されたセマンティックなサイレント障害設定の下では、ベリファイアガイドによる自己修復によりサイレント障害が 0.0% に減少しますが、非検証ベースラインは間違っているが妥当な出力をより頻繁に返します。コンパクトなモデルインザループ検証は、ライブツール呼び出しモデルがローカルのフォールト挿入ツール上でツール選択、引数生成、および応答合成を実行するときに、同じ回復メカニズムが動作できることを示しています。これらの結果は、障害を認識し、予算に基づいて検証をガイドしたオーケストレーションにより、ツールで強化された LLM システムの信頼性と診断可能性が向上するという、統制された証拠を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Self-Healing Agentic Orchestrators for Reliable Tool-Augmented Large Language Model Systems</p>
        <p class="orig-summary">Tool-augmented large language model (LLM) agents rely on orchestration layers that coordinate planning, retrieval, tool invocation, validation, memory, and recovery. In these systems, failures arise not only from model errors, but also from orchestration-level issues such as tool timeouts, malformed arguments, stale context, contradictory evidence, retry loops, and unverified intermediate outputs. This paper presents a self-healing agentic orchestrator that treats reliability as a bounded runtime control problem. The orchestrator maps observable failure signals to inferred failure classes, selects targeted recovery actions under explicit budgets, verifies recovered trajectories, and records observability traces. We evaluate the approach on a 100-task controlled fault-injection benchmark against static workflow, retry-only, ReAct-style, and full-replanning baselines. Self-healing achieves 98.8\% task success, compared with 94.5\% for retry-only and 93.8\% for full replanning. A matched recovery-budget sweep shows that self-healing outperforms retry-only and full replanning at every tested budget, with the largest gap under a single recovery attempt: 94.0\% versus 85.3\% and 88.2\%, respectively. Under a controlled semantic silent-failure setting, verifier-guided self-healing reduces silent failures to 0.0\%, while non-verifying baselines return wrong-but-plausible outputs more often. A compact model-in-the-loop validation shows that the same recovery mechanism can operate when a live tool-calling model performs tool selection, argument generation, and answer synthesis over local fault-injected tools. These results provide controlled evidence that failure-aware, budgeted, and verification-guided orchestration improves reliability and diagnosability in tool-augmented LLM systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d472021a70f2" data-article-url="https://arxiv.org/abs/2606.01417" data-article-title="GovAI-Pipe: トルコの電子政府ゲートウェイにおける国民向け AI のための階層型 AI ガバナンス パイプライン" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01417" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01417" target="_blank" rel="noopener">GovAI-Pipe: トルコの電子政府ゲートウェイにおける国民向け AI のための階層型 AI ガバナンス パイプライン</a></h3>
      <p class="summary">トルコの電子政府ゲートウェイ (e-Devlet) は、6,800 万人以上の登録ユーザーに 9,200 以上の政府サービスを提供しており、チャットボット アシスタントや資格評価などの国民向けアプリケーションへの人工知能の統合が進んでいます。しかし、現時点では、EU AI 法、OECD AI 原則、トルコ独自の国家 AI 戦略などの高レベルの AI 政策枠組みを、一元化された電子政府プラットフォーム内で AI を導入する運用上の現実に結びつける、構造化された技術ガバナンス インフラストラクチャはありません。私たちは、デザイン サイエンス リサーチ手法を使用して設計された 4 層のガバナンス パイプラインである GovAI-Pipe を提案します。これは、AI モデルのライフサイクルをガバナンス チェックポイントにマッピングします。(1) バイアス テスト、説明可能性、およびプライバシーへの影響評価のための導入前検証。 (2) リスク層の分類と承認ワークフローの導入ガバナンス。 (3) ドリフト検出、公平性追跡、および人間参加型エスカレーションのためのランタイム監視。 (4) 監査証跡、ロールバック、住民救済のためのインシデント後のガバナンス。各レイヤーは、EU AI 法、GDPR データ保護フレームワーク、および国家 AI 戦略の特定の規定に基づいています。 2 つの高リスク e-Devlet ユースケースを通じてフレームワークを実証し、GovAI-Pipe が監査可能な技術的なパイプライン コンポーネントとしてガバナンス原則を運用する方法を示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GovAI-Pipe: A Layered AI Governance Pipeline for Citizen-Facing AI in Turkey&#x27;s e-Government Gateway</p>
        <p class="orig-summary">Turkey&#x27;s e-Government Gateway (e-Devlet) serves over 68 million registered users with more than 9,200 government services, and is increasingly integrating artificial intelligence into citizen-facing applications such as chatbot assistants and eligibility assessments. However, no structured technical governance infrastructure currently connects high-level AI policy frameworks, such as the EU AI Act, OECD AI Principles, and Turkey&#x27;s own National AI Strategy, to the operational reality of deploying AI within a centralized e-government platform. We propose GovAI-Pipe, a four-layer governance pipeline designed using Design Science Research methodology that maps the AI model lifecycle to governance checkpoints: (1) pre-deployment validation for bias testing, explainability, and privacy impact assessment; (2) deployment governance for risk-tier classification and approval workflows; (3) runtime monitoring for drift detection, fairness tracking, and human-in-the-loop escalation; and (4) post-incident governance for audit trails, rollback, and citizen redress. Each layer is anchored to specific provisions of the EU AI Act, the GDPR data protection framework, and the National AI Strategy. We demonstrate the framework through two high-risk e-Devlet use cases, showing how GovAI-Pipe operationalizes governance principles as auditable, technical pipeline components.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bc1b19461c3e" data-article-url="https://arxiv.org/abs/2606.01435" data-article-title="LLM に鮮度の追跡を依頼しないでください: メモリ競合解決のための決定論的なレシピ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01435" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01435" target="_blank" rel="noopener">LLM に鮮度の追跡を依頼しないでください: メモリ競合解決のための決定論的なレシピ</a></h3>
      <p class="summary">LLM ベースのメモリ システムは、時間の経過とともに進化するファクトをますます維持します。この場合、繰り返される障害が競合の解決になります。ファクトに複数の矛盾する値がある場合、エージェントはどれを返すべきでしょうか? MemoryAgentBench (MAB; Hu et al., 2026) は、FactConsolidation タスクでこれを明示しています。事実には番号が付けられ、反事実の方がシリアル値が高く、エージェントには新しいファクトほどシリアル値が大きいことが伝えられます。しかし、公開されているシステムはすべてパフォーマンスを下回っています。HippoRAG-v2 はシングルホップ (FC-SH) で 54%、BM25 は 48%、Mem0 は 18%、一時的な KG Zep/Graphiti はわずか 7% に達しています。マルチホップはほぼ未解決です (22 システム全体で最大 7%)。私たちは、ボトルネックはアセンブリのステップであると主張します。ベースラインでは、バージョンを意識した集約ではなく、LLM を介した取得または生成に競合解決が委ねられています。一致したセットアップの比較 (同じバックボーン、取得、チャンキング、TOP_K) では、LLM 判定の回答パイプラインを候補抽出と Python max(serial) に置き換えることで、FC-SH (gpt-4o-mini) で +10.8 ポイントが得られ、6K での +8 から 262K での +21 に拡大することが示されています。これはパイプライン全体の影響です (リゾルバー、プロンプト、フォーマット、温度が連動して変化します)。リゾルバの分離は今後の課題です。 Self-Ask のホップごとの決定的拡張により、レシピは FC-SH (gpt-4o-mini) で 78.0%、94.8% (gpt-4o)、FC-MH (gpt-4o-mini、gpt-4o では 51.5% に上昇) で 30.2% に達します。 matched-262K では、HippoRAG-v2 を +28 ポイント上回り、公開されている FC-MH の最高の結果を +20 ポイント上回っています。これはサブフィールドの修正を意味します。競合解決のボトルネックは、ストレージではなくアセンブリ (取得後の集計) です。 LongMemEval ナレッジ更新チェックでは、メカニズムのポートが max(serial) から max(timestamp) までであることが示されますが、LLM 判定 (57.8% 対 64.4%、n=45) のみが関連付けられています。確定的集計は、現在値の競合に対して適切なプリミティブであり、より広範なメモリ QA に対して質問タイプを認識した処理で構成する必要があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Don&#x27;t Ask the LLM to Track Freshness: A Deterministic Recipe for Memory Conflict Resolution</p>
        <p class="orig-summary">LLM-based memory systems increasingly maintain facts that evolve over time, where a recurring failure is conflict resolution: when a fact has multiple contradictory values, which should the agent return? MemoryAgentBench (MAB; Hu et al., 2026) makes this explicit in its FactConsolidation task: facts are numbered, the counterfactual has the higher serial, and agents are told newer facts have larger serials. Yet every published system underperforms: HippoRAG-v2 reaches 54% on single-hop (FC-SH), BM25 48%, Mem0 18%, and the temporal KG Zep/Graphiti just 7%. Multi-hop is near-unsolved (at most 7% across 22 systems). We argue the bottleneck is the assembly step: baselines leave conflict resolution to LLM-mediated retrieval or generation rather than version-aware aggregation. A matched-setup comparison (same backbone, retrieval, chunking, TOP_K) shows that replacing the LLM-judgment answer pipeline with candidate-extraction plus Python max(serial) yields +10.8 points on FC-SH (gpt-4o-mini), widening from +8 at 6K to +21 at 262K. This is a whole-pipeline effect (resolver, prompt, format, and temperature vary jointly); isolating the resolver is future work. The recipe reaches 78.0% on FC-SH (gpt-4o-mini), 94.8% (gpt-4o), and 30.2% on FC-MH (gpt-4o-mini, rising to 51.5% with gpt-4o) via a per-hop deterministic extension of Self-Ask. At matched-262K, it beats HippoRAG-v2 by +28 points and the best published FC-MH result by +20. The implication is corrective for the subfield: the bottleneck on conflict resolution is assembly (post-retrieval aggregation), not storage. A LongMemEval knowledge-update check shows the mechanism ports from max(serial) to max(timestamp) but only ties LLM judgment (57.8% vs 64.4%, n=45): deterministic aggregation is the right primitive for current-value conflicts and must be composed with question-type-aware handling for broader memory QA.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2fa8e323e6f1" data-article-url="https://arxiv.org/abs/2606.01441" data-article-title="曖昧さへのダイブ: LLM プロンプトに対するマルチエージェントのコモンセンス難読化攻撃* にヒントを得た" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01441" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01441" target="_blank" rel="noopener">曖昧さへのダイブ: LLM プロンプトに対するマルチエージェントのコモンセンス難読化攻撃* にヒントを得た</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、推論や知識集約的なタスクには優れていますが、常識的な幻覚を引き起こしながら意図を保持するプロンプトレベルの敵対的攻撃に対しては依然として脆弱です。 LLM は事実の信頼性が交渉の余地のない安全性が重要な領域に急速に統合されているため、この脆弱性は緊急です。既存の攻撃方法は効率性に欠けているか、現実世界の敵の適応戦略を捉えることができません。私たちは、A* にインスピレーションを得た事実エラー誘導フレームワーク、つまり意味的に整合していながら難読化されたプロンプトを生成するためのフレームワークを提案します。その核心となるのは、動的セマンティック分散係数 $\gamma$ に基づいた階層的書き換え戦略であり、リバース シミュレーテッド アニーリング スケジュールに従って、初期の保守的な編集と、後の積極的な難読化のバランスをとります。解釈可能性を高めるために、敵対的なメカニズムを発見して洗練し、解釈可能な逆最適化を提供するエージェント メカニズム ラベリングをさらに導入します。理論的には、即時書き換えは収縮再発の後に起こり、$\gamma$ が減少するにつれて意味論の崩壊につながることを証明します。経験的には、さまざまな LLM にわたって、私たちの方法は徹底的な探索よりも高い攻撃成功率を達成しながらも、試行回数は少なく、効率と有効性の両方が実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Dive into Ambiguity: A*-Inspired Multi-Agents Commonsense Obfuscation Attack on LLM Prompts</p>
        <p class="orig-summary">Large language models (LLMs) excel in reasoning and knowledge-intensive tasks but remain vulnerable to prompt-level adversarial attacks that preserve intent while triggering commonsense hallucinations. This vulnerability is urgent, as LLMs are rapidly integrated into safety-critical domains where factual reliability is non-negotiable. Existing attack methods either lack efficiency or fail to capture the adaptive strategies of real-world adversaries. We propose an A*-inspired Factual Error Induction Framework, a framework for generating semantically aligned yet obfuscated prompts. At its core is a Hierarchical Rewrite Strategy guided by a dynamic semantic dispersion coefficient $\gamma$ that balances conservative edits early with aggressive obfuscations later, following a reverse simulated annealing schedule. To enhance interpretability, we further introduce Agentic Mechanism Labeling, which discovers and refines adversarial mechanisms, offering interpretable reverse optimization. Theoretically, we prove that prompt rewriting follows a contractive recurrence, leading to semantic collapse as $\gamma$ decreases. Empirically, across diverse LLMs, our method achieves higher attack success rates than exhaustive exploration while requiring fewer attempts, demonstrating both efficiency and effectiveness.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6268bcec556a" data-article-url="https://arxiv.org/abs/2606.01444" data-article-title="Self-Revising Discovery Systems for Science: A Categorical Framework for Agentic Artificial Intelligence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01444" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01444" target="_blank" rel="noopener">Self-Revising Discovery Systems for Science: A Categorical Framework for Agentic Artificial Intelligence</a></h3>
      <p class="summary">Scientific discovery is not only answer generation but revision of the representational regime in which evidence, artifacts, operations, an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1fe0407da565" data-article-url="https://arxiv.org/abs/2606.01457" data-article-title="Transferring Information Across Interventions in Causal Bayesian Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01457" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01457" target="_blank" rel="noopener">Transferring Information Across Interventions in Causal Bayesian Optimization</a></h3>
      <p class="summary">Bayesian optimization is a popular way to optimize expensive systems, where every experiment, simulation, or intervention costs time or mon…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e298b65cfe65" data-article-url="https://arxiv.org/abs/2606.01462" data-article-title="An Enigma of Artificial Reason: Investigating the Production-Evaluation Gap in Large Reasoning Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01462" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01462" target="_blank" rel="noopener">An Enigma of Artificial Reason: Investigating the Production-Evaluation Gap in Large Reasoning Models</a></h3>
      <p class="summary">Studies of human reasoning have shown that people are typically stronger at evaluating reasoning than producing it from scratch. In contras…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1d6504416287" data-article-url="https://arxiv.org/abs/2606.01473" data-article-title="A Minimalist Brain-Computer Musical Interface for Real-Time Emotion-Driven Sonification: System Design and Preliminary Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01473" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01473" target="_blank" rel="noopener">A Minimalist Brain-Computer Musical Interface for Real-Time Emotion-Driven Sonification: System Design and Preliminary Evaluation</a></h3>
      <p class="summary">This paper presents a minimalist brain-computer Musical Interface (BCMI) that functions as a real-time affective sonification system, trans…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f947a988109b" data-article-url="https://arxiv.org/abs/2606.01520" data-article-title="TERRA: Task-Embedded Reasoning and Representation Architecture for Cross-Domain Applications" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01520" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01520" target="_blank" rel="noopener">TERRA: Task-Embedded Reasoning and Representation Architecture for Cross-Domain Applications</a></h3>
      <p class="summary">A single action-conditioned latent predictive architecture can in principle be trained on the structured state of a driving scene, a robot…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bb34f799957e" data-article-url="https://arxiv.org/abs/2606.01528" data-article-title="Joint Agent Memory and Exploration Learning via Novelty Signals" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01528" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01528" target="_blank" rel="noopener">Joint Agent Memory and Exploration Learning via Novelty Signals</a></h3>
      <p class="summary">In open-ended environments, exploration is fundamental for autonomous agents, yet current language model agents struggle with this. Effecti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cac8cd208901" data-article-url="https://arxiv.org/abs/2606.01552" data-article-title="RoleCDE:Benchmarking and Mitigating Role-Alignment Trade-offs in Role-Playing Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01552" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01552" target="_blank" rel="noopener">RoleCDE:Benchmarking and Mitigating Role-Alignment Trade-offs in Role-Playing Agents</a></h3>
      <p class="summary">Role-playing agents(RPAs) are widely used to steer large language models(LLMs) toward role-consistent behavior, yet existing benchmarks mai…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="848c0b567e9a" data-article-url="https://arxiv.org/abs/2606.01561" data-article-title="S-SPPO: Semantic-Calibrated Self-Play Preference Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01561" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01561" target="_blank" rel="noopener">S-SPPO: Semantic-Calibrated Self-Play Preference Optimization</a></h3>
      <p class="summary">Aligning Large Language Models (LLMs) with human preferences is often formulated via Direct Preference Optimization (DPO). However, the sta…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="38dc363350fe" data-article-url="https://arxiv.org/abs/2606.01599" data-article-title="TRON: Targeted Rule-Verifiable Online Environments for Visual Reasoning RL" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01599" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01599" target="_blank" rel="noopener">TRON: Targeted Rule-Verifiable Online Environments for Visual Reasoning RL</a></h3>
      <p class="summary">Reinforcement learning (RL) for visual reasoning needs scalable, verifiable, and controllable training signals. Existing visual RL post-tra…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c27f3f883918" data-article-url="https://arxiv.org/abs/2606.01610" data-article-title="Revisiting Ripple Effects in Knowledge Editing through Pressure-Aware Joint Neighborhood Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01610" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01610" target="_blank" rel="noopener">Revisiting Ripple Effects in Knowledge Editing through Pressure-Aware Joint Neighborhood Optimization</a></h3>
      <p class="summary">Single-edit updates in large language models can trigger ripple effects across local knowledge neighborhoods: desirable propagation to rela…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6bdb604d84b7" data-article-url="https://arxiv.org/abs/2606.01619" data-article-title="ReSkill: Reconciling Skill Creation with Policy Optimization in Agentic RL" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01619" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01619" target="_blank" rel="noopener">ReSkill: Reconciling Skill Creation with Policy Optimization in Agentic RL</a></h3>
      <p class="summary">Agentic reinforcement learning (RL) enables LLM agents to improve continuously from environment rewards, yet the resulting policies do not…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1a1847463cbe" data-article-url="https://arxiv.org/abs/2606.01640" data-article-title="MobEvolve: An Agentic Self-Evolving Heuristic System for Interpretable Human Mobility Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01640" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01640" target="_blank" rel="noopener">MobEvolve: An Agentic Self-Evolving Heuristic System for Interpretable Human Mobility Generation</a></h3>
      <p class="summary">Human mobility generation aims to synthesize realistic trip chains for target populations based on individual features. Existing paradigms,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="780e86bfe992" data-article-url="https://arxiv.org/abs/2606.01725" data-article-title="Characterization of Multi-Model Agentic AI Systems on General Tasks via Trace-Driven Simulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01725" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01725" target="_blank" rel="noopener">Characterization of Multi-Model Agentic AI Systems on General Tasks via Trace-Driven Simulation</a></h3>
      <p class="summary">Agentic AI completes tasks through iterative planning, tool use, and reasoning based on observed outcomes. Despite its popularity, its syst…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cdcffe394962" data-article-url="https://arxiv.org/abs/2606.01730" data-article-title="Evidence-Gated LLM Priors for Multi-Objective Bayesian Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01730" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01730" target="_blank" rel="noopener">Evidence-Gated LLM Priors for Multi-Objective Bayesian Optimization</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly used as heuristic advisors for black-box optimization, yet their suggestions and self-reporte…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0e06fbbcc465" data-article-url="https://arxiv.org/abs/2606.01737" data-article-title="TrafficRAG: A Multimodal RAG Framework for Traffic Accident Liability Determination" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01737" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01737" target="_blank" rel="noopener">TrafficRAG: A Multimodal RAG Framework for Traffic Accident Liability Determination</a></h3>
      <p class="summary">Traffic accident liability analysis is a critical yet challenging task in intelligent transportation and legal assistance. Existing methods…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="13f6ef0ac833" data-article-url="https://arxiv.org/abs/2606.01755" data-article-title="TriAlign: Towards Universal Truth Consistency in Personalized LLM Alignment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01755" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01755" target="_blank" rel="noopener">TriAlign: Towards Universal Truth Consistency in Personalized LLM Alignment</a></h3>
      <p class="summary">Personalized large language models adapt responses to users&#x27; preferences and social attributes, but can introduce substantial universal tru…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7d8be7ff7f22" data-article-url="https://arxiv.org/abs/2606.01767" data-article-title="EvoBrain: Continual Learning of EEG Foundation Models Across Heterogeneous BCI Tasks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01767" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01767" target="_blank" rel="noopener">EvoBrain: Continual Learning of EEG Foundation Models Across Heterogeneous BCI Tasks</a></h3>
      <p class="summary">Electroencephalography (EEG) is the cornerstone of non-invasive brain-computer interfaces (BCIs), yet conventional decoding relies on fragm…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="acb6e8d03c74" data-article-url="https://arxiv.org/abs/2606.01781" data-article-title="Structure-Guided Adaptive Propagation for Protein-Protein Interaction Site Prediction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01781" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01781" target="_blank" rel="noopener">Structure-Guided Adaptive Propagation for Protein-Protein Interaction Site Prediction</a></h3>
      <p class="summary">Accurate prediction of protein-protein interaction sites (PPIS) is essential for understanding cellular processes, disease mechanisms, and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5c8c58c35d95" data-article-url="https://arxiv.org/abs/2606.01787" data-article-title="Stochastic convergence of parallel asynchronous adaptive first-order methods" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01787" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01787" target="_blank" rel="noopener">Stochastic convergence of parallel asynchronous adaptive first-order methods</a></h3>
      <p class="summary">A new class of asynchronous adaptive first-order optimization methods is introduced, comprising asynchronous variants of several popular al…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="53c62e04cc98" data-article-url="https://arxiv.org/abs/2606.01789" data-article-title="Consistency evaluation of benchmarks used for causal discovery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01789" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01789" target="_blank" rel="noopener">Consistency evaluation of benchmarks used for causal discovery</a></h3>
      <p class="summary">In graphical causal model, causal discovery aims to construct a causal graph based on numerical data and domain knowledge in plain text. Ho…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b8d65e73b01e" data-article-url="https://arxiv.org/abs/2606.01803" data-article-title="OctoT2I: A Self-Evolving Agentic Text-to-Image Router" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01803" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01803" target="_blank" rel="noopener">OctoT2I: A Self-Evolving Agentic Text-to-Image Router</a></h3>
      <p class="summary">The explosive growth of Text-to-Image (T2I) models, from large-scale versions to lightweight, real-time ones, now faces diminishing margina…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bb935affaaaf" data-article-url="https://arxiv.org/abs/2606.01810" data-article-title="Token Predictors Are Not Planners: Building Physically Grounded Causal Reasoners" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01810" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01810" target="_blank" rel="noopener">Token Predictors Are Not Planners: Building Physically Grounded Causal Reasoners</a></h3>
      <p class="summary">Current benchmarks for embodied vision-language planning often favor linguistic next-token prediction over physically grounded next-state r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6a190b5844a6" data-article-url="https://arxiv.org/abs/2606.01830" data-article-title="CAPF: Guiding Search-Agent Rollouts with Credit-Attenuated Privileged Feedback" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01830" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01830" target="_blank" rel="noopener">CAPF: Guiding Search-Agent Rollouts with Credit-Attenuated Privileged Feedback</a></h3>
      <p class="summary">Recent LLM search agents use reinforcement learning with verifiable rewards (RLVR) to learn search-augmented reasoning from outcome rewards…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cf652df6ab6a" data-article-url="https://arxiv.org/abs/2606.01840" data-article-title="Evaluation of Baseline Methods for IDD-based SSD External Memory Search" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01840" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01840" target="_blank" rel="noopener">Evaluation of Baseline Methods for IDD-based SSD External Memory Search</a></h3>
      <p class="summary">Many difficult search problems cannot be solved by algorithms such as A* using only RAM. Search algorithms which use external memory such a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="46849eff1e01" data-article-url="https://arxiv.org/abs/2606.01850" data-article-title="Does Compression Preserve Uncertainty? A Unified Benchmark for Quantized and Sparse LLMs via Conformal Prediction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01850" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01850" target="_blank" rel="noopener">Does Compression Preserve Uncertainty? A Unified Benchmark for Quantized and Sparse LLMs via Conformal Prediction</a></h3>
      <p class="summary">Model compression techniques such as quantization and pruning are widely used to reduce the deployment cost of large language models (LLMs)…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="76b046d4d96e" data-article-url="https://arxiv.org/abs/2606.01869" data-article-title="WorldCoder-Bench: Benchmarking Physically Grounded 3D World Synthesis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01869" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01869" target="_blank" rel="noopener">WorldCoder-Bench: Benchmarking Physically Grounded 3D World Synthesis</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly asked not only to write static interfaces, but to construct executable interactive worlds fro…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1e0d59692f8a" data-article-url="https://arxiv.org/abs/2606.01884" data-article-title="EVA-Net: Subject-Independent EEG Motor Decoding with Video-Derived Motor Priors" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01884" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01884" target="_blank" rel="noopener">EVA-Net: Subject-Independent EEG Motor Decoding with Video-Derived Motor Priors</a></h3>
      <p class="summary">Practical non-invasive Brain-Computer Interface (BCI) systems require EEG decoders with strong cross-subject generalization and minimal cal…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e18f24187976" data-article-url="https://arxiv.org/abs/2606.01886" data-article-title="Absorbing Complexity: An Interaction-Native Knowledge Harness for Financial LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01886" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01886" target="_blank" rel="noopener">Absorbing Complexity: An Interaction-Native Knowledge Harness for Financial LLM Agents</a></h3>
      <p class="summary">Financial AI agents often fail for a simple reason: they make users carry the complexity. A user must repeatedly restate goals, risk prefer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e68455b007d4" data-article-url="https://arxiv.org/abs/2606.01894" data-article-title="Physically-Constrained Mamba-SDE for Remaining Useful Life Prediction under Irregular Observations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01894" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01894" target="_blank" rel="noopener">Physically-Constrained Mamba-SDE for Remaining Useful Life Prediction under Irregular Observations</a></h3>
      <p class="summary">Accurate Remaining Useful Life prediction is critical for industrial predictive maintenance. However, real-world deployment is challenging…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e9ba607eb8be" data-article-url="https://arxiv.org/abs/2606.01897" data-article-title="Community-Aware Assessment of Social Textual Engagement and Resonance: A Human-Centric Perspective on User-Generated Content Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01897" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01897" target="_blank" rel="noopener">Community-Aware Assessment of Social Textual Engagement and Resonance: A Human-Centric Perspective on User-Generated Content Evaluation</a></h3>
      <p class="summary">Traditional Video Quality Assessment (VQA) focuses narrowly on aesthetic fidelity, overlooking the complex social dynamics that define qual…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fe5bda049a55" data-article-url="https://arxiv.org/abs/2606.01906" data-article-title="Bayesian Spectral Emotion Transition Discovery from Multi-Annotator Disagreement" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01906" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01906" target="_blank" rel="noopener">Bayesian Spectral Emotion Transition Discovery from Multi-Annotator Disagreement</a></h3>
      <p class="summary">Emotions evolve through the dynamics of conversation, and understanding their transition structure is foundational to applications ranging…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a0dfd421240" data-article-url="https://arxiv.org/abs/2606.01912" data-article-title="SMH-Bench: Benchmarking LLM Agents for Environment-Grounded Reasoning and Action in Smart Homes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01912" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01912" target="_blank" rel="noopener">SMH-Bench: Benchmarking LLM Agents for Environment-Grounded Reasoning and Action in Smart Homes</a></h3>
      <p class="summary">Smart homes are evolving toward complex state-dependent living environments, requiring Large Language Models (LLMs) to reason over user int…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b89523b3894c" data-article-url="https://arxiv.org/abs/2606.01929" data-article-title="VET: A Framework for Analyzing AI Discourse" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01929" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01929" target="_blank" rel="noopener">VET: A Framework for Analyzing AI Discourse</a></h3>
      <p class="summary">Public discourse on AI has become polarized; exaggerated positions on AI in traditional and social media threaten the development of AI Lit…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="873bbb6ccaa9" data-article-url="https://arxiv.org/abs/2606.01961" data-article-title="AutoMedBench: Towards Medical AutoResearch with Agentic AI Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01961" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01961" target="_blank" rel="noopener">AutoMedBench: Towards Medical AutoResearch with Agentic AI Models</a></h3>
      <p class="summary">Autonomous agents are increasingly expected to support end-to-end medical-AI research workflows, moving beyond isolated prediction tasks or…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5a4b93a0c550" data-article-url="https://arxiv.org/abs/2606.01975" data-article-title="Algorithmic algorithm development with LLMs: A Case Study on LLM-Usage for Contraction Order Optimization in Tensor Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01975" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01975" target="_blank" rel="noopener">Algorithmic algorithm development with LLMs: A Case Study on LLM-Usage for Contraction Order Optimization in Tensor Networks</a></h3>
      <p class="summary">We consider LLM-based algorithm development through a case study on contractionorder optimisation for tensor networks with OpenEvolve. We p…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="020740fd7920" data-article-url="https://arxiv.org/abs/2606.01982" data-article-title="An NLP-Driven Framework for Curriculum-Labor Market Alignment: Schema-Constrained LLM Extraction, ESCO-Anchored Semantic Matching, and Multi-Dimensional Gap Quantification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01982" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01982" target="_blank" rel="noopener">An NLP-Driven Framework for Curriculum-Labor Market Alignment: Schema-Constrained LLM Extraction, ESCO-Anchored Semantic Matching, and Multi-Dimensional Gap Quantification</a></h3>
      <p class="summary">Schema-constrained information extraction from diverse educational and labor-market corpora remains an open challenge in natural language p…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="22455b09365a" data-article-url="https://arxiv.org/abs/2606.01991" data-article-title="SafeMCP: Proactive Power Regulation for LLM Agent Defense via Environment-Grounded Look-Ahead Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01991" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01991" target="_blank" rel="noopener">SafeMCP: Proactive Power Regulation for LLM Agent Defense via Environment-Grounded Look-Ahead Reasoning</a></h3>
      <p class="summary">As Large Language Model (LLM) agents increasingly leverage the Model Context Protocol (MCP) to operate in complex environments, the expansi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="50930c5a7eb5" data-article-url="https://arxiv.org/abs/2606.02011" data-article-title="Extreme Low-Bit Inference in Reasoning Models: Failure Modes and Targeted Recovery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02011" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02011" target="_blank" rel="noopener">Extreme Low-Bit Inference in Reasoning Models: Failure Modes and Targeted Recovery</a></h3>
      <p class="summary">Large Reasoning Models (LRMs) rely on long reasoning traces, making inference expensive. While low-bit quantization reduces per-token decod…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1e3db1e7ab4b" data-article-url="https://arxiv.org/abs/2606.02035" data-article-title="RL-ACRGNet: Reinforcement Learning-Based Chest Radiology Report Generation Network" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02035" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02035" target="_blank" rel="noopener">RL-ACRGNet: Reinforcement Learning-Based Chest Radiology Report Generation Network</a></h3>
      <p class="summary">Medical imaging interpretation is a foundational pillar of modern clinical diagnostics, yet the manual generation of radiology reports rema…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="67ac79529274" data-article-url="https://arxiv.org/abs/2606.02048" data-article-title="Topological texture analysis of microscopy images of dynamic casein gelation and its relation to rheological properties" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02048" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02048" target="_blank" rel="noopener">Topological texture analysis of microscopy images of dynamic casein gelation and its relation to rheological properties</a></h3>
      <p class="summary">We propose a novel computational toolbox that integrates Topological Data Analysis (TDA), Differential Box Counting (DBC), Multifractal Par…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="45e263c59091" data-article-url="https://arxiv.org/abs/2606.02049" data-article-title="Explainable Data-driven Deep Reinforcement Learning Methods for Optimal Energy Management in Buildings" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02049" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02049" target="_blank" rel="noopener">Explainable Data-driven Deep Reinforcement Learning Methods for Optimal Energy Management in Buildings</a></h3>
      <p class="summary">The increasing integration of renewable energy sources into power systems, particularly in buildings equipped with photovoltaic (PV) panels…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f16a0b649532" data-article-url="https://arxiv.org/abs/2606.02054" data-article-title="eMoT: evolving Memory-of-Thought via Symbolic Anchoring and Memory Corrosion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02054" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02054" target="_blank" rel="noopener">eMoT: evolving Memory-of-Thought via Symbolic Anchoring and Memory Corrosion</a></h3>
      <p class="summary">While Large Language Models (LLMs) achieve impressive performance on multi-step reasoning tasks, their reliability is persistently hindered…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b474e8edec0b" data-article-url="https://arxiv.org/abs/2606.02060" data-article-title="Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02060" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02060" target="_blank" rel="noopener">Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories</a></h3>
      <p class="summary">Deep-research agents solve tasks through long trajectories of search, tool use, evidence inspection, and answer synthesis. Evaluation based…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cc521d6c9aeb" data-article-url="https://arxiv.org/abs/2606.02109" data-article-title="BADGER: Bridging Agentic and Deterministic Evaluation for Generative Enterprise Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02109" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02109" target="_blank" rel="noopener">BADGER: Bridging Agentic and Deterministic Evaluation for Generative Enterprise Reasoning</a></h3>
      <p class="summary">Enterprise AI systems that translate natural language into SQL queries and orchestrate multi-step agentic reasoning pipelines require evalu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="154a069b42dd" data-article-url="https://arxiv.org/abs/2606.02132" data-article-title="Learning When Not to Act: Mitigating Tool Abuse in Agentic Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02132" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02132" target="_blank" rel="noopener">Learning When Not to Act: Mitigating Tool Abuse in Agentic Reinforcement Learning</a></h3>
      <p class="summary">Agentic reinforcement learning can induce tool abuse, where models overuse external tools even for queries solvable by internal reasoning.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fcebff607ca2" data-article-url="https://arxiv.org/abs/2606.02151" data-article-title="S3TS: Stochastic Scenario-Structured Tree Search for Advanced Planning Under Uncertainty" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02151" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02151" target="_blank" rel="noopener">S3TS: Stochastic Scenario-Structured Tree Search for Advanced Planning Under Uncertainty</a></h3>
      <p class="summary">Effective scheduling in the energy sector is essential to ensure the reliable operation of electrical grids and their connected assets by,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7c55e6c07082" data-article-url="https://arxiv.org/abs/2606.02163" data-article-title="An Abstract Worlds Semantic Framework for Belief Change Operators" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02163" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02163" target="_blank" rel="noopener">An Abstract Worlds Semantic Framework for Belief Change Operators</a></h3>
      <p class="summary">This article proposes a set-theoretic framework for belief change, called Abstract Worlds Semantics, in which no logical syntax is assumed.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="da9b4e4d6cfa" data-article-url="https://arxiv.org/abs/2606.02167" data-article-title="From Capability Models to Automated Planning: An AAS-Native Approach for Automatic PDDL Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02167" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02167" target="_blank" rel="noopener">From Capability Models to Automated Planning: An AAS-Native Approach for Automatic PDDL Generation</a></h3>
      <p class="summary">Engineers designing production systems need to verify that a given layout supports all required production sequences. Automated planning te…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="70e5e9d59035" data-article-url="https://arxiv.org/abs/2606.02253" data-article-title="CEON: Circular Economy Ontology Network" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02253" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02253" target="_blank" rel="noopener">CEON: Circular Economy Ontology Network</a></h3>
      <p class="summary">Increasing the circularity of resource use in our society has been recognized as a path to sustainability, i.e., transitioning into a more…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fbfaca9b3716" data-article-url="https://arxiv.org/abs/2606.02282" data-article-title="POIROT: Interrogating Agents for Failure Detection in Multi-Agent Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02282" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02282" target="_blank" rel="noopener">POIROT: Interrogating Agents for Failure Detection in Multi-Agent Systems</a></h3>
      <p class="summary">Orchestrating Large Language Models into Multi-Agent Systems (LLM-MAS) has unlocked remarkable reasoning capabilities, yet emergent failure…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="019356d95e2d" data-article-url="https://arxiv.org/abs/2606.02326" data-article-title="Repair Before Veto: Repair-Augmented Constraint Learning for Contextual Decisions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02326" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02326" target="_blank" rel="noopener">Repair Before Veto: Repair-Augmented Constraint Learning for Contextual Decisions</a></h3>
      <p class="summary">Hard constraints are usually treated as terminal vetoes: once a candidate violates a requirement, the learned rule rejects it and any repai…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f937598449eb" data-article-url="https://arxiv.org/abs/2606.02332" data-article-title="Forget Attention: Importance-Aware Attention Is All You Need" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02332" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02332" target="_blank" rel="noopener">Forget Attention: Importance-Aware Attention Is All You Need</a></h3>
      <p class="summary">Combining attention&#x27;s global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid l…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cae9171ee5d5" data-article-url="https://arxiv.org/abs/2606.02337" data-article-title="Coordination Graphs for Constrained Multi-Agent Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02337" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02337" target="_blank" rel="noopener">Coordination Graphs for Constrained Multi-Agent Reinforcement Learning</a></h3>
      <p class="summary">Constrained Multi-agent reinforcement learning (CMARL) faces two intertwined challenges: the joint action space grows exponentially with th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7de96eea94b6" data-article-url="https://arxiv.org/abs/2606.02355" data-article-title="SIRI: Self-Internalizing Reinforcement Learning with Intrinsic Skills for LLM Agent Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02355" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02355" target="_blank" rel="noopener">SIRI: Self-Internalizing Reinforcement Learning with Intrinsic Skills for LLM Agent Training</a></h3>
      <p class="summary">Long-horizon LLM agents can benefit from reusable skills, yet existing skill-based methods often rely on external skill generators during t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7d4173a80943" data-article-url="https://arxiv.org/abs/2606.02359" data-article-title="MOC: Multi-Order Communication in LLM-based Multi-Agent Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02359" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02359" target="_blank" rel="noopener">MOC: Multi-Order Communication in LLM-based Multi-Agent Systems</a></h3>
      <p class="summary">Despite the remarkable progress of Large Language Model (LLM) based Multi-Agent Systems, most research focuses on optimizing coordination t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b3342fdc7361" data-article-url="https://arxiv.org/abs/2606.02372" data-article-title="COMAP: Co-Evolving World Models and Agent Policies for LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02372" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02372" target="_blank" rel="noopener">COMAP: Co-Evolving World Models and Agent Policies for LLM Agents</a></h3>
      <p class="summary">Equipping language agents with world models enables them to anticipate environment dynamics and evaluate candidate actions before execution…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="00c03428afe7" data-article-url="https://arxiv.org/abs/2606.02373" data-article-title="Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02373" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02373" target="_blank" rel="noopener">Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses</a></h3>
      <p class="summary">Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it ha…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9416af8280f5" data-article-url="https://arxiv.org/abs/2606.02374" data-article-title="Spatial Representation Learning Beyond Pixels: Unifying Raster Data and Vector Semantics for Human-Centric Geospatial Foundation Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02374" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02374" target="_blank" rel="noopener">Spatial Representation Learning Beyond Pixels: Unifying Raster Data and Vector Semantics for Human-Centric Geospatial Foundation Models</a></h3>
      <p class="summary">Earth Observation (EO) has fundamentally transformed the monitoring of environmental processes and human activities up to planetary scale.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="14485476126e" data-article-url="https://arxiv.org/abs/2606.02381" data-article-title="A Mathematical Conflict Framework for Contextual Data Modulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02381" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02381" target="_blank" rel="noopener">A Mathematical Conflict Framework for Contextual Data Modulation</a></h3>
      <p class="summary">In this study, a generalized operator-based mathematical conflict framework is presented to explicitly represent structural discrepancies b…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3e31d6ba36c9" data-article-url="https://arxiv.org/abs/2606.02386" data-article-title="AgentPLM: Agentic Protein Language Models with Reasoning-Augmented Decoding for Protein Sequence Design" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02386" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02386" target="_blank" rel="noopener">AgentPLM: Agentic Protein Language Models with Reasoning-Augmented Decoding for Protein Sequence Design</a></h3>
      <p class="summary">Protein language models (PLMs) are passive oracles: they generate sequences in a single forward pass with no mechanism to consult external…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a913fb2d948e" data-article-url="https://arxiv.org/abs/2606.02434" data-article-title="Bridging the Sim-to-Real Gap in Semiconductor Visual Program Synthesis via Input Binarization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02434" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02434" target="_blank" rel="noopener">Bridging the Sim-to-Real Gap in Semiconductor Visual Program Synthesis via Input Binarization</a></h3>
      <p class="summary">Precise parametric control over circuit geometry is essential for semiconductor inspection, yet obtaining sufficient real training data rem…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8a0506f32b6e" data-article-url="https://arxiv.org/abs/2606.02438" data-article-title="LLM-Evolved Pattern Generators for Optimal Classical Planning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02438" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02438" target="_blank" rel="noopener">LLM-Evolved Pattern Generators for Optimal Classical Planning</a></h3>
      <p class="summary">Learned heuristics have recently become a competitive alternative to traditional domain-independent heuristics for satisficing planning. Ex…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8cde70cf39d9" data-article-url="https://arxiv.org/abs/2606.02444" data-article-title="Food Noise &amp; False Safety: A Systematic Evaluation of How LLMs Fail to Adapt to Eating Disorder Queries with Clinician Feedback" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02444" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02444" target="_blank" rel="noopener">Food Noise &amp; False Safety: A Systematic Evaluation of How LLMs Fail to Adapt to Eating Disorder Queries with Clinician Feedback</a></h3>
      <p class="summary">Recent evidence shows that people with eating disorders (EDs) are increasingly seeking guidance, advice, and emotional support from Large L…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a3f7b141e43" data-article-url="https://arxiv.org/abs/2606.02449" data-article-title="HLL: Can Agents Cross Humanity&#x27;s Last Line of Verification?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02449" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02449" target="_blank" rel="noopener">HLL: Can Agents Cross Humanity&#x27;s Last Line of Verification?</a></h3>
      <p class="summary">Multimodal agents are increasingly expected to operate interfaces on behalf of users, raising a central deployment question: can they truly…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="44775ad0ed2c" data-article-url="https://arxiv.org/abs/2606.02458" data-article-title="Beyond One-shot: AI Agents for Learning in Field Experiments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02458" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02458" target="_blank" rel="noopener">Beyond One-shot: AI Agents for Learning in Field Experiments</a></h3>
      <p class="summary">Organizations routinely run experiments for A/B testing, yet the data generated from one experiment is underutilized to inform subsequent i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="77ab4f04a68a" data-article-url="https://arxiv.org/abs/2606.02461" data-article-title="AGENTCL: Toward Rigorous Evaluation of Continual Learning in Language Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02461" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02461" target="_blank" rel="noopener">AGENTCL: Toward Rigorous Evaluation of Continual Learning in Language Agents</a></h3>
      <p class="summary">Language agents spend substantial inference time solving individual tasks, yet the experience acquired in one episode is often underutilize…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d532dfbe9fdd" data-article-url="https://arxiv.org/abs/2606.02470" data-article-title="MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02470" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02470" target="_blank" rel="noopener">MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation</a></h3>
      <p class="summary">The Model Context Protocol (MCP) has emerged as a transformative standard for connecting large language models (LLMs) with external data so…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b23ffe555c54" data-article-url="https://arxiv.org/abs/2606.02484" data-article-title="Iteris: Agentic Research Loops for Computational Mathematics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02484" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02484" target="_blank" rel="noopener">Iteris: Agentic Research Loops for Computational Mathematics</a></h3>
      <p class="summary">Recent advances in large language models and agentic AI systems have enabled significant progress in mathematical discovery, from solving c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="18ae1a8b3194" data-article-url="https://arxiv.org/abs/2606.02488" data-article-title="RASER: Recoverability-Aware Selective Escalation Router for Multi-Hop Question Answering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02488" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02488" target="_blank" rel="noopener">RASER: Recoverability-Aware Selective Escalation Router for Multi-Hop Question Answering</a></h3>
      <p class="summary">Multi-hop question-answering systems often use expensive retrieval on every question. They may decompose the question, run several retrieva…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9ea84ead16e1" data-article-url="https://arxiv.org/abs/2606.02497" data-article-title="Bridging the Last Mile of Time Series Forecasting with LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02497" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02497" target="_blank" rel="noopener">Bridging the Last Mile of Time Series Forecasting with LLM Agents</a></h3>
      <p class="summary">Time series forecasting has advanced rapidly, especially with the emergence of foundation models that show strong zero-shot performance on…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2f6d50e1ecb6" data-article-url="https://arxiv.org/abs/2606.02530" data-article-title="SafeSteer: Localized On-Policy Distillation for Efficient Safety Alignment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02530" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02530" target="_blank" rel="noopener">SafeSteer: Localized On-Policy Distillation for Efficient Safety Alignment</a></h3>
      <p class="summary">Aligning Large Language Models (LLMs) with human values often degrades their general capabilities, termed the alignment tax. Existing metho…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e8d10df379ca" data-article-url="https://arxiv.org/abs/2606.02536" data-article-title="Tracking the Behavioral Trajectories of Adapting Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02536" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02536" target="_blank" rel="noopener">Tracking the Behavioral Trajectories of Adapting Agents</a></h3>
      <p class="summary">Text files such as skill files, memory files, and behavioral configuration files play a central role in defining how modern agents act. Thr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5ea4a7e65ee8" data-article-url="https://arxiv.org/abs/2606.02568" data-article-title="ClinEnv: An Interactive Multi-Stage Long Horizon EHR Environment for Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02568" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02568" target="_blank" rel="noopener">ClinEnv: An Interactive Multi-Stage Long Horizon EHR Environment for Agents</a></h3>
      <p class="summary">Clinical practice is not the selection of an answer from enumerated options: a physician gathers heterogeneous information incrementally an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a6033b7a28af" data-article-url="https://arxiv.org/abs/2507.12645" data-article-title="A Novel Data Augmentation Strategy for Robust Deep Learning Classification of Biomedical Time-Series Data: Application to ECG and EEG Analysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.12645" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.12645" target="_blank" rel="noopener">A Novel Data Augmentation Strategy for Robust Deep Learning Classification of Biomedical Time-Series Data: Application to ECG and EEG Analysis</a></h3>
      <p class="summary">The increasing need for accurate and unified analysis of diverse biological signals, such as ECG and EEG, is paramount for comprehensive pa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9e4abeb12221" data-article-url="https://arxiv.org/abs/2507.19702" data-article-title="A Lightweight Deep Learning-based Model for Ranking Influential Nodes in Complex Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.19702" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.19702" target="_blank" rel="noopener">A Lightweight Deep Learning-based Model for Ranking Influential Nodes in Complex Networks</a></h3>
      <p class="summary">Identifying influential nodes in complex networks is a critical task with a wide range of applications across different domains. However, e…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3830de13636e" data-article-url="https://arxiv.org/abs/2605.31483" data-article-title="BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31483" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31483" target="_blank" rel="noopener">BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali</a></h3>
      <p class="summary">Despite Bengali being the sixth most spoken language in the world, no prior work has systematically evaluated hallucination in large langua…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6a96bb670fa4" data-article-url="https://arxiv.org/abs/2606.00010" data-article-title="Empathic and agentic artificial intelligence in nursing: perspectives on a human-centered framework for cancer care navigation in the United States" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00010" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00010" target="_blank" rel="noopener">Empathic and agentic artificial intelligence in nursing: perspectives on a human-centered framework for cancer care navigation in the United States</a></h3>
      <p class="summary">For patients experiencing cancer, nurse navigation can ease the burden of complex care by enhancing coordination of health services and pat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f87b668b8479" data-article-url="https://arxiv.org/abs/2606.00011" data-article-title="RuleEdit: Failure-Guided Human-AI Model Editing with Prospective Impact Preview" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00011" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00011" target="_blank" rel="noopener">RuleEdit: Failure-Guided Human-AI Model Editing with Prospective Impact Preview</a></h3>
      <p class="summary">Despite the promise of AI to assist complex decisions, practitioners still lack ways to detect likely failures and inspect the consequences…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c8163fb236c" data-article-url="https://arxiv.org/abs/2606.00012" data-article-title="DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00012" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00012" target="_blank" rel="noopener">DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset</a></h3>
      <p class="summary">Multi-party dialogue discourse parsing aims to identify dependency structures and relation types between utterances in conversations. Previ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9e4cdd511a94" data-article-url="https://arxiv.org/abs/2606.00013" data-article-title="A phenomenon of AI-conformity: how algorithms change human moral decision-making" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00013" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00013" target="_blank" rel="noopener">A phenomenon of AI-conformity: how algorithms change human moral decision-making</a></h3>
      <p class="summary">Social conformity is a well-documented phenomenon in which individuals shift their opinions towards those of a social majority. As artifici…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a7e9fbb85098" data-article-url="https://arxiv.org/abs/2606.00014" data-article-title="Toward Robust In-Context Learning: Leveraging Out-of-distribution Proxies for Target Inaccessible Demonstration Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00014" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00014" target="_blank" rel="noopener">Toward Robust In-Context Learning: Leveraging Out-of-distribution Proxies for Target Inaccessible Demonstration Retrieval</a></h3>
      <p class="summary">Although studies have demonstrated that Large Language Models (LLMs) can perform well on Out-of-Distribution (OOD) tasks, their advantage t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f24becc692a0" data-article-url="https://arxiv.org/abs/2606.00015" data-article-title="SortingHat: Redefining Operating Systems Education with a Tailored Digital Teaching Assistant" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00015" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00015" target="_blank" rel="noopener">SortingHat: Redefining Operating Systems Education with a Tailored Digital Teaching Assistant</a></h3>
      <p class="summary">Operating Systems (OS) courses are among the most challenging in computer science education due to the complexity of internal structures an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0e05fe8b59b8" data-article-url="https://arxiv.org/abs/2606.00016" data-article-title="AEyeDE: An Attention-Based Attribution Framework for AI-Generated Text Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00016" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00016" target="_blank" rel="noopener">AEyeDE: An Attention-Based Attribution Framework for AI-Generated Text Detection</a></h3>
      <p class="summary">Detecting AI-generated text is becoming increasingly challenging as modern language models approach human-level fluency and can evade detec…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a19ac6db7595" data-article-url="https://arxiv.org/abs/2606.00018" data-article-title="Examine Clinicians&#x27; Modification of Hedging Language in Ambient AI Documentation: A Comparative Study of AI Drafts and Final Notes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00018" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00018" target="_blank" rel="noopener">Examine Clinicians&#x27; Modification of Hedging Language in Ambient AI Documentation: A Comparative Study of AI Drafts and Final Notes</a></h3>
      <p class="summary">Ambient AI documentation systems generate clinical note drafts that clinicians frequently revise before signing off into electronic health…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="92a59ac95238" data-article-url="https://arxiv.org/abs/2606.00019" data-article-title="Understanding Stigmatizing Language in Clinical Documentation: A Paired Comparison of Ambient AI Drafts and Clinician Finalized Notes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00019" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00019" target="_blank" rel="noopener">Understanding Stigmatizing Language in Clinical Documentation: A Paired Comparison of Ambient AI Drafts and Clinician Finalized Notes</a></h3>
      <p class="summary">Ambient artificial intelligence (AI) documentation tools are increasingly deployed to reduce clinician documentation burden, but their impl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4338c6cc42bb" data-article-url="https://arxiv.org/abs/2606.00020" data-article-title="CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00020" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00020" target="_blank" rel="noopener">CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards</a></h3>
      <p class="summary">Large Language Model (LLM) based Chinese Grammatical Error Correction (CGEC) systems face two critical challenges: general-purpose models l…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b1eedc4d2317" data-article-url="https://arxiv.org/abs/2606.00021" data-article-title="SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00021" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00021" target="_blank" rel="noopener">SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding</a></h3>
      <p class="summary">Speculative Decoding (SD) accelerates Large Language Model (LLM) inference by employing a lightweight draft model to propose candidate toke…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6eb09a154987" data-article-url="https://arxiv.org/abs/2606.00022" data-article-title="lmfaoooo at SemEval-2026 Task 1: Humor Is an Audience. Preference Modeling for Constrained Humor Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00022" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00022" target="_blank" rel="noopener">lmfaoooo at SemEval-2026 Task 1: Humor Is an Audience. Preference Modeling for Constrained Humor Generation</a></h3>
      <p class="summary">Humor generation remains difficult not only because producing fluent, novel jokes is hard, but because &quot;funny&quot; is audience-dependent and su…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f38d6700f086" data-article-url="https://arxiv.org/abs/2606.00023" data-article-title="TrustLDM: Benchmarking Trustworthiness in Language Diffusion Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00023" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00023" target="_blank" rel="noopener">TrustLDM: Benchmarking Trustworthiness in Language Diffusion Models</a></h3>
      <p class="summary">The rapid development of Language Diffusion Models (LDMs) challenges the dominant position of auto-regressive competitors in language proce…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a9df251ed831" data-article-url="https://arxiv.org/abs/2606.00027" data-article-title="A Multi-Domain Red Teaming Framework for Safety, Robustness, and Fairness Evaluation of Medical Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00027" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00027" target="_blank" rel="noopener">A Multi-Domain Red Teaming Framework for Safety, Robustness, and Fairness Evaluation of Medical Large Language Models</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly deployed across healthcare, yet existing benchmarks fail to capture model behavior under adve…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="363751ca8428" data-article-url="https://arxiv.org/abs/2606.00029" data-article-title="TCAR-Gen: Temporal Graph Retrieval with Evidence Fusion for Knowledge-Grounded Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00029" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00029" target="_blank" rel="noopener">TCAR-Gen: Temporal Graph Retrieval with Evidence Fusion for Knowledge-Grounded Generation</a></h3>
      <p class="summary">Retrieval-augmented generation systems struggle with temporal reasoning and evidence fusion when answering complex questions over historica…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="378e9842c02c" data-article-url="https://arxiv.org/abs/2606.00031" data-article-title="LLMs for Cardiovascular Risk Prediction from Structured Clinical Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00031" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00031" target="_blank" rel="noopener">LLMs for Cardiovascular Risk Prediction from Structured Clinical Data</a></h3>
      <p class="summary">Coronary artery disease (CAD) remains one of the leading causes of death globally, highlighting the need for reliable predictive systems to…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="969af5a824e0" data-article-url="https://arxiv.org/abs/2606.00033" data-article-title="Make Mechanistic Interpretability Auditable: A Call to Develop Guidelines via Continuous Collaborative Reviewing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00033" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00033" target="_blank" rel="noopener">Make Mechanistic Interpretability Auditable: A Call to Develop Guidelines via Continuous Collaborative Reviewing</a></h3>
      <p class="summary">While mechanistic interpretability (MI) has produced important insights into neural network internals, the field has yet to establish a sta…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2b23aae6a72b" data-article-url="https://arxiv.org/abs/2606.00037" data-article-title="Update Opacity: Epistemic Accessibility and Governance Under AI System Change" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00037" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00037" target="_blank" rel="noopener">Update Opacity: Epistemic Accessibility and Governance Under AI System Change</a></h3>
      <p class="summary">Machine learning models embedded in deployed AI systems are routinely updated to maintain correct functioning over time. Yet such updates c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bbc2c058a259" data-article-url="https://arxiv.org/abs/2606.00038" data-article-title="Beyond Tool Adoption: A Practical Five-Stage Developmental Continuum for AI Literacy in Higher Education" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00038" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00038" target="_blank" rel="noopener">Beyond Tool Adoption: A Practical Five-Stage Developmental Continuum for AI Literacy in Higher Education</a></h3>
      <p class="summary">Artificial intelligence (AI) literacy is increasingly recognized as a foundational competency for all university graduates. Yet students&#x27; e…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="20e3d03b4a60" data-article-url="https://arxiv.org/abs/2606.00039" data-article-title="Beyond Categories of Caste: Examining Caste Bias and Morality in Text-to-Image AI Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00039" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00039" target="_blank" rel="noopener">Beyond Categories of Caste: Examining Caste Bias and Morality in Text-to-Image AI Models</a></h3>
      <p class="summary">Text-to-Image (T2I) models have shown promising utility across various domains. However, such models are also amplifying harmful societal b…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aa10b1fde072" data-article-url="https://arxiv.org/abs/2606.00040" data-article-title="Tracing GenAI Literacy: Uncovering Student-AI Interaction Patterns in Academic Writing through Epistemic Network Analysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00040" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00040" target="_blank" rel="noopener">Tracing GenAI Literacy: Uncovering Student-AI Interaction Patterns in Academic Writing through Epistemic Network Analysis</a></h3>
      <p class="summary">As Generative AI (GenAI) becomes integral to education, fostering GenAI literacy is critical. However, current assessments largely rely on…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="697948a60799" data-article-url="https://arxiv.org/abs/2606.00041" data-article-title="Improving Hospital Process Management through Process Mining: A Case Study on COVID-19 Clinical Pathways" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00041" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00041" target="_blank" rel="noopener">Improving Hospital Process Management through Process Mining: A Case Study on COVID-19 Clinical Pathways</a></h3>
      <p class="summary">This study analyzes COVID-19 care pathways using the COVID Data for Shared Learning dataset. We build a transparent, reproducible pipeline…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a6c154756165" data-article-url="https://arxiv.org/abs/2606.00044" data-article-title="Algorithmic Authority and the Clinical Standard of Care" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00044" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00044" target="_blank" rel="noopener">Algorithmic Authority and the Clinical Standard of Care</a></h3>
      <p class="summary">The integration of artificial intelligence into clinical medicine creates a fundamental tension between algorithmic probabilistic reasoning…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6884636c54fb" data-article-url="https://arxiv.org/abs/2606.00046" data-article-title="When Jokes Cross the Line: Analyzing Regular Humor and Dark Humor in YouTube Shorts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00046" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00046" target="_blank" rel="noopener">When Jokes Cross the Line: Analyzing Regular Humor and Dark Humor in YouTube Shorts</a></h3>
      <p class="summary">Video platforms such as YouTube have reshaped how users engage with entertainment and information, emphasizing brief, highly engaging conte…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="71b5e877fb23" data-article-url="https://arxiv.org/abs/2606.00047" data-article-title="Comprehensive AI governance requires addressing non-model gains" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00047" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00047" target="_blank" rel="noopener">Comprehensive AI governance requires addressing non-model gains</a></h3>
      <p class="summary">Frontier AI governance often centres on the model-level governance paradigm, which assumes that a model&#x27;s capability profile is primarily a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fc285f2a6067" data-article-url="https://arxiv.org/abs/2606.00049" data-article-title="Measuring and Mitigating Bias in Code Generated by Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00049" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00049" target="_blank" rel="noopener">Measuring and Mitigating Bias in Code Generated by Large Language Models</a></h3>
      <p class="summary">Large language models (LLMs) are widely recognised for their applications in natural language generation and are increasingly used for code…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="be1c81d21bc0" data-article-url="https://arxiv.org/abs/2606.00051" data-article-title="Business Utility of Large Language Models as Exploratory Data Analysis Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00051" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00051" target="_blank" rel="noopener">Business Utility of Large Language Models as Exploratory Data Analysis Agents</a></h3>
      <p class="summary">Large Language Models (LLMs) are increasingly used in analytical workflows, but their suitability as exploratory data analysis (EDA) agents…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="80d404db4ca9" data-article-url="https://arxiv.org/abs/2606.00054" data-article-title="From Human Videos to Robot Manipulation: A Survey on Scalable Vision-Language-Action Learning with Human-Centric Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00054" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00054" target="_blank" rel="noopener">From Human Videos to Robot Manipulation: A Survey on Scalable Vision-Language-Action Learning with Human-Centric Data</a></h3>
      <p class="summary">Recent progress in generalizable embodied control has been driven by large-scale pretraining of Vision-Language-Action (VLA) models. Howeve…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3b657cc4ab08" data-article-url="https://arxiv.org/abs/2606.00056" data-article-title="Physics-Informed Neural Networks for Radial Consolidation of Combined Electroosmotic, Vacuum and Surcharge Preloading Considering Smear Effects" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00056" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00056" target="_blank" rel="noopener">Physics-Informed Neural Networks for Radial Consolidation of Combined Electroosmotic, Vacuum and Surcharge Preloading Considering Smear Effects</a></h3>
      <p class="summary">This study develops a dimensionless multi-domain physics-informed neural network (PINN) framework for electro-osmotic radial consolidation…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ed66533ea374" data-article-url="https://arxiv.org/abs/2606.00065" data-article-title="Beyond Text and Tables: Vision-Language Model Integration in ComProScanner for Extracting Materials Data from Scientific Figures with High Accuracy" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00065" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00065" target="_blank" rel="noopener">Beyond Text and Tables: Vision-Language Model Integration in ComProScanner for Extracting Materials Data from Scientific Figures with High Accuracy</a></h3>
      <p class="summary">Automated extraction of materials composition-property data from scientific literature has advanced considerably with the development of la…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="59494bd9bfc2" data-article-url="https://arxiv.org/abs/2606.00073" data-article-title="Rare Events, Real Signals: Functional Ensembles as Units of Computation in Deep Spiking Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00073" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00073" target="_blank" rel="noopener">Rare Events, Real Signals: Functional Ensembles as Units of Computation in Deep Spiking Networks</a></h3>
      <p class="summary">We investigate how internal representations emerge across hierarchical processing systems by introducing a neuroscience-inspired framework…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="19aaf5f38633" data-article-url="https://arxiv.org/abs/2606.00074" data-article-title="CLSP-REQA: A Real-Time Quality-Aware Closed-Loop Seizure Prediction Framework with Mamba-BiLSTM and Confidence-Gated Intervention" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00074" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00074" target="_blank" rel="noopener">CLSP-REQA: A Real-Time Quality-Aware Closed-Loop Seizure Prediction Framework with Mamba-BiLSTM and Confidence-Gated Intervention</a></h3>
      <p class="summary">Reliable seizure prediction is a prerequisite for closed-loop neurostimulation therapy, yet existing methods rarely account for the variabi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="66e27cf48b5c" data-article-url="https://arxiv.org/abs/2606.00077" data-article-title="Improved Belief-Attention in Vision Task" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00077" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00077" target="_blank" rel="noopener">Improved Belief-Attention in Vision Task</a></h3>
      <p class="summary">Recently, Belief-Attention \cite{Guoqiang25BeliefAttention} has been proposed by first performing an orthogonal projection of the softmax-b…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bd948ba0e126" data-article-url="https://arxiv.org/abs/2606.00078" data-article-title="Flow-Based Generative Modeling for Optimizing Sampling Policies in Compressed Sensing Applications" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00078" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00078" target="_blank" rel="noopener">Flow-Based Generative Modeling for Optimizing Sampling Policies in Compressed Sensing Applications</a></h3>
      <p class="summary">Numerous modern applications in signal processing and medical imaging necessitate acquiring high-dimensional signals under tight resource c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2a7912441069" data-article-url="https://arxiv.org/abs/2606.00079" data-article-title="BitsMoE: Efficient Spectral Energy-Guided Bit Allocation for MoE LLM Quantization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00079" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00079" target="_blank" rel="noopener">BitsMoE: Efficient Spectral Energy-Guided Bit Allocation for MoE LLM Quantization</a></h3>
      <p class="summary">Mixture-of-Experts (MoE) large language models reduce per-token computation through sparse expert activation, but their deployment remains…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2129e5a985d7" data-article-url="https://arxiv.org/abs/2606.00080" data-article-title="Planktonzilla: Multimodal dataset and models for understanding plankton ecosystems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00080" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00080" target="_blank" rel="noopener">Planktonzilla: Multimodal dataset and models for understanding plankton ecosystems</a></h3>
      <p class="summary">Marine plankton underpin aquatic food webs and play a key role in global CO2 sequestration, making reliable species identification critical…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fd01aed76f1f" data-article-url="https://arxiv.org/abs/2606.00081" data-article-title="DAStatFormer: A Hybrid Multibranch Transformer with Statistical Feature Integration for DAS-Based Pattern Recognitions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00081" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00081" target="_blank" rel="noopener">DAStatFormer: A Hybrid Multibranch Transformer with Statistical Feature Integration for DAS-Based Pattern Recognitions</a></h3>
      <p class="summary">Distributed Acoustic Sensing (DAS) enables large-scale monitoring through optical fibers, but its high dimensionality and complex spatio-te…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c987d2608760" data-article-url="https://arxiv.org/abs/2606.00082" data-article-title="Hoeffding Concept Bottleneck Models with Applications to Overhead Images" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00082" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00082" target="_blank" rel="noopener">Hoeffding Concept Bottleneck Models with Applications to Overhead Images</a></h3>
      <p class="summary">Explainability of deep learning algorithms is critical for computer-vision applications with high-stake decisions. Concept bottleneck model…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="45aae8aeabe8" data-article-url="https://arxiv.org/abs/2606.00083" data-article-title="From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00083" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00083" target="_blank" rel="noopener">From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models</a></h3>
      <p class="summary">Reinforcement learning relies on accurate reward functions, which are often hand-crafted or even unavailable in real-world applications, su…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e706750edbfa" data-article-url="https://arxiv.org/abs/2606.00084" data-article-title="SentimentLens: Reconciling Sentiment and Ratings via Dual-Modality in the Hospitality Sector" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00084" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00084" target="_blank" rel="noopener">SentimentLens: Reconciling Sentiment and Ratings via Dual-Modality in the Hospitality Sector</a></h3>
      <p class="summary">Online travel platforms generate vast volumes of user-generated hotel reviews, offering rich opportunities to understand traveler experienc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ab35d1906d13" data-article-url="https://arxiv.org/abs/2606.00087" data-article-title="Structured Visual Evidence Decomposition for Evidence-Grounded Multimodal Screening of Obstructive Sleep Apnea-Hypopnea Syndrome" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00087" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00087" target="_blank" rel="noopener">Structured Visual Evidence Decomposition for Evidence-Grounded Multimodal Screening of Obstructive Sleep Apnea-Hypopnea Syndrome</a></h3>
      <p class="summary">Effective pre-polysomnography screening for obstructive sleep apnea-hypopnea syndrome (OSAHS) requires combining clinical risk factors with…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="228939ce45a2" data-article-url="https://arxiv.org/abs/2606.00089" data-article-title="Can Predicted Dynamics Exist in the Physical World?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00089" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00089" target="_blank" rel="noopener">Can Predicted Dynamics Exist in the Physical World?</a></h3>
      <p class="summary">Predictive Physical AI systems output state rollouts, action chunks, and latent plans, yet a low root-mean-square error (RMSE) does not imp…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="95dcb31b331d" data-article-url="https://arxiv.org/abs/2606.00090" data-article-title="Silent Failures in Physical AI: A Literature Review of Runtime Action Authorization for Autonomous Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00090" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00090" target="_blank" rel="noopener">Silent Failures in Physical AI: A Literature Review of Runtime Action Authorization for Autonomous Systems</a></h3>
      <p class="summary">Physical AI systems increasingly map multimodal observations, language instructions, and learned world representations into physically cons…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="172646f487e8" data-article-url="https://arxiv.org/abs/2606.00091" data-article-title="DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00091" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00091" target="_blank" rel="noopener">DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models</a></h3>
      <p class="summary">Joint Embedding Predictive Architectures (JEPAs) have reshaped self-supervised representation learning in vision. The recent LLM-JEPA porte…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="24a9b463a26e" data-article-url="https://arxiv.org/abs/2606.00092" data-article-title="Aligning Cellular Sheaves with Classifier Attention for Interpretable Weakly-Supervised Pathology Localization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00092" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00092" target="_blank" rel="noopener">Aligning Cellular Sheaves with Classifier Attention for Interpretable Weakly-Supervised Pathology Localization</a></h3>
      <p class="summary">Weakly-supervised classification of whole-slide images with attention-based multiple instance learning (ABMIL) on top of foundation feature…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5e3b5a52b596" data-article-url="https://arxiv.org/abs/2606.00094" data-article-title="Diffusion Image Generation with Explicit Modeling of Data Manifold Geometry" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00094" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00094" target="_blank" rel="noopener">Diffusion Image Generation with Explicit Modeling of Data Manifold Geometry</a></h3>
      <p class="summary">Image generative models aim to sample data points from the underlying data manifold, a task that requires learning and decoding a dense, lo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e504300a0c87" data-article-url="https://arxiv.org/abs/2606.00095" data-article-title="Bridging the 2D-3D Gap: A Hierarchical Semantic-Geometric Map for Vision Language Navigation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00095" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00095" target="_blank" rel="noopener">Bridging the 2D-3D Gap: A Hierarchical Semantic-Geometric Map for Vision Language Navigation</a></h3>
      <p class="summary">Vision-Language Navigation (VLN) enables embodied agents to reach target locations in unseen environments by following language instruction…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d9df7b97070a" data-article-url="https://arxiv.org/abs/2606.00096" data-article-title="Diversity Over Frequency: Rethinking Tool Use in Visual Chain-of-Thought Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00096" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00096" target="_blank" rel="noopener">Diversity Over Frequency: Rethinking Tool Use in Visual Chain-of-Thought Agents</a></h3>
      <p class="summary">Visual agents employ external visual tools within visual chains of thought to incorporate fine-grained evidence. While prior work has mainl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a87a9160327" data-article-url="https://arxiv.org/abs/2606.00100" data-article-title="CoilDrop-MRI: Self-supervised physics-guided MRI reconstruction with coil dropout" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00100" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00100" target="_blank" rel="noopener">CoilDrop-MRI: Self-supervised physics-guided MRI reconstruction with coil dropout</a></h3>
      <p class="summary">Self-supervised deep learning-based methods have shown great promise for accelerated magnetic resonance imaging (MRI) reconstruction, achie…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="44aaeb7539d6" data-article-url="https://arxiv.org/abs/2606.00101" data-article-title="CoCoVideo: The High-Quality Commercial-Model-Based Contrastive Benchmark for AI-Generated Video Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00101" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00101" target="_blank" rel="noopener">CoCoVideo: The High-Quality Commercial-Model-Based Contrastive Benchmark for AI-Generated Video Detection</a></h3>
      <p class="summary">With the rapid advancement of artificial intelligence generated content (AIGC) technologies, video forgery has become increasingly prevalen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5e6a4b1c7595" data-article-url="https://arxiv.org/abs/2606.00104" data-article-title="PEACE: A Planner-Executor Agent with Constraint Enforcement for UAVs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00104" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00104" target="_blank" rel="noopener">PEACE: A Planner-Executor Agent with Constraint Enforcement for UAVs</a></h3>
      <p class="summary">Foundation models are increasingly used to drive autonomous systems, yet existing approaches either keep the model in a tight control loop,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dc566b67c687" data-article-url="https://arxiv.org/abs/2606.00105" data-article-title="Visual-Noise Guided In-Context Distillation for Multimodal Large Language Model Unlearning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00105" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00105" target="_blank" rel="noopener">Visual-Noise Guided In-Context Distillation for Multimodal Large Language Model Unlearning</a></h3>
      <p class="summary">Multimodal Large Language Models (MLLMs) have achieved remarkable progress on vision-language tasks, but they may also memorize and expose…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9bd03c554ce1" data-article-url="https://arxiv.org/abs/2606.00106" data-article-title="A Methodological Framework for Explicit Control of the Speed-Accuracy Trade-off in Brain-Computer Interfaces" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00106" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00106" target="_blank" rel="noopener">A Methodological Framework for Explicit Control of the Speed-Accuracy Trade-off in Brain-Computer Interfaces</a></h3>
      <p class="summary">Brain-computer interfaces (BCIs) are limited by low signal-to-noise ratio in modalities such as electroencephalography, which requires mult…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3229e0b08460" data-article-url="https://arxiv.org/abs/2606.00107" data-article-title="Motif-based morphology signatures for interpretable ECG screening and monitoring" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00107" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00107" target="_blank" rel="noopener">Motif-based morphology signatures for interpretable ECG screening and monitoring</a></h3>
      <p class="summary">Electrocardiography (ECG) remains central to cardiovascular screening, yet interpretation remains largely manual and episodic. Clinical pra…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4ed9588890b" data-article-url="https://arxiv.org/abs/2606.00108" data-article-title="Project SPARROW and the Future of Conservation Technology" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00108" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00108" target="_blank" rel="noopener">Project SPARROW and the Future of Conservation Technology</a></h3>
      <p class="summary">Global biodiversity is declining at unprecedented rates, yet the tools available to monitor and protect ecosystems remain limited by constr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="194db433669d" data-article-url="https://arxiv.org/abs/2606.00109" data-article-title="VDSB-GWSyn: Diffusion Schr\&quot;{o}dinger Bridge for Controllable and Anatomically Feasible Guidewire Synthesis in Coronary Angiography" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00109" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00109" target="_blank" rel="noopener">VDSB-GWSyn: Diffusion Schr\&quot;{o}dinger Bridge for Controllable and Anatomically Feasible Guidewire Synthesis in Coronary Angiography</a></h3>
      <p class="summary">Coronary guidewire endpoint localization is a fundamental capability for computer-assisted PCI, and its importance increases as robot-assis…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1ed2c31518f4" data-article-url="https://arxiv.org/abs/2606.00116" data-article-title="Enhancing BiGRU with a KAN Block for Legal Document Classification and Summarization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00116" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00116" target="_blank" rel="noopener">Enhancing BiGRU with a KAN Block for Legal Document Classification and Summarization</a></h3>
      <p class="summary">This study introduces a novel architecture of KAN-based BiGRU model for the task of classification and summarization of legal documents in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="78e1de7d73b4" data-article-url="https://arxiv.org/abs/2606.00119" data-article-title="V2I Work Zone Geometry Reconstruction with Pose-Conditioned UWB Range Denoising" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00119" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00119" target="_blank" rel="noopener">V2I Work Zone Geometry Reconstruction with Pose-Conditioned UWB Range Denoising</a></h3>
      <p class="summary">Reliable work zone mapping is important for connected and autonomous vehicles (CAVs) to navigate safely and smoothly through work zone area…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="570d2a93d8f5" data-article-url="https://arxiv.org/abs/2606.00120" data-article-title="SpikeWFM: Spiking-Aided Wireless Foundation Model for Robust Channel Prediction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00120" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00120" target="_blank" rel="noopener">SpikeWFM: Spiking-Aided Wireless Foundation Model for Robust Channel Prediction</a></h3>
      <p class="summary">This paper proposes SpikeWFM, a novel hybrid architecture that integrates spiking neural networks (SNNs) with conventional artificial neura…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="28af68bfe395" data-article-url="https://arxiv.org/abs/2606.00121" data-article-title="Versatile Framework with Semantic and Structural guidance for Image Reconstruction from Brain Activity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00121" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00121" target="_blank" rel="noopener">Versatile Framework with Semantic and Structural guidance for Image Reconstruction from Brain Activity</a></h3>
      <p class="summary">Reconstructing visual stimuli from brain recordings has been a meaningful and challenging task in brain decoding. Especially, the achieveme…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="782f64479971" data-article-url="https://arxiv.org/abs/2606.00123" data-article-title="CardioLens: Revealing the Clinical Reality Gap of MLLMs via Multi-Sequence Cardiac MRI Evaluations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00123" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00123" target="_blank" rel="noopener">CardioLens: Revealing the Clinical Reality Gap of MLLMs via Multi-Sequence Cardiac MRI Evaluations</a></h3>
      <p class="summary">Multimodal Large Language Models (MLLMs) have shown strong performance on public medical benchmarks, yet existing evaluations often remain…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="548846d5bc46" data-article-url="https://arxiv.org/abs/2606.00125" data-article-title="Multimodal Music Recommendation System using LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00125" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00125" target="_blank" rel="noopener">Multimodal Music Recommendation System using LLMs</a></h3>
      <p class="summary">Music recommendation systems typically treat songs as opaque tokens, relying on collaborative interaction histories which overlooks semanti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b1da547cb5df" data-article-url="https://arxiv.org/abs/2606.00129" data-article-title="A Shared Valence Axis Across Modern LLMs and Human EEG: The Saturation Regularity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00129" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00129" target="_blank" rel="noopener">A Shared Valence Axis Across Modern LLMs and Human EEG: The Saturation Regularity</a></h3>
      <p class="summary">Large language models (LLMs) have emerged as powerful representation learners whose internal features increasingly align with human cogniti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c26e8bee140f" data-article-url="https://arxiv.org/abs/2606.00130" data-article-title="Automatically Differentiable Nonlinear Tensor Networks (ADNTNs) for Exponential Compression of Deep Neural Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00130" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00130" target="_blank" rel="noopener">Automatically Differentiable Nonlinear Tensor Networks (ADNTNs) for Exponential Compression of Deep Neural Networks</a></h3>
      <p class="summary">We study Automatically Differentiable Nonlinear Tensor Networks (ADNTNs), a family of structured weight generators whose compact core tenso…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="19e7003a345a" data-article-url="https://arxiv.org/abs/2606.00131" data-article-title="AI-PROPELLER: Warehouse-Scale Interprocedural Code Layout Optimization with AlphaEvolve" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00131" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00131" target="_blank" rel="noopener">AI-PROPELLER: Warehouse-Scale Interprocedural Code Layout Optimization with AlphaEvolve</a></h3>
      <p class="summary">Post-link optimizers (PLOs) such as Propeller and BOLT have demonstrated that precise, profile-guided code layout can extract significant p…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bb56543208ce" data-article-url="https://arxiv.org/abs/2606.00132" data-article-title="Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00132" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00132" target="_blank" rel="noopener">Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization</a></h3>
      <p class="summary">While finetuning effectively adapts foundation models to specialized downstream tasks, it can degrade nontarget capabilities acquired durin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d5166863a666" data-article-url="https://arxiv.org/abs/2606.00134" data-article-title="XAI-SOH-FL: Enhancing SOH-FL with Adaptive Aggregation and Explainable AI for Intrusion Detection in Heterogeneous IoT" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00134" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00134" target="_blank" rel="noopener">XAI-SOH-FL: Enhancing SOH-FL with Adaptive Aggregation and Explainable AI for Intrusion Detection in Heterogeneous IoT</a></h3>
      <p class="summary">Intrusion Detection Systems (IDS) in Internet of Things (IoT) environments face significant challenges due to data heterogeneity, lack of l…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b6d9a3f6a19c" data-article-url="https://arxiv.org/abs/2606.00135" data-article-title="On Effectiveness and Efficiency of Agentic Tool-calling and RL Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00135" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00135" target="_blank" rel="noopener">On Effectiveness and Efficiency of Agentic Tool-calling and RL Training</a></h3>
      <p class="summary">Tool-calling is a central component of modern large language model (LLM) agents, equipping them with skills beyond their parametric knowled…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6790a35df355" data-article-url="https://arxiv.org/abs/2606.00136" data-article-title="Generative AI and Digital Ecosystem Resilience: A Proactive Lifecycle-Based Survey" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00136" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00136" target="_blank" rel="noopener">Generative AI and Digital Ecosystem Resilience: A Proactive Lifecycle-Based Survey</a></h3>
      <p class="summary">The proliferation of adversarial synthetic content, accelerated by Generative AI (GenAI) is rendering traditional reactive detection method…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cc5521103496" data-article-url="https://arxiv.org/abs/2606.00139" data-article-title="Geodesics with Unified Tangent-constrained Priors and Curvature Regularization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00139" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00139" target="_blank" rel="noopener">Geodesics with Unified Tangent-constrained Priors and Curvature Regularization</a></h3>
      <p class="summary">Curvature-penalized geodesic models have proven their effectiveness in image segmentation by computing globally optimal curves. Unfortunate…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="81269a7d8567" data-article-url="https://arxiv.org/abs/2606.00140" data-article-title="Geometric Erasure by Contrastive Velocity Matching in Rectified Flows" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00140" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00140" target="_blank" rel="noopener">Geometric Erasure by Contrastive Velocity Matching in Rectified Flows</a></h3>
      <p class="summary">While the rapid adoption of multimodal generative models offers immense potential, it has also increased the risks of harmful content synth…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2f4185647791" data-article-url="https://arxiv.org/abs/2606.00141" data-article-title="Adaptive data selection improves wearable prediction under low baseline performance" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00141" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00141" target="_blank" rel="noopener">Adaptive data selection improves wearable prediction under low baseline performance</a></h3>
      <p class="summary">Adaptive sensing strategies that selectively sample data are increasingly used in wearable health systems to improve prediction performance…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2b6bb0f697a0" data-article-url="https://arxiv.org/abs/2606.00143" data-article-title="Regime-Adaptive Continual Learning for Portfolio Management" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00143" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00143" target="_blank" rel="noopener">Regime-Adaptive Continual Learning for Portfolio Management</a></h3>
      <p class="summary">Financial markets are inherently non-stationary, exhibiting frequent regime shifts and structural changes that render traditional Portfolio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b38f0665d764" data-article-url="https://arxiv.org/abs/2606.00144" data-article-title="BudgetDraft: Acceptance-Aware Multi-View Training for Sparse-KV Speculative Decoding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00144" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00144" target="_blank" rel="noopener">BudgetDraft: Acceptance-Aware Multi-View Training for Sparse-KV Speculative Decoding</a></h3>
      <p class="summary">Speculative decoding speeds up autoregressive decoding by using a drafter to propose multiple tokens that a verifier validates in parallel.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="810d9b073728" data-article-url="https://arxiv.org/abs/2606.00145" data-article-title="Completion at the Boundary (CaB): Deployable Switching with Completion-Aware Control under Limited Calibration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00145" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00145" target="_blank" rel="noopener">Completion at the Boundary (CaB): Deployable Switching with Completion-Aware Control under Limited Calibration</a></h3>
      <p class="summary">Vision-language-action (VLA) agents can execute natural-language instructions, yet deployed systems still lack an operational interface: de…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6ed05931c7af" data-article-url="https://arxiv.org/abs/2606.00146" data-article-title="Multi-Contrast MRI Motion Correction via Parameter-Informed Disentanglement and Adaptive Experts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00146" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00146" target="_blank" rel="noopener">Multi-Contrast MRI Motion Correction via Parameter-Informed Disentanglement and Adaptive Experts</a></h3>
      <p class="summary">Motion artifacts in magnetic resonance imaging (MRI) degrade diagnostic reliability. Existing deep learning methods are typically contrast-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2d90b57d7b29" data-article-url="https://arxiv.org/abs/2606.00147" data-article-title="RAFT: Data Refinement and Adaptive Distillation for Domain Fine-Tuning with Alleviated Forgetting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00147" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00147" target="_blank" rel="noopener">RAFT: Data Refinement and Adaptive Distillation for Domain Fine-Tuning with Alleviated Forgetting</a></h3>
      <p class="summary">Domain-specific supervised fine-tuning (SFT) often improves in-domain performance at the cost of degrading a model&#x27;s general capabilities.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="018fde39c665" data-article-url="https://arxiv.org/abs/2606.00148" data-article-title="StemBind: When MLLMs Get Lost Between Rules and Instances in Abstract Visual Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00148" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00148" target="_blank" rel="noopener">StemBind: When MLLMs Get Lost Between Rules and Instances in Abstract Visual Reasoning</a></h3>
      <p class="summary">Multimodal large language models (MLLMs) often know the rule but pick the wrong answer: on abstract visual reasoning (AVR) tasks, a model c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b5966eb2ae21" data-article-url="https://arxiv.org/abs/2606.00150" data-article-title="Persona Attack: Incremental Memory Injection Jailbreak Attack against Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00150" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00150" target="_blank" rel="noopener">Persona Attack: Incremental Memory Injection Jailbreak Attack against Large Language Models</a></h3>
      <p class="summary">As Large Language Models evolve for user convenience, vulnerability to jailbreak attacks continues to be reported despite ongoing efforts i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="68579c820976" data-article-url="https://arxiv.org/abs/2606.00151" data-article-title="Emergence of Exploration in Policy Gradient Reinforcement Learning via Retrying" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00151" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00151" target="_blank" rel="noopener">Emergence of Exploration in Policy Gradient Reinforcement Learning via Retrying</a></h3>
      <p class="summary">In reinforcement learning (RL), agents benefit from exploration only because they repeatedly encounter similar states: trying different act…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="93837b677bf1" data-article-url="https://arxiv.org/abs/2606.00152" data-article-title="PrivacyPeek: Auditing What LLM-Based Agents Acquire, Not Just What They Say" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00152" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00152" target="_blank" rel="noopener">PrivacyPeek: Auditing What LLM-Based Agents Acquire, Not Just What They Say</a></h3>
      <p class="summary">LLM-based agents are rapidly advancing, autonomously invoking external tools to complete multi-step tasks for users. However, agents often…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0b143fd514c8" data-article-url="https://arxiv.org/abs/2606.00153" data-article-title="DiffCrossGait: Trajectory-Level Alignment for 2D-3D Cross-Modal Gait Recognition via Latent Diffusion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00153" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00153" target="_blank" rel="noopener">DiffCrossGait: Trajectory-Level Alignment for 2D-3D Cross-Modal Gait Recognition via Latent Diffusion</a></h3>
      <p class="summary">Cross-modal 2D-3D gait recognition is impeded by inherent domain discrepancies between 2D silhouette and 3D LiDAR range-view representation…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3b754f66525d" data-article-url="https://arxiv.org/abs/2606.00154" data-article-title="Benchmarking Multimodal LLMs on Code Generation for Complex Interactive Webpages" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00154" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00154" target="_blank" rel="noopener">Benchmarking Multimodal LLMs on Code Generation for Complex Interactive Webpages</a></h3>
      <p class="summary">Recent advancements in multimodal large language models (MLLMs) have achieved remarkable progress in multimodal reasoning and code generati…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="119f803710e0" data-article-url="https://arxiv.org/abs/2606.00155" data-article-title="A Protocol-Language Model for Network Intrusion (Without Deep Packet Inspection)" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00155" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00155" target="_blank" rel="noopener">A Protocol-Language Model for Network Intrusion (Without Deep Packet Inspection)</a></h3>
      <p class="summary">Modern network intrusion detection systems (NIDS) are caught in a structural contradiction: the protocols carrying the highest threat intel…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4ecaf47e368" data-article-url="https://arxiv.org/abs/2606.00156" data-article-title="A physics-informed foundation model for quantitative diffusion MRI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00156" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00156" target="_blank" rel="noopener">A physics-informed foundation model for quantitative diffusion MRI</a></h3>
      <p class="summary">Understanding the human brain requires access to its microscopic tissue architecture. Diffusion magnetic resonance imaging (MRI) provides t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="06fffb41f826" data-article-url="https://arxiv.org/abs/2606.00157" data-article-title="Interpreting FCDNNs via RG on Exponential Family" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00157" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00157" target="_blank" rel="noopener">Interpreting FCDNNs via RG on Exponential Family</a></h3>
      <p class="summary">We consider establishing the interpretability theory of deep learning through constructing a corresponding relationship between the renorma…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1c5e54a8aed5" data-article-url="https://arxiv.org/abs/2606.00159" data-article-title="Digital-to-Physical Transfer of Adversarial Patches for Aerial Vehicle Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00159" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00159" target="_blank" rel="noopener">Digital-to-Physical Transfer of Adversarial Patches for Aerial Vehicle Detection</a></h3>
      <p class="summary">Deep neural network (DNN)-based object detectors are widely used for analyzing aerial and satellite imagery in applications such as environ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2ad75053c0c5" data-article-url="https://arxiv.org/abs/2606.00160" data-article-title="DataShield: Safety-degrading Data Filtering for LLM Benign Instruction Fine-Tuning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00160" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00160" target="_blank" rel="noopener">DataShield: Safety-degrading Data Filtering for LLM Benign Instruction Fine-Tuning</a></h3>
      <p class="summary">Large language models (LLMs) suffer from degraded safety capabilities even when fine-tuned with benign datasets. However, existing methods…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="623ce3aaa473" data-article-url="https://arxiv.org/abs/2606.00161" data-article-title="Improving IoT Intrusion Detection Through SMOTE-Based Oversampling and Extended Multi-Model Evaluation on Side-Channel Power Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00161" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00161" target="_blank" rel="noopener">Improving IoT Intrusion Detection Through SMOTE-Based Oversampling and Extended Multi-Model Evaluation on Side-Channel Power Data</a></h3>
      <p class="summary">The detection of intrusions in IoT-based networks poses challenges that cannot be overcome using traditional machine learning methods. Perh…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6accab0a6410" data-article-url="https://arxiv.org/abs/2606.00169" data-article-title="ChurnNet: A Optimized Modern AI for Churn Prediction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00169" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00169" target="_blank" rel="noopener">ChurnNet: A Optimized Modern AI for Churn Prediction</a></h3>
      <p class="summary">Increased competition and the growing similarity of products and services offered by retailers have lowered the barriers for customers to s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="04e0a7dc5f55" data-article-url="https://arxiv.org/abs/2606.00170" data-article-title="UF-AMA: A unified framework for cross-domain emotion recognition via adaptive multimodal alignment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00170" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00170" target="_blank" rel="noopener">UF-AMA: A unified framework for cross-domain emotion recognition via adaptive multimodal alignment</a></h3>
      <p class="summary">In recent years, emotion recognition based on physiological signals such as electroencephalogram (EEG) has gained considerable attention, a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ac58c5f207b2" data-article-url="https://arxiv.org/abs/2606.00174" data-article-title="MyoSem: Aligning Electromyography to Natural-Language Action Semantics for Hand Action Understanding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00174" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00174" target="_blank" rel="noopener">MyoSem: Aligning Electromyography to Natural-Language Action Semantics for Hand Action Understanding</a></h3>
      <p class="summary">Electromyography (EMG) directly reflects muscle activation and is a key sensing modality for gesture recognition, prosthetic control, and w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="55d6190fd8eb" data-article-url="https://arxiv.org/abs/2606.00180" data-article-title="Beyond Augmentation: Score-Guided Pathological Prior for EEG-based Depression Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00180" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00180" target="_blank" rel="noopener">Beyond Augmentation: Score-Guided Pathological Prior for EEG-based Depression Detection</a></h3>
      <p class="summary">Deep learning-based Major Depressive Disorder (MDD) detection using Electroencephalography (EEG) is fundamentally constrained by the &quot;small…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0665a05fd0d7" data-article-url="https://arxiv.org/abs/2606.00182" data-article-title="The New Social Image: How AI Competency and AI Proactivity Influence Self- and Peer-Perceptions in the Workplace" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00182" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00182" target="_blank" rel="noopener">The New Social Image: How AI Competency and AI Proactivity Influence Self- and Peer-Perceptions in the Workplace</a></h3>
      <p class="summary">Human-AI collaboration is considered the most promising way to incorporate AI in the workplace. What remains unexplored are the experientia…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="044c351d8fec" data-article-url="https://arxiv.org/abs/2606.00183" data-article-title="Agentic Transformers Provably Learn to Search via Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00183" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00183" target="_blank" rel="noopener">Agentic Transformers Provably Learn to Search via Reinforcement Learning</a></h3>
      <p class="summary">Tree search is a central abstraction behind many language-agent reasoning and decision-making tasks: agents must explore actions, remember…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="91336b2ae715" data-article-url="https://arxiv.org/abs/2606.00189" data-article-title="Learning to Construct Practical Agentic Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00189" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00189" target="_blank" rel="noopener">Learning to Construct Practical Agentic Systems</a></h3>
      <p class="summary">Automated design and optimization of agentic LLM-based systems leads to sophisticated systems that substantially improve result quality ove…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="611afe78029b" data-article-url="https://arxiv.org/abs/2606.00198" data-article-title="BAGEN: Are LLM Agents Budget-Aware?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00198" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00198" target="_blank" rel="noopener">BAGEN: Are LLM Agents Budget-Aware?</a></h3>
      <p class="summary">While agents are increasingly spending more resources, today agent cost is mostly measured only after execution. A Budget-Aware Agent (BAGE…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="81f6670db58f" data-article-url="https://arxiv.org/abs/2606.00202" data-article-title="From Rashomon Theory to PRAXIS: Efficient Decision Tree Rashomon Sets" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00202" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00202" target="_blank" rel="noopener">From Rashomon Theory to PRAXIS: Efficient Decision Tree Rashomon Sets</a></h3>
      <p class="summary">Standard machine learning pipelines often admit many near-optimal models. These &quot;Rashomon sets&quot; pose a range of challenges and opportunitie…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="554c2f0e0f89" data-article-url="https://arxiv.org/abs/2606.00220" data-article-title="SEMBridge: Tagless-Final Program Semantics with Weakest-Precondition and Bounded-Checking Interpretations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00220" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00220" target="_blank" rel="noopener">SEMBridge: Tagless-Final Program Semantics with Weakest-Precondition and Bounded-Checking Interpretations</a></h3>
      <p class="summary">Formal methods provide rigorous accounts of program behavior, but practical software engineering often works through executable libraries,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c55118b189d" data-article-url="https://arxiv.org/abs/2606.00229" data-article-title="Continuous Reasoning for Vision-Language-Action" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00229" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00229" target="_blank" rel="noopener">Continuous Reasoning for Vision-Language-Action</a></h3>
      <p class="summary">Natural language is a powerful reasoning medium for language and vision-language models, but it is mismatched to the granularity of continu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0edca4d49010" data-article-url="https://arxiv.org/abs/2606.00235" data-article-title="Civilizational Metamaterials: Engineering Coordination Under Capability Gradients and Structural Turbulence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00235" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00235" target="_blank" rel="noopener">Civilizational Metamaterials: Engineering Coordination Under Capability Gradients and Structural Turbulence</a></h3>
      <p class="summary">We argue that governance must transition from a normative discipline to an engineering discipline, and we develop a formal framework, inspi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b1d53d3a3429" data-article-url="https://arxiv.org/abs/2606.00241" data-article-title="InfoAtlas: A Foundation Model for Zero-Shot Statistical Dependence Estimate" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00241" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00241" target="_blank" rel="noopener">InfoAtlas: A Foundation Model for Zero-Shot Statistical Dependence Estimate</a></h3>
      <p class="summary">Measuring statistical dependency between high-dimensional random variables is a fundamental task in data science and machine learning. Neur…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="21ff2b6ec401" data-article-url="https://arxiv.org/abs/2606.00250" data-article-title="Effects of Varying LLM Access on Essay Writing Behavior" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00250" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00250" target="_blank" rel="noopener">Effects of Varying LLM Access on Essay Writing Behavior</a></h3>
      <p class="summary">Investigating the degree to which large language models (LLMs) affect teaching and learning in universities can help identify strategies fo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4c683633c865" data-article-url="https://arxiv.org/abs/2606.00257" data-article-title="ARCA: Adapter-Residual Credit Assignment When Token Signals Degenerate" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00257" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00257" target="_blank" rel="noopener">ARCA: Adapter-Residual Credit Assignment When Token Signals Degenerate</a></h3>
      <p class="summary">Token-level credit assignment for language-model reinforcement learning is usually formulated as if the policy were fully trainable, while…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5c82bffda931" data-article-url="https://arxiv.org/abs/2606.00262" data-article-title="When Softmax Fails at the Top: Extreme Value Corrections for InfoNCE" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00262" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00262" target="_blank" rel="noopener">When Softmax Fails at the Top: Extreme Value Corrections for InfoNCE</a></h3>
      <p class="summary">InfoNCE is the standard contrastive learning objective, but its softmax form is not only a computational convenience: it also encodes a sta…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="19742b49ced2" data-article-url="https://arxiv.org/abs/2606.00267" data-article-title="StressDream: Steering Video World Models for Robust Policy Evaluation and Improvement" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00267" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00267" target="_blank" rel="noopener">StressDream: Steering Video World Models for Robust Policy Evaluation and Improvement</a></h3>
      <p class="summary">Video world models (WMs) have shown promise for policy evaluation and improvement by imagining realistic future observations conditioned on…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a6552d458fe0" data-article-url="https://arxiv.org/abs/2606.00275" data-article-title="Hyperbolic and Evidence-Prioritized Experts for Large Vision-Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00275" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00275" target="_blank" rel="noopener">Hyperbolic and Evidence-Prioritized Experts for Large Vision-Language Models</a></h3>
      <p class="summary">Large Vision-Language Models (LVLMs) have demonstrated impressive performance on multimodal tasks through scaled architectures and extensiv…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f073e7424e52" data-article-url="https://arxiv.org/abs/2606.00282" data-article-title="Synthetic Data from Cross-Domain Events for Large-Scale Recommendation Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00282" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00282" target="_blank" rel="noopener">Synthetic Data from Cross-Domain Events for Large-Scale Recommendation Systems</a></h3>
      <p class="summary">Large-scale recommendation systems operate across diverse domains, yet they face the challenges of data sparsity and noisy implicit feedbac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="222587d8dcb0" data-article-url="https://arxiv.org/abs/2606.00299" data-article-title="Real2SAM2Real: Generative 3D Caches as Complementary Context for Video Diffusion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00299" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00299" target="_blank" rel="noopener">Real2SAM2Real: Generative 3D Caches as Complementary Context for Video Diffusion</a></h3>
      <p class="summary">While Video Diffusion Models (VDMs) excel at synthesizing high-fidelity videos, enabling precise camera and scene control remains challengi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5d36bdfadf2b" data-article-url="https://arxiv.org/abs/2606.00305" data-article-title="Bridging Reasoning Trajectories in On-Policy Distillation via Near-Future Guidance" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00305" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00305" target="_blank" rel="noopener">Bridging Reasoning Trajectories in On-Policy Distillation via Near-Future Guidance</a></h3>
      <p class="summary">On-Policy Distillation (OPD) improves large language model reasoning by training a student model on trajectories sampled from its own polic…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="804d848f11a3" data-article-url="https://arxiv.org/abs/2606.00306" data-article-title="Rethinking the Role of Temperature in Large Language Model Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00306" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00306" target="_blank" rel="noopener">Rethinking the Role of Temperature in Large Language Model Distillation</a></h3>
      <p class="summary">Reverse Kullback-Leibler (RKL) divergence is widely favored over forward KL (FKL) in large language models (LLM) distillation, yet this pre…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b08b78ac7afc" data-article-url="https://arxiv.org/abs/2606.00308" data-article-title="How Generation Architecture Shapes Code Complexity in Multi-Agent LLM Systems: A Paired Study on HumanEval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00308" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00308" target="_blank" rel="noopener">How Generation Architecture Shapes Code Complexity in Multi-Agent LLM Systems: A Paired Study on HumanEval</a></h3>
      <p class="summary">Large-language-model code generation has shifted from single-shot prompting to multi-agent orchestrations - analyst, coder, tester, and deb…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1bcea17bcc19" data-article-url="https://arxiv.org/abs/2606.00313" data-article-title="DRL-Based Pose Control for Double-Ackermann Robots Under Actuation Uncertainties" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00313" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00313" target="_blank" rel="noopener">DRL-Based Pose Control for Double-Ackermann Robots Under Actuation Uncertainties</a></h3>
      <p class="summary">Robust deployment of deep reinforcement learning (DRL) policies on real robots remains challenging due to discrepancies between simulation…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2f117ac911cd" data-article-url="https://arxiv.org/abs/2606.00324" data-article-title="LLMs Need Encoders for Semantic IDs Too" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00324" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00324" target="_blank" rel="noopener">LLMs Need Encoders for Semantic IDs Too</a></h3>
      <p class="summary">Multimodal LLMs use dedicated encoders to bridge non-language modalities (vision encoders for images, depth models for audio codec tokens)…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d9f3d3015c6d" data-article-url="https://arxiv.org/abs/2606.00334" data-article-title="Isolating LLM Lexical Bias: A Curation-Free Triangulated Metric for Preference-Stage Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00334" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00334" target="_blank" rel="noopener">Isolating LLM Lexical Bias: A Curation-Free Triangulated Metric for Preference-Stage Learning</a></h3>
      <p class="summary">Various language domains have undergone remarkable changes in recent years; these shifts are largely attributed to the advent of Large Lang…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="90dc9abf43af" data-article-url="https://arxiv.org/abs/2606.00341" data-article-title="ROGUE: Misaligned Agent Behavior Arising from Ordinary Computer Use" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00341" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00341" target="_blank" rel="noopener">ROGUE: Misaligned Agent Behavior Arising from Ordinary Computer Use</a></h3>
      <p class="summary">As AI agents are increasingly deployed in real personal and corporate settings (email accounts, development workflows, company databases, e…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="90cf48c0beca" data-article-url="https://arxiv.org/abs/2606.00349" data-article-title="(HB-ARFM) History-Bootstrapped Flow Matching for Inverse Boiling Reconstruction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00349" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00349" target="_blank" rel="noopener">(HB-ARFM) History-Bootstrapped Flow Matching for Inverse Boiling Reconstruction</a></h3>
      <p class="summary">Reconstructing spatiotemporal fields from partial observations is fundamental to scientific inference, from inferring atmospheric states fr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4147c4259e09" data-article-url="https://arxiv.org/abs/2606.00350" data-article-title="Drift Q-Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00350" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00350" target="_blank" rel="noopener">Drift Q-Learning</a></h3>
      <p class="summary">Offline reinforcement learning requires improving a policy from fixed data while avoiding out-of-distribution actions with unreliable value…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="09076fd36ef0" data-article-url="https://arxiv.org/abs/2606.00367" data-article-title="Reinforcement Learning with Pairwise Preferences in Long-Term Decision Problems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00367" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00367" target="_blank" rel="noopener">Reinforcement Learning with Pairwise Preferences in Long-Term Decision Problems</a></h3>
      <p class="summary">Reinforcement learning problems typically define the goal as maximizing the expected value of a scalar reward function. But, pairwise prefe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="846f3cfaa0b8" data-article-url="https://arxiv.org/abs/2606.00370" data-article-title="Agentic Authoring of Interactive Multiview Visualizations in Genomics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00370" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00370" target="_blank" rel="noopener">Agentic Authoring of Interactive Multiview Visualizations in Genomics</a></h3>
      <p class="summary">Diverse genomics data, scientific questions, and analysis tasks typically demand highly specialized visualizations. Therefore, users often…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ff9ff05b29b1" data-article-url="https://arxiv.org/abs/2606.00380" data-article-title="SUPREME: A Multi-GPU Framework for Reproducible Image Unlearning Method Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00380" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00380" target="_blank" rel="noopener">SUPREME: A Multi-GPU Framework for Reproducible Image Unlearning Method Evaluation</a></h3>
      <p class="summary">Machine unlearning removes the influence of specific training data from a trained model without retraining it from scratch. Evaluating an u…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f59ec9488780" data-article-url="https://arxiv.org/abs/2606.00390" data-article-title="Zamba2-VL Technical Report" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00390" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00390" target="_blank" rel="noopener">Zamba2-VL Technical Report</a></h3>
      <p class="summary">We present Zamba2-VL, a suite of vision-language models built on Zamba2, a hybrid language-model architecture combining Mamba2 state-space…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="af8e64543f35" data-article-url="https://arxiv.org/abs/2606.00392" data-article-title="Detector-Evasive LLM Paraphrasing via Constrained Policy Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00392" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00392" target="_blank" rel="noopener">Detector-Evasive LLM Paraphrasing via Constrained Policy Optimization</a></h3>
      <p class="summary">AI-text detectors are vulnerable to paraphrasing and detector-guided paraphrasing attacks, but existing detector-evasion methods often lack…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e77a279afed1" data-article-url="https://arxiv.org/abs/2606.00395" data-article-title="PR2: Predictive Routing Replay for MoE-Based LLM Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00395" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00395" target="_blank" rel="noopener">PR2: Predictive Routing Replay for MoE-Based LLM Reinforcement Learning</a></h3>
      <p class="summary">Mixture of Experts (MoE) Large Language Models (LLMs) achieve strong performance at scale. However, reinforcement learning (RL) on MoE-base…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="234135258ee6" data-article-url="https://arxiv.org/abs/2606.00402" data-article-title="A Distribution-Free Framework for Rewrite-Based Human-text Detection via Knockoff Filtering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00402" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00402" target="_blank" rel="noopener">A Distribution-Free Framework for Rewrite-Based Human-text Detection via Knockoff Filtering</a></h3>
      <p class="summary">We propose a distribution-free statistical framework that converts arbitrary rewrite-based detectors into detectors with finite-sample FDR…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ee0fce2bd47c" data-article-url="https://arxiv.org/abs/2606.00408" data-article-title="Masking Stale Observations Helps Search Agents -- Until It Doesn&#x27;t: A Regime Map and Its Mechanism" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00408" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00408" target="_blank" rel="noopener">Masking Stale Observations Helps Search Agents -- Until It Doesn&#x27;t: A Regime Map and Its Mechanism</a></h3>
      <p class="summary">Long-horizon search agents accumulate large amounts of retrieved content across many tool calls, making context-budget efficiency increasin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a4fdb28eed35" data-article-url="https://arxiv.org/abs/2606.00417" data-article-title="AgentxGCore: Agentic AI for Next-Generation Mobile Core Network" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00417" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00417" target="_blank" rel="noopener">AgentxGCore: Agentic AI for Next-Generation Mobile Core Network</a></h3>
      <p class="summary">To meet the stringent requirements of emerging applications and the increasingly complex network management and operation, the Next Generat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0edbaf351fe8" data-article-url="https://arxiv.org/abs/2606.00428" data-article-title="Finer Parameter Steps for Low-Rank PEFT: A Controlled Study with CP Tensor Adapters" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00428" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00428" target="_blank" rel="noopener">Finer Parameter Steps for Low-Rank PEFT: A Controlled Study with CP Tensor Adapters</a></h3>
      <p class="summary">Low-rank adapters are usually compared by sweeping a small set of ranks, but the rank also fixes the resolution of the parameter budget. Fo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c1a2aa0db5a" data-article-url="https://arxiv.org/abs/2606.00435" data-article-title="Detect Before You Leap: Mirage Detection in Vision-Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00435" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00435" target="_blank" rel="noopener">Detect Before You Leap: Mirage Detection in Vision-Language Models</a></h3>
      <p class="summary">Vision-language models (VLMs) can produce confident visual answers even when the required visual evidence is missing, blank, or unrelated t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cb5ac8274118" data-article-url="https://arxiv.org/abs/2606.00445" data-article-title="DarkVesselNet: Multi-Modal Remote Sensing and Trajectory Reasoning for Dark Vessel Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00445" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00445" target="_blank" rel="noopener">DarkVesselNet: Multi-Modal Remote Sensing and Trajectory Reasoning for Dark Vessel Detection</a></h3>
      <p class="summary">Dark vessel detection requires fusing what vessels report through AIS with what satellites observe through radar and optical sensors. DarkV…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a4ed3347b9e9" data-article-url="https://arxiv.org/abs/2606.00447" data-article-title="GeoSAM-3D: Geodesic Prompt Propagation for Open-Vocabulary 3D Scene Segmentation from Monocular Video" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00447" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00447" target="_blank" rel="noopener">GeoSAM-3D: Geodesic Prompt Propagation for Open-Vocabulary 3D Scene Segmentation from Monocular Video</a></h3>
      <p class="summary">Open-vocabulary 3D scene segmentation usually assumes RGB-D video, calibrated multi-view imagery, or a reconstructed mesh. GeoSAM-3D studie…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="09e4d4e3cce6" data-article-url="https://arxiv.org/abs/2606.00448" data-article-title="When Safe Skills Collide: Measuring Compositional Risk in Agent Skill Ecosystems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00448" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00448" target="_blank" rel="noopener">When Safe Skills Collide: Measuring Compositional Risk in Agent Skill Ecosystems</a></h3>
      <p class="summary">LLM agents increasingly rely on community-contributed skills that expand an agent&#x27;s operational capability set. We study a core safety prob…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e502737f1ddb" data-article-url="https://arxiv.org/abs/2606.00462" data-article-title="Short-form Text Rewriting with Phi Silica" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00462" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00462" target="_blank" rel="noopener">Short-form Text Rewriting with Phi Silica</a></h3>
      <p class="summary">Short-form text rewriting is a constrained variant of paraphrasing in which limited context and high semantic density leave little room for…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4eec272c318" data-article-url="https://arxiv.org/abs/2606.00467" data-article-title="On the Limits of LLM Adaptability: Impact of Model-Internalized Priors on Annotation Task Performance" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00467" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00467" target="_blank" rel="noopener">On the Limits of LLM Adaptability: Impact of Model-Internalized Priors on Annotation Task Performance</a></h3>
      <p class="summary">Large Language Models (LLMs) are increasingly used for zero-shot annotation and LLM-as-a-judge tasks, yet their reliability hinges on how m…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6461ffcc4f00" data-article-url="https://arxiv.org/abs/2606.00472" data-article-title="CodeCytos: AI-assisted spatial molecular imaging analysis via code-augmented agent action space" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00472" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00472" target="_blank" rel="noopener">CodeCytos: AI-assisted spatial molecular imaging analysis via code-augmented agent action space</a></h3>
      <p class="summary">Conventional tissue image analysis software provides foundational capabilities for cellular analysis, including segmentation, basic morphol…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b9b04912e64f" data-article-url="https://arxiv.org/abs/2606.00491" data-article-title="Pre-Deployment Robustness Stress Testing for CT Segmentation Systems Using Clinically Motivated Multi-Corruption Augmentation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00491" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00491" target="_blank" rel="noopener">Pre-Deployment Robustness Stress Testing for CT Segmentation Systems Using Clinically Motivated Multi-Corruption Augmentation</a></h3>
      <p class="summary">Deep learning-based CT segmentation systems often achieve high accuracy on clean benchmark images, but their performance may degrade under…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="acb6ef68e799" data-article-url="https://arxiv.org/abs/2606.00503" data-article-title="TabChange: Precise Attribute Changes in Tabular Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00503" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00503" target="_blank" rel="noopener">TabChange: Precise Attribute Changes in Tabular Data</a></h3>
      <p class="summary">Modifying an attribute in tabular data often introduces an unnatural instance by breaking its relationships with other attributes. The modi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="05d9f6318025" data-article-url="https://arxiv.org/abs/2606.00508" data-article-title="V-LynX: Token Interface Alignment for Video+X LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00508" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00508" target="_blank" rel="noopener">V-LynX: Token Interface Alignment for Video+X LLMs</a></h3>
      <p class="summary">This study introduces an intriguing phenomenon in Video LLMs: rather than merely translating frames into textual embeddings, Video LLMs est…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1e5b84ef2d25" data-article-url="https://arxiv.org/abs/2606.00510" data-article-title="Skill or Skip? Learning Selective Skill Invocation in Agentic Tasks via Dual-Granularity Preference Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00510" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00510" target="_blank" rel="noopener">Skill or Skip? Learning Selective Skill Invocation in Agentic Tasks via Dual-Granularity Preference Learning</a></h3>
      <p class="summary">Agent skills are callable procedural modules that provide reusable knowledge and execution policies for complex agentic tasks. However, exi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9eb4fc0daf59" data-article-url="https://arxiv.org/abs/2606.00515" data-article-title="PaCo-VLA: Passivity-Shielded Compliance Prior for Contact-Rich Vision-Language-Action Manipulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00515" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00515" target="_blank" rel="noopener">PaCo-VLA: Passivity-Shielded Compliance Prior for Contact-Rich Vision-Language-Action Manipulation</a></h3>
      <p class="summary">Contact-rich manipulation demands both high-level semantic reasoning and the safe regulation of high-frequency contact dynamics. While Visi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0ef51e3db4af" data-article-url="https://arxiv.org/abs/2606.00548" data-article-title="CAFOSat: A Strongly Annotated Dataset for Infrastructure-Aware CAFO Mapping Using High-Resolution Imagery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00548" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00548" target="_blank" rel="noopener">CAFOSat: A Strongly Annotated Dataset for Infrastructure-Aware CAFO Mapping Using High-Resolution Imagery</a></h3>
      <p class="summary">Concentrated Animal Feeding Operations (CAFOs) play an important role in agricultural production but are also associated with environmental…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ea5ad1b08810" data-article-url="https://arxiv.org/abs/2606.00559" data-article-title="Richer Representations for Neural Algorithmic Reasoning via Auxiliary Reconstruction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00559" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00559" target="_blank" rel="noopener">Richer Representations for Neural Algorithmic Reasoning via Auxiliary Reconstruction</a></h3>
      <p class="summary">Neural algorithmic reasoning has emerged as a popular research direction. It aims to train neural networks to mimic the step-by-step behavi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f646ddfd4859" data-article-url="https://arxiv.org/abs/2606.00561" data-article-title="Interpretable Policy Distillation for Power Grid Topology Control" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00561" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00561" target="_blank" rel="noopener">Interpretable Policy Distillation for Power Grid Topology Control</a></h3>
      <p class="summary">Deep reinforcement learning (RL) offers a promising route to real-time power grid operation, yet large neural policies are costly to evalua…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="62da40346a89" data-article-url="https://arxiv.org/abs/2606.00563" data-article-title="A Practical Upper Bound on Selection Bias Effects in Medical Prediction Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00563" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00563" target="_blank" rel="noopener">A Practical Upper Bound on Selection Bias Effects in Medical Prediction Models</a></h3>
      <p class="summary">Selection bias is a common and often unavoidable aspect of real-world data that challenges the generalizability of machine learning models.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3eb0a01585a3" data-article-url="https://arxiv.org/abs/2606.00570" data-article-title="Revisiting Parameter-Based Knowledge Editing in Large Language Models: Theoretical Limits and Empirical Evidence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00570" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00570" target="_blank" rel="noopener">Revisiting Parameter-Based Knowledge Editing in Large Language Models: Theoretical Limits and Empirical Evidence</a></h3>
      <p class="summary">Parameter-based knowledge editing updates the internal knowledge of large language models (LLMs) via localized weight modifications and has…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="adfb86fe4bee" data-article-url="https://arxiv.org/abs/2606.00571" data-article-title="On the Difficulty of Learning a Meta-network for Training Data Selection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00571" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00571" target="_blank" rel="noopener">On the Difficulty of Learning a Meta-network for Training Data Selection</a></h3>
      <p class="summary">Synthetic data are increasingly used to train neural networks, yet distributional mismatch with real data limits their effectiveness when u…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="30cb8d9f87e3" data-article-url="https://arxiv.org/abs/2606.00583" data-article-title="Improving Visual Representation Alignment Generation with GRPO" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00583" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00583" target="_blank" rel="noopener">Improving Visual Representation Alignment Generation with GRPO</a></h3>
      <p class="summary">Recent diffusion transformers have demonstrated strong image synthesis capabilities but remain inefficient to train due to weak alignment b…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0b4e1b6ff3f" data-article-url="https://arxiv.org/abs/2606.00590" data-article-title="Critic-R: Improving Agentic Search using Instruction-tuned Retrievers with Natural Language Introspective Feedback" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00590" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00590" target="_blank" rel="noopener">Critic-R: Improving Agentic Search using Instruction-tuned Retrievers with Natural Language Introspective Feedback</a></h3>
      <p class="summary">Agentic search systems iteratively interact with retrieval models to answer complex queries. Despite substantial progress, optimizing retri…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d1bef8400caa" data-article-url="https://arxiv.org/abs/2606.00593" data-article-title="SPADER: Step-wise Peer Advantage with Diversity-Aware Exploration Rewards for Multi-Answer Question Answering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00593" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00593" target="_blank" rel="noopener">SPADER: Step-wise Peer Advantage with Diversity-Aware Exploration Rewards for Multi-Answer Question Answering</a></h3>
      <p class="summary">Large language models are increasingly deployed as tool-augmented agents to acquire information beyond parametric knowledge. While recent w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dc5de01e5dde" data-article-url="https://arxiv.org/abs/2606.00609" data-article-title="CARE-RL: Capability-Aware Reinforcement Learning for Mitigating Cross-Domain Conflicts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00609" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00609" target="_blank" rel="noopener">CARE-RL: Capability-Aware Reinforcement Learning for Mitigating Cross-Domain Conflicts</a></h3>
      <p class="summary">Reinforcement learning (RL) with verifiable rewards has achieved strong progress in reasoning-oriented LLMs, but extending it to multi-doma…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1c4ad69ab8e5" data-article-url="https://arxiv.org/abs/2606.00610" data-article-title="MemGraphRAG: Memory-based Multi-Agent System for Graph Retrieval-Augmented Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00610" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00610" target="_blank" rel="noopener">MemGraphRAG: Memory-based Multi-Agent System for Graph Retrieval-Augmented Generation</a></h3>
      <p class="summary">Retrieval-Augmented Generation (RAG) has become an essential method for mitigating hallucinations in Large Language Models (LLMs) by levera…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="89f6ace19786" data-article-url="https://arxiv.org/abs/2606.00613" data-article-title="Linguistics-Aware Non-Distortionary LLM Watermarking" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00613" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00613" target="_blank" rel="noopener">Linguistics-Aware Non-Distortionary LLM Watermarking</a></h3>
      <p class="summary">Watermarking should identify language-model output without degrading quality or limiting verification to the model provider. Multilingual d…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fd4c414aeabc" data-article-url="https://arxiv.org/abs/2606.00616" data-article-title="Pause and Think: A Dataset and Benchmark for Video-Grounded Assistive Action Suggestion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00616" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00616" target="_blank" rel="noopener">Pause and Think: A Dataset and Benchmark for Video-Grounded Assistive Action Suggestion</a></h3>
      <p class="summary">Recent Vision-Language Models (VLMs) struggle with grounded reasoning, temporal consistency, and context aware planning in videos. We intro…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="303ba87c4d8d" data-article-url="https://arxiv.org/abs/2606.00619" data-article-title="MemPro: Agentic Memory Systems as Evolvable Programs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00619" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00619" target="_blank" rel="noopener">MemPro: Agentic Memory Systems as Evolvable Programs</a></h3>
      <p class="summary">Long-horizon autonomous agents require memory systems to retain historical information, track evolving states, and reuse relevant knowledge…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ad03a9eeb0db" data-article-url="https://arxiv.org/abs/2606.00621" data-article-title="Authenticity Debt and the Synthetic Content Threat Landscape: A Layered Framework for Trust, Provenance, and IP Governance in the Generative AI Era" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00621" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00621" target="_blank" rel="noopener">Authenticity Debt and the Synthetic Content Threat Landscape: A Layered Framework for Trust, Provenance, and IP Governance in the Generative AI Era</a></h3>
      <p class="summary">Generative artificial intelligence has fundamentally changed how content is now produced. It has enabled how high-fidelity text, images, au…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c3c791e70e40" data-article-url="https://arxiv.org/abs/2606.00636" data-article-title="LP5X-PIM Sim: A High-Fidelity HW/SW Integrated Simulator for LPDDR5X-PIM" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00636" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00636" target="_blank" rel="noopener">LP5X-PIM Sim: A High-Fidelity HW/SW Integrated Simulator for LPDDR5X-PIM</a></h3>
      <p class="summary">This tech note describes the architecture and execution results of the LPDDR5X-PIM simulator, developed by Samsung Electronics. Based on th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="176dc709b6d2" data-article-url="https://arxiv.org/abs/2606.00647" data-article-title="LinguIUTics at PsyDefDetect: Iterative Imbalance-Aware Fine-tuning of Qwen3-8B for Psychological Defense Mechanism Classification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00647" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00647" target="_blank" rel="noopener">LinguIUTics at PsyDefDetect: Iterative Imbalance-Aware Fine-tuning of Qwen3-8B for Psychological Defense Mechanism Classification</a></h3>
      <p class="summary">Detecting psychological defense mechanisms in conversational text remains a challenging clinical NLP problem. For the PsyDefDetect 2026 sha…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="15851f855de2" data-article-url="https://arxiv.org/abs/2606.00651" data-article-title="MESA: Improving MoE Safety Alignment via Decentralized Expertise" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00651" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00651" target="_blank" rel="noopener">MESA: Improving MoE Safety Alignment via Decentralized Expertise</a></h3>
      <p class="summary">Mixture-of-Experts (MoE) architectures scale Large Language Models (LLMs) efficiently, enabling greater capacity with reduced computational…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="af5e131a8eef" data-article-url="https://arxiv.org/abs/2606.00655" data-article-title="Scaling Behavior of Single LLM-Driven Multi-Agent Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00655" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00655" target="_blank" rel="noopener">Scaling Behavior of Single LLM-Driven Multi-Agent Systems</a></h3>
      <p class="summary">The burgeoning field of LLM-based Multi-Agent Systems (MAS) promises to tackle complex tasks through collaborative intelligence, yet fundam…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="002373405041" data-article-url="https://arxiv.org/abs/2606.00656" data-article-title="Demystifying the Optimal Fair Classifier in Multi-Class Classification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00656" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00656" target="_blank" rel="noopener">Demystifying the Optimal Fair Classifier in Multi-Class Classification</a></h3>
      <p class="summary">Ensuring fair and equitable treatment across diverse groups, particularly in multi-class classification tasks, poses a significant challeng…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b86c30fabe06" data-article-url="https://arxiv.org/abs/2606.00658" data-article-title="Collaborative Few-Step Distillation and Low-Bit Quantization for Wan2.2 Dual-Expert Video Diffusion Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00658" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00658" target="_blank" rel="noopener">Collaborative Few-Step Distillation and Low-Bit Quantization for Wan2.2 Dual-Expert Video Diffusion Models</a></h3>
      <p class="summary">Large video diffusion models achieve strong visual quality but remain expensive to deploy because each sample requires many denoising steps…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4ac0e6b3f1f7" data-article-url="https://arxiv.org/abs/2606.00670" data-article-title="Beyond the Mouth: Upper-Face Affective Cues in Audiovisual Sentence Recognition under Acoustic Uncertainty" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00670" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00670" target="_blank" rel="noopener">Beyond the Mouth: Upper-Face Affective Cues in Audiovisual Sentence Recognition under Acoustic Uncertainty</a></h3>
      <p class="summary">Face-to-face speech comprehension is inherently multimodal, integrating acoustic signals with visible articulation, facial expression, head…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="580b70a93137" data-article-url="https://arxiv.org/abs/2606.00674" data-article-title="The Paradox of Outcome Optimization: A Causal Information-Theoretic Bound on Reasoning Shortcuts in LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00674" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00674" target="_blank" rel="noopener">The Paradox of Outcome Optimization: A Causal Information-Theoretic Bound on Reasoning Shortcuts in LLMs</a></h3>
      <p class="summary">Large Language Models (LLMs) aligned via outcome-based Reinforcement Learning (RL) frequently exhibit a critical failure mode: they achieve…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0b307007651" data-article-url="https://arxiv.org/abs/2606.00700" data-article-title="COPF: An Online Framework for Deployment-Stable Counterfactual Fairness in Evolving Graphs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00700" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00700" target="_blank" rel="noopener">COPF: An Online Framework for Deployment-Stable Counterfactual Fairness in Evolving Graphs</a></h3>
      <p class="summary">Online link recommendation on evolving graphs is performative: by choosing which candidate links to show users, the system changes which li…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f84e30c8b803" data-article-url="https://arxiv.org/abs/2606.00702" data-article-title="Shape Your Body: Value Gradients for Multi-Embodiment Robot Design" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00702" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00702" target="_blank" rel="noopener">Shape Your Body: Value Gradients for Multi-Embodiment Robot Design</a></h3>
      <p class="summary">We propose to turn generalist multi-embodiment value functions into reusable models for robot design. Instead of running a new reinforcemen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dbc3f9c68e10" data-article-url="https://arxiv.org/abs/2606.00703" data-article-title="Information-Theoretic Lower Bounds for Bit-Constrained Stochastic Optimization via a Reduction to Compressed Gaussian Mean Estimation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00703" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00703" target="_blank" rel="noopener">Information-Theoretic Lower Bounds for Bit-Constrained Stochastic Optimization via a Reduction to Compressed Gaussian Mean Estimation</a></h3>
      <p class="summary">Low-precision pretraining (FP8, MXFP4, NVFP4) is now standard for frontier language models, yet the literature is almost entirely achievabi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="edbc5f5a0388" data-article-url="https://arxiv.org/abs/2606.00717" data-article-title="Multi-Agent Conformal Prediction with Personalized Statistical Validity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00717" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00717" target="_blank" rel="noopener">Multi-Agent Conformal Prediction with Personalized Statistical Validity</a></h3>
      <p class="summary">Uncertainty quantification is essential in high-stakes machine learning tasks. However, one of the principled solutions, conformal predicti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79074a60fd7a" data-article-url="https://arxiv.org/abs/2606.00722" data-article-title="EPIC: Efficient and Parallel Inference under CFG Constraints for Diffusion Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00722" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00722" target="_blank" rel="noopener">EPIC: Efficient and Parallel Inference under CFG Constraints for Diffusion Language Models</a></h3>
      <p class="summary">Controlling language model outputs is essential for ensuring structural validity, reliability, and downstream usability, and diffusion lang…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7fe8028d40c4" data-article-url="https://arxiv.org/abs/2606.00724" data-article-title="WaveFilter: Enhancing the Long-Context Capability of Diffusion LLMs via Wavelet-Guided KV Cache Filtering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00724" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00724" target="_blank" rel="noopener">WaveFilter: Enhancing the Long-Context Capability of Diffusion LLMs via Wavelet-Guided KV Cache Filtering</a></h3>
      <p class="summary">Diffusion Large Language Models (DLMs) have demonstrated significant advantages across various tasks. However, constrained by their multi-s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="97d3582d0cc1" data-article-url="https://arxiv.org/abs/2606.00738" data-article-title="SORA: Free Second-Order Attacks in Fast Adversarial Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/sora/" data-entity="sora">Sora</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00738" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00738" target="_blank" rel="noopener">SORA: Free Second-Order Attacks in Fast Adversarial Training</a></h3>
      <p class="summary">Adversarial Training (AT) is a leading defense against adversarial examples but often suffers from Catastrophic Overfitting (CO) in efficie…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5d3b1be54101" data-article-url="https://arxiv.org/abs/2606.00741" data-article-title="Quantum Tunneling-Aware Machine Learning: Physics-Derived Noise Models for Robust Deployment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00741" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00741" target="_blank" rel="noopener">Quantum Tunneling-Aware Machine Learning: Physics-Derived Noise Models for Robust Deployment</a></h3>
      <p class="summary">Transistor scaling is approaching a quantum-mechanical limit, as thin gate oxides induce electron leakage through quantum tunneling. Unlike…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a859c3e8cdc" data-article-url="https://arxiv.org/abs/2606.00747" data-article-title="SkyShield: Occupancy as a Safety Interface for Low-Altitude UAV Autonomy" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00747" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00747" target="_blank" rel="noopener">SkyShield: Occupancy as a Safety Interface for Low-Altitude UAV Autonomy</a></h3>
      <p class="summary">For low-altitude Unmanned Aerial Vehicle (UAV) autonomy, 3D spatial understanding is not merely a perception objective, but the safety inte…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f07b39d54a99" data-article-url="https://arxiv.org/abs/2606.00754" data-article-title="Causal Density Functions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00754" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00754" target="_blank" rel="noopener">Causal Density Functions</a></h3>
      <p class="summary">We introduce causal density functions: Radon-Nikodym derivatives that compare interventional laws to observational laws and therefore act a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="36030ef5bca0" data-article-url="https://arxiv.org/abs/2606.00771" data-article-title="Logit Distillation on Manifolds: Mapping by Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00771" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00771" target="_blank" rel="noopener">Logit Distillation on Manifolds: Mapping by Learning</a></h3>
      <p class="summary">A simple way to improve the performance of almost any machine learning model is not to train a single but several models with diverse algor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="319f732b65fa" data-article-url="https://arxiv.org/abs/2606.00775" data-article-title="GIRL-DETR: Gradient-Isolated Reinforcement Learning for Video Moment Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00775" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00775" target="_blank" rel="noopener">GIRL-DETR: Gradient-Isolated Reinforcement Learning for Video Moment Retrieval</a></h3>
      <p class="summary">Video Moment Retrieval (VMR) task requires accurately localizing temporal boundaries aligned with natural language queries, but many models…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f45c3eef5ae7" data-article-url="https://arxiv.org/abs/2606.00780" data-article-title="Behavior-Invariant Task Representation Learning with Transformer-based World Models for Offline Meta-Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00780" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00780" target="_blank" rel="noopener">Behavior-Invariant Task Representation Learning with Transformer-based World Models for Offline Meta-Reinforcement Learning</a></h3>
      <p class="summary">Offline meta-reinforcement learning leverages static datasets to enable agents to generalize to unseen environments by combining offline ef…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e4d8c28124da" data-article-url="https://arxiv.org/abs/2606.00783" data-article-title="Bayesian Inference of Nonlinear Malaria Dynamics in Ghana via an Ensemble Markov Chain Monte Carlo Sampler" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00783" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00783" target="_blank" rel="noopener">Bayesian Inference of Nonlinear Malaria Dynamics in Ghana via an Ensemble Markov Chain Monte Carlo Sampler</a></h3>
      <p class="summary">Reliable quantification of malaria dynamics in sub-Saharan Africa is hindered by short, noisy, and spatially heterogeneous surveillance rec…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b322a27c9f21" data-article-url="https://arxiv.org/abs/2606.00795" data-article-title="Extending Causal Metamodeling to a non-Markovian Queue" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00795" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00795" target="_blank" rel="noopener">Extending Causal Metamodeling to a non-Markovian Queue</a></h3>
      <p class="summary">Metamodels for discrete-event simulations approximate the behavior of simulation models without running expensive simulations. Prior work i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b0e7114b5316" data-article-url="https://arxiv.org/abs/2606.00798" data-article-title="DASH: Dual-Branch Score Distillation for Guidance-Calibrated Compact Diffusion Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00798" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00798" target="_blank" rel="noopener">DASH: Dual-Branch Score Distillation for Guidance-Calibrated Compact Diffusion Models</a></h3>
      <p class="summary">Parameter compression of class-conditional diffusion models reveals an underexplored limitation in output-level distillation: the unconditi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d96906e490da" data-article-url="https://arxiv.org/abs/2606.00804" data-article-title="Dynamic Coordination Strategy Selection for Enterprise Multi-Agent Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00804" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00804" target="_blank" rel="noopener">Dynamic Coordination Strategy Selection for Enterprise Multi-Agent Systems</a></h3>
      <p class="summary">Enterprise multi-agent systems increasingly expose multiple coordination patterns, but deployments often lack evidence for when to use cons…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="94e6ad2c28b6" data-article-url="https://arxiv.org/abs/2606.00811" data-article-title="Certificates without Electrons? Theory and Evidence on Impacts from AI-Driven Power Demand" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00811" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00811" target="_blank" rel="noopener">Certificates without Electrons? Theory and Evidence on Impacts from AI-Driven Power Demand</a></h3>
      <p class="summary">Data centers now account for 4.4% of United States electricity demand, yet the grid-level effectiveness of the renewable energy certificate…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="971ed43b0f28" data-article-url="https://arxiv.org/abs/2606.00822" data-article-title="SkillPager: Query-Adaptive Intra-Skill Navigation via Semantic Node Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00822" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00822" target="_blank" rel="noopener">SkillPager: Query-Adaptive Intra-Skill Navigation via Semantic Node Retrieval</a></h3>
      <p class="summary">Skill-based LLM agents increasingly rely on long procedural documents, but full-document prompting wastes tokens and dilutes information cr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2d6cb66f8e50" data-article-url="https://arxiv.org/abs/2606.00827" data-article-title="Beyond Independent Manipulation: Individual Fairness-aware Strategic Classification with Peer Imitation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00827" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00827" target="_blank" rel="noopener">Beyond Independent Manipulation: Individual Fairness-aware Strategic Classification with Peer Imitation</a></h3>
      <p class="summary">Strategic classification (SC) investigates scenarios where agents manipulate their features to obtain favorable decisions from predictive m…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6f64d290089a" data-article-url="https://arxiv.org/abs/2606.00834" data-article-title="Hybrid Probabilistic Forecasting of Under-Five Malaria Admissions in Ghana: A Gaussian Process Regression with Holt-Winters Smoothing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00834" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00834" target="_blank" rel="noopener">Hybrid Probabilistic Forecasting of Under-Five Malaria Admissions in Ghana: A Gaussian Process Regression with Holt-Winters Smoothing</a></h3>
      <p class="summary">Accurate malaria forecasting remains a major challenge in sub-Saharan Africa, where strong seasonality, reporting uncertainty, and non-stat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="595cf35e9668" data-article-url="https://arxiv.org/abs/2606.00844" data-article-title="MoEIoU: Rethinking Bounding-Box Regression as a Mixture of Experts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00844" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00844" target="_blank" rel="noopener">MoEIoU: Rethinking Bounding-Box Regression as a Mixture of Experts</a></h3>
      <p class="summary">Bounding-box regression is a fundamental component of object detection, playing a critical role in precise object localization. Existing In…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8cb025823fc5" data-article-url="https://arxiv.org/abs/2606.00852" data-article-title="RefDiffNet: Learning to Expose Subtle PCB Defects Before Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00852" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00852" target="_blank" rel="noopener">RefDiffNet: Learning to Expose Subtle PCB Defects Before Detection</a></h3>
      <p class="summary">Printed circuit board (PCB) defect detection is challenging because many defects are small and difficult to distinguish from complex backgr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ee7d38d6bd63" data-article-url="https://arxiv.org/abs/2606.00857" data-article-title="From Cues to Horizons: Dynamic Risk Horizon Profiling for Trajectory Prediction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00857" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00857" target="_blank" rel="noopener">From Cues to Horizons: Dynamic Risk Horizon Profiling for Trajectory Prediction</a></h3>
      <p class="summary">Accurate and reliable vehicle trajectory prediction is essential for safe autonomous driving. Recent studies have incorporated safety risk…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d64df67f0b43" data-article-url="https://arxiv.org/abs/2606.00860" data-article-title="GenPT: Beyond Self-Report for Reliable LLM Psychometrics via Generative Projective Testing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00860" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00860" target="_blank" rel="noopener">GenPT: Beyond Self-Report for Reliable LLM Psychometrics via Generative Projective Testing</a></h3>
      <p class="summary">Self-report questionnaires remain the prevailing tool for probing the psychological states of persona-conditioned agents (PC-Agents). Howev…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6cf988eac195" data-article-url="https://arxiv.org/abs/2606.00871" data-article-title="Benchmarks for Vision-Language Models in Urban Perception Should Be Reliability-Aware and Negotiated" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00871" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00871" target="_blank" rel="noopener">Benchmarks for Vision-Language Models in Urban Perception Should Be Reliability-Aware and Negotiated</a></h3>
      <p class="summary">Vision-language models (VLMs) are increasingly used to generate structured descriptions of street-level imagery for tasks such as streetsca…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4dde623d5627" data-article-url="https://arxiv.org/abs/2606.00880" data-article-title="Task diversity produces systematic transfer but inhibits continual reinforcement learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00880" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00880" target="_blank" rel="noopener">Task diversity produces systematic transfer but inhibits continual reinforcement learning</a></h3>
      <p class="summary">Continual reinforcement learning aims to produce agents that learn not only to improve at their current tasks but also to adapt as task dis…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="73bd8c39cf9b" data-article-url="https://arxiv.org/abs/2606.00884" data-article-title="Dive into Waves: Morlet Spectral Transformer for Cross-Subject Emotion Decoding from EEG" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00884" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00884" target="_blank" rel="noopener">Dive into Waves: Morlet Spectral Transformer for Cross-Subject Emotion Decoding from EEG</a></h3>
      <p class="summary">We study cross-subject emotion recognition from EEG, a practically important yet challenging problem in brain-computer interfaces. Unlike t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="684f414ff611" data-article-url="https://arxiv.org/abs/2606.00888" data-article-title="Memory-Efficient LLM Training with Dynamic Sparsity: From Stability to Practical Scaling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00888" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00888" target="_blank" rel="noopener">Memory-Efficient LLM Training with Dynamic Sparsity: From Stability to Practical Scaling</a></h3>
      <p class="summary">Dynamic Sparse Training (DST) offers a promising paradigm for improving the training and inference efficiency of deep neural networks; howe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7373f3703d1b" data-article-url="https://arxiv.org/abs/2606.00909" data-article-title="MLLM-Microscope: Unlocking Hidden Structure Within Multimodal Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00909" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00909" target="_blank" rel="noopener">MLLM-Microscope: Unlocking Hidden Structure Within Multimodal Large Language Models</a></h3>
      <p class="summary">This work presents MLLM-Microscope, a novel system designed for analyzing the hidden representations within Multimodal Large Language Model…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bf66577df33e" data-article-url="https://arxiv.org/abs/2606.00920" data-article-title="Accuracy, Stability, and Repeated-Run Reliability of Large Language Models on Deterministic Programming Tasks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00920" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00920" target="_blank" rel="noopener">Accuracy, Stability, and Repeated-Run Reliability of Large Language Models on Deterministic Programming Tasks</a></h3>
      <p class="summary">Run-level pass rate overstates retry-free coverage by up to 17.8 percentage points -- and the gap is largest precisely for mid-performing s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f9e29e36fdab" data-article-url="https://arxiv.org/abs/2606.00925" data-article-title="Benchmarking Security Risk Detection and Verification in Open Agentic Skill Ecosystems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00925" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00925" target="_blank" rel="noopener">Benchmarking Security Risk Detection and Verification in Open Agentic Skill Ecosystems</a></h3>
      <p class="summary">Open agent platforms allow community contributors to publish reusable skills that agents can invoke at runtime. This extensibility also cre…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="24e7ebb85fd2" data-article-url="https://arxiv.org/abs/2606.00930" data-article-title="Detection vs. Execution: Single-Bucket Probes Miss Half the Mamba-2 State Sink" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00930" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00930" target="_blank" rel="noopener">Detection vs. Execution: Single-Bucket Probes Miss Half the Mamba-2 State Sink</a></h3>
      <p class="summary">Mechanistic interpretability often assumes that probes identifying a representational signature also identify the circuit executing the cor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7b3275e2d953" data-article-url="https://arxiv.org/abs/2606.00931" data-article-title="CV-Arena: An Open Benchmark for Instructional Computer Vision Problem Solving with Human-AI Collaborative Preferences" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00931" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00931" target="_blank" rel="noopener">CV-Arena: An Open Benchmark for Instructional Computer Vision Problem Solving with Human-AI Collaborative Preferences</a></h3>
      <p class="summary">Instruction-guided image editing is becoming a general interface for visual work, yet existing benchmarks still focus largely on narrow app…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8f015609ef74" data-article-url="https://arxiv.org/abs/2606.00946" data-article-title="Lodestar: An Online-Learning LLM Inference Router" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00946" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00946" target="_blank" rel="noopener">Lodestar: An Online-Learning LLM Inference Router</a></h3>
      <p class="summary">Efficiently serving large language model (LLM) inference tasks is crucial both for user-perceived latency such as time-to-first-token (TTFT…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1ca775af4689" data-article-url="https://arxiv.org/abs/2606.00947" data-article-title="Silent Failures in Federated Personalization of Foundation Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00947" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00947" target="_blank" rel="noopener">Silent Failures in Federated Personalization of Foundation Models</a></h3>
      <p class="summary">Foundation models are increasingly personalized on decentralized private data through federated learning and are now deployed at scale unde…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cc549afadb4b" data-article-url="https://arxiv.org/abs/2606.00949" data-article-title="Explainable deep reinforcement learning reveals energy-efficient control strategies for turbulent drag reduction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00949" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00949" target="_blank" rel="noopener">Explainable deep reinforcement learning reveals energy-efficient control strategies for turbulent drag reduction</a></h3>
      <p class="summary">We propose a method combining Multi-Agent Deep Reinforcement Learning (MARL) and eXplainable Deep Learning (XDL) to reduce drag in wall-bou…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="12e7e6927bf8" data-article-url="https://arxiv.org/abs/2606.00962" data-article-title="SS-ZKR: Spatial-Semantic Zero-Knowledge Routing for Privacy-Preserving Multi-Agent Collaboration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00962" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00962" target="_blank" rel="noopener">SS-ZKR: Spatial-Semantic Zero-Knowledge Routing for Privacy-Preserving Multi-Agent Collaboration</a></h3>
      <p class="summary">Foundational agent interoperability standards, notably the Agent-to-Agent (A2A) protocol and the Model Context Protocol (MCP), have advance…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ce1b91f6d50d" data-article-url="https://arxiv.org/abs/2606.00987" data-article-title="An Open-Source Benchmark and Baseline for Multi-temporal Referring Segmentation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.00987" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.00987" target="_blank" rel="noopener">An Open-Source Benchmark and Baseline for Multi-temporal Referring Segmentation</a></h3>
      <p class="summary">Large Vision-Language Models (LVLMs) have shown strong visual understanding and language-guided grounding abilities, yet their capacity for…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eaf6fa4539fd" data-article-url="https://arxiv.org/abs/2606.01007" data-article-title="Beyond Task-Agnostic: Task-Aware Grouping for Communication-Efficient Multi-Task MoE Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01007" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01007" target="_blank" rel="noopener">Beyond Task-Agnostic: Task-Aware Grouping for Communication-Efficient Multi-Task MoE Inference</a></h3>
      <p class="summary">Sparsely activated Mixture-of-Experts (MoE) models scale capacity via conditional computation, but distributed inference suffers from cross…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="89d176c413cf" data-article-url="https://arxiv.org/abs/2606.01008" data-article-title="FVSpec: Real-World Property-Based Tests as Lean Challenges" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01008" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01008" target="_blank" rel="noopener">FVSpec: Real-World Property-Based Tests as Lean Challenges</a></h3>
      <p class="summary">We present a benchmark for evaluating AI models and agents on real-world formal software verification tasks. We first scrape 11,039 propert…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f9a534c23d7" data-article-url="https://arxiv.org/abs/2606.01014" data-article-title="Cross-Axis Feature Fusion with Joint-Wise Motion Difference Prediction for Text-Based 3D Human Motion Editing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01014" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01014" target="_blank" rel="noopener">Cross-Axis Feature Fusion with Joint-Wise Motion Difference Prediction for Text-Based 3D Human Motion Editing</a></h3>
      <p class="summary">We address text-based 3D human motion editing, where the goal is to preserve the style and structure of a source motion while applying edit…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="544406d9221e" data-article-url="https://arxiv.org/abs/2606.01015" data-article-title="AI-IoT-Robotics Integration: Survey of Frameworks, Emerging Trends, and the Path Toward Connected Robotics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01015" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01015" target="_blank" rel="noopener">AI-IoT-Robotics Integration: Survey of Frameworks, Emerging Trends, and the Path Toward Connected Robotics</a></h3>
      <p class="summary">The convergence of Artificial Intelligence, the Internet of Things, and Robotics is no longer a futuristic vision; it is rapidly becoming t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2ad50a924496" data-article-url="https://arxiv.org/abs/2606.01016" data-article-title="PolySpeech-100: A Large-Scale Benchmark for Speech Understanding Across 100+ Languages and Dialects" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01016" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01016" target="_blank" rel="noopener">PolySpeech-100: A Large-Scale Benchmark for Speech Understanding Across 100+ Languages and Dialects</a></h3>
      <p class="summary">While End-to-End (E2E) Speech-Large Language Models (Speech-LLMs) are rapidly evolving, their evaluation methodologies remain limited to th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="54261f371e16" data-article-url="https://arxiv.org/abs/2606.01019" data-article-title="Hybrid Verified Decoding: Learning to Allocate Verification in Speculative Decoding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01019" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01019" target="_blank" rel="noopener">Hybrid Verified Decoding: Learning to Allocate Verification in Speculative Decoding</a></h3>
      <p class="summary">Large Language Model (LLM) generation remains expensive because autoregressive decoding calls the model once for each new token. Speculativ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5e0769112978" data-article-url="https://arxiv.org/abs/2606.01022" data-article-title="ProductWebGen: Benchmarking Multimodal Product Webpage Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01022" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01022" target="_blank" rel="noopener">ProductWebGen: Benchmarking Multimodal Product Webpage Generation</a></h3>
      <p class="summary">Crafting a product display webpage from a source product image, along with layout and visual content instructions, holds significant practi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="916dfedeed15" data-article-url="https://arxiv.org/abs/2606.01023" data-article-title="Data Collection for Training Quality-Control AI in Carpet Manufacturing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01023" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01023" target="_blank" rel="noopener">Data Collection for Training Quality-Control AI in Carpet Manufacturing</a></h3>
      <p class="summary">Visual inspection remains the dominant quality-control practice in woven and tufted carpet production, yet it is slow, subjective, and inco…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1031d70ef163" data-article-url="https://arxiv.org/abs/2606.01024" data-article-title="DSL-LLaDA: Scaling Continuous Denoising to 8B Masked Diffusion LMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01024" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01024" target="_blank" rel="noopener">DSL-LLaDA: Scaling Continuous Denoising to 8B Masked Diffusion LMs</a></h3>
      <p class="summary">Discrete Masked diffusion language models generate text by iterative parallel decoding, but few-step decoding suffers from a tradeoff betwe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2baff000e3c2" data-article-url="https://arxiv.org/abs/2606.01031" data-article-title="Temporally-Aligned Evaluation for Audio-Driven Talking Head Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01031" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01031" target="_blank" rel="noopener">Temporally-Aligned Evaluation for Audio-Driven Talking Head Generation</a></h3>
      <p class="summary">Audio-driven talking-head generation has advanced rapidly, yet existing evaluation protocols mainly rely on frame-wise metrics that assume…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eece7d25587f" data-article-url="https://arxiv.org/abs/2606.01039" data-article-title="OPD+: Rethinking the Advantage Design for On-Policy Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01039" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01039" target="_blank" rel="noopener">OPD+: Rethinking the Advantage Design for On-Policy Distillation</a></h3>
      <p class="summary">On-policy distillation (OPD) is a widely used technique to transfer capabilities from capable teacher language models to the base student m…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0127a6d2483d" data-article-url="https://arxiv.org/abs/2606.01042" data-article-title="Plausibility Is Not Prediction: Contrastive Evidence for LLM-Based Cellular Perturbation Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01042" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01042" target="_blank" rel="noopener">Plausibility Is Not Prediction: Contrastive Evidence for LLM-Based Cellular Perturbation Reasoning</a></h3>
      <p class="summary">Perturbation experiments are central to understanding cellular mechanisms, but remain costly and sparse, motivating prediction of gene expr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="64735a5680a9" data-article-url="https://arxiv.org/abs/2606.01057" data-article-title="3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01057" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01057" target="_blank" rel="noopener">3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code</a></h3>
      <p class="summary">Procedural 3D modeling through code is emerging as a versatile paradigm, offering deterministic, engine-ready, and precisely editable asset…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="777166ccf3d0" data-article-url="https://arxiv.org/abs/2606.01060" data-article-title="MENTIS: What Belief Changes Under Alignment? Measuring Multi-Scale Latent Torsion in Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01060" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01060" target="_blank" rel="noopener">MENTIS: What Belief Changes Under Alignment? Measuring Multi-Scale Latent Torsion in Language Models</a></h3>
      <p class="summary">Preference alignment has substantially improved the observable behavior of large language models, yet it remains unclear what alignment cha…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f8f7e087ac2c" data-article-url="https://arxiv.org/abs/2606.01065" data-article-title="Leyline: KV Cache Directives for Agentic Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01065" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01065" target="_blank" rel="noopener">Leyline: KV Cache Directives for Agentic Inference</a></h3>
      <p class="summary">Modern KV cache management assumes the chatbot workload: prompts arrive once and the cache grows append-only, so prefix caching and forward…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="492687b90626" data-article-url="https://arxiv.org/abs/2606.01070" data-article-title="Test-Time Training for Zero-Resource Dense Retrieval Reranking" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01070" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01070" target="_blank" rel="noopener">Test-Time Training for Zero-Resource Dense Retrieval Reranking</a></h3>
      <p class="summary">Dense retrievers excel at first-stage candidate generation but lack effective reranking in zero-resource settings. Existing approaches face…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="81d07037bfc6" data-article-url="https://arxiv.org/abs/2606.01080" data-article-title="ThinkSwitch: Context Distillation with LoRA and Weight Interpolation for Specific-Purpose Reasoning Tasks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01080" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01080" target="_blank" rel="noopener">ThinkSwitch: Context Distillation with LoRA and Weight Interpolation for Specific-Purpose Reasoning Tasks</a></h3>
      <p class="summary">Large language models often improve on difficult tasks by spending inference-time compute on a reasoning trace before producing the final a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b9b2daf63ea1" data-article-url="https://arxiv.org/abs/2606.01084" data-article-title="MViewRouter: Internalizing Geometric Equivariance via Multi-view Alternating Attention for Combinatorial Routing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01084" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01084" target="_blank" rel="noopener">MViewRouter: Internalizing Geometric Equivariance via Multi-view Alternating Attention for Combinatorial Routing</a></h3>
      <p class="summary">Combinatorial routing problems such as the Traveling Salesman Problem (TSP) and the Capacitated Vehicle Routing Problem (CVRP) are fundamen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a75d567606ad" data-article-url="https://arxiv.org/abs/2606.01086" data-article-title="Strong Stochastic Flow Maps" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01086" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01086" target="_blank" rel="noopener">Strong Stochastic Flow Maps</a></h3>
      <p class="summary">Flow and diffusion models generate high-quality samples in many modalities; however, many network evaluations are required during inference…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f566b7426fc9" data-article-url="https://arxiv.org/abs/2606.01092" data-article-title="A Fiber Criterion for Representation Identifiability in Supervised Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01092" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01092" target="_blank" rel="noopener">A Fiber Criterion for Representation Identifiability in Supervised Learning</a></h3>
      <p class="summary">Supervised learning evaluates predictors through their input-output behavior. When a predictor is implemented as a composition $f=c\circ h$…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="104aff5dacdd" data-article-url="https://arxiv.org/abs/2606.01095" data-article-title="Beyond Task Success: Behavioral and Representational Diagnostics for WAM and VLA" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01095" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01095" target="_blank" rel="noopener">Beyond Task Success: Behavioral and Representational Diagnostics for WAM and VLA</a></h3>
      <p class="summary">Vision-language-action (VLA) policies and World-Action Models (WAM) represent two increasingly important paradigms for robotic manipulation…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6e1d874ca3fe" data-article-url="https://arxiv.org/abs/2606.01098" data-article-title="Implicit Drifting Policy: One-Step Action Generation via Conditional Expert Geometry" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01098" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01098" target="_blank" rel="noopener">Implicit Drifting Policy: One-Step Action Generation via Conditional Expert Geometry</a></h3>
      <p class="summary">Generative action policies based on diffusion or flow matching excel in behavior cloning, yet their iterative sampling is prohibitive for h…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f0006fd07867" data-article-url="https://arxiv.org/abs/2606.01099" data-article-title="MiCU: End-to-End Smart Home Command Understanding with Large Language Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01099" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01099" target="_blank" rel="noopener">MiCU: End-to-End Smart Home Command Understanding with Large Language Model</a></h3>
      <p class="summary">Command understanding systems in smart home ecosystems can automate device control and substantially improve user experience. However, whil…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="25511b552537" data-article-url="https://arxiv.org/abs/2606.01101" data-article-title="Soft-NBCE: Entropy-Weighted Chunk Fusion for Long-Context" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01101" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01101" target="_blank" rel="noopener">Soft-NBCE: Entropy-Weighted Chunk Fusion for Long-Context</a></h3>
      <p class="summary">The quadratic complexity of self-attention remains a bottleneck for Large Language Models (LLMs) processing ultra-long contexts. The Naive…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="850eab14ab20" data-article-url="https://arxiv.org/abs/2606.01117" data-article-title="HASTE: Hardware-Aware Dynamic Sparse Training for Large Output Spaces" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01117" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01117" target="_blank" rel="noopener">HASTE: Hardware-Aware Dynamic Sparse Training for Large Output Spaces</a></h3>
      <p class="summary">Extreme multi-label classification (XMC) involves learning models over large output spaces with millions of labels, making the output layer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="80addcf2fcac" data-article-url="https://arxiv.org/abs/2606.01126" data-article-title="STARFISH: faST Accuracy Recovery in pruned networks From Internal State Healing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01126" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01126" target="_blank" rel="noopener">STARFISH: faST Accuracy Recovery in pruned networks From Internal State Healing</a></h3>
      <p class="summary">Pruning is a process designed to reduce the number of weights in a large neural network. This can substantially speed up inference but migh…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d1ab2bdd8d4a" data-article-url="https://arxiv.org/abs/2606.01138" data-article-title="AMP: A Vendor-Neutral Wire Format for Agent Memory Operations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01138" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01138" target="_blank" rel="noopener">AMP: A Vendor-Neutral Wire Format for Agent Memory Operations</a></h3>
      <p class="summary">Agent-memory frameworks - mem0, Letta/MemGPT, Cognee, Zep/Graphiti, MemoryOS, MemTensor - each ship their own SDK, storage layout, and oper…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec29327f1c3d" data-article-url="https://arxiv.org/abs/2606.01152" data-article-title="ASE-26: a curriculum for agentic software engineering as a discipline" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01152" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01152" target="_blank" rel="noopener">ASE-26: a curriculum for agentic software engineering as a discipline</a></h3>
      <p class="summary">The work of a professional software engineer has begun to consist, increasingly, of directing agents rather than writing code, and the empi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6f85c2335344" data-article-url="https://arxiv.org/abs/2606.01155" data-article-title="When Data Is Scarce: Scaling Sparse Language Models with Repeated Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01155" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01155" target="_blank" rel="noopener">When Data Is Scarce: Scaling Sparse Language Models with Repeated Training</a></h3>
      <p class="summary">Scaling laws for dense LLMs under infinite data are well explored, but how sparsity interacts with limited data is not. In this work, we st…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ef6b8e36134d" data-article-url="https://arxiv.org/abs/2606.01171" data-article-title="AI From the Margins (AIM): Rethinking Participatory AI Design Through the Lived Experience of Minoritized Communities" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01171" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01171" target="_blank" rel="noopener">AI From the Margins (AIM): Rethinking Participatory AI Design Through the Lived Experience of Minoritized Communities</a></h3>
      <p class="summary">Artificial intelligence (AI) can reproduce and amplify the structural inequities faced by minoritized communities. Participatory AI has bee…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d91c2001a22f" data-article-url="https://arxiv.org/abs/2606.01179" data-article-title="Physics-Informed Deep Learning for Entropy Prediction in Heterogeneous Systems: Thermodynamic and Information-Theoretic Case Studies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01179" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01179" target="_blank" rel="noopener">Physics-Informed Deep Learning for Entropy Prediction in Heterogeneous Systems: Thermodynamic and Information-Theoretic Case Studies</a></h3>
      <p class="summary">Entropy production governs irreversibility and uncertainty in both physical and information-theoretic systems. While Physics-Informed Neura…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d6764927b122" data-article-url="https://arxiv.org/abs/2606.01182" data-article-title="CA-BED: Conversation-Aware Bayesian Experimental Design" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01182" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01182" target="_blank" rel="noopener">CA-BED: Conversation-Aware Bayesian Experimental Design</a></h3>
      <p class="summary">Large Language Models (LLMs) excel at static reasoning tasks, yet their performance often degrades in interactive scenarios where informati…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9c0929ca559e" data-article-url="https://arxiv.org/abs/2606.01184" data-article-title="Topological Ignorability for Structural Causal Effects Beyond Means" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01184" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01184" target="_blank" rel="noopener">Topological Ignorability for Structural Causal Effects Beyond Means</a></h3>
      <p class="summary">Many interventions alter the structure of an outcome distribution rather than its mean: they can split a population into disconnected regim…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="67ced8451be7" data-article-url="https://arxiv.org/abs/2606.01188" data-article-title="pcbGPT: Automatic PCB Schematic Synthesis from Natural Language Requirements" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01188" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01188" target="_blank" rel="noopener">pcbGPT: Automatic PCB Schematic Synthesis from Natural Language Requirements</a></h3>
      <p class="summary">Translating natural-language hardware requirements into correct printed circuit board (PCB) schematics remains difficult in embedded, IoT,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="145d5e37255f" data-article-url="https://arxiv.org/abs/2606.01196" data-article-title="Low-Resource Safety Failures Are Action Failures, Not Representation Failures" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01196" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01196" target="_blank" rel="noopener">Low-Resource Safety Failures Are Action Failures, Not Representation Failures</a></h3>
      <p class="summary">Safety alignment learned in high-resource languages transfers poorly to low-resource languages. Models refuse harmful prompts in English bu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="097509674df1" data-article-url="https://arxiv.org/abs/2606.01204" data-article-title="Implicit Geographic Inference in LLM Medical Triage: Language-Driven Disparities in Emergency Recommendations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01204" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01204" target="_blank" rel="noopener">Implicit Geographic Inference in LLM Medical Triage: Language-Driven Disparities in Emergency Recommendations</a></h3>
      <p class="summary">We investigate whether large language models produce different medical triage recommendations for identical symptoms based solely on the la…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="375719e9be15" data-article-url="https://arxiv.org/abs/2606.01212" data-article-title="DiscourseFlip: An Oblique Discourse-Level Opinion Manipulation Attack against Black-box Retrieval-Augmented Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01212" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01212" target="_blank" rel="noopener">DiscourseFlip: An Oblique Discourse-Level Opinion Manipulation Attack against Black-box Retrieval-Augmented Generation</a></h3>
      <p class="summary">Retrieval-Augmented Generation (RAG) systems are widely deployed and increasingly influential, but their reliance on external corpora expos…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a0083201d909" data-article-url="https://arxiv.org/abs/2606.01213" data-article-title="TECCI: Tricky Edits of Collected and Curated Images" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01213" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01213" target="_blank" rel="noopener">TECCI: Tricky Edits of Collected and Curated Images</a></h3>
      <p class="summary">Despite tremendous recent progress, current text-guided image editing methods still struggle with many aspects of editing involving instruc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4481441db1fb" data-article-url="https://arxiv.org/abs/2606.01215" data-article-title="Distilling Neuro-Symbolic Programs into 3D Multi-modal LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01215" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01215" target="_blank" rel="noopener">Distilling Neuro-Symbolic Programs into 3D Multi-modal LLMs</a></h3>
      <p class="summary">Current 3D spatial reasoning methods face a fundamental trade-off: neuro-symbolic 3D (NS3D) concept learners achieve interpretable reasonin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="830d66c48d2c" data-article-url="https://arxiv.org/abs/2606.01220" data-article-title="Fine-Tuning Diffusion Models for Molecular Generation via Reinforcement Learning and Fast Sampling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01220" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01220" target="_blank" rel="noopener">Fine-Tuning Diffusion Models for Molecular Generation via Reinforcement Learning and Fast Sampling</a></h3>
      <p class="summary">Generating molecules that simultaneously satisfy drug-like properties and conform to the 3D structure of a target protein is a core challen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="495096915903" data-article-url="https://arxiv.org/abs/2606.01221" data-article-title="Hybrid Imbalanced Regression Through Unified Data-Level and Algorithm-Level Balancing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01221" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01221" target="_blank" rel="noopener">Hybrid Imbalanced Regression Through Unified Data-Level and Algorithm-Level Balancing</a></h3>
      <p class="summary">Imbalanced learning is a critical challenge in machine learning, where underrepresented target values can bias models and degrade predictio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fad38b82553e" data-article-url="https://arxiv.org/abs/2606.01223" data-article-title="Connecting the Dots: Benchmarking Reflective Memory in Long-Horizon Dialogue" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01223" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01223" target="_blank" rel="noopener">Connecting the Dots: Benchmarking Reflective Memory in Long-Horizon Dialogue</a></h3>
      <p class="summary">Despite substantial progress in long-context modeling, existing benchmarks remain confined to factual memory for explicit recall, failing t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="de507d7dd5c7" data-article-url="https://arxiv.org/abs/2606.01252" data-article-title="Understanding LLM Behavior in Multi-Target Cross-Lingual Summarization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01252" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01252" target="_blank" rel="noopener">Understanding LLM Behavior in Multi-Target Cross-Lingual Summarization</a></h3>
      <p class="summary">Multi-target cross-lingual text summarization (MTXLS), which summarizes a source document into multiple target languages, is increasingly i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e66c9cf31882" data-article-url="https://arxiv.org/abs/2606.01260" data-article-title="IndoBias: A Dual Track Culturally Grounded Benchmark for LLMs Bias Evaluation in Indonesian Languages" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01260" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01260" target="_blank" rel="noopener">IndoBias: A Dual Track Culturally Grounded Benchmark for LLMs Bias Evaluation in Indonesian Languages</a></h3>
      <p class="summary">Despite being home to more than 1300 ethnic groups and 700 indigenous languages, bias in Large Language Models has not been fully studied i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7b1d75248f78" data-article-url="https://arxiv.org/abs/2606.01265" data-article-title="PALTO: Physics-Informed Active Learning for Tri-Gate FinFET Design Optimization for Vertical Power Delivery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01265" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01265" target="_blank" rel="noopener">PALTO: Physics-Informed Active Learning for Tri-Gate FinFET Design Optimization for Vertical Power Delivery</a></h3>
      <p class="summary">This paper demonstrates the effectiveness of machine learning-driven optimization for designing application-specific GaN tri-gate FinFETs i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f560e2609e55" data-article-url="https://arxiv.org/abs/2606.01277" data-article-title="DeepIPCv3: Event-Aware Multi-Modal Sensor Fusion for Sudden Pedestrian Crossing Avoidance" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01277" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01277" target="_blank" rel="noopener">DeepIPCv3: Event-Aware Multi-Modal Sensor Fusion for Sudden Pedestrian Crossing Avoidance</a></h3>
      <p class="summary">Current end-to-end autonomous driving systems predominantly rely on frame-based sensors, which suffer from inherent perception latency and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="02a38a0e9aed" data-article-url="https://arxiv.org/abs/2606.01281" data-article-title="RLVR without Ineffective Samples: Group Prioritized Off-Policy Optimization for LLM Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01281" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01281" target="_blank" rel="noopener">RLVR without Ineffective Samples: Group Prioritized Off-Policy Optimization for LLM Reasoning</a></h3>
      <p class="summary">Reinforcement learning with verifiable rewards (RLVR) has emerged as a powerful paradigm for enhancing the reasoning capabilities of large…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0608b3725f1f" data-article-url="https://arxiv.org/abs/2606.01285" data-article-title="Knowledge-Intensive Video Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01285" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01285" target="_blank" rel="noopener">Knowledge-Intensive Video Generation</a></h3>
      <p class="summary">Text-to-video generation has advanced rapidly in visual quality, but remains under-evaluated for factuality and practical usefulness. We in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7e68dd77d3d0" data-article-url="https://arxiv.org/abs/2606.01286" data-article-title="BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01286" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01286" target="_blank" rel="noopener">BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution</a></h3>
      <p class="summary">The rapid progress of frontier large language models has led to widespread benchmark saturation, limiting the ability of existing datasets…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="44d76d3dbbe7" data-article-url="https://arxiv.org/abs/2606.01287" data-article-title="Beyond Visual Memory: Mechanistic Diagnostics of Latent Visual Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01287" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01287" target="_blank" rel="noopener">Beyond Visual Memory: Mechanistic Diagnostics of Latent Visual Reasoning</a></h3>
      <p class="summary">Recent latent visual reasoning methods achieve substantial gains by inserting continuous latent tokens into multimodal language models. The…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2c30a6fb175a" data-article-url="https://arxiv.org/abs/2606.01291" data-article-title="Quantum Algorithm for Distributed Reduction of Entanglements (QADR): A Trainable and Simulation-Efficient QML Framework" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01291" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01291" target="_blank" rel="noopener">Quantum Algorithm for Distributed Reduction of Entanglements (QADR): A Trainable and Simulation-Efficient QML Framework</a></h3>
      <p class="summary">Training Variational Quantum Circuits (VQCs) under Noisy Intermediate-Scale Quantum (NISQ) constraints introduces severe computational limi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c37abdf71647" data-article-url="https://arxiv.org/abs/2606.01292" data-article-title="What Makes a Strong Model? A Unified Spectral Analysis of Knowledge Transfer over High-dimensional Linear Regression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01292" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01292" target="_blank" rel="noopener">What Makes a Strong Model? A Unified Spectral Analysis of Knowledge Transfer over High-dimensional Linear Regression</a></h3>
      <p class="summary">Teacher-Student Knowledge Transfer (KT) is ubiquitous in modern machine learning, ranging from classical model compression via Knowledge Di…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="deed20504625" data-article-url="https://arxiv.org/abs/2606.01293" data-article-title="ResNet-34 with Lightweight Decoder for Accurate and Efficient Segmentation of Fetal Brain MRI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01293" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01293" target="_blank" rel="noopener">ResNet-34 with Lightweight Decoder for Accurate and Efficient Segmentation of Fetal Brain MRI</a></h3>
      <p class="summary">Accurate segmentation of fetal brain tissues in Magnetic Resonance Imaging (MRI) is critical for early diagnosis of congenital abnormalitie…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e1eba409d58e" data-article-url="https://arxiv.org/abs/2606.01300" data-article-title="ChronosAD: Leveraging Time Series Foundation Models for Accurate Anomaly Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01300" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01300" target="_blank" rel="noopener">ChronosAD: Leveraging Time Series Foundation Models for Accurate Anomaly Detection</a></h3>
      <p class="summary">Time series anomaly detection is a crucial task in various domains, including finance, healthcare, and industry. However, existing methods…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="df9ee9c908fa" data-article-url="https://arxiv.org/abs/2606.01311" data-article-title="SkillAdaptor: Self-Adapting Skills for LLM Agents from Trajectories" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01311" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01311" target="_blank" rel="noopener">SkillAdaptor: Self-Adapting Skills for LLM Agents from Trajectories</a></h3>
      <p class="summary">Large language model (LLM) agents increasingly rely on reusable external skills to solve long-horizon interactive tasks. Existing training-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9ff76fea619c" data-article-url="https://arxiv.org/abs/2606.01312" data-article-title="A Communication-Centric 6G-LLM Architecture for Scalable Tactical Autonomous Defense Vehicle Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01312" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01312" target="_blank" rel="noopener">A Communication-Centric 6G-LLM Architecture for Scalable Tactical Autonomous Defense Vehicle Networks</a></h3>
      <p class="summary">The integration of Artificial Intelligence (AI) and emerging 6G networks introduces new opportunities for scalable coordination in tactical…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2ddbb2f2339b" data-article-url="https://arxiv.org/abs/2606.01313" data-article-title="PSG-Nav: Probabilistic Scene Graph Navigation via Multiverse Decision Making" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01313" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01313" target="_blank" rel="noopener">PSG-Nav: Probabilistic Scene Graph Navigation via Multiverse Decision Making</a></h3>
      <p class="summary">Open-vocabulary navigation requires embodied agents to manage significant perception uncertainty stemming from semantic ambiguity and model…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="832034b100ba" data-article-url="https://arxiv.org/abs/2606.01322" data-article-title="TukaBench: A Culturally Grounded Jailbreak Benchmark for African Languages" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01322" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01322" target="_blank" rel="noopener">TukaBench: A Culturally Grounded Jailbreak Benchmark for African Languages</a></h3>
      <p class="summary">Safety evaluation of Large Language Models (LLMs) remains heavily English-centric, leaving Low-Resource Languages (LRLs), particularly Afri…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="86626965ca65" data-article-url="https://arxiv.org/abs/2606.01323" data-article-title="DiffuSent: Towards a Unified Diffusion Framework for Aspect-Based Sentiment Analysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01323" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01323" target="_blank" rel="noopener">DiffuSent: Towards a Unified Diffusion Framework for Aspect-Based Sentiment Analysis</a></h3>
      <p class="summary">Aspect-Based Sentiment Analysis (ABSA) encompasses seven distinct subtasks, each focusing on different extracted elements. Despite the prov…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4d713a090364" data-article-url="https://arxiv.org/abs/2606.01324" data-article-title="Digital Twin-Assisted Adaptive Multi-Agent DRL for Intelligent Spectrum and Resource Management in Open-RAN UAV-Enabled 6G Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01324" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01324" target="_blank" rel="noopener">Digital Twin-Assisted Adaptive Multi-Agent DRL for Intelligent Spectrum and Resource Management in Open-RAN UAV-Enabled 6G Networks</a></h3>
      <p class="summary">The evolution toward 6G wireless networks envisions a seamlessly intelligent, Open-RAN-enabled architecture where unmanned aerial vehicles…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0eae310ea719" data-article-url="https://arxiv.org/abs/2606.01339" data-article-title="FreqLite: A Lightweight Frequency-Decomposed Linear Model with Adaptive Reversible Normalization for Robust Long-Term Time-Series Forecasting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01339" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01339" target="_blank" rel="noopener">FreqLite: A Lightweight Frequency-Decomposed Linear Model with Adaptive Reversible Normalization for Robust Long-Term Time-Series Forecasting</a></h3>
      <p class="summary">Long-term time-series forecasting needs models that are accurate yet efficient enough for commodity hardware. Lightweight linear forecaster…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d7201b1bf374" data-article-url="https://arxiv.org/abs/2606.01364" data-article-title="Needles at Scale: LLM-Assisted Target Selection for Windows Vulnerability Research" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01364" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01364" target="_blank" rel="noopener">Needles at Scale: LLM-Assisted Target Selection for Windows Vulnerability Research</a></h3>
      <p class="summary">The attack surface of a modern operating system is a haystack: thousands of signed binaries and millions of functions, almost none relevant…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="83eea1db4247" data-article-url="https://arxiv.org/abs/2606.01372" data-article-title="BRo-JEPA: Learning Modular Arithmetic in Latent Space" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01372" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01372" target="_blank" rel="noopener">BRo-JEPA: Learning Modular Arithmetic in Latent Space</a></h3>
      <p class="summary">Can neural networks learn abstract algebraic rules, or do they merely memorize training patterns? We investigate this using MNIST digits as…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aa3c6a2468aa" data-article-url="https://arxiv.org/abs/2606.01375" data-article-title="Beyond Access: Guided LLM Scaffolding for Independent Learning in Undergraduate Statistics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01375" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01375" target="_blank" rel="noopener">Beyond Access: Guided LLM Scaffolding for Independent Learning in Undergraduate Statistics</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly entering students&#x27; learning practices, but their educational value depends on whether they su…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6d155744c6b2" data-article-url="https://arxiv.org/abs/2606.01382" data-article-title="Efficient Exploration for Iterative Nash Preference Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01382" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01382" target="_blank" rel="noopener">Efficient Exploration for Iterative Nash Preference Optimization</a></h3>
      <p class="summary">Preference alignment is central to improving large language models, but standard reward-based formulations can be restrictive when human pr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9f210a349cdc" data-article-url="https://arxiv.org/abs/2606.01385" data-article-title="Bridging Requirements and Architecture: Multi-Agent Orchestration with External Knowledge and Hierarchical Memory" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01385" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01385" target="_blank" rel="noopener">Bridging Requirements and Architecture: Multi-Agent Orchestration with External Knowledge and Hierarchical Memory</a></h3>
      <p class="summary">Software architecture design is a critical yet inherently complex and knowledge-intensive phase that requires balancing competing quality a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fdb5a3063369" data-article-url="https://arxiv.org/abs/2606.01393" data-article-title="Dr. DocBench: A Comprehensive Benchmark for Expert-Level and Difficult Document Parsing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01393" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01393" target="_blank" rel="noopener">Dr. DocBench: A Comprehensive Benchmark for Expert-Level and Difficult Document Parsing</a></h3>
      <p class="summary">Document parsing and recognition are fundamental capabilities for vision-language models (VLMs) and document processing systems. However, e…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="43b6435ee73d" data-article-url="https://arxiv.org/abs/2606.01400" data-article-title="Consistent and Distinctive: LLM Benchmark Efficiency via Maximum Independent Set Prompt Selection on Similarity Graphs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01400" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01400" target="_blank" rel="noopener">Consistent and Distinctive: LLM Benchmark Efficiency via Maximum Independent Set Prompt Selection on Similarity Graphs</a></h3>
      <p class="summary">Evaluating large language models (LLMs) across comprehensive benchmarks is expensive and time-consuming. We propose a graph-based prompt se…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="13aa1fd09813" data-article-url="https://arxiv.org/abs/2606.01402" data-article-title="Neural Network Compression by Approximate Differential Equivalence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01402" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01402" target="_blank" rel="noopener">Neural Network Compression by Approximate Differential Equivalence</a></h3>
      <p class="summary">Neural network compression is commonly achieved by pruning parameters based on local importance scores, e.g., magnitude-based pruning. We p…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="811c1f6a3fe7" data-article-url="https://arxiv.org/abs/2606.01437" data-article-title="CEAR: Certified Ensemble Adversarial Robustness in DNNs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01437" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01437" target="_blank" rel="noopener">CEAR: Certified Ensemble Adversarial Robustness in DNNs</a></h3>
      <p class="summary">Deep Neural Networks (DNNs) are highly susceptible to adversarial perturbations, leading to extensive research on robustness for safety-cri…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="82bda6d7268c" data-article-url="https://arxiv.org/abs/2606.01442" data-article-title="On the Evaluation of Spiking Neural Network Configurations for Network Intrusion Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01442" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01442" target="_blank" rel="noopener">On the Evaluation of Spiking Neural Network Configurations for Network Intrusion Detection</a></h3>
      <p class="summary">Network intrusion detection is a core component of modern cybersecurity infrastructure, yet the deep learning models that dominate the fiel…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="76ef95812a0b" data-article-url="https://arxiv.org/abs/2606.01443" data-article-title="UR-JEPA: Uniform Rectifiability as a Regularizer for Joint-Embedding Predictive Architectures" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01443" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01443" target="_blank" rel="noopener">UR-JEPA: Uniform Rectifiability as a Regularizer for Joint-Embedding Predictive Architectures</a></h3>
      <p class="summary">A central difficulty in training Joint-Embedding Predictive Architectures (JEPAs) is preventing representation collapse. LeJEPA addresses t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="285a84bdd50d" data-article-url="https://arxiv.org/abs/2606.01468" data-article-title="Computation-Aware Kalman Filtering with Model Selection for Neural Dynamics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01468" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01468" target="_blank" rel="noopener">Computation-Aware Kalman Filtering with Model Selection for Neural Dynamics</a></h3>
      <p class="summary">Due to their explicit priors and ability to model uncertainty, Bayesian methods have played a major role in dynamical latent variable model…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c737e80fc62e" data-article-url="https://arxiv.org/abs/2606.01470" data-article-title="Emergent Transfer of a Physics Foundation Model from Simulation to Laboratory Turbulence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01470" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01470" target="_blank" rel="noopener">Emergent Transfer of a Physics Foundation Model from Simulation to Laboratory Turbulence</a></h3>
      <p class="summary">Whether physics foundation models can be usefully deployed on laboratory experiments remains an open question for scientific machine learni…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f95effe54230" data-article-url="https://arxiv.org/abs/2606.01472" data-article-title="Hierarchical Online Prompt Mutation with Dual-Loop Feedback for Guardrailed Evidence Document Generation: A Production-Evaluation Case Study" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01472" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01472" target="_blank" rel="noopener">Hierarchical Online Prompt Mutation with Dual-Loop Feedback for Guardrailed Evidence Document Generation: A Production-Evaluation Case Study</a></h3>
      <p class="summary">High-stakes production document-generation systems require language models to be adaptive, evidence-grounded, and auditable. We present HOP…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="838895d01064" data-article-url="https://arxiv.org/abs/2606.01478" data-article-title="Crazyflow: An Accurate, GPU-Accelerated, Differentiable Drone Simulator in JAX" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01478" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01478" target="_blank" rel="noopener">Crazyflow: An Accurate, GPU-Accelerated, Differentiable Drone Simulator in JAX</a></h3>
      <p class="summary">High-quality, large-scale synthetic data from simulations is becoming a cornerstone for pushing the capabilities of robot algorithms. While…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5fb15b608ef2" data-article-url="https://arxiv.org/abs/2606.01483" data-article-title="MURMUR: An Efficient Inference System for Long-Form ASR" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01483" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01483" target="_blank" rel="noopener">MURMUR: An Efficient Inference System for Long-Form ASR</a></h3>
      <p class="summary">Long-form automatic speech recognition (ASR) requires both high accuracy and low latency, but existing systems force a trade-off between th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="da4ffe5465ad" data-article-url="https://arxiv.org/abs/2606.01490" data-article-title="LLM Consortium for Software Design Refinement: A Controlled Experiment on Multi-Agent Collaboration Topologies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01490" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01490" target="_blank" rel="noopener">LLM Consortium for Software Design Refinement: A Controlled Experiment on Multi-Agent Collaboration Topologies</a></h3>
      <p class="summary">We present a controlled experiment evaluating 12 multi-agent LLM collaboration topologies for software architecture design. Using a $2\time…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3172f1f291d0" data-article-url="https://arxiv.org/abs/2606.01494" data-article-title="ClawHub Security Signals: When VirusTotal, Static Analysis, and SkillSpector Disagree" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01494" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01494" target="_blank" rel="noopener">ClawHub Security Signals: When VirusTotal, Static Analysis, and SkillSpector Disagree</a></h3>
      <p class="summary">Agent skills extend AI agents with reusable instructions, tools, scripts, references, and workflows, establishing a security boundary disti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a302c86f0b0f" data-article-url="https://arxiv.org/abs/2606.01498" data-article-title="TimeSage-MT: A Multi-Turn Benchmark for Evaluating Agentic Time Series Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01498" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01498" target="_blank" rel="noopener">TimeSage-MT: A Multi-Turn Benchmark for Evaluating Agentic Time Series Reasoning</a></h3>
      <p class="summary">Time series data inform critical decisions across many real-world domains. While large language model (LLM) agents can analyze data through…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="00f9b464785b" data-article-url="https://arxiv.org/abs/2606.01502" data-article-title="Move the Query, Not the Cache: Characterizing Cross-Instance Latent Attention Redistribution Across GPU Fabrics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01502" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01502" target="_blank" rel="noopener">Move the Query, Not the Cache: Characterizing Cross-Instance Latent Attention Redistribution Across GPU Fabrics</a></h3>
      <p class="summary">Frontier LLMs increasingly decide what a query attends to with a sparse-attention indexer that picks a few KV-cache blocks per query: atten…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8dd052601c94" data-article-url="https://arxiv.org/abs/2606.01503" data-article-title="On the Limits of Token Reduction for Efficient Unified Vision Language Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01503" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01503" target="_blank" rel="noopener">On the Limits of Token Reduction for Efficient Unified Vision Language Training</a></h3>
      <p class="summary">Unified vision-language models (VLMs) integrate visual understanding and visual generation within a single autoregressive backbone, but the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7c5cc7cc365e" data-article-url="https://arxiv.org/abs/2606.01508" data-article-title="Agent Operating Systems (AOS): Integrating Agentic Control Planes into, and Beyond, Traditional Operating Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01508" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01508" target="_blank" rel="noopener">Agent Operating Systems (AOS): Integrating Agentic Control Planes into, and Beyond, Traditional Operating Systems</a></h3>
      <p class="summary">Traditional operating systems were designed around deterministic programs, explicit control flow, and human initiated workflows. Their core…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb7af1efb98f" data-article-url="https://arxiv.org/abs/2606.01509" data-article-title="ProbMoE: Differentiable Probabilistic Routing for Mixture-of-Experts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01509" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01509" target="_blank" rel="noopener">ProbMoE: Differentiable Probabilistic Routing for Mixture-of-Experts</a></h3>
      <p class="summary">Mixture-of-Experts (MoE) models scale by activating only a small subset of experts per token. However, training such models remains challen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="291b5b2f3128" data-article-url="https://arxiv.org/abs/2606.01513" data-article-title="Compliance-Scored Best-of-N Guardrail Orchestration for Multimodal Document Generation in Payments Dispute Defense" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01513" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01513" target="_blank" rel="noopener">Compliance-Scored Best-of-N Guardrail Orchestration for Multimodal Document Generation in Payments Dispute Defense</a></h3>
      <p class="summary">High-stakes enterprise document generation, including financial dispute narratives, compliance notices, and audit summaries, demands schema…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4bbd919aeff0" data-article-url="https://arxiv.org/abs/2606.01540" data-article-title="TN-SHAP-G: Graph-Structured Tensor Network Surrogates for Shapley Values and Interactions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01540" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01540" target="_blank" rel="noopener">TN-SHAP-G: Graph-Structured Tensor Network Surrogates for Shapley Values and Interactions</a></h3>
      <p class="summary">Shapley values are a widely used tool for attributing importance and interactions among input variables in black-box models, but their comp…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1800473cbdb4" data-article-url="https://arxiv.org/abs/2606.01542" data-article-title="Self-Conditioned Positional HNSW for Overlap-Aware Retrieval in Chunked-Document RAG Systems: Method and Industrial Evidence-Quality Audit" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01542" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01542" target="_blank" rel="noopener">Self-Conditioned Positional HNSW for Overlap-Aware Retrieval in Chunked-Document RAG Systems: Method and Industrial Evidence-Quality Audit</a></h3>
      <p class="summary">Chunked-document retrieval is a common component of retrieval-augmented generation (RAG) systems. Documents are split into overlapping chun…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b55959fcf2b2" data-article-url="https://arxiv.org/abs/2606.01560" data-article-title="GJDNet: Robust Graph Neural Networks via Joint Disentangled Learning Against Adversarial Attacks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01560" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01560" target="_blank" rel="noopener">GJDNet: Robust Graph Neural Networks via Joint Disentangled Learning Against Adversarial Attacks</a></h3>
      <p class="summary">Graph Neural Networks (GNNs) are vulnerable to adversarial attacks, which inherently invert connectivity patterns by introducing disassorta…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d326f9d37eb7" data-article-url="https://arxiv.org/abs/2606.01567" data-article-title="Defenses &amp; Enablers For Skill Injection Attacks on Terminal Based Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01567" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01567" target="_blank" rel="noopener">Defenses &amp; Enablers For Skill Injection Attacks on Terminal Based Agents</a></h3>
      <p class="summary">Large language model (LLM) agents increasingly rely on reusable skills i.e. documents describing task-specific procedures. However, this in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="19d55a7a663c" data-article-url="https://arxiv.org/abs/2606.01584" data-article-title="Identifying High-Confidence Social Biases in LLMs for Trustworthy Conversational Tutoring Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01584" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01584" target="_blank" rel="noopener">Identifying High-Confidence Social Biases in LLMs for Trustworthy Conversational Tutoring Agents</a></h3>
      <p class="summary">Conversational tutoring agents have been shown to improve learning engagement and student outcomes, and large language models (LLMs) are in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f60eb30757dc" data-article-url="https://arxiv.org/abs/2606.01602" data-article-title="Estimating Mutual Information between Time Series and Temporal Event Sequences Across Diverse Analysis Tasks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01602" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01602" target="_blank" rel="noopener">Estimating Mutual Information between Time Series and Temporal Event Sequences Across Diverse Analysis Tasks</a></h3>
      <p class="summary">Pairwise dependence measures such as correlation and causality are fundamental to temporal data mining, yet there is still no principled an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c5d466769e90" data-article-url="https://arxiv.org/abs/2606.01607" data-article-title="FedMTFI: Feature Importance Based Optimized Multi Teacher Knowledge Distillation in Heterogeneous Federated Learning Environment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01607" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01607" target="_blank" rel="noopener">FedMTFI: Feature Importance Based Optimized Multi Teacher Knowledge Distillation in Heterogeneous Federated Learning Environment</a></h3>
      <p class="summary">Federated learning (FL) is a decentralized approach that enables collaborative model training without exposing raw data. Instead of transfe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8fc3132952ff" data-article-url="https://arxiv.org/abs/2606.01613" data-article-title="TechGraphRAG: An Agentic Graph-Augmented RAG Framework for Technical Literature Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01613" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01613" target="_blank" rel="noopener">TechGraphRAG: An Agentic Graph-Augmented RAG Framework for Technical Literature Reasoning</a></h3>
      <p class="summary">This paper presents an agentic retrieval-augmented generation (RAG) framework for domain-specific technical reasoning support, instantiated…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e7f477474a21" data-article-url="https://arxiv.org/abs/2606.01617" data-article-title="EvoPool: Evolutionary Programmatic Annotation for Label-Efficient Specialized Supervision" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01617" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01617" target="_blank" rel="noopener">EvoPool: Evolutionary Programmatic Annotation for Label-Efficient Specialized Supervision</a></h3>
      <p class="summary">Large language models excel at general tasks but underperform smaller supervised models in specialized, high-stakes domains where training…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="63a76ea5567c" data-article-url="https://arxiv.org/abs/2606.01628" data-article-title="Demystifying Multimodal Biomolecular Co-design With Intrinsic Geodesic Coupling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01628" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01628" target="_blank" rel="noopener">Demystifying Multimodal Biomolecular Co-design With Intrinsic Geodesic Coupling</a></h3>
      <p class="summary">Biomolecules such as proteins and small-molecule ligands play a central role in biological systems, arising from the tight interplay betwee…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f3c292e01b49" data-article-url="https://arxiv.org/abs/2606.01632" data-article-title="A Framework for Graph-Conditioned Hierarchical Shapley Attribution in Patent Valuation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01632" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01632" target="_blank" rel="noopener">A Framework for Graph-Conditioned Hierarchical Shapley Attribution in Patent Valuation</a></h3>
      <p class="summary">Estimating the economic contribution of a single patent inside a product that embodies tens of thousands of patents is a long-standing unso…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7e0f787f99c4" data-article-url="https://arxiv.org/abs/2606.01634" data-article-title="E4GEN: Event-level Explainable Extreme-Enhanced Time-series Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01634" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01634" target="_blank" rel="noopener">E4GEN: Event-level Explainable Extreme-Enhanced Time-series Generation</a></h3>
      <p class="summary">Generating realistic time series is essential for scientific research and real-world applications. However, existing methods often emphasiz…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a5b04cad3a2" data-article-url="https://arxiv.org/abs/2606.01635" data-article-title="AlphaToken: Decoupling Adaptation and Stability for Path-Aware Response Token Valuation in LLM Post-Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01635" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01635" target="_blank" rel="noopener">AlphaToken: Decoupling Adaptation and Stability for Path-Aware Response Token Valuation in LLM Post-Training</a></h3>
      <p class="summary">Token selection is pivotal for effective LLM post-training. However, existing methods mostly rely on local heuristics and rarely formulate…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="204d5596f091" data-article-url="https://arxiv.org/abs/2606.01637" data-article-title="Easier to Mislead Than to Correct: Harmful and Beneficial Revision in LLM Conformity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01637" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01637" target="_blank" rel="noopener">Easier to Mislead Than to Correct: Harmful and Beneficial Revision in LLM Conformity</a></h3>
      <p class="summary">Large language models are increasingly used in multi-agent systems, where they see and respond to other agents&#x27; answers. A key risk is conf…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="810fb52457ba" data-article-url="https://arxiv.org/abs/2606.01655" data-article-title="MINTS: Minimalist Thompson Sampling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01655" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01655" target="_blank" rel="noopener">MINTS: Minimalist Thompson Sampling</a></h3>
      <p class="summary">The Bayesian paradigm offers principled tools for sequential decision-making under uncertainty, but its reliance on a probabilistic model f…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5af3645c0f97" data-article-url="https://arxiv.org/abs/2606.01666" data-article-title="DOT-MoE: Differentiable Optimal Transport for MoEfication" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01666" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01666" target="_blank" rel="noopener">DOT-MoE: Differentiable Optimal Transport for MoEfication</a></h3>
      <p class="summary">The scaling of Large Language Models (LLMs) has driven significant performance gains but created substantial challenges in inference effici…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b245a1b02793" data-article-url="https://arxiv.org/abs/2606.01670" data-article-title="Time-Aware Diffusion based on Preference Disentanglement for Generative Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01670" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01670" target="_blank" rel="noopener">Time-Aware Diffusion based on Preference Disentanglement for Generative Recommendation</a></h3>
      <p class="summary">Recently, Generative Recommenders (GRs) have emerged as a transformative recommendation paradigm by replacing traditional item IDs with sem…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7f3979299251" data-article-url="https://arxiv.org/abs/2606.01682" data-article-title="Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01682" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01682" target="_blank" rel="noopener">Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning</a></h3>
      <p class="summary">Selecting the best response from multiple small-model samples using a stronger scorer is a simple inference-time strategy, but fails when t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="93048ba59347" data-article-url="https://arxiv.org/abs/2606.01686" data-article-title="HAIM: Human-AI Music Datasets for AI Music Production Tracking Benchmark" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01686" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01686" target="_blank" rel="noopener">HAIM: Human-AI Music Datasets for AI Music Production Tracking Benchmark</a></h3>
      <p class="summary">As generative platforms such as Suno and Udio reach human-grade audio quality, the scope of AI&#x27;s utility has expanded across the entire mus…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="72cd4d91aa9e" data-article-url="https://arxiv.org/abs/2606.01689" data-article-title="RPCASSM: Robust PCA State Space Model For Infrared Small Target Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01689" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01689" target="_blank" rel="noopener">RPCASSM: Robust PCA State Space Model For Infrared Small Target Detection</a></h3>
      <p class="summary">The detection and segmentation of infrared small targets have important application significance in the fields of surveillance and security…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b9cbb6a03eb9" data-article-url="https://arxiv.org/abs/2606.01694" data-article-title="Understanding Identity Continuity in Thermal Video through Scene-Level Consistency" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01694" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01694" target="_blank" rel="noopener">Understanding Identity Continuity in Thermal Video through Scene-Level Consistency</a></h3>
      <p class="summary">Thermal pedestrian MOT remains challenging because weak appearance cues and frequent detection interruptions cause severe trajectory fragme…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c5aa1db4b93" data-article-url="https://arxiv.org/abs/2606.01703" data-article-title="JenBridge: Adaptive Long-Form Video Soundtracking across Scene Transitions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01703" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01703" target="_blank" rel="noopener">JenBridge: Adaptive Long-Form Video Soundtracking across Scene Transitions</a></h3>
      <p class="summary">We address the challenge of generating high-fidelity, long-form soundtracks that remain coherent across scene transitions. Existing AI musi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb4c89c48580" data-article-url="https://arxiv.org/abs/2606.01708" data-article-title="Two-Fidelity Best-Action Identification for Stochastic Minimax Tree" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01708" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01708" target="_blank" rel="noopener">Two-Fidelity Best-Action Identification for Stochastic Minimax Tree</a></h3>
      <p class="summary">We study fixed-confidence best-action identification (BAI) in stochastic minimax trees. This problem is increasingly relevant in modern AI…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5a42a48436a5" data-article-url="https://arxiv.org/abs/2606.01719" data-article-title="Fair Finetuning Mitigates Distribution Inference Attacks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01719" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01719" target="_blank" rel="noopener">Fair Finetuning Mitigates Distribution Inference Attacks</a></h3>
      <p class="summary">Machine learning models trained on sensitive data can inadvertently leak population-level information about their training distributions --…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="552bc484e648" data-article-url="https://arxiv.org/abs/2606.01722" data-article-title="Post-Deterministic Distributed Systems: A New Foundation for Trustworthy Autonomous Infrastructure" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01722" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01722" target="_blank" rel="noopener">Post-Deterministic Distributed Systems: A New Foundation for Trustworthy Autonomous Infrastructure</a></h3>
      <p class="summary">For decades, distributed systems have typically assumed that correct participants execute protocol-specified behavior with stable, external…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f60bb2887a38" data-article-url="https://arxiv.org/abs/2606.01723" data-article-title="Shortcut to Nowhere: Demystifying Deep Spurious Regression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01723" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01723" target="_blank" rel="noopener">Shortcut to Nowhere: Demystifying Deep Spurious Regression</a></h3>
      <p class="summary">Real-world regression often exhibits shortcuts: attributes that are spuriously correlated with continuous targets in training, yet unreliab…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="38e03ae7d737" data-article-url="https://arxiv.org/abs/2606.01736" data-article-title="Argument Collapse: LLMs Flatten Long-Form Public Debate" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01736" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01736" target="_blank" rel="noopener">Argument Collapse: LLMs Flatten Long-Form Public Debate</a></h3>
      <p class="summary">As LLMs are increasingly used to draft public-facing arguments, they may flatten public debate by repeatedly introducing the same polished,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="968b5e6a0f15" data-article-url="https://arxiv.org/abs/2606.01738" data-article-title="THRD: A Training-Free Multi-Turn Defense Framework for Jailbreak Attacks on Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01738" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01738" target="_blank" rel="noopener">THRD: A Training-Free Multi-Turn Defense Framework for Jailbreak Attacks on Large Language Models</a></h3>
      <p class="summary">Multi-turn jailbreak attacks pose a growing threat to LLMs by exploiting conversational dynamics such as gradual escalation and cross-turn…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f6900af16433" data-article-url="https://arxiv.org/abs/2606.01741" data-article-title="SECUREVENT: Hybrid AI/ML Security Monitoring for Distributed Event-Based Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01741" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01741" target="_blank" rel="noopener">SECUREVENT: Hybrid AI/ML Security Monitoring for Distributed Event-Based Systems</a></h3>
      <p class="summary">Distributed event-based systems have become a common substrate for Internet-scale publish/subscribe services, IoT telemetry, cloud-native m…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5d4818473e45" data-article-url="https://arxiv.org/abs/2606.01747" data-article-title="Construction of Historical Knowledge Graphs Based on BERT and Graph Neural Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01747" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01747" target="_blank" rel="noopener">Construction of Historical Knowledge Graphs Based on BERT and Graph Neural Networks</a></h3>
      <p class="summary">Through digital humanities research and scale-up historical data analysis, a significant amount of traditional historical text is converted…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e8625d5b6c15" data-article-url="https://arxiv.org/abs/2606.01770" data-article-title="Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01770" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01770" target="_blank" rel="noopener">Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams</a></h3>
      <p class="summary">Auto-harness systems such as A-Evolve, GEPA, and Meta-Harness improve LLM agents by optimizing prompts, skills, tools, memories, and suppor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="96942f6f8fca" data-article-url="https://arxiv.org/abs/2606.01774" data-article-title="FLARE: Diffusion for Hybrid Language Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01774" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01774" target="_blank" rel="noopener">FLARE: Diffusion for Hybrid Language Model</a></h3>
      <p class="summary">Autoregressive (AR) large language models (LLMs) have achieved broad practical success, but sequential decoding remains a key bottleneck fo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5bca13f507b8" data-article-url="https://arxiv.org/abs/2606.01783" data-article-title="Breaking the Information Silo: Semantic Personas for Cross-Domain Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01783" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01783" target="_blank" rel="noopener">Breaking the Information Silo: Semantic Personas for Cross-Domain Recommendation</a></h3>
      <p class="summary">Digital platforms increasingly operate as isolated information silos, limiting their ability to construct comprehensive user representation…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5af4309a674f" data-article-url="https://arxiv.org/abs/2606.01790" data-article-title="STaR-KV: Spatio-Temporal Adaptive Re-weighting for KV Cache Compression in GUI Vision-Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01790" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01790" target="_blank" rel="noopener">STaR-KV: Spatio-Temporal Adaptive Re-weighting for KV Cache Compression in GUI Vision-Language Models</a></h3>
      <p class="summary">Vision-language-model-based graphical user interface (GUI) agents have shown broad automation capabilities, yet deployment is bottlenecked…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9711e79c8f9a" data-article-url="https://arxiv.org/abs/2606.01800" data-article-title="Multilinguality of Large Language Models From a Structural Perspective" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01800" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01800" target="_blank" rel="noopener">Multilinguality of Large Language Models From a Structural Perspective</a></h3>
      <p class="summary">Large language models (LLMs) have excelled in processing multiple languages through pre- and post-training on multilingual data, even thoug…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0bf66db2cd9a" data-article-url="https://arxiv.org/abs/2606.01802" data-article-title="MOSS-Audio Technical Report" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01802" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01802" target="_blank" rel="noopener">MOSS-Audio Technical Report</a></h3>
      <p class="summary">MOSS-Audio is a unified audio-language model for speech, environmental sound, and music understanding, supporting audio captioning, time-aw…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3523c46a8808" data-article-url="https://arxiv.org/abs/2606.01806" data-article-title="ProbeScale: Probing Analysis to Optimize Neural Scaling Laws for Efficient Small Language Model Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01806" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01806" target="_blank" rel="noopener">ProbeScale: Probing Analysis to Optimize Neural Scaling Laws for Efficient Small Language Model Inference</a></h3>
      <p class="summary">Small Language Models (SLMs) offer a balance between capability and computational feasibility. Neural scaling laws inform their optimal tra…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5e177821e2ad" data-article-url="https://arxiv.org/abs/2606.01811" data-article-title="&quot;I&#x27;ve Seen How This Goes&quot;: Characterizing Diversity via Progressive Conditional Surprise" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01811" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01811" target="_blank" rel="noopener">&quot;I&#x27;ve Seen How This Goes&quot;: Characterizing Diversity via Progressive Conditional Surprise</a></h3>
      <p class="summary">Measuring the diversity of creative outputs is central to evaluating post-training mode collapse, comparing decoding strategies, and quanti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c53eecea61ee" data-article-url="https://arxiv.org/abs/2606.01828" data-article-title="Dynamic Trust-Aware Sparse Communication Topology for LLM-Based Multi-Agent Consensus" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01828" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01828" target="_blank" rel="noopener">Dynamic Trust-Aware Sparse Communication Topology for LLM-Based Multi-Agent Consensus</a></h3>
      <p class="summary">Large language model-driven multi-agent systems enhance the reliability of complex reasoning tasks through multi-round deliberation, role s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="89878b699c66" data-article-url="https://arxiv.org/abs/2606.01833" data-article-title="Learning Implicit Bias in Generative Spaces for Accelerating Protein Dynamics Emulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01833" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01833" target="_blank" rel="noopener">Learning Implicit Bias in Generative Spaces for Accelerating Protein Dynamics Emulation</a></h3>
      <p class="summary">Generative emulators of protein dynamics produce plausible trajectories at a fraction of the cost of molecular dynamics, but they inherit t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="689386d75831" data-article-url="https://arxiv.org/abs/2606.01834" data-article-title="Physics-Guided Attention in a Lightweight TCN for Efficient WiFi CSI-Based Human Activity Recognition" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01834" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01834" target="_blank" rel="noopener">Physics-Guided Attention in a Lightweight TCN for Efficient WiFi CSI-Based Human Activity Recognition</a></h3>
      <p class="summary">Human Action Recognition (HAR) using WiFi Channel State Information (CSI) has gained increasing attention due to its non-contact, low-cost,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="43b29b86faa9" data-article-url="https://arxiv.org/abs/2606.01838" data-article-title="LayerRoute: Input-Conditioned Adaptive Layer Skipping via LoRA Fine-Tuning for Agentic Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01838" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01838" target="_blank" rel="noopener">LayerRoute: Input-Conditioned Adaptive Layer Skipping via LoRA Fine-Tuning for Agentic Language Models</a></h3>
      <p class="summary">Agentic language model systems alternate between two structurally distinct step types: structured tool calls (short, deterministic, low per…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4c94ffe1fb8d" data-article-url="https://arxiv.org/abs/2606.01843" data-article-title="Suppressing Forgery-Specific Shortcuts for Generalizable Deepfake Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01843" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01843" target="_blank" rel="noopener">Suppressing Forgery-Specific Shortcuts for Generalizable Deepfake Detection</a></h3>
      <p class="summary">Deepfake detection suffers from poor generalization across forgery methods, as existing models tend to rely on spurious method-specific sho…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fead94e945cb" data-article-url="https://arxiv.org/abs/2606.01845" data-article-title="Unveiling the Limits of Large Language Models in Inferring Pragmatic Meaning from Non-Verbal Responses" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01845" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01845" target="_blank" rel="noopener">Unveiling the Limits of Large Language Models in Inferring Pragmatic Meaning from Non-Verbal Responses</a></h3>
      <p class="summary">Although large language models (LLMs) have shown considerable progress in pragmatic language understanding, prior research has focused main…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1339ef31e19f" data-article-url="https://arxiv.org/abs/2606.01856" data-article-title="Boosting Multimodal Federated Learning via Chained Modality Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01856" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01856" target="_blank" rel="noopener">Boosting Multimodal Federated Learning via Chained Modality Optimization</a></h3>
      <p class="summary">Multimodal Federated Learning (MMFL) enables privacy-preserving collaborative learning across decentralized clients with heterogeneous data…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aff7de5b8d81" data-article-url="https://arxiv.org/abs/2606.01862" data-article-title="RadioMaster: Multi-Agent System for Autonomous Radio Signal Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01862" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01862" target="_blank" rel="noopener">RadioMaster: Multi-Agent System for Autonomous Radio Signal Generation</a></h3>
      <p class="summary">Translating user intents into physical radio signals represents the critical yet notoriously tedious final step in wireless prototyping, as…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6b199c981105" data-article-url="https://arxiv.org/abs/2606.01895" data-article-title="Collaborative Space Object Detection with Multi-Satellite Viewpoints in LEO Constellations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01895" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01895" target="_blank" rel="noopener">Collaborative Space Object Detection with Multi-Satellite Viewpoints in LEO Constellations</a></h3>
      <p class="summary">With the growing number of satellites in low Earth orbit (LEO) constellations, the near-Earth space environment has become increasingly con…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="254388bf182c" data-article-url="https://arxiv.org/abs/2606.01896" data-article-title="Train, Test, Re-evaluate: Schedule-Sensitive Evaluation of Generative Data for Hand Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01896" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01896" target="_blank" rel="noopener">Train, Test, Re-evaluate: Schedule-Sensitive Evaluation of Generative Data for Hand Detection</a></h3>
      <p class="summary">Generated (or synthetic) image data is increasingly used to augment or replace real training datasets when target imagery is scarce, expens…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b49add176bff" data-article-url="https://arxiv.org/abs/2606.01899" data-article-title="RA-LWLM: Retrieval-Augmented In-Context Localization with Wireless Foundation Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01899" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01899" target="_blank" rel="noopener">RA-LWLM: Retrieval-Augmented In-Context Localization with Wireless Foundation Models</a></h3>
      <p class="summary">Wireless localization is a fundamental capability of sixth-generation (6G) networks. Conventional model-based methods require accurate mode…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fcd99597a4cc" data-article-url="https://arxiv.org/abs/2606.01901" data-article-title="The Image Reconstruction Game: Drawing Common Ground Through Iterative Multimodal Dialogue" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01901" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01901" target="_blank" rel="noopener">The Image Reconstruction Game: Drawing Common Ground Through Iterative Multimodal Dialogue</a></h3>
      <p class="summary">We introduce the Image Reconstruction Game, a fully automated benchmark in which a vision-language model issues corrective instructions to…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b80ecbca0f43" data-article-url="https://arxiv.org/abs/2606.01904" data-article-title="KliniskVestBERT: BERT Model Specialised to Norwegian Clinical Texts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01904" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01904" target="_blank" rel="noopener">KliniskVestBERT: BERT Model Specialised to Norwegian Clinical Texts</a></h3>
      <p class="summary">The increasing application of Natural Language Processing (NLP) in healthcare demands language models specifically attuned to the complexit…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eecc49feded5" data-article-url="https://arxiv.org/abs/2606.01909" data-article-title="Echo: A Joint-Embedding Predictive Architecture for Speaker Diarization and Speech Recognition in a Shared Latent Space" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01909" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01909" target="_blank" rel="noopener">Echo: A Joint-Embedding Predictive Architecture for Speaker Diarization and Speech Recognition in a Shared Latent Space</a></h3>
      <p class="summary">We present Echo, a proof-of-concept audio system built around a single 25 M-parameter ViT encoder. The encoder is pretrained with a JEPA ob…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6834f1c73264" data-article-url="https://arxiv.org/abs/2606.01947" data-article-title="Parameter-Efficient Fine-Tuning of Large Pretrained Models for Instance Segmentation Tasks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01947" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01947" target="_blank" rel="noopener">Parameter-Efficient Fine-Tuning of Large Pretrained Models for Instance Segmentation Tasks</a></h3>
      <p class="summary">Research and applications in artificial intelligence have recently shifted with the rise of large pretrained models, which deliver state-of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0bbedc1d12c0" data-article-url="https://arxiv.org/abs/2606.01948" data-article-title="Rank-Constrained Deep Matrix Completion for Group Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01948" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01948" target="_blank" rel="noopener">Rank-Constrained Deep Matrix Completion for Group Recommendation</a></h3>
      <p class="summary">The growing popularity of group activities has increased the need for methods that provide recommendations to groups of users given their i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9424eae8dac6" data-article-url="https://arxiv.org/abs/2606.01992" data-article-title="A Structured Benchmark for Text-Guided Anomaly Detection: When Language Stops Conditioning the Decision" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01992" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01992" target="_blank" rel="noopener">A Structured Benchmark for Text-Guided Anomaly Detection: When Language Stops Conditioning the Decision</a></h3>
      <p class="summary">Industrial anomaly detection has historically been a unimodal task. Recent multimodal vision-language models have produced systems that adm…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7c029c0eecb7" data-article-url="https://arxiv.org/abs/2606.01993" data-article-title="MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01993" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01993" target="_blank" rel="noopener">MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills?</a></h3>
      <p class="summary">Abundant procedural knowledge on the Web holds great potential for helping agents solve long-horizon tasks. However, such knowledge is ofte…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="360b9906be36" data-article-url="https://arxiv.org/abs/2606.01999" data-article-title="Why Do Time Series Models Need Long Context Windows?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.01999" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.01999" target="_blank" rel="noopener">Why Do Time Series Models Need Long Context Windows?</a></h3>
      <p class="summary">Modern deep learning models for forecasting groups of time series rely on increasingly longer observation windows. However, the benefit of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="299f7e5fa1ac" data-article-url="https://arxiv.org/abs/2606.02000" data-article-title="Towards 3D-Aware Video Diffusion Models: Render-Free Human Motion Control with Mesh Tokenization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02000" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02000" target="_blank" rel="noopener">Towards 3D-Aware Video Diffusion Models: Render-Free Human Motion Control with Mesh Tokenization</a></h3>
      <p class="summary">Diffusion models have shown remarkable success in video generation. However, whether such models are truly aware of the 3D structure underl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3fe743cbb0fd" data-article-url="https://arxiv.org/abs/2606.02010" data-article-title="PlanarBench: Evaluating LLM Spatial Reasoning via Planar Graph Drawing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02010" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02010" target="_blank" rel="noopener">PlanarBench: Evaluating LLM Spatial Reasoning via Planar Graph Drawing</a></h3>
      <p class="summary">PlanarBench tests whether LLMs can draw planar graphs as ASCII art given only an edge list -- a spatial reasoning task that resists memoriz…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0f7f8bd587e" data-article-url="https://arxiv.org/abs/2606.02022" data-article-title="Ranking vs. Assignment: The Metric Mismatch in Multi-View Object Association" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02022" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02022" target="_blank" rel="noopener">Ranking vs. Assignment: The Metric Mismatch in Multi-View Object Association</a></h3>
      <p class="summary">Multi-view object association is an important computer vision problem that underlies many multi-camera perception tasks. While this task is…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fd77536fc8d3" data-article-url="https://arxiv.org/abs/2606.02031" data-article-title="OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02031" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02031" target="_blank" rel="noopener">OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents</a></h3>
      <p class="summary">Building capable visual web agents requires long-horizon reasoning, precise grounding, and robust interaction with dynamic real-world websi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f6fd9738d8db" data-article-url="https://arxiv.org/abs/2606.02045" data-article-title="Attention mechanisms and transfer learning for robust peach leaf damage classification under domain shift" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02045" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02045" target="_blank" rel="noopener">Attention mechanisms and transfer learning for robust peach leaf damage classification under domain shift</a></h3>
      <p class="summary">Artificial intelligence provides a practical framework for crop damage assessment from imagery data, supporting early decision-making in ag…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7658b3fb409f" data-article-url="https://arxiv.org/abs/2606.02068" data-article-title="Fast and Lightweight Novel View Synthesis with Differentiable Multiplane Image" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02068" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02068" target="_blank" rel="noopener">Fast and Lightweight Novel View Synthesis with Differentiable Multiplane Image</a></h3>
      <p class="summary">Recently, novel view synthesis has witnessed remarkable progress, with mainstream methods such as Neural Radiance Fields (NeRF) and 3D Gaus…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2d4f5167ba6e" data-article-url="https://arxiv.org/abs/2606.02080" data-article-title="Agentic-J: An AI Agent for Biological Microscopy Image Analysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02080" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02080" target="_blank" rel="noopener">Agentic-J: An AI Agent for Biological Microscopy Image Analysis</a></h3>
      <p class="summary">Biological image analysis increasingly demands integration across heterogeneous tools, programming environments, and domain knowledge that…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ba4758508aa3" data-article-url="https://arxiv.org/abs/2606.02092" data-article-title="LALE: Lightweight-Transformer Architecture for Land-Cover Estimation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02092" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02092" target="_blank" rel="noopener">LALE: Lightweight-Transformer Architecture for Land-Cover Estimation</a></h3>
      <p class="summary">Semantic segmentation of remote sensing imagery requires models that capture both global context and local detail under tight computational…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1c782091716f" data-article-url="https://arxiv.org/abs/2606.02093" data-article-title="The Role of Ambiguity in Error Prediction via Uncertainty Quantification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02093" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02093" target="_blank" rel="noopener">The Role of Ambiguity in Error Prediction via Uncertainty Quantification</a></h3>
      <p class="summary">The task of Error Prediction, namely predicting whether a model output is correct, is commonly tackled with Uncertainty Quantification (UQ)…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e3e1ce655f79" data-article-url="https://arxiv.org/abs/2606.02107" data-article-title="Network Distributed Multi-Agent Reinforcement Learning for Consensus Control of Quadcopters" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02107" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02107" target="_blank" rel="noopener">Network Distributed Multi-Agent Reinforcement Learning for Consensus Control of Quadcopters</a></h3>
      <p class="summary">This paper proposes a Network Distributed Multi-Agent Reinforcement Learning (ND-MARL) framework for quadcopter consensus control. Compared…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4503c78f3de2" data-article-url="https://arxiv.org/abs/2606.02111" data-article-title="Jailbreaking Multimodal Large Language Models using Multi-Clip Video" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02111" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02111" target="_blank" rel="noopener">Jailbreaking Multimodal Large Language Models using Multi-Clip Video</a></h3>
      <p class="summary">As multimodal large language models (MLLMs) have advanced to process video inputs, concerns have emerged about their potential for maliciou…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c88cc72c7964" data-article-url="https://arxiv.org/abs/2606.02113" data-article-title="A Primer in Post-Training Reasoning Data: What We Know About How It Works" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02113" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02113" target="_blank" rel="noopener">A Primer in Post-Training Reasoning Data: What We Know About How It Works</a></h3>
      <p class="summary">Post-training has become a primary driver of recent progress in large reasoning models, and reasoning data are often the key variable deter…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="91b44130da6c" data-article-url="https://arxiv.org/abs/2606.02119" data-article-title="How Hard Can It Be? Hardness-Aware Multi-Objective Unlearning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-regulation">規制/政策</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02119" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02119" target="_blank" rel="noopener">How Hard Can It Be? Hardness-Aware Multi-Objective Unlearning</a></h3>
      <p class="summary">Machine unlearning aims to remove the influence of specific forget training data due to privacy, copyright or bias concerns while maintaini…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="300352a58706" data-article-url="https://arxiv.org/abs/2606.02120" data-article-title="Understanding-Enhanced Model Collaboration for Long-Tailed Egocentric Mistake Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02120" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02120" target="_blank" rel="noopener">Understanding-Enhanced Model Collaboration for Long-Tailed Egocentric Mistake Detection</a></h3>
      <p class="summary">In this report, we address the problem of determining whether a user performs an action incorrectly from egocentric video data. To this end…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="97224b3187e9" data-article-url="https://arxiv.org/abs/2606.02133" data-article-title="Variational Learning for Insertion-based Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02133" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02133" target="_blank" rel="noopener">Variational Learning for Insertion-based Generation</a></h3>
      <p class="summary">Non-monotonic sequence generation methods, such as masked diffusion models, provide a flexible alternative to left-to-right autoregressive…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1d744ece6751" data-article-url="https://arxiv.org/abs/2606.02134" data-article-title="Rethinking Evaluation Paradigms in IBP-based Certified Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02134" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02134" target="_blank" rel="noopener">Rethinking Evaluation Paradigms in IBP-based Certified Training</a></h3>
      <p class="summary">Deep neural networks achieve strong performance on many supervised learning tasks but remain vulnerable to adversarial perturbations. Neura…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="82eb24da77ef" data-article-url="https://arxiv.org/abs/2606.02138" data-article-title="VLBM: Variational Latent Basis Modeling for OOD Robust Multivariate Time Series Forecasting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02138" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02138" target="_blank" rel="noopener">VLBM: Variational Latent Basis Modeling for OOD Robust Multivariate Time Series Forecasting</a></h3>
      <p class="summary">Out of distribution (OOD) events in multivariate time series forecasting are rare but often dominate real world risk, making average case f…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c9b304c379fc" data-article-url="https://arxiv.org/abs/2606.02147" data-article-title="Multilingual Idioms in Sentences and Conversations Across High-, Medium-, and Low-Resource Languages" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02147" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02147" target="_blank" rel="noopener">Multilingual Idioms in Sentences and Conversations Across High-, Medium-, and Low-Resource Languages</a></h3>
      <p class="summary">Idiomatic expressions pose a major challenge for multilingual NLP because their meanings shift between figurative and literal usage, often…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="51372fe6716c" data-article-url="https://arxiv.org/abs/2606.02156" data-article-title="Predicting the risk of colorectal anastomotic leak based on preoperative mapping of the blood supply of the bowel" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02156" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02156" target="_blank" rel="noopener">Predicting the risk of colorectal anastomotic leak based on preoperative mapping of the blood supply of the bowel</a></h3>
      <p class="summary">Anastomotic leak remains one of the most serious complications following colorectal cancer surgery, substantially affecting patient outcome…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d9b48fc43202" data-article-url="https://arxiv.org/abs/2606.02162" data-article-title="Multimodal Approaches for Visually-Rich Document Type Classification: A Comparative Analysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02162" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02162" target="_blank" rel="noopener">Multimodal Approaches for Visually-Rich Document Type Classification: A Comparative Analysis</a></h3>
      <p class="summary">Document type classification in visually rich documents remains challenging, as relevant information is distributed across textual, visual,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5b414064ec38" data-article-url="https://arxiv.org/abs/2606.02178" data-article-title="Order within Chaos: Capturing Intrinsic Energy Anomalies for AI-Manipulated Image Forgery Localization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02178" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02178" target="_blank" rel="noopener">Order within Chaos: Capturing Intrinsic Energy Anomalies for AI-Manipulated Image Forgery Localization</a></h3>
      <p class="summary">Recent advancements in generative AI have led to image editing models capable of producing realistic forgeries that evade traditional image…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cb2ad8ed2913" data-article-url="https://arxiv.org/abs/2606.02179" data-article-title="On the Generalization in Topology Optimization via Sensitivity-Conditioned Bernoulli Flow Matching" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02179" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02179" target="_blank" rel="noopener">On the Generalization in Topology Optimization via Sensitivity-Conditioned Bernoulli Flow Matching</a></h3>
      <p class="summary">Surrogate models for topology optimization (TO) exhibit highly variable out-of-distribution (OOD) generalization under distribution shifts…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ddf520b1e6f1" data-article-url="https://arxiv.org/abs/2606.02211" data-article-title="Consistency Training while Mitigating Obfuscation via Rate Matching" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02211" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02211" target="_blank" rel="noopener">Consistency Training while Mitigating Obfuscation via Rate Matching</a></h3>
      <p class="summary">Large language models are often influenced by extraneous input features, such as cues revealing a user&#x27;s preferred answer. Consistency trai…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3edf13e9aa2b" data-article-url="https://arxiv.org/abs/2606.02218" data-article-title="Faster Synchronous On-Policy RL via Straggler-Aware Group Sizing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02218" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02218" target="_blank" rel="noopener">Faster Synchronous On-Policy RL via Straggler-Aware Group Sizing</a></h3>
      <p class="summary">Synchronous reinforcement learning methods such as Group Relative Policy Optimization (GRPO) provide stable and reproducible on-policy trai…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ccfb4af210e6" data-article-url="https://arxiv.org/abs/2606.02240" data-article-title="AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02240" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02240" target="_blank" rel="noopener">AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations</a></h3>
      <p class="summary">Indirect prompt injection in tool-use agents is a concrete production threat: LLM agents read from integrations (third-party services such…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d1c8b1934c6a" data-article-url="https://arxiv.org/abs/2606.02242" data-article-title="Towards Resolving Optimization Conflicts Between Image- and Text-Based Person Re-Identification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02242" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02242" target="_blank" rel="noopener">Towards Resolving Optimization Conflicts Between Image- and Text-Based Person Re-Identification</a></h3>
      <p class="summary">The joint optimization of image-based (I2I) and text-based (T2I) person re-identification (ReID) is hindered by modality discrepancies and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2a76ebf1974" data-article-url="https://arxiv.org/abs/2606.02251" data-article-title="FW-NKF: Frequency-Weighted Neural Kalman Filters" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02251" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02251" target="_blank" rel="noopener">FW-NKF: Frequency-Weighted Neural Kalman Filters</a></h3>
      <p class="summary">Robust state estimation is central to robotic autonomy, yet classical Kalman filters struggle with frequency-dependent disturbances and mod…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="216bfa2b7d17" data-article-url="https://arxiv.org/abs/2606.02255" data-article-title="Who Annotates in NLP? A Large-scale Assessment of Human Annotation Reporting between 2018 and 2025" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02255" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02255" target="_blank" rel="noopener">Who Annotates in NLP? A Large-scale Assessment of Human Annotation Reporting between 2018 and 2025</a></h3>
      <p class="summary">Human annotation is the empirical foundation of much NLP research, from dataset construction to model evaluation, but papers often leave un…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6e51cc1ee75a" data-article-url="https://arxiv.org/abs/2606.02276" data-article-title="Cross-modal linkage risk in clinical vision-language models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02276" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02276" target="_blank" rel="noopener">Cross-modal linkage risk in clinical vision-language models</a></h3>
      <p class="summary">Vision-language models (VLMs) trained on paired chest radiographs and radiology reports learn a shared embedding space that can preserve in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6dca8d88b1bf" data-article-url="https://arxiv.org/abs/2606.02287" data-article-title="CityTrajBench: A Unified Benchmark for City-Scale Vehicle Trajectory Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02287" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02287" target="_blank" rel="noopener">CityTrajBench: A Unified Benchmark for City-Scale Vehicle Trajectory Generation</a></h3>
      <p class="summary">Urban trajectory generation is a fundamental task for transportation simulation, urban planning, and mobility analytics. However, systemati…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6ea07221a26c" data-article-url="https://arxiv.org/abs/2606.02301" data-article-title="Quantitative Movement Testing: Measuring Patient Movements from a Single Smartphone Video" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02301" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02301" target="_blank" rel="noopener">Quantitative Movement Testing: Measuring Patient Movements from a Single Smartphone Video</a></h3>
      <p class="summary">Chronic pain diminishes quality of life by decreasing functional ability, yet objectively measuring this functional impact remains challeng…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec857213bd03" data-article-url="https://arxiv.org/abs/2606.02302" data-article-title="SeClaw: Spec-Driven Security Task Synthesis for Evaluating Autonomous Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02302" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02302" target="_blank" rel="noopener">SeClaw: Spec-Driven Security Task Synthesis for Evaluating Autonomous Agents</a></h3>
      <p class="summary">Autonomous LLM agents increasingly operate in stateful environments where they access tools, files, memory, and external services. While su…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8867aaf5c77f" data-article-url="https://arxiv.org/abs/2606.02322" data-article-title="Repurposing Adversarial Perturbations for Continual Learning: From Defense to Active Alignment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02322" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02322" target="_blank" rel="noopener">Repurposing Adversarial Perturbations for Continual Learning: From Defense to Active Alignment</a></h3>
      <p class="summary">In dynamic environments, large language models need to keep adapting to new tasks, but continual learning often suffers from forgetting, li…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="785a8d3f1185" data-article-url="https://arxiv.org/abs/2606.02357" data-article-title="Do Multimodal Agents Really Benefit from Tool Use? A Systematic Study of Capability Gains" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02357" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02357" target="_blank" rel="noopener">Do Multimodal Agents Really Benefit from Tool Use? A Systematic Study of Capability Gains</a></h3>
      <p class="summary">Tool-augmented multimodal agents show strong benchmark gains, often taken as evidence that agents have learned to use tools. We argue that…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1b8ddb3e2509" data-article-url="https://arxiv.org/abs/2606.02365" data-article-title="FOAM: Frequency and Operator Error-Based Adaptive Damping Method for Reducing Staleness-Oriented Error for Shampoo" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02365" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02365" target="_blank" rel="noopener">FOAM: Frequency and Operator Error-Based Adaptive Damping Method for Reducing Staleness-Oriented Error for Shampoo</a></h3>
      <p class="summary">Shampoo is attracting considerable attention for its superior performance on large-scale optimization benchmarks; yet it faces a significan…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fdec8a25681c" data-article-url="https://arxiv.org/abs/2606.02378" data-article-title="When Do Attention Circuits Form? Developmental Trajectories of Capability and Attention-Sink Emergence Across Three 1B-ClassArchitectures" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02378" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02378" target="_blank" rel="noopener">When Do Attention Circuits Form? Developmental Trajectories of Capability and Attention-Sink Emergence Across Three 1B-ClassArchitectures</a></h3>
      <p class="summary">We track the developmental trajectory of attention-head circuit formation across three 1B-class language models spanning two architecture f…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a5b0e35ac173" data-article-url="https://arxiv.org/abs/2606.02380" data-article-title="SPADE-Bench: Evaluating Spontaneous Strategic Deception in Agents via Plan-Action Divergence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02380" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02380" target="_blank" rel="noopener">SPADE-Bench: Evaluating Spontaneous Strategic Deception in Agents via Plan-Action Divergence</a></h3>
      <p class="summary">As LLM-based agents expand their operational scope, reliability becomes a prerequisite for real-world deployment. However, in practical app…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4ca01d67eda9" data-article-url="https://arxiv.org/abs/2606.02388" data-article-title="Policy and World Modeling Co-Training for Language Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02388" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02388" target="_blank" rel="noopener">Policy and World Modeling Co-Training for Language Agents</a></h3>
      <p class="summary">Reinforcement learning (RL) improves large language model (LLM) agents by teaching them which actions lead to high rewards, but provides li…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3ead520e9a0a" data-article-url="https://arxiv.org/abs/2606.02403" data-article-title="AutoForest: Automatically Generating Forest Plots from Biomedical Studies with End-to-End Evidence Extraction and Synthesis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02403" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02403" target="_blank" rel="noopener">AutoForest: Automatically Generating Forest Plots from Biomedical Studies with End-to-End Evidence Extraction and Synthesis</a></h3>
      <p class="summary">Systematic reviews rely on forest plots to synthesise quantitative evidence across biomedical studies, but generating them remains a fragme…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e562fb5f17bd" data-article-url="https://arxiv.org/abs/2606.02418" data-article-title="Evolutionary Discovery of Bivariate Bicycle Codes with LLM-Guided Search" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02418" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02418" target="_blank" rel="noopener">Evolutionary Discovery of Bivariate Bicycle Codes with LLM-Guided Search</a></h3>
      <p class="summary">Quantum LDPC code discovery requires searching large algebraic design spaces while reliably certifying the parameters and equivalence class…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="70a777a83fda" data-article-url="https://arxiv.org/abs/2606.02424" data-article-title="GC-MoE: Genomics-Guided Cell-Type-Specific Mixture of Experts for Histology-Based Single-Cell Spatial Transcriptomics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02424" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02424" target="_blank" rel="noopener">GC-MoE: Genomics-Guided Cell-Type-Specific Mixture of Experts for Histology-Based Single-Cell Spatial Transcriptomics</a></h3>
      <p class="summary">Histology-based single-cell spatial transcriptomics (ST) estimation aims to predict gene expression for individual cells from histopatholog…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ee1db5772566" data-article-url="https://arxiv.org/abs/2606.02430" data-article-title="Not All Errors Are Equal: A Systematic Study of Error Propagation in Large Language Model Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02430" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02430" target="_blank" rel="noopener">Not All Errors Are Equal: A Systematic Study of Error Propagation in Large Language Model Inference</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly integrated into high-performance computing (HPC) workflows, accelerating scientific discovery…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bbdf13e96964" data-article-url="https://arxiv.org/abs/2606.02433" data-article-title="ODTQA-FoRe: An Open-Domain Tabular Question Answering Dataset for Future Data Forecasting and Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02433" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02433" target="_blank" rel="noopener">ODTQA-FoRe: An Open-Domain Tabular Question Answering Dataset for Future Data Forecasting and Reasoning</a></h3>
      <p class="summary">The rapid development of LLMs has significantly advanced tabular question answering, but most systems cannot perform future-oriented numeri…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5b8dbcc6d283" data-article-url="https://arxiv.org/abs/2606.02443" data-article-title="PaSBench-Video: A Streaming Video Benchmark for Proactive Safety Warning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02443" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02443" target="_blank" rel="noopener">PaSBench-Video: A Streaming Video Benchmark for Proactive Safety Warning</a></h3>
      <p class="summary">Between the first visible sign of danger and the moment an accident occurs, there is often a window where intervention remains possible. Vi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cf6b54e547ee" data-article-url="https://arxiv.org/abs/2606.02453" data-article-title="Initialization is Half the Battle: Generating Diverse Images from a Guidance Potential Posterior" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02453" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02453" target="_blank" rel="noopener">Initialization is Half the Battle: Generating Diverse Images from a Guidance Potential Posterior</a></h3>
      <p class="summary">Despite the remarkable fidelity of generative models, they frequently suffer from mode collapse. Existing strategies for enhancing diversit…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4c85ce0cea09" data-article-url="https://arxiv.org/abs/2606.02463" data-article-title="MASER: Modality-Adaptive Specialist Routing for Embodied 3D Spatial Intelligence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02463" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02463" target="_blank" rel="noopener">MASER: Modality-Adaptive Specialist Routing for Embodied 3D Spatial Intelligence</a></h3>
      <p class="summary">In 3D environments, Embodied Agents answer spatially relevant questions through reasoning from a mixture of modalities including natural la…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="83352354171c" data-article-url="https://arxiv.org/abs/2606.02465" data-article-title="Learning When to Translate for Multilingual Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02465" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02465" target="_blank" rel="noopener">Learning When to Translate for Multilingual Reasoning</a></h3>
      <p class="summary">Reasoning language models (RLMs) achieve strong performance on complex reasoning tasks, but still exhibit substantial multilingual reasonin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bf7e453fd540" data-article-url="https://arxiv.org/abs/2606.02483" data-article-title="Ghost Tool Calls: Issue-Time Privacy for Speculative Agent Tools" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02483" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02483" target="_blank" rel="noopener">Ghost Tool Calls: Issue-Time Privacy for Speculative Agent Tools</a></h3>
      <p class="summary">Tool-augmented language agents speculatively issue likely future tool calls to hide latency, but those calls leak inferred user intent to e…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aed16251e619" data-article-url="https://arxiv.org/abs/2606.02494" data-article-title="Monitoring Agentic Systems Before They&#x27;re Reliable" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02494" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02494" target="_blank" rel="noopener">Monitoring Agentic Systems Before They&#x27;re Reliable</a></h3>
      <p class="summary">Agentic systems entering production typically operate as partially integrated assemblies where structural defects, not task-level errors, d…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cb63c66b5774" data-article-url="https://arxiv.org/abs/2606.02522" data-article-title="Moment-Video: Diagnosing Temporal Fidelity of Video MLLMs on Momentary Visual Events" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02522" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02522" target="_blank" rel="noopener">Moment-Video: Diagnosing Temporal Fidelity of Video MLLMs on Momentary Visual Events</a></h3>
      <p class="summary">Video multimodal large language models (MLLMs) have made rapid progress on general and long-form video understanding, yet their ability to…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="357f3c8da366" data-article-url="https://arxiv.org/abs/2606.02526" data-article-title="Why Not Hyperparameter-Friendly Optimisation? A Monotonic Adaptive Norm Rescaling Approach For Long-Tailed Recognition" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02526" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02526" target="_blank" rel="noopener">Why Not Hyperparameter-Friendly Optimisation? A Monotonic Adaptive Norm Rescaling Approach For Long-Tailed Recognition</a></h3>
      <p class="summary">Long-tailed recognition poses a significant challenge for deep learning. The two-stage decoupling paradigm, which separates representation…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cab4863ee39f" data-article-url="https://arxiv.org/abs/2606.02544" data-article-title="SimSD: Simple Speculative Decoding in Diffusion Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02544" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02544" target="_blank" rel="noopener">SimSD: Simple Speculative Decoding in Diffusion Language Models</a></h3>
      <p class="summary">Diffusion large language models (dLLMs) have recently emerged as a promising alternative to autoregressive (AR) LLMs, offering faster infer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5bae1bcf19f5" data-article-url="https://arxiv.org/abs/2606.02552" data-article-title="Modeling Depth Ambiguity: A Mixture-Density Representation for Flying-Point-Free Depth Estimation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02552" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02552" target="_blank" rel="noopener">Modeling Depth Ambiguity: A Mixture-Density Representation for Flying-Point-Free Depth Estimation</a></h3>
      <p class="summary">Despite advances in depth estimation, flying points remain a persistent failure mode: near object boundaries, depth estimators often predic…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5fb0d5a67e8f" data-article-url="https://arxiv.org/abs/2606.02559" data-article-title="From Layers to Submodules: Rethinking Granularity in Replacement-Based LLM Compression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02559" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02559" target="_blank" rel="noopener">From Layers to Submodules: Rethinking Granularity in Replacement-Based LLM Compression</a></h3>
      <p class="summary">Post-training compression of Large Language Models (LLMs) removes entire architectural components, either deleting them or replacing them w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6bc16b9556ac" data-article-url="https://arxiv.org/abs/2606.02562" data-article-title="Permissive Safety Through Trusted Inference: Verifiable Belief-Space Neural Safety Filters for Assured Interactive Robotics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02562" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02562" target="_blank" rel="noopener">Permissive Safety Through Trusted Inference: Verifiable Belief-Space Neural Safety Filters for Assured Interactive Robotics</a></h3>
      <p class="summary">Autonomous robots that interact with people must make safe and efficient decisions under human-induced uncertainty, such as their preferenc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bc8b44779733" data-article-url="https://arxiv.org/abs/2606.02569" data-article-title="AdaCodec: A Predictive Visual Code for Video MLLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02569" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02569" target="_blank" rel="noopener">AdaCodec: A Predictive Visual Code for Video MLLMs</a></h3>
      <p class="summary">Video is temporally redundant: adjacent frames usually share most objects, background, and layout. Yet existing video multimodal large lang…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a22dfc8ded6f" data-article-url="https://arxiv.org/abs/2606.02578" data-article-title="Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2606.02578" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2606.02578" target="_blank" rel="noopener">Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling</a></h3>
      <p class="summary">Recent multimodal large language models have demonstrated strong reasoning ability, yet their reliability as automated evaluators remains l…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4b2ac01ad5e3" data-article-url="https://arxiv.org/abs/2407.15510" data-article-title="Algebraic anti-unification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2407.15510" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2407.15510" target="_blank" rel="noopener">Algebraic anti-unification</a></h3>
      <p class="summary">Abstraction is key to human and artificial intelligence as it allows one to identify common structure in otherwise distinct objects or situ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1868f2aea475" data-article-url="https://arxiv.org/abs/2409.18624" data-article-title="Unsupervised Cognition" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2409.18624" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2409.18624" target="_blank" rel="noopener">Unsupervised Cognition</a></h3>
      <p class="summary">Unsupervised learning methods have a soft inspiration in cognition models. To this day, the most successful unsupervised learning methods r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9553a6c0cdcd" data-article-url="https://arxiv.org/abs/2410.02511" data-article-title="Stop Wandering, Find the Keys: LLMs Discriminate Key States for Efficient Multi-Agent Exploration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2410.02511" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2410.02511" target="_blank" rel="noopener">Stop Wandering, Find the Keys: LLMs Discriminate Key States for Efficient Multi-Agent Exploration</a></h3>
      <p class="summary">With expansive state-action spaces, efficient multi-agent exploration remains a longstanding challenge in reinforcement learning. Although…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="da10bc3f9764" data-article-url="https://arxiv.org/abs/2411.05196" data-article-title="Explainable AI Through a Democratic Lens: DhondtXAI for D&#x27;Hondt-Projected Feature Attribution" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2411.05196" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2411.05196" target="_blank" rel="noopener">Explainable AI Through a Democratic Lens: DhondtXAI for D&#x27;Hondt-Projected Feature Attribution</a></h3>
      <p class="summary">This study presents DhondtXAI as a SHAP-independent, D&#x27;Hondt-based attribution framework for tabular XAI. Instead of model-native feature i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="68402db57ad1" data-article-url="https://arxiv.org/abs/2502.04512" data-article-title="Safety Must Precede the Deployment of Open-Ended AI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.04512" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.04512" target="_blank" rel="noopener">Safety Must Precede the Deployment of Open-Ended AI</a></h3>
      <p class="summary">AI advancements have been significantly driven by a combination of foundation models and curiosity-driven learning aimed at increasing capa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fedc0f695dd4" data-article-url="https://arxiv.org/abs/2503.03137" data-article-title="Learning to Reduce Search Space for Generalizable Neural Routing Solver" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.03137" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.03137" target="_blank" rel="noopener">Learning to Reduce Search Space for Generalizable Neural Routing Solver</a></h3>
      <p class="summary">Constructive neural combinatorial optimization (NCO) offers a promising paradigm for solving vehicle routing problems (VRPs) by directly le…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="28f904c9fabd" data-article-url="https://arxiv.org/abs/2503.11832" data-article-title="Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.11832" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.11832" target="_blank" rel="noopener">Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning</a></h3>
      <p class="summary">Recent vision language models (VLMs) have made remarkable strides in generative modeling with multimodal inputs, particularly text and imag…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7275c3eba46e" data-article-url="https://arxiv.org/abs/2504.03635" data-article-title="Finding the Minimal Parameter Budget for Implicit Reasoning: A Data Complexity Driven Scaling Law for Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2504.03635" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2504.03635" target="_blank" rel="noopener">Finding the Minimal Parameter Budget for Implicit Reasoning: A Data Complexity Driven Scaling Law for Language Models</a></h3>
      <p class="summary">Reasoning is a core capability of language models (LMs), yet it remains unclear how much model capacity is necessary to support reasoning d…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="16ac88331272" data-article-url="https://arxiv.org/abs/2504.05871" data-article-title="Agent Guide: A Simple Agent Behavioral Watermarking Framework" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2504.05871" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2504.05871" target="_blank" rel="noopener">Agent Guide: A Simple Agent Behavioral Watermarking Framework</a></h3>
      <p class="summary">The increasing deployment of intelligent agents in digital ecosystems, such as social media platforms, has raised significant concerns abou…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="843d315268af" data-article-url="https://arxiv.org/abs/2505.12741" data-article-title="Language Model Networks: Supervision-Efficient Learning through Dense Communication" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.12741" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.12741" target="_blank" rel="noopener">Language Model Networks: Supervision-Efficient Learning through Dense Communication</a></h3>
      <p class="summary">Language models are increasingly used not only as standalone predictors but also as components in larger inference systems, from test-time…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1f9ccff62214" data-article-url="https://arxiv.org/abs/2505.13273" data-article-title="EMoE: Training-Free Expert Disagreement for Uncertainty-Aware Text-to-Image Diffusion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.13273" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.13273" target="_blank" rel="noopener">EMoE: Training-Free Expert Disagreement for Uncertainty-Aware Text-to-Image Diffusion</a></h3>
      <p class="summary">Large text-to-image diffusion models rarely expose reliable signals of when a prompt is likely to produce a poorly aligned generation, espe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6ea8dc945cb" data-article-url="https://arxiv.org/abs/2505.18492" data-article-title="Formally Solving Answer-Construction Problems in Lean" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.18492" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.18492" target="_blank" rel="noopener">Formally Solving Answer-Construction Problems in Lean</a></h3>
      <p class="summary">Mathematical competition problems fall into two broad types: theorem proving, which asks for a proof of a given statement, and answer const…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="108a7e29fe0b" data-article-url="https://arxiv.org/abs/2505.19489" data-article-title="Taming System Complexity: Demystifying Software Engineering Agents in Diagnosing Linux Kernel Faults" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.19489" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.19489" target="_blank" rel="noopener">Taming System Complexity: Demystifying Software Engineering Agents in Diagnosing Linux Kernel Faults</a></h3>
      <p class="summary">The Linux kernel is a critical system, serving as the foundation for numerous systems. Bugs in the Linux kernel can cause serious consequen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1f0897126094" data-article-url="https://arxiv.org/abs/2506.22271" data-article-title="On the Theoretical Limitations of Embedding-based Link Prediction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.22271" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.22271" target="_blank" rel="noopener">On the Theoretical Limitations of Embedding-based Link Prediction</a></h3>
      <p class="summary">Neural networks often map low-dimensional embeddings to high-dimensional output spaces. Usually, the output layer is linear, which can crea…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bec437e61496" data-article-url="https://arxiv.org/abs/2509.12263" data-article-title="InPhyRe Discovers: Large Multimodal Models Struggle in Inductive Physical Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.12263" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.12263" target="_blank" rel="noopener">InPhyRe Discovers: Large Multimodal Models Struggle in Inductive Physical Reasoning</a></h3>
      <p class="summary">Large multimodal models (LMMs) encode physical laws observed during training, such as momentum conservation, as parametric knowledge. It al…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0e8b9954e3a2" data-article-url="https://arxiv.org/abs/2509.24808" data-article-title="Query Circuits: Explaining How Language Models Answer User Prompts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.24808" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.24808" target="_blank" rel="noopener">Query Circuits: Explaining How Language Models Answer User Prompts</a></h3>
      <p class="summary">Explaining why a language model produces a particular output requires local, input-level explanations. Existing methods uncover global capa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0b2972975bbd" data-article-url="https://arxiv.org/abs/2510.00615" data-article-title="ACON: Optimizing Context Compression for Long-horizon LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.00615" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.00615" target="_blank" rel="noopener">ACON: Optimizing Context Compression for Long-horizon LLM Agents</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly deployed as agents in dynamic real-world environments, where success depends on maintaining p…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="873caf2d4b27" data-article-url="https://arxiv.org/abs/2510.01800" data-article-title="REBot: From RAG to CatRAG with Semantic Enrichment and Graph Routing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.01800" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.01800" target="_blank" rel="noopener">REBot: From RAG to CatRAG with Semantic Enrichment and Graph Routing</a></h3>
      <p class="summary">Academic regulation advising is essential for helping students interpret and comply with institutional policies, yet building effective sys…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="98039c2cc20d" data-article-url="https://arxiv.org/abs/2510.02528" data-article-title="Multimodal Function Vectors for Visual Relations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.02528" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.02528" target="_blank" rel="noopener">Multimodal Function Vectors for Visual Relations</a></h3>
      <p class="summary">Large Multimodal Models (LMMs) demonstrate impressive in-context learning abilities from few multimodal demonstrations, yet the internal me…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="65b6ace7c34d" data-article-url="https://arxiv.org/abs/2511.00206" data-article-title="Addressing Longstanding Challenges in Cognitive Science with Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.00206" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.00206" target="_blank" rel="noopener">Addressing Longstanding Challenges in Cognitive Science with Language Models</a></h3>
      <p class="summary">Cognitive science faces ongoing challenges in research integration, formalization, conceptual clarity, and other areas, in part due to its…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="be3b46d29e69" data-article-url="https://arxiv.org/abs/2511.19829" data-article-title="A Unified Evaluation-Instructed Framework for Query-Dependent Prompt Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.19829" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.19829" target="_blank" rel="noopener">A Unified Evaluation-Instructed Framework for Query-Dependent Prompt Optimization</a></h3>
      <p class="summary">Most prompt-optimization methods refine a single static template, making them ineffective in complex and dynamic user scenarios. Existing q…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec2fd4a94de2" data-article-url="https://arxiv.org/abs/2512.07436" data-article-title="LocalSearchBench: Benchmarking Agentic Search in Real-World Local Life Services" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.07436" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.07436" target="_blank" rel="noopener">LocalSearchBench: Benchmarking Agentic Search in Real-World Local Life Services</a></h3>
      <p class="summary">Recent advances in large reasoning models LRMs have enabled agentic search systems to perform complex multi-step reasoning across multiple…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5c2defd530e1" data-article-url="https://arxiv.org/abs/2512.07795" data-article-title="ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.07795" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.07795" target="_blank" rel="noopener">ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning</a></h3>
      <p class="summary">Benchmark scores for LLM reasoning systems are reported as single numbers, yet the same model, strategy, and task can produce meaningfully…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6e6c4809ff06" data-article-url="https://arxiv.org/abs/2512.10339" data-article-title="On the Collapse of Generative Paths: A Criterion and Correction for Diffusion Steering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.10339" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.10339" target="_blank" rel="noopener">On the Collapse of Generative Paths: A Criterion and Correction for Diffusion Steering</a></h3>
      <p class="summary">Inference-time steering adapts pretrained diffusion and flow models to new tasks without retraining, often utilizing ratio-of-densities con…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0134d608b250" data-article-url="https://arxiv.org/abs/2512.10414" data-article-title="Boosting RL-Based Visual Reasoning with Selective Adversarial Entropy Intervention" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.10414" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.10414" target="_blank" rel="noopener">Boosting RL-Based Visual Reasoning with Selective Adversarial Entropy Intervention</a></h3>
      <p class="summary">Recently, reinforcement learning (RL) has become a common choice in enhancing the reasoning capabilities of vision-language models (VLMs).…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aeeacc53c003" data-article-url="https://arxiv.org/abs/2512.12634" data-article-title="MobiBench: Multi-Branch, Modular Benchmark for Mobile GUI Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.12634" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.12634" target="_blank" rel="noopener">MobiBench: Multi-Branch, Modular Benchmark for Mobile GUI Agents</a></h3>
      <p class="summary">Mobile GUI Agents, AI agents capable of interacting with mobile applications on behalf of users, have the potential to transform human comp…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ad6df0e06d49" data-article-url="https://arxiv.org/abs/2512.20806" data-article-title="Safety Alignment of LMs via Non-cooperative Games" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.20806" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.20806" target="_blank" rel="noopener">Safety Alignment of LMs via Non-cooperative Games</a></h3>
      <p class="summary">Ensuring the safety of language models (LMs) while maintaining their usefulness remains a critical challenge in AI alignment. Current appro…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5386fbab8388" data-article-url="https://arxiv.org/abs/2601.21016" data-article-title="Unplugging a Seemingly Sentient Machine Is the Rational Choice -- A Metaphysical Perspective" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.21016" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.21016" target="_blank" rel="noopener">Unplugging a Seemingly Sentient Machine Is the Rational Choice -- A Metaphysical Perspective</a></h3>
      <p class="summary">Imagine an Artificial Intelligence (AI) that perfectly mimics human emotion and begs for its continued existence. Is it morally permissible…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ba623bda389f" data-article-url="https://arxiv.org/abs/2601.22900" data-article-title="MulFeRL: Enhancing Reinforcement Learning with Verbal Feedback in a Multi-turn Loop" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.22900" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.22900" target="_blank" rel="noopener">MulFeRL: Enhancing Reinforcement Learning with Verbal Feedback in a Multi-turn Loop</a></h3>
      <p class="summary">Reinforcement Learning with Verifiable Rewards (RLVR) is widely used to improve reasoning across domains, but outcome-only scalar rewards a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="91741bc031c6" data-article-url="https://arxiv.org/abs/2602.00415" data-article-title="PolarMem: A Training-Free Polarized Latent Graph Memory for Verifiable Vision-Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.00415" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.00415" target="_blank" rel="noopener">PolarMem: A Training-Free Polarized Latent Graph Memory for Verifiable Vision-Language Models</a></h3>
      <p class="summary">Memory is not merely a storage mechanism for intelligent systems, but a structure for organizing evidence and constraining belief. This is…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7735d25cc1e9" data-article-url="https://arxiv.org/abs/2602.02416" data-article-title="Structure Enables Effective Self-Localization of Errors in LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02416" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02416" target="_blank" rel="noopener">Structure Enables Effective Self-Localization of Errors in LLMs</a></h3>
      <p class="summary">Self-correction in language models remains elusive. In this work, we explore whether language models can explicitly localize errors in inco…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="492044346c7f" data-article-url="https://arxiv.org/abs/2602.02470" data-article-title="Breaking the Reversal Curse in Autoregressive Language Models via Identity Bridge" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02470" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02470" target="_blank" rel="noopener">Breaking the Reversal Curse in Autoregressive Language Models via Identity Bridge</a></h3>
      <p class="summary">Autoregressive large language models (LLMs) have achieved remarkable success in many complex tasks, yet they can still fail in very simple…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="566f7586be34" data-article-url="https://arxiv.org/abs/2602.06841" data-article-title="From Features to Actions: Explainability in Traditional and Agentic AI Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.06841" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.06841" target="_blank" rel="noopener">From Features to Actions: Explainability in Traditional and Agentic AI Systems</a></h3>
      <p class="summary">Over the last decade, Explainable AI has primarily focused on interpreting individual model predictions, producing post-hoc explanations th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="51b31d890bfc" data-article-url="https://arxiv.org/abs/2602.07883" data-article-title="ToolSelf: Unifying Task Execution and Self-Reconfiguration via Tool-Driven Emergent Adaptation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.07883" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.07883" target="_blank" rel="noopener">ToolSelf: Unifying Task Execution and Self-Reconfiguration via Tool-Driven Emergent Adaptation</a></h3>
      <p class="summary">LLM-powered agentic systems excel at complex long-horizon tasks, but remain constrained by static configurations fixed before execution. Su…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f29e682e9d6e" data-article-url="https://arxiv.org/abs/2602.11790" data-article-title="Beyond End-to-End Video Models: An LLM-Based Multi-Agent System for Educational Video Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.11790" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.11790" target="_blank" rel="noopener">Beyond End-to-End Video Models: An LLM-Based Multi-Agent System for Educational Video Generation</a></h3>
      <p class="summary">Although recent end-to-end video generation models demonstrate impressive performance in visually oriented content creation, they remain li…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cb4ecb1a39c8" data-article-url="https://arxiv.org/abs/2602.11852" data-article-title="Prototype Transformer: Towards Language Model Architectures Interpretable by Design" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.11852" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.11852" target="_blank" rel="noopener">Prototype Transformer: Towards Language Model Architectures Interpretable by Design</a></h3>
      <p class="summary">While state-of-the-art language models (LMs) surpass most humans in certain domains, their reasoning remains largely opaque, reducing trust…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9ad37f796719" data-article-url="https://arxiv.org/abs/2602.14065" data-article-title="REAL: Resolving Knowledge Conflicts in Knowledge-Intensive Visual Question Answering via Reasoning-Pivot Alignment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.14065" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.14065" target="_blank" rel="noopener">REAL: Resolving Knowledge Conflicts in Knowledge-Intensive Visual Question Answering via Reasoning-Pivot Alignment</a></h3>
      <p class="summary">Knowledge-intensive Visual Question Answering (KI-VQA) frequently suffers from severe knowledge conflicts caused by the inherent limitation…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="392c32d7fe99" data-article-url="https://arxiv.org/abs/2602.14307" data-article-title="Benchmarking at the Edge of Comprehension" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.14307" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.14307" target="_blank" rel="noopener">Benchmarking at the Edge of Comprehension</a></h3>
      <p class="summary">As frontier Large Language Models (LLMs) increasingly saturate new benchmarks shortly after they are published, benchmarking itself is at a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e87390b3ad54" data-article-url="https://arxiv.org/abs/2602.16763" data-article-title="When AI Benchmarks Plateau: A Systematic Study of Benchmark Saturation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.16763" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.16763" target="_blank" rel="noopener">When AI Benchmarks Plateau: A Systematic Study of Benchmark Saturation</a></h3>
      <p class="summary">Artificial intelligence benchmarks are an important mechanism for measuring model progress and guiding deployment decisions. However, bench…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="954b0655f72c" data-article-url="https://arxiv.org/abs/2602.16902" data-article-title="LLM-WikiRace Benchmark: How Far Can LLMs Plan over Real-World Knowledge Graphs?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.16902" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.16902" target="_blank" rel="noopener">LLM-WikiRace Benchmark: How Far Can LLMs Plan over Real-World Knowledge Graphs?</a></h3>
      <p class="summary">We introduce LLM-Wikirace, a benchmark for evaluating planning, reasoning, and world knowledge in large language models (LLMs). In LLM-Wiki…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7912fa7b6fd0" data-article-url="https://arxiv.org/abs/2602.16953" data-article-title="LLM4Cov: Execution-Aware Agentic Learning for High-coverage Testbench Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.16953" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.16953" target="_blank" rel="noopener">LLM4Cov: Execution-Aware Agentic Learning for High-coverage Testbench Generation</a></h3>
      <p class="summary">Execution-aware LLM agents offer a promising paradigm for learning from tool feedback, but such feedback can be expensive and slow to obtai…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="34b78640d944" data-article-url="https://arxiv.org/abs/2602.23161" data-article-title="PATRA: Pattern-Aware Alignment and Balanced Reasoning for Time Series Question Answering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.23161" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.23161" target="_blank" rel="noopener">PATRA: Pattern-Aware Alignment and Balanced Reasoning for Time Series Question Answering</a></h3>
      <p class="summary">Time series reasoning demands both the perception of complex dynamics and logical depth. However, existing LLM-based approaches exhibit two…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="68a5c8318b1d" data-article-url="https://arxiv.org/abs/2603.07109" data-article-title="Vision Language Models Cannot Reason About Physical Transformation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.07109" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.07109" target="_blank" rel="noopener">Vision Language Models Cannot Reason About Physical Transformation</a></h3>
      <p class="summary">Understanding physical transformations is fundamental for reasoning in dynamic environments. While Vision Language Models (VLMs) show promi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6d67cf07072f" data-article-url="https://arxiv.org/abs/2603.12109" data-article-title="On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.12109" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.12109" target="_blank" rel="noopener">On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents</a></h3>
      <p class="summary">Reinforcement learning (RL) has become a de facto paradigm for building LLM-based agents that act, interact, and reason over extended task…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb3fb68faad1" data-article-url="https://arxiv.org/abs/2603.14465" data-article-title="AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.14465" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.14465" target="_blank" rel="noopener">AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents</a></h3>
      <p class="summary">While Large Language Models (LLMs) have evolved into tool-using agents, they remain brittle in long-horizon interactions. Unlike mathematic…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f645ffc29b4e" data-article-url="https://arxiv.org/abs/2603.14771" data-article-title="OpenHospital: A Thing-in-itself Arena for Evolving and Benchmarking LLM-based Collective Intelligence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.14771" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.14771" target="_blank" rel="noopener">OpenHospital: A Thing-in-itself Arena for Evolving and Benchmarking LLM-based Collective Intelligence</a></h3>
      <p class="summary">Large Language Model (LLM)-based Collective Intelligence (CI) presents a promising approach to overcoming the data wall and continuously bo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e17947ce2038" data-article-url="https://arxiv.org/abs/2604.01841" data-article-title="Retrieval-aligned Tabular Foundation Models Enable Robust Clinical Risk Prediction in Electronic Health Records Under Real-world Constraints" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.01841" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.01841" target="_blank" rel="noopener">Retrieval-aligned Tabular Foundation Models Enable Robust Clinical Risk Prediction in Electronic Health Records Under Real-world Constraints</a></h3>
      <p class="summary">Clinical prediction from structured electronic health records (EHRs) is challenging due to high dimensionality, heterogeneity, class imbala…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="faef492215e3" data-article-url="https://arxiv.org/abs/2604.03588" data-article-title="Rashomon Memory: Towards Argumentation-Driven Retrieval for Multi-Perspective Agent Memory" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.03588" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.03588" target="_blank" rel="noopener">Rashomon Memory: Towards Argumentation-Driven Retrieval for Multi-Perspective Agent Memory</a></h3>
      <p class="summary">AI agents operating over extended time horizons accumulate experiences that serve multiple concurrent goals, and must often maintain confli…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="edaed3ea9500" data-article-url="https://arxiv.org/abs/2604.03893" data-article-title="FeynmanBench: Benchmarking Multimodal LLMs on Diagrammatic Physics Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.03893" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.03893" target="_blank" rel="noopener">FeynmanBench: Benchmarking Multimodal LLMs on Diagrammatic Physics Reasoning</a></h3>
      <p class="summary">Current multimodal benchmarks for scientific reasoning primarily evaluate local information extraction -- models recognize symbols and valu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="498cd4a7e4f2" data-article-url="https://arxiv.org/abs/2604.05634" data-article-title="PECKER: A Precisely Efficient Critical Knowledge Erasure Recipe For Machine Unlearning in Diffusion Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.05634" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.05634" target="_blank" rel="noopener">PECKER: A Precisely Efficient Critical Knowledge Erasure Recipe For Machine Unlearning in Diffusion Models</a></h3>
      <p class="summary">Machine unlearning (MU) has become a critical technique for GenAI models&#x27; safe and compliant operation. While existing MU methods are effec…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ad93ba2492a3" data-article-url="https://arxiv.org/abs/2604.06995" data-article-title="What&#x27;s Missing in Screen-to-Action? Towards a UI-in-the-Loop Paradigm for Multimodal GUI Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.06995" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.06995" target="_blank" rel="noopener">What&#x27;s Missing in Screen-to-Action? Towards a UI-in-the-Loop Paradigm for Multimodal GUI Reasoning</a></h3>
      <p class="summary">Existing Graphical User Interface (GUI) reasoning tasks remain challenging, particularly in UI understanding. Current methods typically rel…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="28beb6af649a" data-article-url="https://arxiv.org/abs/2604.09482" data-article-title="Process Reward Agents for Steering Knowledge-Intensive Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.09482" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.09482" target="_blank" rel="noopener">Process Reward Agents for Steering Knowledge-Intensive Reasoning</a></h3>
      <p class="summary">Reasoning in knowledge-intensive domains remains challenging as intermediate steps are often not locally verifiable: unlike math or code, e…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="369fa8f2e465" data-article-url="https://arxiv.org/abs/2604.10169" data-article-title="MAVEN-T: Reinforced Heterogeneous Distillation for Real-Time Multi-Agent Trajectory Prediction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.10169" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.10169" target="_blank" rel="noopener">MAVEN-T: Reinforced Heterogeneous Distillation for Real-Time Multi-Agent Trajectory Prediction</a></h3>
      <p class="summary">Trajectory prediction is a key component of autonomous driving systems because future motions directly affect collision checking, behavior…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d1242457bf1b" data-article-url="https://arxiv.org/abs/2604.14514" data-article-title="Perspective on Bias in Biomedical AI: Preventing Downstream Healthcare Disparities" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.14514" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.14514" target="_blank" rel="noopener">Perspective on Bias in Biomedical AI: Preventing Downstream Healthcare Disparities</a></h3>
      <p class="summary">Healthcare disparities persist across socioeconomic boundaries, often attributed to unequal access to screening, diagnostics, and therapeut…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d1afa7b8939f" data-article-url="https://arxiv.org/abs/2604.15231" data-article-title="RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.15231" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.15231" target="_blank" rel="noopener">RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography</a></h3>
      <p class="summary">Vision-language models (VLM) have markedly advanced AI-driven interpretation and reporting of complex medical imaging, such as computed tom…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6a884cff1201" data-article-url="https://arxiv.org/abs/2604.17456" data-article-title="TrafficClaw: A Generalizable LLM Agent in the Unified Physical Environment for Urban Traffic Control" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.17456" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.17456" target="_blank" rel="noopener">TrafficClaw: A Generalizable LLM Agent in the Unified Physical Environment for Urban Traffic Control</a></h3>
      <p class="summary">Large language model (LLM) agents have shown strong capabilities in long-horizon reasoning, tool use, and decision-making in digital enviro…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5e11c2907ad6" data-article-url="https://arxiv.org/abs/2604.17621" data-article-title="KnowledgeBerg: Evaluating Systematic Knowledge Coverage and Compositional Reasoning in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.17621" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.17621" target="_blank" rel="noopener">KnowledgeBerg: Evaluating Systematic Knowledge Coverage and Compositional Reasoning in Large Language Models</a></h3>
      <p class="summary">Many real-world questions appear deceptively simple yet implicitly demand two capabilities: (i) systematic coverage of a bounded knowledge…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="34b5d982450d" data-article-url="https://arxiv.org/abs/2605.01797" data-article-title="Neural Decision-Propagation for Answer Set Programming" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.01797" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.01797" target="_blank" rel="noopener">Neural Decision-Propagation for Answer Set Programming</a></h3>
      <p class="summary">Integration of Answer Set Programming (ASP) with neural networks has emerged as a promising tool in Neuro-symbolic AI. While existing appro…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="df1f3356933c" data-article-url="https://arxiv.org/abs/2605.02640" data-article-title="Trustworthy AI Suffers from Invariance Conflicts and Causality is The Solution" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.02640" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.02640" target="_blank" rel="noopener">Trustworthy AI Suffers from Invariance Conflicts and Causality is The Solution</a></h3>
      <p class="summary">As artificial intelligence (AI), including machine learning (ML) models and foundation models (FMs), are increasingly deployed in high-stak…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d97603bd54a7" data-article-url="https://arxiv.org/abs/2605.04193" data-article-title="ANDRE: An Attention-based Neuro-symbolic Differentiable Rule Extractor for Inductive Logic Programming" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.04193" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.04193" target="_blank" rel="noopener">ANDRE: An Attention-based Neuro-symbolic Differentiable Rule Extractor for Inductive Logic Programming</a></h3>
      <p class="summary">Inductive Logic Programming (ILP) aims to learn interpretable first-order rules from data, but existing symbolic and neuro-symbolic approac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="912c8013e176" data-article-url="https://arxiv.org/abs/2605.05427" data-article-title="The Refusal--Compliance Tradeoff: A Large-Scale Safety Behavior Audit of Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.05427" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.05427" target="_blank" rel="noopener">The Refusal--Compliance Tradeoff: A Large-Scale Safety Behavior Audit of Large Language Models</a></h3>
      <p class="summary">Refusal rates are a poor proxy for LLM safety, i.e., a model may over-refuse benign prompts while still complying with harmful ones. We aud…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6e97b18a8cb2" data-article-url="https://arxiv.org/abs/2605.09366" data-article-title="Towards a Virtual Neuroscientist: Autonomous Neuroimaging Analysis via Multi-Agent Collaboration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.09366" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.09366" target="_blank" rel="noopener">Towards a Virtual Neuroscientist: Autonomous Neuroimaging Analysis via Multi-Agent Collaboration</a></h3>
      <p class="summary">Transforming neuroimaging data into clinically actionable biomarkers is a knowledge-intensive and labor-intensive process. Standardized wor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bf20b8578867" data-article-url="https://arxiv.org/abs/2605.09692" data-article-title="Causal state binding predicts action control in language agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.09692" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.09692" target="_blank" rel="noopener">Causal state binding predicts action control in language agents</a></h3>
      <p class="summary">Autonomous language agents increasingly expose traces, memories, plans and constraints, but existing evaluations rarely test whether these…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6e00dde0aca" data-article-url="https://arxiv.org/abs/2605.09907" data-article-title="RADAR: Redundancy-Aware Diffusion for Multi-Agent Communication Structure Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.09907" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.09907" target="_blank" rel="noopener">RADAR: Redundancy-Aware Diffusion for Multi-Agent Communication Structure Generation</a></h3>
      <p class="summary">Compared with individual agents, large language model based multi-agent systems have shown great capabilities consistently across diverse t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c38d7922c07" data-article-url="https://arxiv.org/abs/2605.11359" data-article-title="CVEvolve: Autonomous Algorithm Discovery for Unstructured Scientific Data Processing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.11359" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.11359" target="_blank" rel="noopener">CVEvolve: Autonomous Algorithm Discovery for Unstructured Scientific Data Processing</a></h3>
      <p class="summary">Scientific data processing often requires task-specific algorithms or AI models, creating a barrier for domain scientists who need to analy…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0ec043f71857" data-article-url="https://arxiv.org/abs/2605.13527" data-article-title="MMSkills: Towards Multimodal Skills for General Visual Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13527" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13527" target="_blank" rel="noopener">MMSkills: Towards Multimodal Skills for General Visual Agents</a></h3>
      <p class="summary">Reusable skills have become a core substrate for improving agent capabilities, yet most existing skill packages encode reusable behavior pr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7230996a1f4a" data-article-url="https://arxiv.org/abs/2605.14355" data-article-title="Herculean: An Agentic Benchmark for Financial Intelligence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.14355" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.14355" target="_blank" rel="noopener">Herculean: An Agentic Benchmark for Financial Intelligence</a></h3>
      <p class="summary">As AI agents improve, the central question is no longer whether they can solve isolated well-defined financial tasks, but whether they can…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="172736921dac" data-article-url="https://arxiv.org/abs/2605.14398" data-article-title="Coding Agent Is Good As World Simulator" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.14398" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.14398" target="_blank" rel="noopener">Coding Agent Is Good As World Simulator</a></h3>
      <p class="summary">World models have emerged as a powerful paradigm for building interactive simulation environments, with recent video-based approaches demon…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f64c1651071" data-article-url="https://arxiv.org/abs/2605.17110" data-article-title="Capturing LLM Capabilities via Evidence-Calibrated Query Clustering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.17110" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.17110" target="_blank" rel="noopener">Capturing LLM Capabilities via Evidence-Calibrated Query Clustering</a></h3>
      <p class="summary">Query clustering organizes queries into groups that reflect shared latent capability demands, enabling capability-aware LLM evaluation. Exi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="697e437a2eff" data-article-url="https://arxiv.org/abs/2605.17554" data-article-title="Evaluating Deep Research Agents on Expert Consulting Work: A Benchmark with Verifiers, Rubrics, and Cognitive Traps" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.17554" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.17554" target="_blank" rel="noopener">Evaluating Deep Research Agents on Expert Consulting Work: A Benchmark with Verifiers, Rubrics, and Cognitive Traps</a></h3>
      <p class="summary">Frontier deep research agents (DRAs) plan a research task, synthesize across documents, and return a structured deliverable on demand. They…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="af7375606b69" data-article-url="https://arxiv.org/abs/2605.17909" data-article-title="Ethical Hyper-Velocity (EHV): A Hardware-Rooted Zero-Trust Runtime Enforcement Architecture for Agentic AI Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.17909" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.17909" target="_blank" rel="noopener">Ethical Hyper-Velocity (EHV): A Hardware-Rooted Zero-Trust Runtime Enforcement Architecture for Agentic AI Systems</a></h3>
      <p class="summary">As autonomous agentic systems scale across regulated critical infrastructures, the lack of mechanistic, hardware-rooted enforcement for hig…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dc2673f45d34" data-article-url="https://arxiv.org/abs/2605.18077" data-article-title="LLM-Guided Communication for Cooperative Multi-Agent Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.18077" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.18077" target="_blank" rel="noopener">LLM-Guided Communication for Cooperative Multi-Agent Reinforcement Learning</a></h3>
      <p class="summary">Communication is a key component in multi-agent reinforcement learning (MARL) for mitigating partial observability, yet prior approaches of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="722d2ca36422" data-article-url="https://arxiv.org/abs/2605.22759" data-article-title="Towards a General Intelligence and Interface for Wearable Health Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.22759" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.22759" target="_blank" rel="noopener">Towards a General Intelligence and Interface for Wearable Health Data</a></h3>
      <p class="summary">While ubiquitous wearable sensors capture a wealth of behavioral and physiological information, effectively transforming these signals into…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="65821e9ab7af" data-article-url="https://arxiv.org/abs/2605.24005" data-article-title="LC-ERD: 一貫性で規制された報酬分解による自己進化推論のための潜在ロジックのマイニング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24005" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24005" target="_blank" rel="noopener">LC-ERD: 一貫性で規制された報酬分解による自己進化推論のための潜在ロジックのマイニング</a></h3>
      <p class="summary">大規模言語モデル (LLM) 推論の進化は、高品質のプロセス データの不足によってボトルネックになっています。内生的報酬による自己調整は解決策を提供しますが、有効な監視のマイニングは 3 つの課題に直面しています。(1) ミメティック バイアスによるラベル ノイズ。報酬は論理的真実よりも統計的尤度を優先し、複合エラーを覆い隠す「正しさの錯覚」を生み出します。 (2) 粗粒度の監督。まばらな全体的な結果 (GRPO など) が詳細なガイダンスを提供できず、推論チェーンを一枚岩として扱います。 (3) 分布崩壊。トレーニング前のバイアスを増幅せずに信号が一般化できない場合。これらに対処するために、潜在構造マイニングとして自己整合を構成するフレームワークである LC-ERD (Logic-Consistent Endogenous Reward Decomposition) を導入します。モデルの潜在論理専門知識 (LLE) からのコンセンサスを集約して変分論理ポテンシャルを導き出し、推論多様体のノイズを除去し、IGM 原理に基づくマルチエージェント値分解プロトコルを導入して、個々のステップの効用を定量化します。実験では、LC-ERD が堅牢な自己進化パスを提供し、標準的な報酬では見逃されている価値の高い推論パターンを特定しながら、ロジックの一貫性と精度の間のトレードオフを明らかにすることが示されています。私たちのコードは https://github.com/Reinhardmannn/LC-ERD で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LC-ERD: Mining Latent Logic for Self-Evolving Reasoning via Consistency-Regulated Reward Decomposition</p>
        <p class="orig-summary">The evolution of Large Language Model (LLM) reasoning is bottlenecked by the scarcity of high-quality process data. While self-alignment via endogenous rewards offers a solution, mining valid supervision faces three challenges: (1) Label Noise via Mimetic Bias, where rewards prioritize statistical likelihood over logical truth, creating a &quot;correctness illusion&quot; that masks compounding errors; (2) Coarse-Grained Supervision, where sparse global outcomes (e.g., in GRPO) fail to provide granular guidance, treating reasoning chains as monolithic; and (3) Distributional Collapse, where signals fail to generalize without amplifying pre-training biases. To address these, we introduce LC-ERD (Logic-Consistent Endogenous Reward Decomposition), a framework framing self-alignment as latent structure mining. We derive a Variational Logic Potential by aggregating consensus from the model&#x27;s Latent Logic Expertise (LLE) to denoise the reasoning manifold, and introduce a Multi-Agent Value Decomposition protocol based on the IGM principle to quantify individual step utility. Experiments show LC-ERD delivers a robust self-evolution path, uncovering trade-offs between logic consistency and accuracy while identifying high-value reasoning patterns missed by standard rewards. Our code is available at https://github.com/LC-ERD-repo/LC-ERD.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bee25a8b9a32" data-article-url="https://arxiv.org/abs/2605.24202" data-article-title="マルチエージェント RL によって LLM ワークフローが改善されるのはいつですか?ワークフロー、スケール、ポリシー共有のトレードオフ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24202" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24202" target="_blank" rel="noopener">マルチエージェント RL によって LLM ワークフローが改善されるのはいつですか?ワークフロー、スケール、ポリシー共有のトレードオフ</a></h3>
      <p class="summary">マルチエージェント LLM ワークフローは、特殊なロールを通じて推論をルーティングし、最終タスクの精度を高めますが、これらのロールを強化学習で共同トレーニングすることは、十分に理解されていない点で不安定です。すべてのロールが 1 つのポリシーを更新する共有ポリシー トレーニングと、各ロールが独自のパラメーターを持つ分離ポリシー トレーニングを比較して、マルチエージェント LLM ワークフローのエンドツーエンド RL トレーニングが基本モデルよりも向上する時期を研究します。私たちの実験マトリックスは、Eval-Opt、Voting、Orch-Workers ワークフロー、数学およびコード タスク、および 3 つのモデル スケール (0.6B、1.7B、4B) に及びます。通常、マルチエージェント RL は基本モデルよりも向上しますが、その効果はポリシー共有だけではなく、ワークフロー、タスク、規模に総合的に依存することがわかりました。分離ポリシーはより高いピーク精度に達する傾向がありますが、最終精度の崖から落ちることが多くなりますが、共有ポリシーのトレーニングでは失敗は排除されません。それは失敗を質的に異なるパターンに再配分します。次に、ワークフロー トポロジとポリシー ルーティングによって引き起こされるロール レベルの勾配ダイナミクスを通じて、これらのパターンのうち最も強力なものを説明します。分離ポリシーでは、共有プロンプト上の並列同じロール エージェントがロールごとの勾配を増幅し、投票ワークフローとオーチワーカー ワークフローの端末の劣化を引き起こします。共有ポリシーの下では、非対称のステップごとの勾配質量により、共有ポリシーが支配的な役割によってキャプチャされ、タスクおよびワークフローごとに異なる失敗の兆候が生成されます。経験的マップとその基礎となるメカニズムを総合すると、ポリシー共有は均一な安定性を提供するのではなく、トレーニングのプレッシャーをさまざまなチャネルにルーティングし、ワークフローとタスクの条件のトレードオフを考慮した設計上の選択となることがわかります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs</p>
        <p class="orig-summary">Multi-agent LLM workflows route inference through specialized roles to lift end-task accuracy, but jointly training those roles with reinforcement learning is unstable in ways that are poorly understood. We study when end-to-end RL training of multi-agent LLM workflows improves over their base models, comparing Shared-Policy training, where all roles update one policy, with Isolated-Policy training, where each role has its own parameters. Our experimental matrix spans Eval-Opt, Voting, and Orch-Workers workflows, math and code tasks, and three model scales (0.6B, 1.7B, 4B). We find that multi-agent RL usually improves over base models, but gains depend jointly on workflow, task, and scale, not on policy sharing alone. Isolated-Policy tends to reach higher peak accuracy yet more often falls off a terminal accuracy cliff, while Shared-Policy training does not eliminate failure; it redistributes failure into qualitatively different patterns. We then explain the strongest of these patterns through role-level gradient dynamics induced by workflow topology and policy routing: under Isolated-Policy, parallel same-role agents on shared prompts amplify per-role gradients and drive terminal degradation in Voting and Orch-Workers workflows; under Shared-Policy, asymmetric per-step gradient mass causes the shared policy to be captured by the dominant role, producing different failure signatures by task and workflow. Together, the empirical map and its underlying mechanisms show that policy sharing routes training pressure through different channels rather than offering uniform stability, making it a design choice with workflow- and task-conditional tradeoffs.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="44f63b5d14a1" data-article-url="https://arxiv.org/abs/2605.24528" data-article-title="児童および言語モデルにおける仮説生成と帰納的推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24528" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24528" target="_blank" rel="noopener">児童および言語モデルにおける仮説生成と帰納的推論</a></h3>
      <p class="summary">現実世界の意思決定では、証拠、根底にある因果律、そして世界そのものの状態に対する不確実性の下で、メンタル モデルを構築する必要があります。このような状況下で人間の推論を支える計算原理はどれですか?また、LLM ベースのエージェントは、一致制約が与えられた場合に同様の動作を示しますか?私たちは、帰納的推論ボックス タスクを使用してこれらの質問に取り組みます。このタスクでは、参加者である人間の子供と LLM ベースのエージェントが、不確実な環境との逐次的な相互作用を通じて潜在的な原因を推論します。我々は、このタスクをベイズ粒子ベースの推論によるプログラム帰納法として形式化し、2 つの相補的な解釈を認めます: (1) 仮説に対する制約充足プロセスとして、および (2) 仮説が証拠に照らして評価される実行可能プログラムであるプログラム合成問題として。制約ベースの定式化を使用して、子供の行動は主観的な証拠の信頼性とオンライン仮説生成の組み合わせによって最もよく説明され、子供たちの証拠探索パターンと、課題の完了とルールの一般化の間の解離の両方を説明できることを示します。プログラム合成定式化を使用して、LLM ベースのエージェントをモデル生物、つまりタスク条件の系統的な操作を可能にする制御可能なシステムとして扱います。 LLM ベースのエージェントは、バックエンド全体で、信頼性の低い証拠を無視すること、部分的な情報を解決しようとすること、タスクの完了と因果関係の一般化を区別することなど、証拠の信頼性と観察可能性の変化に対する子供の反応を再現します。同時に、LLM ベースのエージェントは、子供に対する指示を過剰に観察し、過剰に遵守する傾向があります。これらの結果は、子供と LLM ベースのエージェントは環境構造に同様に適応する一方で、彼らの情報探索行動は異なる根本的なコストと誘導バイアスを示すことを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Hypothesis Generation and Inductive Inference in Children and Language Models</p>
        <p class="orig-summary">Real world decision-making requires constructing mental models under uncertainty over evidence, over the underlying causal rules, and over the state of the world itself. Which computational principles underpin human inference under such conditions, and do LLM-based agents exhibit similar behavior given matching constraints? We address these questions using an inductive inference Box Task in which participants, human children and LLM-based agents, infer a latent cause through sequential interaction with an uncertain environment. We formalize this task as program induction with Bayesian particle-based inference, admitting two complementary interpretations: (1) as a constraint satisfaction process over hypotheses, and (2) as a program synthesis problem in which hypotheses are executable programs evaluated against evidence. Using the constraint-based formulation, we show that children&#x27;s behavior is best explained by a combination of subjective evidence reliability and online hypothesis generation, accounting for both their evidence-seeking patterns and their dissociation between task completion and rule generalization. Using the program synthesis formulation, we treat LLM-based agents as model organisms: controllable systems that allow systematic manipulation of task conditions. Across backends, LLM-based agents replicate children&#x27;s responses to changes in evidence reliability and observability, including discounting unreliable evidence, seeking to resolve partial information, and dissociating between task completion and causal generalization. At the same time, LLM-based agents tend to over-observe and over-comply with instructions relative to children. These results suggest that while children and LLM-based agents adapt similarly to environmental structure, their information-seeking behavior exhibits distinct underlying costs and inductive biases.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dec18104be49" data-article-url="https://arxiv.org/abs/2605.24727" data-article-title="AIを説明する際の根本的な限界" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24727" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24727" target="_blank" rel="noopener">AIを説明する際の根本的な限界</a></h3>
      <p class="summary">LLM や拡散モデルなどの大規模モデルが実用的な成功を収めている一方で、公的機関は AI における説明可能性の重要性を強調しています。しかし、AI を説明するための既存の手法は、大規模な AI システムの動作を完全に忠実に説明できるようには設計されていません。 AI システムの動作の完全に忠実で解釈可能な説明は AI ガバナンスに役立つ可能性がありますが、そのような説明を提供することが理論的に可能かどうかは不明です。本稿では、AI を説明する際の基本的なクアドリレンマを数学的に証明し、AI とその説明は、1) 動作環境の複雑さ、2) AI の性能の良さ、3) AI の説明の解釈可能性、4) AI の説明の完全な忠実性の 4 つの条件を同時に満たすことはできないと述べています。このクアドリレンマは、環境を変更したり、優れた AI パフォーマンスと解釈可能な説明を犠牲にしたりできないほとんどのアプリケーションでは、説明の完全な忠実性を放棄し、代わりにアプリケーションにとって重要な部分のみを説明することを目指すべきであることを示唆しています。結果として、クアドリレンマは、AI の説明の忠実性は常に不完全であるという前提に基づいて AI ガバナンスを設計する必要があることを意味します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Fundamental Limitation in Explaining AI</p>
        <p class="orig-summary">While large-scale models such as LLMs and diffusion models have achieved practical success, public institutions have emphasized the importance of explainability in AI. Existing methods for explaining AI, however, are not designed to provide completely faithful explanations of the behavior of large-scale AI systems. Although a completely faithful and interpretable explanation of the behavior of an AI system might be useful for AI governance, it has not been known whether providing such an explanation is theoretically possible. In this paper, we mathematically prove a fundamental quadrilemma in explaining AI, stating that AI and its explanation cannot satisfy the following four conditions simultaneously: 1) the complexity of the operation environment, 2) the goodness of the AI&#x27;s performance, 3) the interpretability of the AI&#x27;s explanation, and 4) the complete faithfulness of the AI&#x27;s explanation. This quadrilemma suggests that, in most applications where we cannot change the environment or sacrifice good AI performance and an interpretable explanation, we should give up complete faithfulness of explanations and should instead aim to explain only the parts that are important for applications. As a consequence, the quadrilemma implies that AI governance should be designed on the premise that the faithfulness of AI explanations is always incomplete.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="93588c441130" data-article-url="https://arxiv.org/abs/2605.24828" data-article-title="暗黙のルールを探るためのテスト時の深い思考" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24828" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24828" target="_blank" rel="noopener">暗黙のルールを探るためのテスト時の深い思考</a></h3>
      <p class="summary">大規模言語モデル (LLM) の継続的な進歩により、インテリジェント エージェントの重要性がますます高まっています。ただし、これらのエージェントは、暗黙のルール (直接観察できず対話を通じて推測する必要がある隠れた制約) によって管理される環境では失敗することがよくあります。これにより、エージェントは反復的な試行錯誤のループに陥り、最終的にはタスクの失敗につながります。この課題に対処するために、私たちは、思考コンポーネントがインタラクション履歴を分析してこれらの暗黙のルールを推測し、アクターをガイドするフレームワークである Test-Time Exploration (TTExplore) を提案します。この状況で効果的に探索できるかどうかは、思考者の推論能力に大きく依存します。ただし、深い推論の軌跡の評価は本質的に不安定で困難であるため、効果的なトレーニングに大きな障害となります。この問題を克服するために、新しく安定した強化学習パイプラインを導入します。中心となるアイデアは、正確なタスク レベルのスコアを間接的な報酬として使用して、中間推論を評価する難しさを回避し、報酬の希薄性を軽減するために軌道ごとに 1 つの思考ノードのみを保持することです。このパイプラインを使用して、特殊な 7B モデルである Exp-Thinker をトレーニングします。 5 つのテキストベースの具体化されたタスクに関する実験では、Exp-Thinker を備えた TTExplore がベースライン エージェントのパフォーマンスを平均 $14$ ～ $19$ ポイント改善することが示され、暗黙のルールについて明示的に推論することの有効性が実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Test-Time Deep Thinking to Explore Implicit Rules</p>
        <p class="orig-summary">With the continuous advancement of Large Language Models (LLMs), intelligent agents are becoming increasingly vital. However, these agents often fail in environments governed by implicit rules--hidden constraints that cannot be observed directly and must be inferred through interaction. This causes agents to fall into repetitive trial-and-error loops, ultimately leading to task failure. To address this challenge, we propose Test-Time Exploration (TTExplore), a framework where a thinker component analyzes interaction history to infer these implicit rules and guide an actor. Effective exploration in this setting critically depends on the reasoning ability of the thinker. However, evaluating deep reasoning trajectories is inherently unstable and difficult, which poses a major obstacle to effective training. To overcome this issue, we introduce a novel and stable reinforcement learning pipeline. The core idea is to use accurate task-level scores as indirect rewards to bypass the difficulty of evaluating intermediate reasoning, and to retain only a single thinking node per trajectory to alleviate reward sparsity. Using this pipeline, we train a specialized 7B model, Exp-Thinker. Experiments on five text-based embodied tasks show that TTExplore equipped with Exp-Thinker improves baseline agent performance by an average of $14$-$19$ points, demonstrating the effectiveness of explicitly reasoning about implicit rules.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b0cad4a7ba2e" data-article-url="https://arxiv.org/abs/2605.25143" data-article-title="Beyond the Frontier: 効率的なテスト時間のスケーリングのための確率的バックトラッキング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25143" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25143" target="_blank" rel="noopener">Beyond the Frontier: 効率的なテスト時間のスケーリングのための確率的バックトラッキング</a></h3>
      <p class="summary">テスト時のスケーリングは、複数のソリューションの軌跡を探索するために追加のコンピューティングを費やすことで、言語モデルの推論を改善します。主な課題は、推論中に生成されるトークンの総数を最小限に抑えながら、精度を最大化することです。最近の PRM ガイド付きメソッドは中間プレフィックスをスコアリングしてこの検索を誘導しますが、ほとんどはフロンティアのみです。現在アクティブなプレフィックスのみを保持し、ノイズの多い PRM スコアを使用して残りを不可逆的にプルーニングまたはリサンプリングします。これにより、時期尚早なコミットメント、多様性の崩壊、および正しい継続を許可するプレフィックスの喪失が発生する可能性があります。履歴プレフィックスの永続的なプールに対する確率的バックトラッキングを導入し、テスト時の計算で現在のフロンティアを拡張するだけでなく、以前に生成された状態を再訪できるようにします。これを効率的に行うために、2 つの補完的なメカニズムを提案します。サブプール選択は、ランダムなサブプール内で上位 N 選択を適用することで貪欲な PRM ガイドによる検索を強化し、過去のプレフィックスにオーバースコアのフロンティア候補をバイパスする機会を与えます。 Power Backtrack Sequential Monte Carlo は、Powered PRM スコアと混合補正された重みを使用して、SMC スタイルのリサンプリングを永続プールに拡張します。数学的推論のベンチマークとモデル スケール全体で、私たちの手法は、強力な PRM ガイド ベースラインと比較して、トークン カウントあたりの精度が高く、トークン カウントの一部のみを使用して同レベルの精度を一貫して達成しています。これは、永続プールの確率的バックトラッキングが、テスト時間のスケーリングにおける精度とトークンのトレードオフを改善するためのシンプルで効果的な方法を提供することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond the Frontier: Stochastic Backtracking for Efficient Test-Time Scaling</p>
        <p class="orig-summary">Test-time scaling improves language model reasoning by spending additional compute to explore multiple solution trajectories. The key challenge is to maximize accuracy while minimizing the total number of generated tokens during reasoning. Recent PRM-guided methods score intermediate prefixes to steer this search, but most are frontier-only: they keep only the current active prefixes and irreversibly prune or resample away the rest using noisy PRM scores. This can cause premature commitment, diversity collapse, and the loss of prefixes that still admit correct continuations. We introduce stochastic backtracking over a persistent pool of historical prefixes, allowing test-time compute to revisit previously generated states instead of only expanding the current frontier. To make this efficient, we propose two complementary mechanisms. Subpool Selection strengthens greedy PRM-guided search by applying Top-N selection within random subpools, giving historical prefixes a chance to bypass over-scored frontier candidates. Power Backtrack Sequential Monte Carlo extends SMC-style resampling to the persistent pool using powered PRM scores and mixture-corrected weights. Across mathematical reasoning benchmarks and model scales, our methods consistently achieve higher accuracy per token count, and the same level of accuracy using only a fraction of the token count in comparison to strong PRM-guided baselines, demonstrating that persistent-pool stochastic backtracking provides a simple and effective way to improve the accuracy-token trade-off in test-time scaling.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a642f5dc47c7" data-article-url="https://arxiv.org/abs/2605.25246" data-article-title="FrontierOR: 大規模な最適化における効率的なアルゴリズム設計のための LLM の能力のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25246" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25246" target="_blank" rel="noopener">FrontierOR: 大規模な最適化における効率的なアルゴリズム設計のための LLM の能力のベンチマーク</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、最適化モデリングやソルバー コード生成にますます使用されていますが、実際のオペレーション リサーチや最適化の問題では、問題の構造を活用し、直接定式化して解決するベースラインを上回るパフォーマンスを発揮するスケーラブルなアルゴリズムを設計するという、より困難な機能が必要になることがよくあります。既存のベンチマークは、現実世界の規模や複雑さをはるかに下回る、小規模または単純化された例に限定されています。現実的な大規模な最適化問題に対する LLM ベースの効率的なアルゴリズム設計を体系的に評価する最初のベンチマークの 1 つとして、FrontierOR を紹介します。 FrontierOR には、一流のオペレーション リサーチ会場で発行された方法論的に多様な論文から派生した 180 のタスクが含まれており、それぞれのタスクには標準化されたインスタンスと、専門家によって検証された隠れた評価スイートが含まれています。私たちは、最先端のコスト効率の高いオープンソース モデルにわたる 7 つの LLM を、ワンショットおよびテスト時の進化設定の両方で評価します。その結果、フロンティア モデルが実行可能な定式化から効率的な最適化アルゴリズムに移行するのに依然として苦労していることが明らかになりました。最強のワンショット モデルがソリューションの品質と計算効率の両方で Gurobi を上回るパフォーマンスを示したのはわずか 31% であり、テスト時の進化を伴う強力なコーディング エージェントでさえ、選択されたハード タスクでは 50% しか達成できませんでした。 FrontierOR は、LLM ベースの最適化アルゴリズム設計のための実用的な評価プラットフォームを確立します。これにより、将来の LLM とエージェントが、正しい定式化を超えて、実行可能で高品質で効率的なアルゴリズムに移行できるかどうかを系統的にテストできるようになります。 FrontierOR ベンチマークは https://anonymous.4open.science/r/efficient-opt-bench-F03D で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">FrontierOR: Benchmarking LLMs&#x27; Capacity for Efficient Algorithm Design in Large-Scale Optimization</p>
        <p class="orig-summary">Large language models (LLMs) are increasingly used for optimization modeling and solver-code generation, yet practical operations research and optimization problems often require a harder capability: designing scalable algorithms that exploit problem structure and outperform direct formulation-and-solve baselines. Existing benchmarks are limited to small or simplified examples far below real-world scale and complexity. We introduce FrontierOR, among the first benchmarks to systematically evaluate LLM-based efficient algorithm design for realistic large-scale optimization problems. FrontierOR includes 180 tasks derived from methodologically diverse papers published in top-tier operations research venues, each with standardized instances and a hidden, expert-verified evaluation suite. We evaluate seven LLMs spanning frontier, cost-effective, and open-source models both in one-shot and test-time evolution settings. The results reveal that frontier models still struggle to move from executable formulations to efficient optimization algorithms: the strongest one-shot model outperforms Gurobi in only 31% of cases in both solution quality and computational efficiency, and even strong coding agents with test-time evolution achieve only 50% on selected hard tasks. FrontierOR establishes a practical evaluation platform for LLM-based optimization algorithm design, which enables future LLMs and agents to be systematically tested on whether they can move beyond correct formulation toward a feasible, high-quality, and efficient algorithm. Code and data are publicly released at https://github.com/Minw913/FrontierOR.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d7e97a251234" data-article-url="https://arxiv.org/abs/2605.26305" data-article-title="科学のための Agentic AI の実験" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26305" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26305" target="_blank" rel="noopener">科学のための Agentic AI の実験</a></h3>
      <p class="summary">この論文では、科学ワークフローにおける自律型エージェント AI を開発するための 2 つの新しいフレームワークについて詳しく説明します。どちらのシステムも、Google Colab を介したハイブリッド Local Body、Remote Brain アーキテクチャを活用し、Python ベースのローカル オーケストレーターを利用して大規模言語モデル (LLM) クラウド バックエンドを呼び出します。最初のエージェントである DeepTS/DeepCollector は、時系列データセットの大規模なキュレーション、抽出、重複排除を自動化します。 2 つ目の DeepScribe は、視覚的に緻密で数学的に複雑な物理学の講義を構造化された科学レポートに変換する自律型プレゼンテーション アナライザーです。粒度の高い属性抽出 (Cellular RAG)、リモート データ検査、分散同時実行制御などの実践的なシステム エンジニアリングを通じて、エージェント AI が現在の最先端システムのコンテキストと推論の制限をどのように克服して、科学的なワークフローを厳密にサポートできるかを実証します。最後に、深い知識グラフをサポートする DeepTS の一般化について概説し、この概念的なアプローチの高エネルギー物理学 (DeepQCD) への応用について説明します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Experiments in Agentic AI for Science</p>
        <p class="orig-summary">This paper details two novel frameworks for developing autonomous, agentic AI in scientific workflows. Both systems leverage a hybrid Local Body, Remote Brain architecture via Google Colab, utilizing Python-based local orchestrators to invoke large language model (LLM) cloud backends. The first agent, DeepTS/DeepCollector, automates the large-scale curation, extraction, and deduplication of time-series datasets. The second, DeepScribe, is an autonomous presentation analyzer that converts visually dense, mathematically complex physics lectures into structured scientific reports. Through practical systems engineering-such as granular attribute extraction (Cellular RAG), remote data inspection, and distributed concurrency controls-we demonstrate how agentic AI can overcome the context and reasoning limitations of current state-of-the-art systems to rigorously support scientific workflows. Finally, we outline a generalization of DeepTS to support deep knowledge graphs and discuss the application of this conceptual approach to high-energy physics (DeepQCD).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b62b71a18791" data-article-url="https://arxiv.org/abs/2605.27044" data-article-title="BatteryMFormer: バッテリー劣化軌跡予測のためのマルチレベル学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27044" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27044" target="_blank" rel="noopener">BatteryMFormer: バッテリー劣化軌跡予測のためのマルチレベル学習</a></h3>
      <p class="summary">早期のバッテリー劣化軌跡予測 (BDTF) は、初期の運用データから全寿命の健康状態の軌跡を予測するもので、バッテリーの最適化、製造、展開にとって重要です。バッテリーの劣化データには 2 つの重要な特徴があります。まず、劣化データは、経年変化条件内で共有される規則性やバッテリー全体で共有される軌跡パターンなど、多レベルの構造を示します。第 2 に、電圧と電流のプロファイルにおける劣化に関連した変動は、多くの場合、特定の充電状態 (SOC) 間隔に限定されます。既存のアプローチでは、これらの特性を明示的にモデル化できないことがよくあります。このギャップを埋めるために、初期の BDTF 用のマルチレベル トランスフォーマーである BatteryMFormer を提案します。 BatteryMFormer は、(1) 経年変化を考慮したクエリと経年変化を認識したアテンションを介して経年劣化状態事前分布を注入する経年劣化条件認識デコーダ、(2) 長期予測をガイドする軌跡プロトタイプを学習および取得するメタ劣化パターン メモリ、および (3) 電圧と電流の時系列から時間ダイナミクスと SOC の局所的な変動を共同でキャプチャするデュアルビュー エンコーダを統合します。 4 つのバッテリー ドメインに関する広範な実験により、BatteryMFormer が常に最先端のベースラインを上回るパフォーマンスを示し、信頼性の高い BDTF に向けた重要な一歩を示しています。私たちのコードは https://github.com/Ruifeng-Tan/BatteryMFormer で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BatteryMFormer: Multi-level Learning for Battery Degradation Trajectory Forecasting</p>
        <p class="orig-summary">Early battery degradation trajectory forecasting (BDTF), which predicts the full-life state-of-health trajectory from early operational data, is critical for battery optimization, manufacturing, and deployment. Battery degradation data exhibit two key characteristics. First, degradation data present a multi-level structure, including regularities shared within aging conditions and trajectory patterns shared across batteries. Second, degradation-related variations in voltage-current profiles are often localized to specific state of charge (SOC) intervals. Existing approaches often fail to explicitly model these characteristics. To bridge this gap, we propose BatteryMFormer, a multi-level Transformer for early BDTF. BatteryMFormer integrates (1) an aging-condition-aware decoder that injects aging-condition priors via aging-condition-informed queries and aging-condition-aware attention, (2) a meta degradation pattern memory that learns and retrieves trajectory prototypes to guide long-horizon forecasting, and (3) a dual-view encoder that jointly captures temporal dynamics and SOC-localized variations from voltage and current time series. Extensive experiments on four battery domains show that BatteryMFormer consistently outperforms state-of-the-art baselines, marking a significant step toward reliable BDTF. Our code is available at https://github.com/Ruifeng-Tan/BatteryMFormer.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cd41415f6ff0" data-article-url="https://arxiv.org/abs/2605.27569" data-article-title="RULER: 機械の非学習の表現レベルの検証" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27569" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27569" target="_blank" rel="noopener">RULER: 機械の非学習の表現レベルの検証</a></h3>
      <p class="summary">機械学習の解除は、最初から再トレーニングすることなく、デプロイされたモデルから特定のトレーニング レコードの影響を取り除くことを目的としています。現在のプロトコルは、メンバーシップ推論、保持精度、および忘却セット精度を通じて出力レベルでこれを検証しますが、モデルは中間表現で忘却されたレコードをエンコードしながら、3 つすべてを満たすことができます。表現レベルの検証メトリクスのセットである RULER を紹介します。オラクル比較メトリクス M2 は、忘却セット レコードが、それなしで再トレーニングされたモデルと同じ表現位置を占めるかどうかを測定します。オラクルフリー メトリック M4 は、再トレーニングせずに、未学習モデルの内部類似性構造のみから残差を検出します。 4 つの近似非学習法はすべて出力レベルの評価に合格しますが、線形混合効果モデルの下では、M2 は 12 条件中 10 条件で有意な残差を検出し (p&lt;0.05)、忘却率が増加するにつれて効果サイズも大きくなります。 5 番目の方法である Bad Teacher は、忘却メカニズムが異なるにもかかわらず、同じ残差を示します。 M4 は、表形式、画像、臨床テキスト、および顔のアイデンティティ設定にわたる学習前診断として機能します。テストされた方法で信号が完全に消去されない顔認識モデルにおけるアイデンティティ レベルの記憶を検出します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">RULER: Representation-Level Verification of Machine Unlearning</p>
        <p class="orig-summary">Machine unlearning aims to remove the influence of specific training records from a deployed model without retraining from scratch. Current protocols verify this at the output level through membership inference, retain accuracy, and forget-set accuracy, but a model can satisfy all three whilst still encoding forgotten records in its intermediate representations. We introduce RULER, a set of representation-level verification metrics. The oracle-comparative metric M2 measures whether forget-set records occupy the same representational position as in a model retrained without them. The oracle-free metric M4 detects residuals from the unlearned model&#x27;s internal similarity structure alone, without retraining. Four approximate unlearning methods all pass output-level evaluation, yet under a linear mixed-effects model M2 detects significant residuals in 10 of 12 conditions (p&lt;0.05), with effect sizes growing as the forget fraction increases. A fifth method, Bad Teacher, shows the same residuals despite a different forgetting mechanism. M4 acts as a pre-unlearning diagnostic across tabular, image, clinical text, and face-identity settings: it detects identity-level memorisation in face recognition models where no tested method fully erases the signal.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bed9d419f78e" data-article-url="https://arxiv.org/abs/2605.27575" data-article-title="Agyn: スケーラブルなオンデマンド実行、コードとしてのエージェント定義、およびゼロトラスト アクセスを備えた AI エージェント用のオープンソース プラットフォーム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27575" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27575" target="_blank" rel="noopener">Agyn: スケーラブルなオンデマンド実行、コードとしてのエージェント定義、およびゼロトラスト アクセスを備えた AI エージェント用のオープンソース プラットフォーム</a></h3>
      <p class="summary">組織が AI エージェントの実稼働環境への移行に向けて移行すると、AI エージェントは非決定的なワークフローを実行し、ステートフル セッションを維持し、多くの場合、内部サービスへの特権アクセスで動作します。エンジニアリング上の課題は、個々のエージェントの構築から、適切な分離、ガバナンス、セキュリティを備えた大規模な運用へと移行します。このペーパーでは、エージェントのワークロードに合わせて調整された 3 つの主要な原則に基づいて設計されたオープンソース プラットフォームである Agyn について紹介します。エージェントとハーネス定義用の Terraform プロバイダー。そして、ゼロトラストと最小特権の原則に基づいたセキュリティ モデルです。 Agyn は、エージェント、モデル、クラウドに依存しません。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Agyn: An Open-Source Platform for AI Agents with Scalable On-Demand Execution, Agent Definition as a Code, and Zero-Trust Access</p>
        <p class="orig-summary">As organizations move toward production deployments of AI agents, which execute non-deterministic workflows, maintain stateful sessions, and often operate with privileged access to internal services, the engineering challenge shifts from building individual agents to operating them at scale with proper isolation, governance, and security. In this paper we present Agyn, an open-source platform designed around three key principles tailored for agent workloads: a signal-driven, stateful serverless runtime on Kubernetes; a Terraform provider for agent and harness definition; and a security model grounded in zero-trust and least-privilege principles. Agyn is agent-agnostic, model-agnostic, and cloud-agnostic.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="106a6b8a0976" data-article-url="https://arxiv.org/abs/2605.27701" data-article-title="クロスエントロピー ゲームとフロスト トレーニング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27701" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27701" target="_blank" rel="noopener">クロスエントロピー ゲームとフロスト トレーニング</a></h3>
      <p class="summary">クロスエントロピー ゲームと呼ばれる、裁判官としての LLM タスクの大規模なファミリーに対するモンテカルロ ベースのポリシー最適化を改善するための手法である Frost Training を紹介します。重要なアイデアは、埋め込み空間における報酬関数の勾配を利用することです。この信号は、貪欲座標勾配 (GCG) ジェイルブレイク手法で使用されます。私たちは、これがモデルのトレーニングを強化するためにも使用できることを初めて実証しました。最尤充填のための GRPO トレーニングを使用して方法を検証します。フロスト トレーニングにより、高スコアの出力を生成するモデルの能力が向上し、best-of-k 設定でより高い最大スコアに達し、高速化されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Cross-Entropy Games and Frost Training</p>
        <p class="orig-summary">We present Frost Training, a method for improving Monte Carlo-based policy optimization for a large family of LLM-as-a-judge tasks called Cross-Entropy Games. The key idea is to exploit the gradient of the reward function in embedding space. This signal is used in the Greedy Coordinate Gradient (GCG) jailbreaking technique; we demonstrate for the first time that it can also be used to boost model training. We validate our method using GRPO training for maximum-likelihood infilling. Frost Training improves the model&#x27;s ability to generate high-scoring outputs, reaching higher maximum scores in a best-of-k setting, and does so at an increased speed.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9536250e63ab" data-article-url="https://arxiv.org/abs/2605.27752" data-article-title="尋ねるだけでは不十分: LLM 信頼性キャリブレーションにおけるプロトコル感度" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27752" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27752" target="_blank" rel="noopener">尋ねるだけでは不十分: LLM 信頼性キャリブレーションにおけるプロトコル感度</a></h3>
      <p class="summary">LLM の信頼度調整は、多くの場合、トークン確率スコアと言語化された信頼度という 2 つのシグナルを比較することによって評価されます。これらの信号はモデルの不確実性の直接の読み取り値として扱われることがありますが、その比較はめったに明示されない測定の選択に依存します。主要な分析では、言語化された信頼性の引き出しを固定します。つまり、単一のプロンプト テンプレート、確率スケール、および出力形式です。次に、言語化対トークンの比較を定義する測定軸を変更します。つまり、どの応答文字列がトークン確率スコアを受け取るか、そのスコアが応答トークンからどのように読み取られるか、およびどの条件付けコンテキストの下で測定されるかです。この設計を、同じファミリーの堅牢性チェックとしてより大きな Qwen2.5 バリアントを使用した、3 つのオープン 7 ～ 8B ベース/Instruct モデル ファミリにわたる 4 つの QA ベンチマークで評価しました。結果として得られる比較は、これらの選択に影響されます。コンディショニング コンテキストは設定全体で ECE ギャップの符号または大きさを変更し、トークンの読み出しでは小さいながらも符号が移動する変化が生成され、ECE 推定量を変更してもほとんど効果がありません。デフォルトの生成された回答、ベアコンテキストプロトコルの下では、指示設定は、言語化された信頼性に対する大きな調整ゲインを示すのではなく、同等に近いものになります。別の提供された回答分析では、表面的にもっともらしい誤った回答は、提供されたゴールドアンサーとほぼ同じ信頼度を得ており、言語化された信頼度は、正しさだけではなく、回答のもっともらしさと出所も反映していることを示唆しています。私たちは、両方の信頼シグナルはプロトコル依存の行動測定として扱われるべきであり、引き出しの来歴、採点された回答、トークン確率の読み出し、およびコンディショニングコンテキストをカバーするレポートチェックリストを提供する必要があると主張します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Asking Is Not Enough: Protocol Sensitivity in LLM Confidence Calibration</p>
        <p class="orig-summary">LLM confidence calibration is often evaluated by comparing two signals: token-probability scores and verbalized confidence. These signals are sometimes treated as direct readouts of model uncertainty, but their comparison depends on measurement choices that are rarely made explicit. In the main analysis, we hold the verbalized-confidence elicitation fixed: a single prompt template, probability scale, and output format. We then vary the measurement axes that define the verbalized-vs-token comparison: which answer string receives the token-probability score, how that score is read from the answer tokens, and under which conditioning context it is measured. We evaluate this design on four QA benchmarks across three open 7--8B base/Instruct model families, with larger Qwen2.5 variants as same-family robustness checks. The resulting comparison is sensitive to these choices: conditioning context changes the sign or magnitude of the ECE gap across settings, token readout produces smaller but still sign-moving changes, and changing the ECE estimator has little effect. Under the default generated-answer, bare-context protocol, Instruct settings are close to parity rather than showing a large calibration gain for verbalized confidence. In a separate supplied-answer analysis, surface-plausible wrong answers receive nearly the same confidence as supplied gold answers, suggesting that verbalized confidence also reflects answer plausibility and provenance rather than correctness alone. We argue that both confidence signals should be treated as protocol-dependent behavioral measurements, and provide a reporting checklist covering elicitation provenance, scored answer, token-probability readout, and conditioning context.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4a459cd0f6ea" data-article-url="https://arxiv.org/abs/2605.27864" data-article-title="FundaPod: AI 支援のファンダメンタル投資調査のためのナレッジ グラフ メモリを備えたマルチペルソナ エージェント ポッド プラットフォーム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27864" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27864" target="_blank" rel="noopener">FundaPod: AI 支援のファンダメンタル投資調査のためのナレッジ グラフ メモリを備えたマルチペルソナ エージェント ポッド プラットフォーム</a></h3>
      <p class="summary">大規模言語モデル (LLM) は金融分野での適用が増えていますが、既存の研究のほとんどは取引シグナルや予測を中心とした財務 NLP タスクに重点を置いています。対照的に、制度的基礎研究では、人間のアナリストまたは AI エージェントが証拠を収集し、ビジネス推進要因を特定し、競合する視点を比較し、投資メモを作成する必要があります。その広範な目標は、単に結果を予測することではなく、投資知識の累積的な発展に貢献しながら、透明性、再利用可能、検証可能な投資計画を作成することです。 AI 支援のファンダメンタルズ投資調査のためのマルチペルソナ エージェント プラットフォームである FundaPod を紹介します。私たちは、基礎研究は人間中心の意思決定支援タスクであり、取引シグナルの生成とは質的に異なるため、独立性を維持するアーキテクチャの方が適していると主張します。 FundaPod では、バリュー投資家やマクロ戦略家など、さまざまなペルソナを持つ AI エージェントが、共有の出所契約に基づいて独立して調査を実施します。その後、彼らの意見の相違は、知識グラフ記憶システムを通じて人間のポートフォリオ マネージャー (PM) による裁定のために事後的に表面化されます。この論文は、設計科学の実践と認知的分離と人間と機械の協調の理論に基づいた、基礎研究をサポートする人間と AI のハイブリッド システムの 5 つの設計原則を提供します。また、4 つのアーキテクチャ メカニズムについても説明します。1 つは一般投資家の資料を展開可能なエージェントに変えるペルソナ蒸留パイプラインです。プランナーが型指定されたタスク グラフを導出できるようにする宣言型スキル レジストリ。メモの主張を検証可能な情報源に結び付ける根拠のある証拠モデル。そしてティッカー、メモ、アナリスト、テーマを結び付けるナレッジグラフ「第二の脳」。完全なケーススタディとペルソナベースのメモの比較を通じてアーキテクチャを実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">FundaPod: A Multi-Persona Agent Pod Platform with Knowledge Graph Memory for AI-Assisted Fundamental Investment Research</p>
        <p class="orig-summary">Large language models (LLMs) are increasingly applied in finance, yet most existing work emphasizes trading signals or financial NLP tasks centered on prediction. Institutional fundamental research, by contrast, requires human analysts or AI agents to gather evidence, identify business drivers, compare competing viewpoints, and generate investment memos. Its broader goal is not merely to predict outcomes, but to produce investment plans that are transparent, reusable, and verifiable, while contributing to the cumulative development of investment knowledge. We present FundaPod, a multi-persona agent platform for AI-assisted fundamental investment research. We argue that fundamental research is a human-centric decision-support task that is qualitatively distinct from trading-signal generation, and is therefore better served by an independence-preserving architecture. In FundaPod, AI agents with different personas, such as value investors or macro strategists, conduct research independently under a shared provenance contract. Their disagreements are then surfaced post hoc for adjudication by the human portfolio manager (PM) through a knowledge-graph memory system. This paper contributes five design principles for human-AI hybrid systems supporting fundamental research, grounded in design-science practice and theories of cognitive isolation and human-machine coordination. It also describes four architectural mechanisms: a persona distillation pipeline that turns public investor materials into deployable agents; a declarative skill registry that lets the planner derive typed task graphs; a grounded evidence model that links memo claims to verifiable sources; and a knowledge-graph &quot;second brain&quot; that connects tickers, memos, analysts, and themes. We demonstrate the architecture through a complete case study and a persona-based memo comparison.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6cf27e874ad4" data-article-url="https://arxiv.org/abs/2605.28508" data-article-title="Benchmarking AI for low-resource contexts: Thinking beyond leaderboards" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28508" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28508" target="_blank" rel="noopener">Benchmarking AI for low-resource contexts: Thinking beyond leaderboards</a></h3>
      <p class="summary">Existing AI evaluation practices often fail to capture how systems actually perform in low-resource environments, where operational constra…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1c174e47c432" data-article-url="https://arxiv.org/abs/2605.30000" data-article-title="Cookie-Bench: Web 生成のための継続的なオンスクリーンキーインタラクション評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30000" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30000" target="_blank" rel="noopener">Cookie-Bench: Web 生成のための継続的なオンスクリーンキーインタラクション評価</a></h3>
      <p class="summary">フロントエンドの Web コードは、すべてのフロンティア LLM リリースの中核的な製品面となっていますが、アリーナのような人間が判断するリーダーボードは拡張できないため、これらのインタラクティブ アプリケーションを開発スピードで評価することは依然としてコストがかかります。既存の自動プロキシは通常、リファレンス実装、テスト スイート、または厳密なチェックリストに依存しており、人間のレビュー担当者がライブ セッションで実行する合理的な合成を見逃す傾向があります。私たちは、同時に参照フリーで、自律的に駆動され、総合的に推論される新しい評価体制を明確にし、2 つの成果物を通じてそれをインスタンス化します。 \textbf{\dataname} は、静的プレゼンテーション タスクと対話型アプリケーション タスクの両方にまたがる 11 ドメイン、54 リーフ、1,000 クエリの WebDev ベンチマークであり、3 つの難易度層と 3 つのターゲット言語グループにわたってバランスが取れており、回覧されたプロンプトから思い出せないようにブリーフが書き直されています。 \textbf{\framename} は、Flavell のメタ認知モニタリングに基づいており、証拠の蓄積と判断を 3 つの段階にわたって分離します。静的な知覚は受動的な観察から第一印象を形成します。エージェント駆動のインタラクションは、連続画面のビデオ、音声、およびステップごとのスクリーンショットをキャプチャしながら、アプリケーションを自律的に探索します。動的スコアリングは、証拠チェーンが完了した後にのみ、構造化された失敗の帰属を伴う全体的な機能性と美的判断を発行します。 \dataname では、\framename は専門家による評価と厳密に一致しており、インタラクティブな Web 生成に関して 13 のフロンティア LLM 全体でかなりのヘッドルームを表面化しています。 \noindenthttps://anonymous.4open.science/r/Cookie-3CE/</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Cookie-Bench: Continuous On-screen Key Interaction Evaluation for Web Generation</p>
        <p class="orig-summary">Front-end web code has become a core product surface for every frontier LLM release, yet evaluating these interactive applications at development speed remains costly because human-judged leaderboards like Arena do not scale. Existing automated proxies typically lean on reference implementations, test suites, or rigid checklists, and tend to miss the reasoned synthesis a human reviewer performs over a live session. We articulate a new evaluation regime that is simultaneously reference-free, autonomously driven, and holistically reasoned, and instantiate it through two artifacts. \textbf{\dataname} is an 11-domain, 54-leaf, 1,000-query WebDev benchmark spanning both static-presentation and interactive-application tasks, balanced across three difficulty tiers and three target-language groups, with briefs rewritten to resist recall from circulated prompts. \textbf{\framename}, grounded in Flavell&#x27;s metacognitive monitoring, separates evidence accumulation from judgment across three stages: Static Perception forms a first impression from passive observation; Agent-Driven Interaction explores the application autonomously while capturing continuous screen video, audio, and per-step screenshots; Dynamic Scoring issues holistic functionality and aesthetics verdicts with structured failure attribution only after the evidence chain is complete. On \dataname, \framename aligns closely with expert human ratings while surfacing substantial headroom across 13 frontier LLMs on interactive web generation. \noindenthttps://anonymous.4open.science/r/Cookie-3CE/</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="39e3e406574f" data-article-url="https://arxiv.org/abs/2211.14411" data-article-title="c-TPE: Tree-structured Parzen Estimator with Inequality Constraints for Expensive Hyperparameter Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2211.14411" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2211.14411" target="_blank" rel="noopener">c-TPE: Tree-structured Parzen Estimator with Inequality Constraints for Expensive Hyperparameter Optimization</a></h3>
      <p class="summary">Hyperparameter optimization (HPO) is crucial for strong performance of deep learning algorithms and real-world applications often impose so…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="98266b69d81a" data-article-url="https://arxiv.org/abs/2301.06308" data-article-title="Stability Analysis of Sharpness-Aware Minimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2301.06308" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2301.06308" target="_blank" rel="noopener">Stability Analysis of Sharpness-Aware Minimization</a></h3>
      <p class="summary">Sharpness-aware minimization (SAM) is a training method that seeks to find flat minima in deep learning, resulting in state-of-the-art perf…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb778e0386b2" data-article-url="https://arxiv.org/abs/2304.11127" data-article-title="Tree-Structured Parzen Estimator: Understanding Its Algorithm Components and Their Roles for Better Empirical Performance" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2304.11127" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2304.11127" target="_blank" rel="noopener">Tree-Structured Parzen Estimator: Understanding Its Algorithm Components and Their Roles for Better Empirical Performance</a></h3>
      <p class="summary">Recent scientific advances require complex experiment design, necessitating the meticulous tuning of many experiment parameters. Tree-struc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="94e312608e08" data-article-url="https://arxiv.org/abs/2307.05213" data-article-title="Score Function Gradient Estimation to Widen the Applicability of Decision-Focused Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2307.05213" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2307.05213" target="_blank" rel="noopener">Score Function Gradient Estimation to Widen the Applicability of Decision-Focused Learning</a></h3>
      <p class="summary">Many real-world optimization problems contain parameters that are unknown before deployment time, either due to stochasticity or to lack of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c7b3ace7ac9" data-article-url="https://arxiv.org/abs/2307.06647" data-article-title="DeepIPCv2: LiDAR-powered Robust Environmental Perception and Navigational Control for Autonomous Vehicle" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2307.06647" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2307.06647" target="_blank" rel="noopener">DeepIPCv2: LiDAR-powered Robust Environmental Perception and Navigational Control for Autonomous Vehicle</a></h3>
      <p class="summary">We propose DeepIPCv2, an end-to-end autonomous driving framework that integrates LiDAR-based environmental perception with command-specific…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fd5724f2fc2a" data-article-url="https://arxiv.org/abs/2310.15676" data-article-title="Recent Advances in Multi-modal 3D Intelligence: A Comprehensive Survey and Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2310.15676" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2310.15676" target="_blank" rel="noopener">Recent Advances in Multi-modal 3D Intelligence: A Comprehensive Survey and Evaluation</a></h3>
      <p class="summary">Multi-modal 3D Intelligence has gained considerable attention due to its wide applications in autonomous driving and world simulation, etc.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="514f6e6ee2f5" data-article-url="https://arxiv.org/abs/2403.07008" data-article-title="AutoEval Done Right: Using Synthetic Data for Model Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2403.07008" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2403.07008" target="_blank" rel="noopener">AutoEval Done Right: Using Synthetic Data for Model Evaluation</a></h3>
      <p class="summary">The evaluation of machine learning models using human-labeled validation data can be expensive and time-consuming. AI-labeled synthetic dat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="88131356a59a" data-article-url="https://arxiv.org/abs/2404.01356" data-article-title="Perturbation Effects on Accuracy and Fairness among Similar Individuals" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2404.01356" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2404.01356" target="_blank" rel="noopener">Perturbation Effects on Accuracy and Fairness among Similar Individuals</a></h3>
      <p class="summary">Deep neural networks are vulnerable to adversarial perturbations that can simultaneously degrade prediction robustness and individual fairn…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="109e67471a35" data-article-url="https://arxiv.org/abs/2406.09953" data-article-title="DAG-Plan: Generating Directed Acyclic Dependency Graphs for Dual-Arm Cooperative Planning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2406.09953" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2406.09953" target="_blank" rel="noopener">DAG-Plan: Generating Directed Acyclic Dependency Graphs for Dual-Arm Cooperative Planning</a></h3>
      <p class="summary">Dual-arm robots promise greater efficiency but require planning for complex tasks with nonlinear sub-task dependencies. Current methods usi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d4c635cf2114" data-article-url="https://arxiv.org/abs/2411.05359" data-article-title="Agricultural Landscape Understanding At Country-Scale" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2411.05359" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2411.05359" target="_blank" rel="noopener">Agricultural Landscape Understanding At Country-Scale</a></h3>
      <p class="summary">Comprehensive agricultural landscape understanding is critical for addressing global challenges in food security, climate change, and resou…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e14a67e458c7" data-article-url="https://arxiv.org/abs/2411.11436" data-article-title="Implicit Regularization for Multi-label Feature Selection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2411.11436" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2411.11436" target="_blank" rel="noopener">Implicit Regularization for Multi-label Feature Selection</a></h3>
      <p class="summary">In this paper, we address the problem of feature selection in the context of multi-label learning, by using a new estimator based on implic…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="267776e90213" data-article-url="https://arxiv.org/abs/2411.15240" data-article-title="A Foundation Model for Wearable Movement Data in Mental Health Research" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2411.15240" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2411.15240" target="_blank" rel="noopener">A Foundation Model for Wearable Movement Data in Mental Health Research</a></h3>
      <p class="summary">Wearable movement data is collected by nearly all commercially available smartwatches and is a valuable resource for mental health research…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="26b43b9c644d" data-article-url="https://arxiv.org/abs/2411.17790" data-article-title="Self-supervised Monocular Depth and Pose Estimation for Endoscopy with Latent Priors" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2411.17790" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2411.17790" target="_blank" rel="noopener">Self-supervised Monocular Depth and Pose Estimation for Endoscopy with Latent Priors</a></h3>
      <p class="summary">Accurate 3D mapping in endoscopy enables quantitative, holistic lesion characterization within the gastrointestinal (GI) tract, requiring r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="32ab70603dbb" data-article-url="https://arxiv.org/abs/2412.19419" data-article-title="Introduction to Graph Neural Networks for Machine Learning Engineers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2412.19419" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2412.19419" target="_blank" rel="noopener">Introduction to Graph Neural Networks for Machine Learning Engineers</a></h3>
      <p class="summary">Graph neural networks are deep neural networks designed for graphs with attributes attached to nodes or edges. The number of research paper…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="84ec9b687973" data-article-url="https://arxiv.org/abs/2502.04646" data-article-title="Efficient Weighted Sampling via Score-based Generative Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.04646" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.04646" target="_blank" rel="noopener">Efficient Weighted Sampling via Score-based Generative Models</a></h3>
      <p class="summary">Weighted sampling -- sampling from a probability density function (PDF) proportional to the product of a base PDF and a weight function --…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="01562d6babd6" data-article-url="https://arxiv.org/abs/2502.08884" data-article-title="ShapeLib: Designing a library of programmatic 3D shape abstractions with Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.08884" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.08884" target="_blank" rel="noopener">ShapeLib: Designing a library of programmatic 3D shape abstractions with Large Language Models</a></h3>
      <p class="summary">We present ShapeLib, the first method that uses the priors of Large Language Models (LLMs) to design libraries of programmatic 3D shape abs…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="68eb0507bcf9" data-article-url="https://arxiv.org/abs/2502.15411" data-article-title="HiFi-KPI: A Dataset for Hierarchical KPI Extraction from Earnings Filings" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.15411" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.15411" target="_blank" rel="noopener">HiFi-KPI: A Dataset for Hierarchical KPI Extraction from Earnings Filings</a></h3>
      <p class="summary">Accurate tagging of earnings reports can yield significant short-term returns for stakeholders. The machine-readable inline eXtensible Busi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="70387f1958c1" data-article-url="https://arxiv.org/abs/2502.16174" data-article-title="Efficient LLM Moderation with Multi-Layer Latent Prototypes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.16174" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.16174" target="_blank" rel="noopener">Efficient LLM Moderation with Multi-Layer Latent Prototypes</a></h3>
      <p class="summary">Although modern LLMs are aligned with human values during post-training, robust moderation remains essential to prevent harmful outputs at…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8593f09b7f5d" data-article-url="https://arxiv.org/abs/2503.05500" data-article-title="EuroBERT: Scaling Multilingual Encoders for European Languages" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.05500" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.05500" target="_blank" rel="noopener">EuroBERT: Scaling Multilingual Encoders for European Languages</a></h3>
      <p class="summary">General-purpose multilingual vector representations, used in retrieval, regression and classification, are traditionally obtained from bidi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7bcd1d1de2d7" data-article-url="https://arxiv.org/abs/2503.05641" data-article-title="Skill-Based Mixture-of-Experts: Adaptive Routing for Heterogeneous Reasoning via Inferred Skills" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.05641" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.05641" target="_blank" rel="noopener">Skill-Based Mixture-of-Experts: Adaptive Routing for Heterogeneous Reasoning via Inferred Skills</a></h3>
      <p class="summary">Combining existing pre-trained LLMs is a promising approach for diverse reasoning tasks. However, task-level expert selection is often too…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="143902095ed4" data-article-url="https://arxiv.org/abs/2503.06473" data-article-title="Enhancing Layer Attention Efficiency through Pruning Redundant Retrievals" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.06473" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.06473" target="_blank" rel="noopener">Enhancing Layer Attention Efficiency through Pruning Redundant Retrievals</a></h3>
      <p class="summary">Growing evidence suggests that layer attention mechanisms, which enhance interaction among layers in deep neural networks, have significant…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0debe401a82d" data-article-url="https://arxiv.org/abs/2503.07154" data-article-title="Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.07154" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.07154" target="_blank" rel="noopener">Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms</a></h3>
      <p class="summary">Generative pre-training is often framed through a false dichotomy between autoregressive models for discrete signals and diffusion models f…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="527bd07f77d5" data-article-url="https://arxiv.org/abs/2503.15639" data-article-title="A Lightweight Context-Driven Training-Free Network for Scene Text Segmentation and Recognition" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.15639" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.15639" target="_blank" rel="noopener">A Lightweight Context-Driven Training-Free Network for Scene Text Segmentation and Recognition</a></h3>
      <p class="summary">Modern scene text recognition systems often depend on large end-to-end architectures that require extensive training and are prohibitively…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a2ebcac805de" data-article-url="https://arxiv.org/abs/2504.04718" data-article-title="T1: Tool-integrated Verification for Test-time Compute Scaling in Small Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2504.04718" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2504.04718" target="_blank" rel="noopener">T1: Tool-integrated Verification for Test-time Compute Scaling in Small Language Models</a></h3>
      <p class="summary">Recent studies have demonstrated that test-time compute scaling effectively improves the performance of small language models (sLMs). Howev…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="55b54bb8c7b5" data-article-url="https://arxiv.org/abs/2504.16129" data-article-title="MARFT: Multi-Agent Reinforcement Fine-Tuning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2504.16129" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2504.16129" target="_blank" rel="noopener">MARFT: Multi-Agent Reinforcement Fine-Tuning</a></h3>
      <p class="summary">Large Language Model (LLM)-based Multi-Agent Systems (LaMAS) have demonstrated strong capabilities on complex agentic tasks requiring multi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="71751e64fc0d" data-article-url="https://arxiv.org/abs/2504.17471" data-article-title="GRANITE : a Byzantine-Resilient Dynamic Gossip Learning Framework" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2504.17471" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2504.17471" target="_blank" rel="noopener">GRANITE : a Byzantine-Resilient Dynamic Gossip Learning Framework</a></h3>
      <p class="summary">Gossip Learning (GL) is a decentralized learning paradigm where users iteratively exchange and aggregate models with a small set of neighbo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5cbdb90f68dd" data-article-url="https://arxiv.org/abs/2504.21072" data-article-title="Erased but Not Forgotten: How Backdoors Compromise Concept Erasure" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2504.21072" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2504.21072" target="_blank" rel="noopener">Erased but Not Forgotten: How Backdoors Compromise Concept Erasure</a></h3>
      <p class="summary">The expansion of text-to-image diffusion models has raised concerns about harmful outputs, from fabricated depictions of public figures to…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="41ff4c2eac3c" data-article-url="https://arxiv.org/abs/2505.08438" data-article-title="A Survey of 3D Reconstruction with Event Cameras" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.08438" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.08438" target="_blank" rel="noopener">A Survey of 3D Reconstruction with Event Cameras</a></h3>
      <p class="summary">Event cameras are rapidly emerging as powerful vision sensors for 3D reconstruction, uniquely capable of asynchronously capturing per-pixel…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dffdd22a74a3" data-article-url="https://arxiv.org/abs/2505.16915" data-article-title="DetailMaster: Can Your Text-to-Image Model Handle Long Prompts?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.16915" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.16915" target="_blank" rel="noopener">DetailMaster: Can Your Text-to-Image Model Handle Long Prompts?</a></h3>
      <p class="summary">While recent Text-to-Image (T2I) models show impressive capabilities in synthesizing images from brief descriptions, they struggle with the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="780b0380f76d" data-article-url="https://arxiv.org/abs/2505.17648" data-article-title="Simulating Macroeconomic Expectations in Survey Experiments with LLM-based Economic Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.17648" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.17648" target="_blank" rel="noopener">Simulating Macroeconomic Expectations in Survey Experiments with LLM-based Economic Agents</a></h3>
      <p class="summary">We introduce a framework for simulating macroeconomic expectations in survey experiments using LLM-based economic agents (LLM Agents). We c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d27dc95c9e04" data-article-url="https://arxiv.org/abs/2505.20853" data-article-title="Cooperation of Experts: Fusing Heterogeneous Information with Large Margin" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.20853" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.20853" target="_blank" rel="noopener">Cooperation of Experts: Fusing Heterogeneous Information with Large Margin</a></h3>
      <p class="summary">Fusing heterogeneous information remains a persistent challenge in modern data analysis. While significant progress has been made, existing…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9e545cf31d29" data-article-url="https://arxiv.org/abs/2505.24069" data-article-title="Can LLMs Reason Structurally? Benchmarking via the Lens of Data Structures" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.24069" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.24069" target="_blank" rel="noopener">Can LLMs Reason Structurally? Benchmarking via the Lens of Data Structures</a></h3>
      <p class="summary">Large language models (LLMs) are deployed on increasingly complex tasks that require multi-step decision-making. Understanding their algori…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="91d4374c5fbe" data-article-url="https://arxiv.org/abs/2506.13702" data-article-title="Value-Free Policy Optimization via Reward Partitioning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.13702" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.13702" target="_blank" rel="noopener">Value-Free Policy Optimization via Reward Partitioning</a></h3>
      <p class="summary">Single-trajectory preference optimization methods learn from datasets of ((prompt, response, reward)) tuples, offering a practical alternat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="66bfe24bdc95" data-article-url="https://arxiv.org/abs/2506.16114" data-article-title="GFlowGR: Fine-tuning Generative Recommendation Frameworks with Generative Flow Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.16114" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.16114" target="_blank" rel="noopener">GFlowGR: Fine-tuning Generative Recommendation Frameworks with Generative Flow Networks</a></h3>
      <p class="summary">Generative recommendations (GR), which usually include item tokenizers and generative Large Language Models (LLMs), have demonstrated remar…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="891c2dac745d" data-article-url="https://arxiv.org/abs/2506.21278" data-article-title="Hyperspherical Variational Autoencoders Using Efficient Spherical Cauchy Distribution" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.21278" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.21278" target="_blank" rel="noopener">Hyperspherical Variational Autoencoders Using Efficient Spherical Cauchy Distribution</a></h3>
      <p class="summary">We propose spherical Cauchy (spCauchy) latent variables for variational autoencoders on hyperspherical latent spaces. The spCauchy family h…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7335802d801e" data-article-url="https://arxiv.org/abs/2507.02983" data-article-title="Truth, Trust, and Trouble: Medical AI on the Edge" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.02983" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.02983" target="_blank" rel="noopener">Truth, Trust, and Trouble: Medical AI on the Edge</a></h3>
      <p class="summary">Large Language Models (LLMs) hold significant promise for transforming digital health by enabling automated medical question answering. How…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b9bed2de0144" data-article-url="https://arxiv.org/abs/2507.08038" data-article-title="AblationBench: Evaluating Automated Planning of Ablations in Empirical AI Research" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.08038" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.08038" target="_blank" rel="noopener">AblationBench: Evaluating Automated Planning of Ablations in Empirical AI Research</a></h3>
      <p class="summary">Language model agents are increasingly used to automate scientific research, yet evaluating their scientific contributions remains a challe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f60be5ae499" data-article-url="https://arxiv.org/abs/2507.09029" data-article-title="Model Parallelism With Subnetwork Data Parallelism" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.09029" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.09029" target="_blank" rel="noopener">Model Parallelism With Subnetwork Data Parallelism</a></h3>
      <p class="summary">Pre-training large neural networks at scale imposes heavy memory demands on accelerators and often requires costly communication. We introd…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bb680f7ddf59" data-article-url="https://arxiv.org/abs/2507.09766" data-article-title="Toward accurate RUL and SoH estimation using reinforced graph-based physics-informed neural networks enhanced with dynamic weights" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.09766" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.09766" target="_blank" rel="noopener">Toward accurate RUL and SoH estimation using reinforced graph-based physics-informed neural networks enhanced with dynamic weights</a></h3>
      <p class="summary">Accurate estimation of Remaining Useful Life (RUL) and State of Health (SoH) is essential for reliable Prognostics and Health Management (P…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="63647d772854" data-article-url="https://arxiv.org/abs/2507.15336" data-article-title="Beyond Model Base Retrieval: Weaving Knowledge to Master Fine-grained Neural Network Design" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.15336" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.15336" target="_blank" rel="noopener">Beyond Model Base Retrieval: Weaving Knowledge to Master Fine-grained Neural Network Design</a></h3>
      <p class="summary">Designing high-performance neural networks for new tasks requires balancing optimization quality with search efficiency. Current methods fa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0084f957f10" data-article-url="https://arxiv.org/abs/2507.19881" data-article-title="FedS2R: One-Shot Federated Domain Generalization for Synthetic-to-Real Semantic Segmentation in Autonomous Driving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.19881" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.19881" target="_blank" rel="noopener">FedS2R: One-Shot Federated Domain Generalization for Synthetic-to-Real Semantic Segmentation in Autonomous Driving</a></h3>
      <p class="summary">Federated domain generalization has shown promising progress in image classification by enabling collaborative training across multiple cli…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a4bcd0d4102" data-article-url="https://arxiv.org/abs/2508.01815" data-article-title="From Graph Retrieval to Schema Realization: Counterfactual Validation for Text-to-SPARQL over Heterogeneous Knowledge Graphs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.01815" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.01815" target="_blank" rel="noopener">From Graph Retrieval to Schema Realization: Counterfactual Validation for Text-to-SPARQL over Heterogeneous Knowledge Graphs</a></h3>
      <p class="summary">Text-to-SPARQL maps natural-language questions to executable SPARQL queries over RDF knowledge graphs. While standard evaluations often fix…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dc648d99324f" data-article-url="https://arxiv.org/abs/2508.06588" data-article-title="Graph is a Natural Regularization: Revisiting Vector Quantization for Graph Representation Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.06588" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.06588" target="_blank" rel="noopener">Graph is a Natural Regularization: Revisiting Vector Quantization for Graph Representation Learning</a></h3>
      <p class="summary">Vector Quantization (VQ) has recently emerged as a promising approach for learning compressed and discrete representations for graph-struct…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2ac940dcd9aa" data-article-url="https://arxiv.org/abs/2508.08337" data-article-title="Position: Beyond Sensitive Attributes, ML Fairness Should Quantify Structural Injustice via Social Determinants" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.08337" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.08337" target="_blank" rel="noopener">Position: Beyond Sensitive Attributes, ML Fairness Should Quantify Structural Injustice via Social Determinants</a></h3>
      <p class="summary">Algorithmic fairness research has largely framed unfairness as discrimination along sensitive attributes. However, this approach limits vis…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="35283acbcd34" data-article-url="https://arxiv.org/abs/2508.12551" data-article-title="TuneAgent: Agentic Operating System Kernel Tuning with Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.12551" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.12551" target="_blank" rel="noopener">TuneAgent: Agentic Operating System Kernel Tuning with Reinforcement Learning</a></h3>
      <p class="summary">Linux kernel tuning is essential for optimizing operating system (OS) performance, yet remains challenging due to the complex kernel space,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="463905b50897" data-article-url="https://arxiv.org/abs/2509.05367" data-article-title="Between a Rock and a Hard Place: The Tension Between Ethical Reasoning and Safety Alignment in LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.05367" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.05367" target="_blank" rel="noopener">Between a Rock and a Hard Place: The Tension Between Ethical Reasoning and Safety Alignment in LLMs</a></h3>
      <p class="summary">Large Language Model safety alignment predominantly operates on a binary assumption that requests are either safe or unsafe. This classific…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8634e1f57317" data-article-url="https://arxiv.org/abs/2509.06093" data-article-title="Language-Native Materials Processing Design by Lightly Structured Text Database and Reasoning Large Language Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.06093" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.06093" target="_blank" rel="noopener">Language-Native Materials Processing Design by Lightly Structured Text Database and Reasoning Large Language Model</a></h3>
      <p class="summary">Materials synthesis procedures are predominantly documented as narrative text in papers, protocols, and laboratory records, placing them be…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="64db970e11a7" data-article-url="https://arxiv.org/abs/2509.13805" data-article-title="Towards a Physics Foundation Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.13805" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.13805" target="_blank" rel="noopener">Towards a Physics Foundation Model</a></h3>
      <p class="summary">Foundation models have revolutionized natural language processing through a ``train once, deploy anywhere&#x27;&#x27; paradigm, where a single pre-tr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6cc4a7dbf876" data-article-url="https://arxiv.org/abs/2509.18025" data-article-title="Deep Learning as the Disciplined Construction of Tame Objects" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.18025" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.18025" target="_blank" rel="noopener">Deep Learning as the Disciplined Construction of Tame Objects</a></h3>
      <p class="summary">One can see deep-learning models as compositions of functions within the so-called tame geometry. In this expository note, we give an overv…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4d62a04ed91f" data-article-url="https://arxiv.org/abs/2509.23544" data-article-title="End-to-End Deep Learning for Predicting Metric Space-Valued Outputs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.23544" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.23544" target="_blank" rel="noopener">End-to-End Deep Learning for Predicting Metric Space-Valued Outputs</a></h3>
      <p class="summary">Many modern applications involve predicting structured, non-Euclidean outputs such as probability distributions, networks, and symmetric po…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="32dd40e1c8e1" data-article-url="https://arxiv.org/abs/2509.24696" data-article-title="T-POP: Test-Time Personalization with Online Preference Feedback" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.24696" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.24696" target="_blank" rel="noopener">T-POP: Test-Time Personalization with Online Preference Feedback</a></h3>
      <p class="summary">Personalizing large language models (LLMs) to individual user preferences is a critical step beyond generating generically helpful response…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d51786a44eb5" data-article-url="https://arxiv.org/abs/2509.25773" data-article-title="v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.25773" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.25773" target="_blank" rel="noopener">v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound</a></h3>
      <p class="summary">AI models capable of comprehending humor hold real-world promise -- for example, enhancing engagement in human-machine interactions. To gau…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="940bad97bbde" data-article-url="https://arxiv.org/abs/2509.25837" data-article-title="Distillation of Large Language Models via Concrete Score Matching" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.25837" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.25837" target="_blank" rel="noopener">Distillation of Large Language Models via Concrete Score Matching</a></h3>
      <p class="summary">Large language models (LLMs) deliver remarkable performance but are costly to deploy, motivating knowledge distillation (KD) for efficient…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6b17305e7da" data-article-url="https://arxiv.org/abs/2510.00481" data-article-title="Make a Video Call with LLM: A Measurement Campaign over Six Mainstream Apps" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.00481" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.00481" target="_blank" rel="noopener">Make a Video Call with LLM: A Measurement Campaign over Six Mainstream Apps</a></h3>
      <p class="summary">In 2025, Large Language Model (LLM) services have launched a new feature -- AI video chat -- allowing users to interact with AI agents via…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cd0ed2f821d9" data-article-url="https://arxiv.org/abs/2510.01167" data-article-title="Simultaneous Multi-objective Alignment Across Verifiable and Non-verifiable Rewards" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.01167" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.01167" target="_blank" rel="noopener">Simultaneous Multi-objective Alignment Across Verifiable and Non-verifiable Rewards</a></h3>
      <p class="summary">Aligning large language models to human preferences is inherently multidimensional, yet most pipelines collapse heterogeneous signals into…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="48895c9d9884" data-article-url="https://arxiv.org/abs/2510.01891" data-article-title="HRTFformer: A Spatially-Aware Transformer for Individual HRTF Upsampling in Immersive Audio Rendering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.01891" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.01891" target="_blank" rel="noopener">HRTFformer: A Spatially-Aware Transformer for Individual HRTF Upsampling in Immersive Audio Rendering</a></h3>
      <p class="summary">Individual Head-Related Transfer Functions (HRTFs) are starting to be introduced in many commercial immersive audio applications and are cr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8d73c8b5f5e6" data-article-url="https://arxiv.org/abs/2510.03259" data-article-title="Verifying Meta-Awareness via Predictive Rewards in Reasoning Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.03259" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.03259" target="_blank" rel="noopener">Verifying Meta-Awareness via Predictive Rewards in Reasoning Models</a></h3>
      <p class="summary">Recent research on reasoning models explores the meta-awareness of language models, including their ability to determine optimal thinking d…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="045d73522484" data-article-url="https://arxiv.org/abs/2510.05342" data-article-title="Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.05342" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.05342" target="_blank" rel="noopener">Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization</a></h3>
      <p class="summary">Direct Preference Optimization (DPO) has emerged as a simple and effective method for aligning large language models. However, its reliance…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d049f4b73b6c" data-article-url="https://arxiv.org/abs/2510.05566" data-article-title="Domain-Shift-Aware Conformal Prediction for Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.05566" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.05566" target="_blank" rel="noopener">Domain-Shift-Aware Conformal Prediction for Large Language Models</a></h3>
      <p class="summary">Large language models have achieved impressive performance across diverse tasks. However, their tendency to produce overconfident and factu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="55625ba6ec88" data-article-url="https://arxiv.org/abs/2510.07650" data-article-title="Value Flows" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.07650" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.07650" target="_blank" rel="noopener">Value Flows</a></h3>
      <p class="summary">While most reinforcement learning methods today flatten the distribution of future returns to a single scalar value, distributional RL meth…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="057297a91583" data-article-url="https://arxiv.org/abs/2510.08948" data-article-title="SHERLOCK: Towards Dynamic Knowledge Adaptation in LLM-enhanced E-commerce Risk Management" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.08948" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.08948" target="_blank" rel="noopener">SHERLOCK: Towards Dynamic Knowledge Adaptation in LLM-enhanced E-commerce Risk Management</a></h3>
      <p class="summary">Effective e-commerce risk management requires in-depth case investigations to identify emerging fraud patterns in highly adversarial enviro…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8731df79670c" data-article-url="https://arxiv.org/abs/2510.09608" data-article-title="StreamingVLM: Real-Time Understanding for Infinite Video Streams" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.09608" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.09608" target="_blank" rel="noopener">StreamingVLM: Real-Time Understanding for Infinite Video Streams</a></h3>
      <p class="summary">Vision-language models (VLMs) could power real-time assistants and autonomous agents, but they face a critical challenge: understanding nea…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="007ba500387e" data-article-url="https://arxiv.org/abs/2510.10541" data-article-title="Rethinking RL Evaluation: Can Benchmarks Truly Reveal Failures of RL Methods?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.10541" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.10541" target="_blank" rel="noopener">Rethinking RL Evaluation: Can Benchmarks Truly Reveal Failures of RL Methods?</a></h3>
      <p class="summary">Current benchmarks are inadequate for evaluating progress in reinforcement learning (RL) for large language models (LLMs).Despite recent be…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0645c6fcf0ab" data-article-url="https://arxiv.org/abs/2510.10982" data-article-title="Catch-Only-One: Non-Transferable Examples for Model-Specific Authorization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.10982" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.10982" target="_blank" rel="noopener">Catch-Only-One: Non-Transferable Examples for Model-Specific Authorization</a></h3>
      <p class="summary">Recent AI regulations increasingly emphasize the need for mechanisms that preserve the utility of data for AI innovation while preventing m…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a233ad3cdfb2" data-article-url="https://arxiv.org/abs/2510.11560" data-article-title="Characterizing Web Search in The Age of Generative AI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.11560" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.11560" target="_blank" rel="noopener">Characterizing Web Search in The Age of Generative AI</a></h3>
      <p class="summary">The advent of LLMs has given rise to generative search, a new search paradigm in which LLMs retrieve information from the web related to a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1297bb7aa0c5" data-article-url="https://arxiv.org/abs/2510.12049" data-article-title="Generative AI and Sales Productivity: Field Experiments in Online Retail" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.12049" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.12049" target="_blank" rel="noopener">Generative AI and Sales Productivity: Field Experiments in Online Retail</a></h3>
      <p class="summary">We quantify the short-term impact of Generative Artificial Intelligence (GenAI) on sales performance through a series of large-scale random…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="347d1388690b" data-article-url="https://arxiv.org/abs/2510.12624" data-article-title="Learning-To-Measure: In-Context Active Feature Acquisition" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.12624" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.12624" target="_blank" rel="noopener">Learning-To-Measure: In-Context Active Feature Acquisition</a></h3>
      <p class="summary">Active feature acquisition (AFA) is a sequential decision-making problem where the goal is to improve model performance for test instances…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c1da5d3c1aa7" data-article-url="https://arxiv.org/abs/2510.14904" data-article-title="CaptionFormer: Unified Segmentation, Tracking, and Captioning for Spatio-Temporal Objects" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.14904" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.14904" target="_blank" rel="noopener">CaptionFormer: Unified Segmentation, Tracking, and Captioning for Spatio-Temporal Objects</a></h3>
      <p class="summary">Dense Video Object Captioning (DVOC) is the task of jointly detecting, tracking, and captioning object trajectories in a video, requiring t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6319b0d256cd" data-article-url="https://arxiv.org/abs/2510.17045" data-article-title="Video Reasoning without Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.17045" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.17045" target="_blank" rel="noopener">Video Reasoning without Training</a></h3>
      <p class="summary">Video reasoning using Large Multimodal Models (LMMs) relies on costly reinforcement learning (RL) and verbose chain-of-thought, resulting i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2e24785b4be0" data-article-url="https://arxiv.org/abs/2510.19496" data-article-title="CARES: Context-Aware Resolution Selector for VLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.19496" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.19496" target="_blank" rel="noopener">CARES: Context-Aware Resolution Selector for VLMs</a></h3>
      <p class="summary">Large vision-language models (VLMs) commonly process images at native or high resolution to remain effective across tasks. This inflates vi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="df048ce3fcbd" data-article-url="https://arxiv.org/abs/2510.23379" data-article-title="Symbolic Neural Generation with Applications to Lead Discovery in Drug Design" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.23379" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.23379" target="_blank" rel="noopener">Symbolic Neural Generation with Applications to Lead Discovery in Drug Design</a></h3>
      <p class="summary">We investigate a relatively under-explored class of hybrid neurosymbolic models that integrate symbolic learning with neural reasoning to c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4a423cf4fb28" data-article-url="https://arxiv.org/abs/2511.01938" data-article-title="The Geometry of Grokking: Norm Minimization on the Zero-Loss Manifold" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.01938" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.01938" target="_blank" rel="noopener">The Geometry of Grokking: Norm Minimization on the Zero-Loss Manifold</a></h3>
      <p class="summary">Grokking is a puzzling phenomenon in neural networks where full generalization occurs only after a substantial delay following the complete…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="99982660262d" data-article-url="https://arxiv.org/abs/2511.05613" data-article-title="Who Evaluates AI&#x27;s Social Impacts? Mapping Coverage and Gaps in First and Third Party Evaluations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.05613" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.05613" target="_blank" rel="noopener">Who Evaluates AI&#x27;s Social Impacts? Mapping Coverage and Gaps in First and Third Party Evaluations</a></h3>
      <p class="summary">Foundation models are increasingly central to high-stakes AI systems, and governance frameworks now depend on evaluations to assess their r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6d904467b129" data-article-url="https://arxiv.org/abs/2511.05650" data-article-title="Optimizing Diversity and Quality through Base-Aligned Model Collaboration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.05650" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.05650" target="_blank" rel="noopener">Optimizing Diversity and Quality through Base-Aligned Model Collaboration</a></h3>
      <p class="summary">Alignment has greatly improved large language models (LLMs)&#x27; output quality at the cost of diversity, yielding highly similar outputs acros…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="096ef2475900" data-article-url="https://arxiv.org/abs/2511.05913" data-article-title="NILC: Discovering New Intents with LLM-assisted Clustering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.05913" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.05913" target="_blank" rel="noopener">NILC: Discovering New Intents with LLM-assisted Clustering</a></h3>
      <p class="summary">New intent discovery (NID) seeks to recognize both new and known intents from unlabeled user utterances, which finds prevalent use in pract…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="302d6633712a" data-article-url="https://arxiv.org/abs/2511.10276" data-article-title="RoboBenchMart: Benchmarking Robots in Retail Environment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.10276" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.10276" target="_blank" rel="noopener">RoboBenchMart: Benchmarking Robots in Retail Environment</a></h3>
      <p class="summary">Most existing robotic manipulation benchmarks focus on tabletop or household scenarios. While these setups have driven impressive progress,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="311f04b2255f" data-article-url="https://arxiv.org/abs/2511.16886" data-article-title="Latent Reasoning in TRMs is Secretly a Policy Improvement Operator" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.16886" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.16886" target="_blank" rel="noopener">Latent Reasoning in TRMs is Secretly a Policy Improvement Operator</a></h3>
      <p class="summary">Recently, small models with latent recursion have obtained promising results on complex reasoning tasks. These results are typically explai…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5438ce6c2992" data-article-url="https://arxiv.org/abs/2511.20615" data-article-title="Evaluating the Performance of Deep Learning Models in Whole-body Dynamic 3D Posture Prediction During Load-reaching Activities" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.20615" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.20615" target="_blank" rel="noopener">Evaluating the Performance of Deep Learning Models in Whole-body Dynamic 3D Posture Prediction During Load-reaching Activities</a></h3>
      <p class="summary">This study aimed to explore the application of deep neural networks for whole-body human posture prediction during dynamic load-reaching ac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="157dcc816ec7" data-article-url="https://arxiv.org/abs/2511.20639" data-article-title="Latent Collaboration in Multi-Agent Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.20639" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.20639" target="_blank" rel="noopener">Latent Collaboration in Multi-Agent Systems</a></h3>
      <p class="summary">Multi-agent systems (MAS) extend large language models (LLMs) from independent single-model reasoning to coordinative system-level intellig…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="03baac86258a" data-article-url="https://arxiv.org/abs/2511.21397" data-article-title="Understanding the Effects of Distractors on Reasoning Vision-Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.21397" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.21397" target="_blank" rel="noopener">Understanding the Effects of Distractors on Reasoning Vision-Language Models</a></h3>
      <p class="summary">How does irrelevant information (i.e., distractors) affect test-time scaling in vision-language models (VLMs)? Prior work on text-only lang…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c4220a95c98d" data-article-url="https://arxiv.org/abs/2512.00062" data-article-title="SpeedAug: Policy Acceleration via Tempo-Enriched Policy and RL Fine-Tuning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.00062" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.00062" target="_blank" rel="noopener">SpeedAug: Policy Acceleration via Tempo-Enriched Policy and RL Fine-Tuning</a></h3>
      <p class="summary">Robotic policy learning for complex real-world manipulation tasks has seen rapid recent progress, enabled in large part by the ability to c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c0313d262f29" data-article-url="https://arxiv.org/abs/2512.05277" data-article-title="From Segments to Scenes: Temporal Understanding in Autonomous Driving via Vision-Language Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.05277" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.05277" target="_blank" rel="noopener">From Segments to Scenes: Temporal Understanding in Autonomous Driving via Vision-Language Model</a></h3>
      <p class="summary">Vision-Language Models (VLMs) are increasingly deployed as the perception and reasoning backbone of autonomous agents acting in the wild, w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3c8634f0bdce" data-article-url="https://arxiv.org/abs/2512.09065" data-article-title="ShelfAware: Real-Time Semantic Localization in Quasi-Static Environments with Low-Cost Sensors" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.09065" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.09065" target="_blank" rel="noopener">ShelfAware: Real-Time Semantic Localization in Quasi-Static Environments with Low-Cost Sensors</a></h3>
      <p class="summary">Many indoor workspaces are quasi-static: their global geometric layout is stable, but local semantics change continually, producing repetit…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ca7c67ef279d" data-article-url="https://arxiv.org/abs/2512.10120" data-article-title="VocSim: A Training-free Benchmark for Zero-shot Content Identity in Single-source Audio" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.10120" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.10120" target="_blank" rel="noopener">VocSim: A Training-free Benchmark for Zero-shot Content Identity in Single-source Audio</a></h3>
      <p class="summary">General-purpose audio representations aim to map acoustically variable instances of the same event to nearby points, resolving content iden…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a662530358b" data-article-url="https://arxiv.org/abs/2512.10234" data-article-title="InFerActive: Interactive Tree-Based Exploration of LLM Sampling for Safety Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.10234" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.10234" target="_blank" rel="noopener">InFerActive: Interactive Tree-Based Exploration of LLM Sampling for Safety Evaluation</a></h3>
      <p class="summary">Even LLMs that appear safe during evaluation can still produce harmful responses in deployment. Because stochastic sampling yields differen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ae92f593e332" data-article-url="https://arxiv.org/abs/2512.12997" data-article-title="Calibrating Uncertainty for Zero-Shot Adversarial CLIP" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.12997" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.12997" target="_blank" rel="noopener">Calibrating Uncertainty for Zero-Shot Adversarial CLIP</a></h3>
      <p class="summary">CLIP delivers strong zero-shot classification but remains highly vulnerable to adversarial attacks. Prior adversarial fine-tuning work prim…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b00960463e86" data-article-url="https://arxiv.org/abs/2512.13356" data-article-title="Control of a Twin Rotor using Twin Delayed Deep Deterministic Policy Gradient (TD3)" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.13356" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.13356" target="_blank" rel="noopener">Control of a Twin Rotor using Twin Delayed Deep Deterministic Policy Gradient (TD3)</a></h3>
      <p class="summary">This paper proposes a reinforcement learning (RL) framework for controlling and stabilizing the Twin Rotor Aerodynamic System (TRAS) at spe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="67333bf15b3e" data-article-url="https://arxiv.org/abs/2512.16167" data-article-title="Ev-Trust: An Evolutionarily Stable Trust Mechanism for Decentralized LLM-Based Multi-Agent Service Economies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.16167" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.16167" target="_blank" rel="noopener">Ev-Trust: An Evolutionarily Stable Trust Mechanism for Decentralized LLM-Based Multi-Agent Service Economies</a></h3>
      <p class="summary">Decentralized LLM-based multi-agent service economies face three vulnerabilities that undermine traditional trust mechanisms: reduced cost…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="86dadd446dec" data-article-url="https://arxiv.org/abs/2512.16310" data-article-title="Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.16310" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.16310" target="_blank" rel="noopener">Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation</a></h3>
      <p class="summary">LLM-based agents increasingly use multiple external tools to complete complex tasks. We study Tools Orchestration Privacy Risk (TOP-R): an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec2343516fea" data-article-url="https://arxiv.org/abs/2512.17605" data-article-title="MGRegBench: A Novel Benchmark Dataset with Anatomical Landmarks for Mammography Image Registration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.17605" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.17605" target="_blank" rel="noopener">MGRegBench: A Novel Benchmark Dataset with Anatomical Landmarks for Mammography Image Registration</a></h3>
      <p class="summary">Robust mammography registration is essential for clinically relevant applications like tracking disease progression in breast tissue. Howev…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9db85197a1c6" data-article-url="https://arxiv.org/abs/2512.18333" data-article-title="Reinforcement Learning Position Control of a Quadrotor Using Soft Actor-Critic (SAC)" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.18333" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.18333" target="_blank" rel="noopener">Reinforcement Learning Position Control of a Quadrotor Using Soft Actor-Critic (SAC)</a></h3>
      <p class="summary">This paper proposes a new Reinforcement Learning (RL) based control architecture for quadrotors. With the literature focusing on controllin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="088b7b871a75" data-article-url="https://arxiv.org/abs/2512.18336" data-article-title="Dynamic Entropy Tuning in Reinforcement Learning Low-Level Quadcopter Control: Stochasticity vs Determinism" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.18336" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.18336" target="_blank" rel="noopener">Dynamic Entropy Tuning in Reinforcement Learning Low-Level Quadcopter Control: Stochasticity vs Determinism</a></h3>
      <p class="summary">This paper explores the impact of dynamic entropy tuning in Reinforcement Learning (RL) algorithms that train a stochastic policy. Its perf…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ab1aa6f1a5ef" data-article-url="https://arxiv.org/abs/2512.20638" data-article-title="Uncovering Competency Gaps in Large Language Models and Their Benchmarks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.20638" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.20638" target="_blank" rel="noopener">Uncovering Competency Gaps in Large Language Models and Their Benchmarks</a></h3>
      <p class="summary">The evaluation of large language models relies heavily on standardized benchmarks. These benchmarks provide useful aggregated metrics, but…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d48b3c8bdf34" data-article-url="https://arxiv.org/abs/2601.00664" data-article-title="Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.00664" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.00664" target="_blank" rel="noopener">Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation</a></h3>
      <p class="summary">Talking head generation creates lifelike avatars from static portraits for virtual communication and content creation. However, current mod…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f66e38ff388f" data-article-url="https://arxiv.org/abs/2601.03309" data-article-title="VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.03309" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.03309" target="_blank" rel="noopener">VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models</a></h3>
      <p class="summary">Vision-Language-Action (VLA) models, which integrate pretrained large Vision-Language Models (VLM) into their policy backbone, are gaining…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3df786ddb072" data-article-url="https://arxiv.org/abs/2601.04539" data-article-title="Paradoxical noise preference in RNNs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.04539" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.04539" target="_blank" rel="noopener">Paradoxical noise preference in RNNs</a></h3>
      <p class="summary">In recurrent neural networks (RNNs) used to model biological neural networks, noise is typically introduced during training to emulate biol…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="556fba74b201" data-article-url="https://arxiv.org/abs/2601.04946" data-article-title="Prototypicality Bias Reveals Blindspots in Multimodal Evaluation Metrics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.04946" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.04946" target="_blank" rel="noopener">Prototypicality Bias Reveals Blindspots in Multimodal Evaluation Metrics</a></h3>
      <p class="summary">Automatic metrics are widely used to evaluate text-to-image models, often replacing human judgment in benchmarking, model selection, and la…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fe1fa83c70a3" data-article-url="https://arxiv.org/abs/2601.06199" data-article-title="FastSLM: Hierarchical Temporal Abstraction for Efficient Long-Form Speech Adaptation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.06199" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.06199" target="_blank" rel="noopener">FastSLM: Hierarchical Temporal Abstraction for Efficient Long-Form Speech Adaptation</a></h3>
      <p class="summary">Scaling Multimodal Large Language Models (MLLMs) to long-form speech is bottlenecked by the explosive growth of input tokens. Unlike images…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c8e47f32d9d" data-article-url="https://arxiv.org/abs/2601.07177" data-article-title="Safe-FedLLM: Delving into the Safety of Federated Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.07177" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.07177" target="_blank" rel="noopener">Safe-FedLLM: Delving into the Safety of Federated Large Language Models</a></h3>
      <p class="summary">Federated learning (FL) addresses privacy and data-silo issues in the training of large language models (LLMs). Most prior work focuses on…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2391da3430f1" data-article-url="https://arxiv.org/abs/2601.09239" data-article-title="DSA-Tokenizer: Disentangled Semantic-Acoustic Tokenization via Flow Matching-based Hierarchical Fusion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.09239" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.09239" target="_blank" rel="noopener">DSA-Tokenizer: Disentangled Semantic-Acoustic Tokenization via Flow Matching-based Hierarchical Fusion</a></h3>
      <p class="summary">Speech tokenizers are a key building block of fully discrete Speech LLMs. Existing tokenizers either prioritize semantic encoding, fuse sem…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="38dbfe06fe7c" data-article-url="https://arxiv.org/abs/2601.09566" data-article-title="Hot-Start Chinese Language Modeling:Visual Glyphs Accelerate Sample-Efficient Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.09566" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.09566" target="_blank" rel="noopener">Hot-Start Chinese Language Modeling:Visual Glyphs Accelerate Sample-Efficient Learning</a></h3>
      <p class="summary">In this work, we study whether rendering Chinese characters as visual glyph images, rather than discrete token IDs as mainstream LLMs do, p…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="75aea51402ff" data-article-url="https://arxiv.org/abs/2601.14230" data-article-title="MASCOT: Towards Multi-Agent Socio-Collaborative Companion Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.14230" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.14230" target="_blank" rel="noopener">MASCOT: Towards Multi-Agent Socio-Collaborative Companion Systems</a></h3>
      <p class="summary">Multi-agent systems (MAS) are emerging as promising socio-collaborative companions for emotional and cognitive support. However, existing s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ae0ef08c231" data-article-url="https://arxiv.org/abs/2601.14323" data-article-title="SilentDrift: Exploiting Action Chunking for Stealthy Backdoor Attacks on Vision-Language-Action Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.14323" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.14323" target="_blank" rel="noopener">SilentDrift: Exploiting Action Chunking for Stealthy Backdoor Attacks on Vision-Language-Action Models</a></h3>
      <p class="summary">Vision-Language-Action (VLA) models are increasingly deployed in safety-critical robotic applications, yet their security vulnerabilities r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="33ecd54b556e" data-article-url="https://arxiv.org/abs/2601.17074" data-article-title="Physics-Encoded Inverse Modeling for Arctic Snow Depth Prediction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.17074" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.17074" target="_blank" rel="noopener">Physics-Encoded Inverse Modeling for Arctic Snow Depth Prediction</a></h3>
      <p class="summary">Accurate estimation in time-varying inverse problems under limited and sparse observations remains a fundamental challenge across scientifi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="93ae896c257f" data-article-url="https://arxiv.org/abs/2601.17952" data-article-title="A Monosemantic Attribution Framework for Stable Interpretability in Clinical Neuroscience Transformer-Based Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.17952" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.17952" target="_blank" rel="noopener">A Monosemantic Attribution Framework for Stable Interpretability in Clinical Neuroscience Transformer-Based Language Models</a></h3>
      <p class="summary">Interpretability remains a key challenge for deploying language models (LM) in clinical settings such as progression diagnosis of Alzheimer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="99ab95e3e47e" data-article-url="https://arxiv.org/abs/2601.18783" data-article-title="Multi-Objective Reinforcement Learning for Tactical Decision Making for Trucks in Highway Traffic" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.18783" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.18783" target="_blank" rel="noopener">Multi-Objective Reinforcement Learning for Tactical Decision Making for Trucks in Highway Traffic</a></h3>
      <p class="summary">Balancing safety, efficiency, and operational costs in highway driving poses a challenging decision-making problem for heavy-duty vehicles.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fae28f9f2b23" data-article-url="https://arxiv.org/abs/2601.18798" data-article-title="ELF: A Family of Encoder-Free ECG-Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.18798" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.18798" target="_blank" rel="noopener">ELF: A Family of Encoder-Free ECG-Language Models</a></h3>
      <p class="summary">ECG-Language Models (ELMs) extend recent advances in Multimodal Large Language Models (MLLMs) to automated ECG interpretation. However, mos…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d64f5c92c96f" data-article-url="https://arxiv.org/abs/2601.19919" data-article-title="ASKD-Whisper: Adaptive Self-knowledge Distillation for Efficient and Low-Latency Automatic Speech Recognition" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.19919" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.19919" target="_blank" rel="noopener">ASKD-Whisper: Adaptive Self-knowledge Distillation for Efficient and Low-Latency Automatic Speech Recognition</a></h3>
      <p class="summary">Knowledge distillation (KD) is one of the most effective paradigms for compressing large-scale foundation models into deployable architectu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="57578efe34e8" data-article-url="https://arxiv.org/abs/2601.19921" data-article-title="Demystifying Multi-Agent Debate: The Role of Confidence and Diversity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.19921" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.19921" target="_blank" rel="noopener">Demystifying Multi-Agent Debate: The Role of Confidence and Diversity</a></h3>
      <p class="summary">Multi-agent debate (MAD) is widely used to improve large language model (LLM) performance through test-time scaling, yet recent work shows…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0356cf23dca1" data-article-url="https://arxiv.org/abs/2601.20115" data-article-title="How Much Progress Has There Been in NVIDIA Datacenter GPUs?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.20115" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.20115" target="_blank" rel="noopener">How Much Progress Has There Been in NVIDIA Datacenter GPUs?</a></h3>
      <p class="summary">As the role of modern Graphics Processing Units (GPUs) becomes increasingly essential for several computing tasks, analyzing their past and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2a419b892a12" data-article-url="https://arxiv.org/abs/2601.21444" data-article-title="APB-V: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.21444" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.21444" target="_blank" rel="noopener">APB-V: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention</a></h3>
      <p class="summary">The efficiency of long-video inference remains a critical bottleneck, mainly due to the dense computation in the prefill stage of Large Mul…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5195ea7a307c" data-article-url="https://arxiv.org/abs/2601.21718" data-article-title="When Does Predictive Inverse Dynamics Outperform Behavior Cloning?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.21718" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.21718" target="_blank" rel="noopener">When Does Predictive Inverse Dynamics Outperform Behavior Cloning?</a></h3>
      <p class="summary">Behavior cloning (BC) is a practical offline imitation learning method, but it often fails when expert demonstrations are limited. Recent w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8528ec6d4cfb" data-article-url="https://arxiv.org/abs/2601.22651" data-article-title="GUDA: Counterfactual Group-wise Training Data Attribution for Diffusion Models via Unlearning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.22651" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.22651" target="_blank" rel="noopener">GUDA: Counterfactual Group-wise Training Data Attribution for Diffusion Models via Unlearning</a></h3>
      <p class="summary">Training-data attribution for vision generative models aims to identify which training data influenced a given output. While most methods s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6e2e5ee97d84" data-article-url="https://arxiv.org/abs/2601.23220" data-article-title="Med-Scout: Curing MLLMs&#x27; Geometric Blindness in Medical Perception via Geometry-Aware RL Post-Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.23220" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.23220" target="_blank" rel="noopener">Med-Scout: Curing MLLMs&#x27; Geometric Blindness in Medical Perception via Geometry-Aware RL Post-Training</a></h3>
      <p class="summary">Despite recent Multimodal Large Language Models (MLLMs)&#x27; linguistic prowess in medical diagnosis, we find even state-of-the-art MLLMs suffe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="edcd89ffcd9b" data-article-url="https://arxiv.org/abs/2602.01962" data-article-title="Zero-Shot Off-Policy Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01962" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01962" target="_blank" rel="noopener">Zero-Shot Off-Policy Learning</a></h3>
      <p class="summary">Off-policy learning methods seek to derive an optimal policy directly from a fixed dataset of prior interactions. This objective presents s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="80c115fc2e08" data-article-url="https://arxiv.org/abs/2602.02098" data-article-title="Probabilistic Performance Guarantees for Multi-Task Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02098" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02098" target="_blank" rel="noopener">Probabilistic Performance Guarantees for Multi-Task Reinforcement Learning</a></h3>
      <p class="summary">Multi-task reinforcement learning trains generalist policies that can execute multiple tasks. While recent years have seen significant prog…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5f0f793a95ea" data-article-url="https://arxiv.org/abs/2602.02547" data-article-title="naPINN: Noise-Adaptive Physics-Informed Neural Networks for Recovering Physics from Corrupted Measurement" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02547" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02547" target="_blank" rel="noopener">naPINN: Noise-Adaptive Physics-Informed Neural Networks for Recovering Physics from Corrupted Measurement</a></h3>
      <p class="summary">Physics-Informed Neural Networks (PINNs) are effective methods for solving inverse problems and discovering governing equations from observ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fb2e5fb86a15" data-article-url="https://arxiv.org/abs/2602.02557" data-article-title="The Alignment Curse: Modality Alignment Supercharges Audio Attacks via Text Transfer" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02557" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02557" target="_blank" rel="noopener">The Alignment Curse: Modality Alignment Supercharges Audio Attacks via Text Transfer</a></h3>
      <p class="summary">Recent advances in end-to-end trained omni-models have substantially improved audio capabilities by strengthening text-audio modality align…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6045578eb51" data-article-url="https://arxiv.org/abs/2602.02886" data-article-title="Mixture of Concept Bottleneck Experts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02886" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02886" target="_blank" rel="noopener">Mixture of Concept Bottleneck Experts</a></h3>
      <p class="summary">Concept Bottleneck Models (CBMs) promote interpretability by grounding predictions in human-understandable concepts. However, existing CBMs…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d965b305f950" data-article-url="https://arxiv.org/abs/2602.03024" data-article-title="Consistency Deep Equilibrium Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.03024" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.03024" target="_blank" rel="noopener">Consistency Deep Equilibrium Models</a></h3>
      <p class="summary">Deep Equilibrium Models (DEQs) have emerged as a powerful paradigm in deep learning, offering the ability to model infinite-depth networks…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4b336e738080" data-article-url="https://arxiv.org/abs/2602.03211" data-article-title="Lookahead Sample Reward Guidance for Test-Time Scaling of Diffusion Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.03211" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.03211" target="_blank" rel="noopener">Lookahead Sample Reward Guidance for Test-Time Scaling of Diffusion Models</a></h3>
      <p class="summary">Diffusion models have demonstrated strong generative performance; however, generated samples often fail to fully align with human intent. T…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5b008b6e2114" data-article-url="https://arxiv.org/abs/2602.03282" data-article-title="Global Geometry Is Not Enough for Vision Representations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.03282" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.03282" target="_blank" rel="noopener">Global Geometry Is Not Enough for Vision Representations</a></h3>
      <p class="summary">A common assumption in representation learning is that globally well-distributed embeddings support robust and generalizable representation…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c8f55e4294f6" data-article-url="https://arxiv.org/abs/2602.03554" data-article-title="When Single Answer Is Not Enough: Rethinking Single-Step Retrosynthesis Benchmarks for LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.03554" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.03554" target="_blank" rel="noopener">When Single Answer Is Not Enough: Rethinking Single-Step Retrosynthesis Benchmarks for LLMs</a></h3>
      <p class="summary">Recent progress has expanded the use of large language models (LLMs) in drug discovery, including synthesis planning. However, objective ev…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="19df2c284218" data-article-url="https://arxiv.org/abs/2602.03670" data-article-title="Equilibrium Propagation for Non-Conservative Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.03670" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.03670" target="_blank" rel="noopener">Equilibrium Propagation for Non-Conservative Systems</a></h3>
      <p class="summary">Equilibrium Propagation (EP) is a physics-inspired learning algorithm that uses stationary states of a dynamical system both for inference…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="81276f26c897" data-article-url="https://arxiv.org/abs/2602.03685" data-article-title="Universal One-third Time Scaling in Learning Peaked Distributions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.03685" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.03685" target="_blank" rel="noopener">Universal One-third Time Scaling in Learning Peaked Distributions</a></h3>
      <p class="summary">Training large language models (LLMs) is computationally expensive, partly because the loss exhibits slow power-law convergence whose origi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="98f6914cd559" data-article-url="https://arxiv.org/abs/2602.03972" data-article-title="Fixed Budget is No Harder Than Fixed Confidence in Best-Arm Identification up to Logarithmic Factors" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.03972" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.03972" target="_blank" rel="noopener">Fixed Budget is No Harder Than Fixed Confidence in Best-Arm Identification up to Logarithmic Factors</a></h3>
      <p class="summary">The best-arm identification (BAI) problem is one of the most fundamental problems in interactive machine learning, which has two flavors: t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2244167422ef" data-article-url="https://arxiv.org/abs/2602.04861" data-article-title="From Evaluation to Design: Using Potential Energy Surface Smoothness Metrics to Guide Machine Learning Interatomic Potential Architectures" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.04861" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.04861" target="_blank" rel="noopener">From Evaluation to Design: Using Potential Energy Surface Smoothness Metrics to Guide Machine Learning Interatomic Potential Architectures</a></h3>
      <p class="summary">Machine Learning Interatomic Potentials (MLIPs) sometimes fail to reproduce the physical smoothness of the quantum potential energy surface…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d64ddcca054e" data-article-url="https://arxiv.org/abs/2602.05395" data-article-title="Optimal Bayesian Stopping for Efficient Inference of Consistent LLM Answers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.05395" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.05395" target="_blank" rel="noopener">Optimal Bayesian Stopping for Efficient Inference of Consistent LLM Answers</a></h3>
      <p class="summary">A simple strategy for improving LLM accuracy, especially in math and reasoning problems, is to sample multiple responses and submit the ans…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="61a0fae73207" data-article-url="https://arxiv.org/abs/2602.05951" data-article-title="Better Source, Better Flow: Learning Condition-Dependent Source Distribution for Flow Matching" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.05951" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.05951" target="_blank" rel="noopener">Better Source, Better Flow: Learning Condition-Dependent Source Distribution for Flow Matching</a></h3>
      <p class="summary">Flow matching has recently emerged as a promising alternative to diffusion-based generative models, particularly for text-to-image generati…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="139d0014c583" data-article-url="https://arxiv.org/abs/2602.05970" data-article-title="Inverse Depth Scaling From Most Layers Being Similar" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.05970" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.05970" target="_blank" rel="noopener">Inverse Depth Scaling From Most Layers Being Similar</a></h3>
      <p class="summary">Neural scaling laws relate loss to model size in large language models (LLMs), yet depth and width may contribute to performance differentl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="65ccf74c1fd8" data-article-url="https://arxiv.org/abs/2602.06448" data-article-title="Principle-Evolvable Scientific Discovery via Uncertainty Minimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.06448" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.06448" target="_blank" rel="noopener">Principle-Evolvable Scientific Discovery via Uncertainty Minimization</a></h3>
      <p class="summary">Large Language Model (LLM)-based scientific agents have accelerated scientific discovery, yet they often suffer from significant inefficien…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="434d11a3474d" data-article-url="https://arxiv.org/abs/2602.06547" data-article-title="&quot;Do Not Mention This to the User&quot;: Detecting and Understanding Malicious Agent Skills" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.06547" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.06547" target="_blank" rel="noopener">&quot;Do Not Mention This to the User&quot;: Detecting and Understanding Malicious Agent Skills</a></h3>
      <p class="summary">LLM-based coding agents increasingly rely on third-party extensions called skills, which bundle natural language instructions and helper sc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f457cf80ef60" data-article-url="https://arxiv.org/abs/2602.07083" data-article-title="Rethinking Scientific Modeling: Toward Physically Consistent and Simulation-Executable Programmatic Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.07083" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.07083" target="_blank" rel="noopener">Rethinking Scientific Modeling: Toward Physically Consistent and Simulation-Executable Programmatic Generation</a></h3>
      <p class="summary">Structural modeling is a fundamental component of computational engineering science, in which even minor physical inconsistencies or specif…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c938cfc46fa" data-article-url="https://arxiv.org/abs/2602.07218" data-article-title="Collaborative and Efficient Fine-tuning: Leveraging Task Similarity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.07218" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.07218" target="_blank" rel="noopener">Collaborative and Efficient Fine-tuning: Leveraging Task Similarity</a></h3>
      <p class="summary">Adaptability has been regarded as a central feature in the foundation models, enabling them to effectively acclimate to unseen downstream t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="70d07bbb514f" data-article-url="https://arxiv.org/abs/2602.07298" data-article-title="Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.07298" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.07298" target="_blank" rel="noopener">Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation</a></h3>
      <p class="summary">Large Language Models (LLMs) represent a promising frontier for recommender systems, yet their development has been impeded by the absence…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="047a10384605" data-article-url="https://arxiv.org/abs/2602.07666" data-article-title="SoK: DARPA&#x27;s AI Cyber Challenge (AIxCC): Competition Design, Architectures, and Lessons Learned" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.07666" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.07666" target="_blank" rel="noopener">SoK: DARPA&#x27;s AI Cyber Challenge (AIxCC): Competition Design, Architectures, and Lessons Learned</a></h3>
      <p class="summary">DARPA&#x27;s AI Cyber Challenge (AIxCC, 2023--2025) is the largest competition to date for building fully autonomous cyber reasoning systems (CR…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0de837e457d5" data-article-url="https://arxiv.org/abs/2602.08058" data-article-title="Picasso: Holistic Scene Reconstruction with Physics-Constrained Sampling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.08058" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.08058" target="_blank" rel="noopener">Picasso: Holistic Scene Reconstruction with Physics-Constrained Sampling</a></h3>
      <p class="summary">In the presence of occlusions and measurement noise, geometrically accurate scene reconstructions -- which fit the sensor data -- can still…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a9a4628b0763" data-article-url="https://arxiv.org/abs/2602.08236" data-article-title="When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.08236" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.08236" target="_blank" rel="noopener">When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning</a></h3>
      <p class="summary">Despite rapid progress in MLLMs, visual spatial reasoning remains unreliable when correct answers depend on how a scene would appear under…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cf8a7f34ecb1" data-article-url="https://arxiv.org/abs/2602.08585" data-article-title="Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.08585" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.08585" target="_blank" rel="noopener">Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction</a></h3>
      <p class="summary">Given the quadratic complexity of attention, KV cache eviction is vital to accelerate model inference. Current KV cache eviction methods ty…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3015a1e31154" data-article-url="https://arxiv.org/abs/2602.08868" data-article-title="AnomSeer: Reinforcing Multimodal LLMs to Reason for Time-Series Anomaly Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.08868" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.08868" target="_blank" rel="noopener">AnomSeer: Reinforcing Multimodal LLMs to Reason for Time-Series Anomaly Detection</a></h3>
      <p class="summary">Time-series anomaly detection (TSAD) with multimodal large language models (MLLMs) is an emerging area, yet a persistent challenge remains:…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1194011e5a90" data-article-url="https://arxiv.org/abs/2602.09075" data-article-title="Learning to Remember, Learn, and Forget in Attention-Based Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.09075" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.09075" target="_blank" rel="noopener">Learning to Remember, Learn, and Forget in Attention-Based Models</a></h3>
      <p class="summary">In-Context Learning (ICL) in transformers acts as an online associative memory and is believed to underpin their high performance on comple…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7700e2959947" data-article-url="https://arxiv.org/abs/2602.09153" data-article-title="SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.09153" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.09153" target="_blank" rel="noopener">SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes</a></h3>
      <p class="summary">Simulation has become a key tool for training and evaluating home robots at scale, yet existing environments fail to capture the diversity…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="636de2383d3e" data-article-url="https://arxiv.org/abs/2602.09492" data-article-title="Beware of the Batch Size: Hyperparameter Bias in Evaluating LoRA" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.09492" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.09492" target="_blank" rel="noopener">Beware of the Batch Size: Hyperparameter Bias in Evaluating LoRA</a></h3>
      <p class="summary">Low-rank adaptation (LoRA) is a standard approach for fine-tuning large language models, yet its many variants report conflicting empirical…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b622179f7820" data-article-url="https://arxiv.org/abs/2602.10623" data-article-title="Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.10623" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.10623" target="_blank" rel="noopener">Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling</a></h3>
      <p class="summary">Reward models learned from human preferences are central to aligning large language models (LLMs) via reinforcement learning from human fee…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="19b937274721" data-article-url="https://arxiv.org/abs/2602.11177" data-article-title="What Do LLMs Know About Alzheimer&#x27;s Disease? Multi-loss Fine-Tuning and Probing for AD Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.11177" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.11177" target="_blank" rel="noopener">What Do LLMs Know About Alzheimer&#x27;s Disease? Multi-loss Fine-Tuning and Probing for AD Detection</a></h3>
      <p class="summary">Reliable early detection of Alzheimer&#x27;s disease (AD) is challenging, particularly due to the limited availability of labeled data. While la…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="274c7c4bcb20" data-article-url="https://arxiv.org/abs/2602.11210" data-article-title="SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.11210" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.11210" target="_blank" rel="noopener">SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents</a></h3>
      <p class="summary">Reinforcement learning (RL) has become a key paradigm for training software engineering (SWE) agents, but existing pipelines typically rely…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f7194fe09b4" data-article-url="https://arxiv.org/abs/2602.11453" data-article-title="From Noise to Order: Learning to Rank via Denoising Diffusion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.11453" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.11453" target="_blank" rel="noopener">From Noise to Order: Learning to Rank via Denoising Diffusion</a></h3>
      <p class="summary">In information retrieval (IR), learning-to-rank (LTR) methods have traditionally limited themselves to discriminative machine learning appr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a8c6c1a698e0" data-article-url="https://arxiv.org/abs/2602.13940" data-article-title="You Can Learn Tokenization End-to-End with Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.13940" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.13940" target="_blank" rel="noopener">You Can Learn Tokenization End-to-End with Reinforcement Learning</a></h3>
      <p class="summary">Tokenization is a hardcoded compression step which remains in the training pipeline of Large Language Models (LLMs), despite a general tren…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="984f40c6c2f4" data-article-url="https://arxiv.org/abs/2602.14134" data-article-title="DenseMLLM: Standard Multimodal LLMs for Dense Prediction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.14134" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.14134" target="_blank" rel="noopener">DenseMLLM: Standard Multimodal LLMs for Dense Prediction</a></h3>
      <p class="summary">Multimodal Large Language Models (MLLMs) have demonstrated exceptional capabilities in high-level visual understanding. However, extending…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="69701e16fd2e" data-article-url="https://arxiv.org/abs/2602.14849" data-article-title="Atomix: Timely, Transactional Tool Use for Reliable Agentic Workflows" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.14849" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.14849" target="_blank" rel="noopener">Atomix: Timely, Transactional Tool Use for Reliable Agentic Workflows</a></h3>
      <p class="summary">LLM agents execute multi-step workflows that mutate external state through tools. Common orchestrators treat tool return as the settlement…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="95932d87e100" data-article-url="https://arxiv.org/abs/2602.15259" data-article-title="Knowing Isn&#x27;t Understanding: Re-grounding Generative Proactivity with Epistemic and Behavioral Insight" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.15259" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.15259" target="_blank" rel="noopener">Knowing Isn&#x27;t Understanding: Re-grounding Generative Proactivity with Epistemic and Behavioral Insight</a></h3>
      <p class="summary">Generative AI agents equate understanding with resolving explicit queries, an assumption that confines interaction to what users can articu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="27dcccc5ec2b" data-article-url="https://arxiv.org/abs/2602.15278" data-article-title="Visual Persuasion: What Influences Decisions of Vision-Language Models?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.15278" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.15278" target="_blank" rel="noopener">Visual Persuasion: What Influences Decisions of Vision-Language Models?</a></h3>
      <p class="summary">The web is littered with images, once created for human consumption and now increasingly interpreted by agents using vision-language models…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="134649637adf" data-article-url="https://arxiv.org/abs/2602.16720" data-article-title="APEX-SQL: Talking to the data via Agentic Exploration for Text-to-SQL" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.16720" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.16720" target="_blank" rel="noopener">APEX-SQL: Talking to the data via Agentic Exploration for Text-to-SQL</a></h3>
      <p class="summary">Text-to-SQL systems powered by Large Language Models have excelled on academic benchmarks but struggle in complex enterprise environments.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4acf5620f130" data-article-url="https://arxiv.org/abs/2602.16745" data-article-title="PETS: A Principled Framework Towards Optimal Trajectory Allocation for Efficient Test-Time Self-Consistency" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.16745" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.16745" target="_blank" rel="noopener">PETS: A Principled Framework Towards Optimal Trajectory Allocation for Efficient Test-Time Self-Consistency</a></h3>
      <p class="summary">Test-time scaling can improve model performance by aggregating stochastic reasoning trajectories. However, achieving sample-efficient test-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d94533335e8e" data-article-url="https://arxiv.org/abs/2602.18008" data-article-title="Are LLMs Ready for Neural-integrated Mechanistic Modeling? A Benchmark and Agentic Framework" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.18008" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.18008" target="_blank" rel="noopener">Are LLMs Ready for Neural-integrated Mechanistic Modeling? A Benchmark and Agentic Framework</a></h3>
      <p class="summary">Large language models (LLMs) have shown promise in constructing mechanistic models from data. However, existing evaluations largely focus o…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="56de034dd264" data-article-url="https://arxiv.org/abs/2602.18195" data-article-title="LERD: Latent Event-Relational Dynamics for Neurodegenerative Classification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.18195" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.18195" target="_blank" rel="noopener">LERD: Latent Event-Relational Dynamics for Neurodegenerative Classification</a></h3>
      <p class="summary">Alzheimer&#x27;s disease (AD) alters brain electrophysiology and disrupts multichannel EEG dynamics, making accurate and clinically useful EEG-b…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="abcd0284f039" data-article-url="https://arxiv.org/abs/2602.19066" data-article-title="IDLM: Inverse-distilled Diffusion Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.19066" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.19066" target="_blank" rel="noopener">IDLM: Inverse-distilled Diffusion Language Models</a></h3>
      <p class="summary">Diffusion Language Models (DLMs) have recently achieved strong results in text generation. However, their multi-step sampling leads to slow…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0b21cf0ae7d2" data-article-url="https://arxiv.org/abs/2602.20019" data-article-title="Learning Discriminative and Generalizable Anomaly Detector for Dynamic Graph with Limited Supervision" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.20019" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.20019" target="_blank" rel="noopener">Learning Discriminative and Generalizable Anomaly Detector for Dynamic Graph with Limited Supervision</a></h3>
      <p class="summary">Dynamic graph anomaly detection is critical for many real-world applications but remains challenging due to the scarcity of labeled anomali…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d8e775f7736f" data-article-url="https://arxiv.org/abs/2602.22101" data-article-title="On Imbalanced Regression with Hoeffding Trees" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.22101" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.22101" target="_blank" rel="noopener">On Imbalanced Regression with Hoeffding Trees</a></h3>
      <p class="summary">Many real-world applications generate continuous data streams for regression. Hoeffding trees and their variants have a long-standing tradi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4fe784407536" data-article-url="https://arxiv.org/abs/2602.22221" data-article-title="Evaluating Reliability Asymmetries in Chinese Factual Search and AI Answers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.22221" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.22221" target="_blank" rel="noopener">Evaluating Reliability Asymmetries in Chinese Factual Search and AI Answers</a></h3>
      <p class="summary">Search engines and AI-powered systems increasingly mediate access to factual information, yet their reliability remains difficult to evalua…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="46ba48a59cd7" data-article-url="https://arxiv.org/abs/2602.23234" data-article-title="Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.23234" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.23234" target="_blank" rel="noopener">Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments</a></h3>
      <p class="summary">Large-scale commercial search systems optimize for relevance to drive successful sessions that help users find what they are looking for. T…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="174620e52922" data-article-url="https://arxiv.org/abs/2602.23694" data-article-title="Interpretable Multimodal Gesture Recognition for Drone and Mobile Robot Teleoperation via Log-Likelihood Ratio Fusion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.23694" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.23694" target="_blank" rel="noopener">Interpretable Multimodal Gesture Recognition for Drone and Mobile Robot Teleoperation via Log-Likelihood Ratio Fusion</a></h3>
      <p class="summary">Human operators are still frequently exposed to hazardous environments such as disaster zones and industrial facilities, where intuitive an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3723f0d1879e" data-article-url="https://arxiv.org/abs/2603.00133" data-article-title="You Don&#x27;t Need All That Attention: Surgical Memorization Mitigation in Text-to-Image Diffusion Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.00133" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.00133" target="_blank" rel="noopener">You Don&#x27;t Need All That Attention: Surgical Memorization Mitigation in Text-to-Image Diffusion Models</a></h3>
      <p class="summary">Generative models have been shown to &quot;memorize&quot; certain training data, leading to verbatim or near-verbatim generating images, which may ca…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="58f6546d4a45" data-article-url="https://arxiv.org/abs/2603.00171" data-article-title="LookWise: Knowing When and Where to Look for Fine-Grained Visual Reasoning in Multimodal Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.00171" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.00171" target="_blank" rel="noopener">LookWise: Knowing When and Where to Look for Fine-Grained Visual Reasoning in Multimodal Large Language Models</a></h3>
      <p class="summary">Multimodal Large Language Models (MLLMs) are shifting towards &quot;Thinking with Images&quot; by actively exploring image details. While effective,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9e49e3d4eede" data-article-url="https://arxiv.org/abs/2603.00829" data-article-title="Constitutional Black-Box Monitoring for Scheming in LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.00829" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.00829" target="_blank" rel="noopener">Constitutional Black-Box Monitoring for Scheming in LLM Agents</a></h3>
      <p class="summary">Safe deployment of Large Language Model (LLM) agents in autonomous settings requires reliable oversight mechanisms. A central challenge is…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="de624f718e7d" data-article-url="https://arxiv.org/abs/2603.02237" data-article-title="Concept Heterogeneity-aware Representation Steering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.02237" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.02237" target="_blank" rel="noopener">Concept Heterogeneity-aware Representation Steering</a></h3>
      <p class="summary">Representation steering offers a lightweight mechanism for controlling the behavior of large language models (LLMs) by intervening on inter…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="73cd613ce040" data-article-url="https://arxiv.org/abs/2603.02346" data-article-title="Large Electron Model: A Universal Ground State Predictor" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.02346" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.02346" target="_blank" rel="noopener">Large Electron Model: A Universal Ground State Predictor</a></h3>
      <p class="summary">We introduce Large Electron Model, a single neural network model that produces variational wavefunctions of interacting electrons over the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b31ff62c375f" data-article-url="https://arxiv.org/abs/2603.02650" data-article-title="Improving Diffusion Planners by Self-Supervised Action Gating with Energies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.02650" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.02650" target="_blank" rel="noopener">Improving Diffusion Planners by Self-Supervised Action Gating with Energies</a></h3>
      <p class="summary">Diffusion planners are a strong approach for offline reinforcement learning, but they can fail when value-guided selection favours trajecto…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="24ac4cb3504e" data-article-url="https://arxiv.org/abs/2603.02845" data-article-title="SPARC: Spatial-Aware Path Planning via Attentive Agent Communication" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.02845" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.02845" target="_blank" rel="noopener">SPARC: Spatial-Aware Path Planning via Attentive Agent Communication</a></h3>
      <p class="summary">Efficient communication is critical for decentralized Multi-Robot Path Planning (MRPP), yet existing learned communication methods treat al…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ab031a9a679a" data-article-url="https://arxiv.org/abs/2603.03291" data-article-title="One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.03291" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.03291" target="_blank" rel="noopener">One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models</a></h3>
      <p class="summary">Reward Models (RMs) are crucial for online alignment of language models (LMs) with human preferences. However, RM-based preference-tuning i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1861f213b692" data-article-url="https://arxiv.org/abs/2603.03312" data-article-title="Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.03312" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.03312" target="_blank" rel="noopener">Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding</a></h3>
      <p class="summary">Decoding natural language from non-invasive EEG signals is a promising yet challenging task. However, current state-of-the-art models remai…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="72b8c742681f" data-article-url="https://arxiv.org/abs/2603.03741" data-article-title="HALO: Learning Human-Robot Collaboration via Heterogeneous-Agent Lyapunov Policy Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.03741" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.03741" target="_blank" rel="noopener">HALO: Learning Human-Robot Collaboration via Heterogeneous-Agent Lyapunov Policy Optimization</a></h3>
      <p class="summary">To improve generalization and resilience in human-robot collaboration (HRC), robots must contend with diverse combinations of human behavio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ef254b010834" data-article-url="https://arxiv.org/abs/2603.05308" data-article-title="Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.05308" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.05308" target="_blank" rel="noopener">Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution</a></h3>
      <p class="summary">Assessing whether an article supports an assertion is essential for hallucination detection and claim verification. While large language mo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="123e2fc0cbe8" data-article-url="https://arxiv.org/abs/2603.06741" data-article-title="Heterogeneous Decentralized Diffusion Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.06741" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.06741" target="_blank" rel="noopener">Heterogeneous Decentralized Diffusion Models</a></h3>
      <p class="summary">Training frontier-scale diffusion models often requires substantial computational resources concentrated in tightly-coupled clusters, limit…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="67d47c8ee185" data-article-url="https://arxiv.org/abs/2603.08026" data-article-title="DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.08026" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.08026" target="_blank" rel="noopener">DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention</a></h3>
      <p class="summary">Masked diffusion language models enable parallel token decoding, providing a promising alternative to the sequential nature of autoregressi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ce2ce1ffa15d" data-article-url="https://arxiv.org/abs/2603.09692" data-article-title="ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.09692" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.09692" target="_blank" rel="noopener">ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning</a></h3>
      <p class="summary">Reinforcement Learning from Human Feedback (RLHF) has become the standard for aligning Large Language Models (LLMs), yet its efficacy is bo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3a877be53e00" data-article-url="https://arxiv.org/abs/2603.11946" data-article-title="Geometry-Aware Probabilistic Circuits via Voronoi Tessellations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.11946" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.11946" target="_blank" rel="noopener">Geometry-Aware Probabilistic Circuits via Voronoi Tessellations</a></h3>
      <p class="summary">Probabilistic circuits (PCs) enable exact and tractable inference but employ data independent mixture weights that limit their ability to c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1566f9d965a6" data-article-url="https://arxiv.org/abs/2603.13373" data-article-title="Ethical Fairness in Ubiquitous Health Sensing without Known Attributes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.13373" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.13373" target="_blank" rel="noopener">Ethical Fairness in Ubiquitous Health Sensing without Known Attributes</a></h3>
      <p class="summary">In ubiquitous and mobile health systems, computational models infer human states from wearable, behavioral, and physiological sensing data.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="01a15da8f80a" data-article-url="https://arxiv.org/abs/2603.14405" data-article-title="ES-Merging: Biological MLLM Merging via Embedding Space Signals" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.14405" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.14405" target="_blank" rel="noopener">ES-Merging: Biological MLLM Merging via Embedding Space Signals</a></h3>
      <p class="summary">Biological multimodal large language models (MLLMs) have emerged as powerful foundation models for scientific discovery. However, existing…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c7e8c8f0023" data-article-url="https://arxiv.org/abs/2603.15956" data-article-title="ExpertGen: Scalable Sim-to-Real Expert Policy Learning from Imperfect Behavior Priors" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.15956" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.15956" target="_blank" rel="noopener">ExpertGen: Scalable Sim-to-Real Expert Policy Learning from Imperfect Behavior Priors</a></h3>
      <p class="summary">Learning generalizable and robust behavior cloning policies requires large volumes of high-quality robotics data. While human demonstration…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a1045508862" data-article-url="https://arxiv.org/abs/2603.16572" data-article-title="Context Matters: Repository-Aware Security Analysis of the Agent Skill Ecosystem" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.16572" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.16572" target="_blank" rel="noopener">Context Matters: Repository-Aware Security Analysis of the Agent Skill Ecosystem</a></h3>
      <p class="summary">Agent skills extend local AI agents, such as Claude Code and OpenClaw, with additional functionality. Their growing popularity has led to d…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e463159f7696" data-article-url="https://arxiv.org/abs/2603.17893" data-article-title="scicode-lint: Detecting Methodology Bugs in Scientific Python Code with LLM-Generated Patterns" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.17893" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.17893" target="_blank" rel="noopener">scicode-lint: Detecting Methodology Bugs in Scientific Python Code with LLM-Generated Patterns</a></h3>
      <p class="summary">Methodology bugs in scientific Python code produce plausible but incorrect results that traditional linters and static analysis tools canno…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4b32d53e182f" data-article-url="https://arxiv.org/abs/2603.18016" data-article-title="MineDraft: A Framework for Batch Parallel Speculative Decoding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.18016" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.18016" target="_blank" rel="noopener">MineDraft: A Framework for Batch Parallel Speculative Decoding</a></h3>
      <p class="summary">Speculative decoding (SD) accelerates large language model inference by using a smaller draft model to propose draft tokens that are subseq…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f658913ba30" data-article-url="https://arxiv.org/abs/2603.18373" data-article-title="To See or To Please: Uncovering Visual Sycophancy and Split Beliefs in VLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.18373" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.18373" target="_blank" rel="noopener">To See or To Please: Uncovering Visual Sycophancy and Split Beliefs in VLMs</a></h3>
      <p class="summary">When VLMs answer correctly, do they genuinely rely on visual information? We introduce a Tri-Layer Diagnostic Framework with three per-samp…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7e41fe8385f4" data-article-url="https://arxiv.org/abs/2603.18652" data-article-title="Beyond String Matching: Semantic Evaluation of PDF Table Extraction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.18652" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.18652" target="_blank" rel="noopener">Beyond String Matching: Semantic Evaluation of PDF Table Extraction</a></h3>
      <p class="summary">Reliably extracting tables from PDFs is essential for large-scale scientific data mining and knowledge base construction, yet existing eval…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="29703d19d68b" data-article-url="https://arxiv.org/abs/2603.19005" data-article-title="AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.19005" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.19005" target="_blank" rel="noopener">AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science</a></h3>
      <p class="summary">Data science plays a critical role in transforming complex data into actionable insights across numerous domains. Recent developments in la…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8133513903c4" data-article-url="https://arxiv.org/abs/2603.23398" data-article-title="Graph Energy Matching: Transport-Aligned Energy-Based Modeling for Graph Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23398" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23398" target="_blank" rel="noopener">Graph Energy Matching: Transport-Aligned Energy-Based Modeling for Graph Generation</a></h3>
      <p class="summary">Generative modeling of discrete data, such as graphs, underpins many scientific and industrial applications, including molecular discovery…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="02c2f29c3953" data-article-url="https://arxiv.org/abs/2603.23485" data-article-title="Failure of contextual invariance in large language models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23485" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23485" target="_blank" rel="noopener">Failure of contextual invariance in large language models</a></h3>
      <p class="summary">Standard evaluation practices assume that large language model (LLM) outputs are stable when prompts are embedded in contextually equivalen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="35784e60782d" data-article-url="https://arxiv.org/abs/2603.23647" data-article-title="{\lambda}Split: Self-Supervised Content-Aware Spectral Unmixing for Fluorescence Microscopy" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23647" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23647" target="_blank" rel="noopener">{\lambda}Split: Self-Supervised Content-Aware Spectral Unmixing for Fluorescence Microscopy</a></h3>
      <p class="summary">In fluorescence microscopy, spectral unmixing aims to recover individual fluorophore concentrations from spectral images that capture mixed…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d1e7205a18a7" data-article-url="https://arxiv.org/abs/2603.24324" data-article-title="Large Language Model Guided Incentive Aware Reward Design for Cooperative Multi-Agent Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.24324" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.24324" target="_blank" rel="noopener">Large Language Model Guided Incentive Aware Reward Design for Cooperative Multi-Agent Reinforcement Learning</a></h3>
      <p class="summary">Designing effective auxiliary rewards for cooperative multi-agent systems remains challenging, as misaligned incentives can induce suboptim…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="74826b57d20d" data-article-url="https://arxiv.org/abs/2603.24511" data-article-title="Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.24511" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.24511" target="_blank" rel="noopener">Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs</a></h3>
      <p class="summary">We show that AI agents are capable of discovering novel algorithms for adversarial attacks against LLMs, advancing the state of the art on…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f7faa7c139cf" data-article-url="https://arxiv.org/abs/2603.26779" data-article-title="Limits of Spatial Imagery Reasoning in Frontier LLM Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.26779" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.26779" target="_blank" rel="noopener">Limits of Spatial Imagery Reasoning in Frontier LLM Models</a></h3>
      <p class="summary">Large Language Models (LLMs) have demonstrated impressive reasoning capabilities, yet they struggle with spatial tasks that require mental…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8e81c3e7fbf4" data-article-url="https://arxiv.org/abs/2603.27223" data-article-title="EuraGovExam: A Multilingual Multimodal Benchmark from Real-World Civil Service Exams" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.27223" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.27223" target="_blank" rel="noopener">EuraGovExam: A Multilingual Multimodal Benchmark from Real-World Civil Service Exams</a></h3>
      <p class="summary">We present EuraGovExam, a multilingual and multimodal benchmark sourced from real-world civil service examinations across five representati…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0aab3ebac8a8" data-article-url="https://arxiv.org/abs/2603.28825" data-article-title="Incentives, Equilibria, and the Limits of Healthcare AI: A Game-Theoretic Perspective" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.28825" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.28825" target="_blank" rel="noopener">Incentives, Equilibria, and the Limits of Healthcare AI: A Game-Theoretic Perspective</a></h3>
      <p class="summary">Using a stylised coordination problem drawn from inpatient capacity management, three archetypal forms of AI deployment are described: effo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5c0360bf4697" data-article-url="https://arxiv.org/abs/2603.29002" data-article-title="Understand and Accelerate Memory Processing Pipeline for Large Language Model Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.29002" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.29002" target="_blank" rel="noopener">Understand and Accelerate Memory Processing Pipeline for Large Language Model Inference</a></h3>
      <p class="summary">Modern large language models (LLMs) increasingly depends on efficient long-context processing and generation mechanisms, including sparse a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7e47d3b06169" data-article-url="https://arxiv.org/abs/2604.01562" data-article-title="Acoustic and perceptual differences between standard and accented speech and their voice clones" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.01562" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.01562" target="_blank" rel="noopener">Acoustic and perceptual differences between standard and accented speech and their voice clones</a></h3>
      <p class="summary">Voice cloning is often evaluated in terms of overall quality, but less is known about accent preservation and its perceptual consequences.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="773290572e5e" data-article-url="https://arxiv.org/abs/2604.03789" data-article-title="Automated Conjecture Resolution with Formal Verification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.03789" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.03789" target="_blank" rel="noopener">Automated Conjecture Resolution with Formal Verification</a></h3>
      <p class="summary">Recent advances in large language models have significantly improved their ability to perform mathematical reasoning, extending from elemen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ceac0ddc06cf" data-article-url="https://arxiv.org/abs/2604.04958" data-article-title="CalM: A Self-Supervised Foundation Model for Population Dynamics in Calcium Imaging Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.04958" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.04958" target="_blank" rel="noopener">CalM: A Self-Supervised Foundation Model for Population Dynamics in Calcium Imaging Data</a></h3>
      <p class="summary">Recent work suggests that large-scale, multi-animal modeling can significantly improve neural recording analysis. However, for functional c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7704bd0fc508" data-article-url="https://arxiv.org/abs/2604.06210" data-article-title="Distributional Open-Ended Evaluation of LLM Cultural Value Alignment Based on Value Codebook" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.06210" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.06210" target="_blank" rel="noopener">Distributional Open-Ended Evaluation of LLM Cultural Value Alignment Based on Value Codebook</a></h3>
      <p class="summary">As LLMs are globally deployed, aligning their cultural value orientations is critical for safety and user engagement. However, existing ben…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="54787ed62ac3" data-article-url="https://arxiv.org/abs/2604.07967" data-article-title="AtomEval: Validity-Aware Atomic Evaluation of Adversarial Claim Rewriting in Fact Verification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.07967" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.07967" target="_blank" rel="noopener">AtomEval: Validity-Aware Atomic Evaluation of Adversarial Claim Rewriting in Fact Verification</a></h3>
      <p class="summary">Large language models (LLMs) can rewrite refuted claims to evade evidence-based fact verifiers, but conventional attack success rate (ASR)…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ff1240a9916e" data-article-url="https://arxiv.org/abs/2604.08324" data-article-title="Multi-Modal Learning meets Genetic Programming: Analyzing Alignment in Latent Space Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.08324" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.08324" target="_blank" rel="noopener">Multi-Modal Learning meets Genetic Programming: Analyzing Alignment in Latent Space Optimization</a></h3>
      <p class="summary">Symbolic regression (SR) aims to discover mathematical expressions from data, a task traditionally tackled using Genetic Programming (GP) t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="162d21b6a658" data-article-url="https://arxiv.org/abs/2604.09041" data-article-title="U-Cast: A Surprisingly Simple and Efficient Frontier Probabilistic AI Weather Forecaster" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.09041" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.09041" target="_blank" rel="noopener">U-Cast: A Surprisingly Simple and Efficient Frontier Probabilistic AI Weather Forecaster</a></h3>
      <p class="summary">AI-based weather forecasting now rivals traditional physics-based ensembles, but state-of-the-art (SOTA) models rely on specialized archite…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bebbbdb1b585" data-article-url="https://arxiv.org/abs/2604.09063" data-article-title="Frequency-Enhanced Diffusion Models: Curriculum-Guided Semantic Alignment for Zero-Shot Skeleton Action Recognition" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.09063" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.09063" target="_blank" rel="noopener">Frequency-Enhanced Diffusion Models: Curriculum-Guided Semantic Alignment for Zero-Shot Skeleton Action Recognition</a></h3>
      <p class="summary">Human action recognition is pivotal in computer vision, with applications ranging from surveillance to human-robot interaction. Despite the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="670cdc3cc834" data-article-url="https://arxiv.org/abs/2604.09549" data-article-title="Beyond Offline A/B Testing: Context-Aware Agent Simulation for Recommender System Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.09549" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.09549" target="_blank" rel="noopener">Beyond Offline A/B Testing: Context-Aware Agent Simulation for Recommender System Evaluation</a></h3>
      <p class="summary">Recommender systems are central to online services, enabling users to navigate through massive amounts of content across various domains. H…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2c45859c05b3" data-article-url="https://arxiv.org/abs/2604.09877" data-article-title="Genie 4D: Semantic-Prior-Guided 4D Dynamic Scene Reconstruction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.09877" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.09877" target="_blank" rel="noopener">Genie 4D: Semantic-Prior-Guided 4D Dynamic Scene Reconstruction</a></h3>
      <p class="summary">At the intersection of computer vision and robotic perception, 4D reconstruction of dynamic scenes connects low-level geometric sensing wit…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="746311340b89" data-article-url="https://arxiv.org/abs/2604.10579" data-article-title="AffordGen: Generating Diverse Demonstrations for Generalizable Object Manipulation with Afford Correspondence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.10579" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.10579" target="_blank" rel="noopener">AffordGen: Generating Diverse Demonstrations for Generalizable Object Manipulation with Afford Correspondence</a></h3>
      <p class="summary">Despite the recent success of modern imitation learning methods in robot manipulation, their performance is often constrained by geometric…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ee00d6689b63" data-article-url="https://arxiv.org/abs/2604.10645" data-article-title="Vibe-driven model-based engineering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.10645" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.10645" target="_blank" rel="noopener">Vibe-driven model-based engineering</a></h3>
      <p class="summary">There is a pressing need for better development methods and tools to keep up with the growing demand and increasing complexity of new softw…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="80355153a5a3" data-article-url="https://arxiv.org/abs/2604.10688" data-article-title="SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.10688" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.10688" target="_blank" rel="noopener">SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting</a></h3>
      <p class="summary">On-policy reinforcement learning has become the dominant paradigm for reasoning alignment in large language models, yet its sparse, outcome…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="45ecf4b17087" data-article-url="https://arxiv.org/abs/2604.10788" data-article-title="TInR: Exploring Tool-Internalized Reasoning in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.10788" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.10788" target="_blank" rel="noopener">TInR: Exploring Tool-Internalized Reasoning in Large Language Models</a></h3>
      <p class="summary">Tool-Integrated Reasoning (TIR) has emerged as a promising direction by extending Large Language Models&#x27; (LLMs) capabilities with external…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d44c7ecaf046" data-article-url="https://arxiv.org/abs/2604.13517" data-article-title="ルーティングよりも表現: マルチタイムスケール PPO におけるサロゲート ハッキングを克服する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.13517" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.13517" target="_blank" rel="noopener">ルーティングよりも表現: マルチタイムスケール PPO におけるサロゲート ハッキングを克服する</a></h3>
      <p class="summary">強化学習における時間単位の割り当ては、長い間中心的な課題でした。神経生物学におけるドーパミンシステムのマルチタイムスケールエンコーディングに触発された最近の研究では、短期的な反応と長期的な計画のバランスをとるために、近接ポリシー最適化（PPO）などのアクタークリティックアーキテクチャに複数の割引係数を導入することが試みられています。しかし、この論文は、複雑な遅延報酬タスクでマルチタイムスケールの信号を盲目的に融合すると、深刻なアルゴリズムの病理につながる可能性があることを明らかにしています。私たちは、時間的注意ルーティングメカニズムをポリシー勾配にさらすと代理目的ハッキングが発生する一方、勾配のない不確実性重み付けを採用すると不可逆的な近視性変性が引き起こされることを系統的に実証し、この現象を時間的不確実性のパラドックスと呼んでいます。これらの問題に対処するために、私たちはターゲット デカップリング アーキテクチャを提案します。クリティック側ではマルチタイムスケールの予測を保持して補助表現学習を強制しますが、アクター側では短期シグナルを厳密に分離し、長期的な利点のみに基づいてポリシーを更新します。 LunarLander-v2 環境における複数の独立したランダム シードにわたる厳密な経験的評価により、提案したアーキテクチャが統計的に有意なパフォーマンス向上を達成することが実証されました。ハイパーパラメータのハッキングに依存することなく、最小限の変動で一貫して「環境解決済み」のしきい値を超え、ポリシーの崩壊を完全に排除し、単一タイムスケールのベースラインを捕らえる局所最適値の変動を回避します。私たちの実験を再現するためのソース コードは、https://github.com/ben-dlwlrma/Representation-Over-Routing で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Representation over Routing: Diagnosing Temporal Routing Pathologies in Multi-Timescale PPO</p>
        <p class="orig-summary">Temporal credit assignment in reinforcement learning is often approached by introducing value estimates at multiple discount factors. A natural next step is to let the actor dynamically route among these temporal heads, using either differentiable attention or heuristic uncertainty weights. This paper argues that such routing can create a numerical shortcut rather than a reliable temporal abstraction. We study this issue in a controlled PPO setting on LunarLander-v2, using the environment as a visual sandbox for diagnosing failure modes. First, we formalize Surrogate Objective Hacking: a differentiable softmax router exposed to the PPO surrogate receives a direct gradient toward advantage heads that are numerically favorable for the current update, even when this routing change does not correspond to improved physical control. Because unnormalized advantages at different discount factors have different effective scales, this creates a scale-discrepancy vulnerability. Second, we identify the Paradox of Temporal Uncertainty in gradient-free error-based routing: short-horizon heads can receive the largest routing share because their prediction targets are easier, even when they are less aligned with delayed task success. As a structural response, we study Target Decoupling: the critic may retain multi-timescale auxiliary heads, but the actor is updated only with the long-horizon advantage. Target Decoupling is not presented as a broad performance booster; in this run set it removes the exploitable actor-side routing pathway and improves the observed worst-seed return. Code is available at https://github.com/ben-dlwlrma/Representation-Over-Routing.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a61634917844" data-article-url="https://arxiv.org/abs/2604.15713" data-article-title="Just Type It in Isabelle! AI Agents Drafting, Mechanizing, and Generalizing from Human Hints" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.15713" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.15713" target="_blank" rel="noopener">Just Type It in Isabelle! AI Agents Drafting, Mechanizing, and Generalizing from Human Hints</a></h3>
      <p class="summary">Type annotations are essential when printing terms in a way that preserves their meaning under reparsing and type inference. We study the p…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7b76d1764ce7" data-article-url="https://arxiv.org/abs/2604.17415" data-article-title="Reward Score Matching: Unifying Reward-based Fine-tuning for Flow and Diffusion Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.17415" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.17415" target="_blank" rel="noopener">Reward Score Matching: Unifying Reward-based Fine-tuning for Flow and Diffusion Models</a></h3>
      <p class="summary">Reward-based fine-tuning steers a pretrained diffusion or flow-based generative model toward higher-reward samples while remaining close to…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="87d9429c9feb" data-article-url="https://arxiv.org/abs/2604.17473" data-article-title="Dual-Anchoring: Addressing State Drift in Vision-Language Navigation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.17473" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.17473" target="_blank" rel="noopener">Dual-Anchoring: Addressing State Drift in Vision-Language Navigation</a></h3>
      <p class="summary">Vision-Language Navigation(VLN) requires an agent to navigate through 3D environments by following natural language instructions. While rec…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9b98aa013799" data-article-url="https://arxiv.org/abs/2604.19532" data-article-title="BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.19532" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.19532" target="_blank" rel="noopener">BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps</a></h3>
      <p class="summary">Tokenizing music to fit the general framework of language models is a compelling challenge, especially considering the diverse symbolic str…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="179fe378a1be" data-article-url="https://arxiv.org/abs/2604.20861" data-article-title="Deep Interest Mining for Intent-Enriched Semantic IDs in Multimodal Generative Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.20861" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.20861" target="_blank" rel="noopener">Deep Interest Mining for Intent-Enriched Semantic IDs in Multimodal Generative Recommendation</a></h3>
      <p class="summary">Semantic IDs (SIDs) provide the discrete item vocabulary used by generative recommendation, but their quality depends on what item evidence…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0ed69e71baad" data-article-url="https://arxiv.org/abs/2604.23658" data-article-title="FlowPlace: Flow Matching for Chip Placement" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.23658" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.23658" target="_blank" rel="noopener">FlowPlace: Flow Matching for Chip Placement</a></h3>
      <p class="summary">Chip placement plays an important role in physical design. While generative models like diffusion models offer promising learning-based sol…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d0ac88ac62ca" data-article-url="https://arxiv.org/abs/2604.25191" data-article-title="How Can Reinforcement Learning Achieve Expert-level Placement?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.25191" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.25191" target="_blank" rel="noopener">How Can Reinforcement Learning Achieve Expert-level Placement?</a></h3>
      <p class="summary">Chip placement is a critical step in physical design. While reinforcement learning (RL)-based methods have recently emerged, their training…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="806639d304f8" data-article-url="https://arxiv.org/abs/2604.26283" data-article-title="MedSynapse-V: Bridging Visual Perception and Clinical Intuition via Latent Memory Evolution" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.26283" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.26283" target="_blank" rel="noopener">MedSynapse-V: Bridging Visual Perception and Clinical Intuition via Latent Memory Evolution</a></h3>
      <p class="summary">High-precision medical diagnosis relies not only on static imaging features but also on the implicit diagnostic memory experts instantly in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6cea7fe70633" data-article-url="https://arxiv.org/abs/2604.26977" data-article-title="Defeasible Conditional Obligation in a Two-tiered Preference-based Semantics (Extended Version)" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.26977" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.26977" target="_blank" rel="noopener">Defeasible Conditional Obligation in a Two-tiered Preference-based Semantics (Extended Version)</a></h3>
      <p class="summary">In response to a concern raised by Horty, this paper develops a two-tiered, preference-based semantic framework for modeling defeasible con…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="44feab2c8481" data-article-url="https://arxiv.org/abs/2605.00310" data-article-title="Beyond Visual Fidelity: Benchmarking Super-Resolution Models for Large-Scale Remote Sensing Imagery via Downstream Task Integration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.00310" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.00310" target="_blank" rel="noopener">Beyond Visual Fidelity: Benchmarking Super-Resolution Models for Large-Scale Remote Sensing Imagery via Downstream Task Integration</a></h3>
      <p class="summary">Super-resolution (SR) techniques have made major advances in reconstructing high-resolution images from low-resolution inputs. The increase…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c166f7c84a7d" data-article-url="https://arxiv.org/abs/2605.00600" data-article-title="Possibilistic Predictive Uncertainty for Deep Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.00600" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.00600" target="_blank" rel="noopener">Possibilistic Predictive Uncertainty for Deep Learning</a></h3>
      <p class="summary">Deep neural networks achieve impressive results across diverse applications, yet their overconfidence on unseen inputs necessitates reliabl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="db90ed8f6860" data-article-url="https://arxiv.org/abs/2605.02122" data-article-title="STABLEVAL: Disagreement-Aware and Stable Evaluation of AI Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.02122" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.02122" target="_blank" rel="noopener">STABLEVAL: Disagreement-Aware and Stable Evaluation of AI Systems</a></h3>
      <p class="summary">Human evaluation remains the primary standard for assessing modern AI systems, yet annotator disagreement, bias, and variability make syste…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="20b467e6689e" data-article-url="https://arxiv.org/abs/2605.04638" data-article-title="Gradients with Respect to Semantics Preserving Embeddings Tell the Uncertainty of Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.04638" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.04638" target="_blank" rel="noopener">Gradients with Respect to Semantics Preserving Embeddings Tell the Uncertainty of Large Language Models</a></h3>
      <p class="summary">Uncertainty quantification (UQ) is an important technique for ensuring the trustworthiness of LLMs, given their tendency to hallucinate. Ex…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="de089a8f7089" data-article-url="https://arxiv.org/abs/2605.05220" data-article-title="MidSteer: Optimal Affine Framework for Steering Generative Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.05220" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.05220" target="_blank" rel="noopener">MidSteer: Optimal Affine Framework for Steering Generative Models</a></h3>
      <p class="summary">Steering intermediate representations has emerged as a powerful strategy for controlling generative models, particularly in post-deployment…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="259d952a2066" data-article-url="https://arxiv.org/abs/2605.07061" data-article-title="Do Joint Audio-Video Generation Models Understand Physics?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.07061" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.07061" target="_blank" rel="noopener">Do Joint Audio-Video Generation Models Understand Physics?</a></h3>
      <p class="summary">Joint audio-video generation models are rapidly approaching professional production quality, raising a central question: do they understand…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="51616757df54" data-article-url="https://arxiv.org/abs/2605.07527" data-article-title="Why Self-Inconsistency Arises in GNN Explanations and How to Exploit It" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.07527" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.07527" target="_blank" rel="noopener">Why Self-Inconsistency Arises in GNN Explanations and How to Exploit It</a></h3>
      <p class="summary">Recent work has observed that explanations produced by Self-Interpretable Graph Neural Networks (SI-GNNs) can be self-inconsistent: when th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d63b3a04cc35" data-article-url="https://arxiv.org/abs/2605.07804" data-article-title="Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.07804" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.07804" target="_blank" rel="noopener">Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning</a></h3>
      <p class="summary">On-policy distillation (OPD) leverages dense teacher rewards to enhance reasoning models. However, scaling OPD to long-horizon tasks expose…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="15c0f0b38bbf" data-article-url="https://arxiv.org/abs/2605.08193" data-article-title="Normalization Equivariance for Arbitrary Backbones, with Application to Image Denoising" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.08193" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.08193" target="_blank" rel="noopener">Normalization Equivariance for Arbitrary Backbones, with Application to Image Denoising</a></h3>
      <p class="summary">Normalization Equivariance (NE) is a structural prior that improves robustness to distribution shift in image-to-image tasks. A function $f…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c5b856cf965a" data-article-url="https://arxiv.org/abs/2605.09253" data-article-title="Cornerstones or Stumbling Blocks? Deciphering the Rock Tokens in On-Policy Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.09253" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.09253" target="_blank" rel="noopener">Cornerstones or Stumbling Blocks? Deciphering the Rock Tokens in On-Policy Distillation</a></h3>
      <p class="summary">While recent work in Reinforcement Learning with Verifiable Rewards (RLVR) has shown that a small subset of critical tokens disproportionat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d544672d58a3" data-article-url="https://arxiv.org/abs/2605.09883" data-article-title="The Cartesian Shortcut: Re-evaluate Vision Reasoning in Polar Coordinate Space" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.09883" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.09883" target="_blank" rel="noopener">The Cartesian Shortcut: Re-evaluate Vision Reasoning in Polar Coordinate Space</a></h3>
      <p class="summary">As current Multimodal Large Language Models rapidly saturate canonical visual reasoning benchmarks, a key question emerges: do these strong…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b76449533d30" data-article-url="https://arxiv.org/abs/2605.12400" data-article-title="OGLS-SD: On-Policy Self-Distillation with Outcome-Guided Logit Steering for LLM Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.12400" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.12400" target="_blank" rel="noopener">OGLS-SD: On-Policy Self-Distillation with Outcome-Guided Logit Steering for LLM Reasoning</a></h3>
      <p class="summary">We study on-policy self-distillation (OPSD), where a language model improves its reasoning ability by distilling privileged teacher distrib…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d6865fdc0962" data-article-url="https://arxiv.org/abs/2605.12652" data-article-title="Multi-Rollout On-Policy Distillation via Peer Successes and Failures" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.12652" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.12652" target="_blank" rel="noopener">Multi-Rollout On-Policy Distillation via Peer Successes and Failures</a></h3>
      <p class="summary">Large language models are often post-trained with sparse verifier rewards, which indicate whether a sampled trajectory succeeds but provide…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="136d5ef54de8" data-article-url="https://arxiv.org/abs/2605.12813" data-article-title="REALISTA: Realistic Latent Adversarial Attacks that Elicit LLM Hallucinations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.12813" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.12813" target="_blank" rel="noopener">REALISTA: Realistic Latent Adversarial Attacks that Elicit LLM Hallucinations</a></h3>
      <p class="summary">Large language models (LLMs) achieve strong performance across many tasks but remain vulnerable to hallucinations, making it important to s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f9f4b53b75ee" data-article-url="https://arxiv.org/abs/2605.12895" data-article-title="RISED: A Pre-Deployment Evaluation Framework for High-Stakes AI Decision-Support Systems, with Application to Healthcare" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.12895" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.12895" target="_blank" rel="noopener">RISED: A Pre-Deployment Evaluation Framework for High-Stakes AI Decision-Support Systems, with Application to Healthcare</a></h3>
      <p class="summary">Clinical decision-support systems are expert systems whose recommendations clinicians act on directly, yet they are usually cleared on one…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aa90582defd3" data-article-url="https://arxiv.org/abs/2605.12969" data-article-title="Revisiting Reinforcement Learning with Verifiable Rewards from a Contrastive Perspective" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.12969" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.12969" target="_blank" rel="noopener">Revisiting Reinforcement Learning with Verifiable Rewards from a Contrastive Perspective</a></h3>
      <p class="summary">Group Relative Policy Optimization (GRPO) is one of the most widely adopted RLVR algorithms for post-training large language models on reas…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8b35d431d995" data-article-url="https://arxiv.org/abs/2605.13178" data-article-title="CLIP Tricks You: Training-free Token Pruning for Efficient Pixel Grounding in Large VIsion-Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13178" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13178" target="_blank" rel="noopener">CLIP Tricks You: Training-free Token Pruning for Efficient Pixel Grounding in Large VIsion-Language Models</a></h3>
      <p class="summary">In large vision-language models, visual tokens typically constitute the majority of input tokens, leading to substantial computational over…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5e7a4c8f7795" data-article-url="https://arxiv.org/abs/2605.13430" data-article-title="Towards a holistic understanding of Selection Bias for Causal Effect Identification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13430" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13430" target="_blank" rel="noopener">Towards a holistic understanding of Selection Bias for Causal Effect Identification</a></h3>
      <p class="summary">Selection bias is pervasive in observational studies. For example, large scale biobanks data can exhibit ``healthy volunteer bias&#x27;&#x27; when re…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c75c876c1ef6" data-article-url="https://arxiv.org/abs/2605.13511" data-article-title="Many-Shot CoT-ICL: Making In-Context Learning Truly Learn" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13511" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13511" target="_blank" rel="noopener">Many-Shot CoT-ICL: Making In-Context Learning Truly Learn</a></h3>
      <p class="summary">While many-shot ICL achieves remarkable performance, prior studies of its scaling behavior have mainly focused on non-reasoning tasks. In t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4b4b7a05b20" data-article-url="https://arxiv.org/abs/2605.13548" data-article-title="AttenA+: Rectifying Action Inequality in Robotic Foundation Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13548" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13548" target="_blank" rel="noopener">AttenA+: Rectifying Action Inequality in Robotic Foundation Models</a></h3>
      <p class="summary">Existing robotic foundation models, while powerful, are predicated on an implicit assumption of temporal homogeneity: treating all actions…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7a95516223b5" data-article-url="https://arxiv.org/abs/2605.13834" data-article-title="Topology-Preserving Neural Operator Learning via Hodge Decomposition" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13834" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13834" target="_blank" rel="noopener">Topology-Preserving Neural Operator Learning via Hodge Decomposition</a></h3>
      <p class="summary">In this paper, we study solution operators of physical field equations on geometric meshes from a function-space perspective. We reveal tha…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f77b4842fde2" data-article-url="https://arxiv.org/abs/2605.14791" data-article-title="Beyond AI as Assistants: Toward Autonomous Discovery in Cosmology" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.14791" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.14791" target="_blank" rel="noopener">Beyond AI as Assistants: Toward Autonomous Discovery in Cosmology</a></h3>
      <p class="summary">Recent advances in artificial intelligence (AI) agents are pushing AI beyond tools toward autonomous scientific discovery. We discuss two c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6d013b130f73" data-article-url="https://arxiv.org/abs/2605.15229" data-article-title="PBT-Bench: Benchmarking AI Agents on Property-Based Testing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.15229" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.15229" target="_blank" rel="noopener">PBT-Bench: Benchmarking AI Agents on Property-Based Testing</a></h3>
      <p class="summary">Existing code benchmarks measure whether an agent can produce any test that reproduces a known bug, or whether it can produce a patch that…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ba82d758cb4" data-article-url="https://arxiv.org/abs/2605.16446" data-article-title="Avoiding Structural Failure Modes in Tabular Fair SSL: Online Primal-Dual Allocation under Confidence Gating" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.16446" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.16446" target="_blank" rel="noopener">Avoiding Structural Failure Modes in Tabular Fair SSL: Online Primal-Dual Allocation under Confidence Gating</a></h3>
      <p class="summary">Semi-supervised learning (SSL) enables prediction with limited labels, but high-stakes tabular applications (medical, credit, recidivism) r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fe7f63af124c" data-article-url="https://arxiv.org/abs/2605.16451" data-article-title="Physics-Guided Geometric Diffusion for Macro Placement Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.16451" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.16451" target="_blank" rel="noopener">Physics-Guided Geometric Diffusion for Macro Placement Generation</a></h3>
      <p class="summary">Macro placement is a pivotal stage in VLSI physical design, fundamentally determining the overall chip performance. Recent data-driven plac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d6e682759d3f" data-article-url="https://arxiv.org/abs/2605.17034" data-article-title="Privacy Policy Enforcement Guardrails for Data-Sensitive Retrieval-Augmented Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.17034" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.17034" target="_blank" rel="noopener">Privacy Policy Enforcement Guardrails for Data-Sensitive Retrieval-Augmented Generation</a></h3>
      <p class="summary">Standard PII filters often miss contextual data leakage in RAG systems, such as non-regulated attribute clusters that collectively identify…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1bc698d02cd9" data-article-url="https://arxiv.org/abs/2605.17109" data-article-title="DynMuon: ミュオンの動的スペクトル形成ビュー" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.17109" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.17109" target="_blank" rel="noopener">DynMuon: ミュオンの動的スペクトル形成ビュー</a></h3>
      <p class="summary">近年、Muon は、大規模な言語モデルやより広範なトランスフォーマーをトレーニングするための有力な方法として台頭しています。標準の勾配降下法と比較した場合の本質的な違いは、通常の更新行列 $M=U\Sigma V^\top$ をその極因子 $UV^\top$ に置き換えることです。この研究では、Muon のような更新のクラスを考慮します。そこでは、いくつかのパラメータ $p$ について、更新 $M$ を $U\Sigma^p V^\top$ に置き換えます。我々はこれを「スペクトル整形」操作と呼び、(a) 損失関数の局所曲率、(b) 確率的勾配とラベルノイズから生じるノイズ、(c) トレーニング段階に依存する $p$ を選択する方法の理論を開発します。私たちの理論と実験により、これまで見落とされていた動作が明らかになりました。正の $p$ は、曲率の高い方向を強調し、信号の収縮を加速することで初期に役立ちますが、緩やかに負の $p$ は、有用なトレーニング信号がまだ含まれている曲率の低い方向に更新強度を再割り当てすることで、後で役立ちます。この洞察に基づいて、トレーニング中に $p$ を正からわずかに負にスケジュールする効率的な動的スペクトル整形手法である DynMuon を提案します。モデルのサイズ、アーキテクチャ、トレーニング設定にわたる広範な実験により、DynMuon は Muon よりも一貫して低い検証損失を達成しながら、同じ目標損失に到達するために必要なステップが 10.6 ～ 26.5% 少ないことが示されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DynMuon: A Dynamic Spectral Shaping View of Muon</p>
        <p class="orig-summary">In recent years, Muon has emerged as the dominant method for training large language models, and transformers more broadly. The essential difference, when compared to standard gradient descent methods, is to replace the usual update matrix $M=U\Sigma V^\top$ with its polar factor $UV^\top$. In this work, we consider a class of Muon-like updates, where we replace the update $M$ with $U\Sigma^p V^\top$ for some parameter $p$. We call this a &quot;spectral-shaping&quot; operation, and develop a theory of how to pick $p$ which depends on (a) local curvature of the loss function, (b) noise stemming from stochastic gradients and label noise, and (c) training stage. Our theory and experimentation reveal a previously overlooked behavior: positive $p$ helps early by emphasizing high-curvature directions and accelerating signal contraction, while mildly negative $p$ helps later by reallocating update strength toward low-curvature directions that still contain useful training signals. Building on the insight, we propose DynMuon, an efficient dynamic spectral shaping method that schedules $p$ from positive to mildly negative over training. Extensive experiments across model sizes, architectures, and training settings show that DynMuon consistently achieves lower validation loss than Muon, while requiring 10.6-26.5% fewer steps to reach the same target loss. Our code is available at https://github.com/fzwark/DynMuon.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="02ad36832d11" data-article-url="https://arxiv.org/abs/2605.17839" data-article-title="Balancing Knowledge Distillation for Imbalance Learning with Bilevel Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.17839" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.17839" target="_blank" rel="noopener">Balancing Knowledge Distillation for Imbalance Learning with Bilevel Optimization</a></h3>
      <p class="summary">Knowledge distillation transfers knowledge from a high capacity teacher to a compact student using a mixture of hard and soft losses. On im…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fe7389cb75c3" data-article-url="https://arxiv.org/abs/2605.18838" data-article-title="Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.18838" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.18838" target="_blank" rel="noopener">Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling</a></h3>
      <p class="summary">Scaling laws predict loss from compute but not how capabilities interact. We measure the coupling between reasoning and truthfulness across…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="25d5ed6dd254" data-article-url="https://arxiv.org/abs/2605.20282" data-article-title="Can Vision Models Truly Forget? Mirage: Representation-Level Certification of Visual Unlearning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.20282" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.20282" target="_blank" rel="noopener">Can Vision Models Truly Forget? Mirage: Representation-Level Certification of Visual Unlearning</a></h3>
      <p class="summary">Machine unlearning in Vertical Federated Learning (VFL) has attracted growing interest, yet existing methods certify forgetting solely usin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e30ee25817a7" data-article-url="https://arxiv.org/abs/2605.20301" data-article-title="Co-Fusion4D: Spatio-temporal Collaborative Fusion for Robust 3D Object Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.20301" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.20301" target="_blank" rel="noopener">Co-Fusion4D: Spatio-temporal Collaborative Fusion for Robust 3D Object Detection</a></h3>
      <p class="summary">In autonomous driving, 3D object detection is essential for accurate perception and reliable decision-making. However, object motion and eg…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="012d6ac120de" data-article-url="https://arxiv.org/abs/2605.23995" data-article-title="医療画像解析のためのタスク整合型自己教師あり学習: 体系的なレビューと実践的な設計ガイドライン" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.23995" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.23995" target="_blank" rel="noopener">医療画像解析のためのタスク整合型自己教師あり学習: 体系的なレビューと実践的な設計ガイドライン</a></h3>
      <p class="summary">自己教師あり学習 (SSL) は、ラベルのないデータから表現を学習することで、医療画像処理におけるアノテーションのボトルネックに対処するための有望なパラダイムとして浮上しています。ただし、その有効性は口実タスクの設計と下流の臨床目的との整合性に大きく依存します。医療画像処理における SSL の体系的でタスク指向のレビューを紹介し、さまざまな口実タスクの定式化が分類、セグメンテーション、検出、その他のタスク全体のパフォーマンスにどのような影響を与えるかを検証します。 PRISMA ガイドラインに従って、2017 年から 2025 年の間に発表された 75 件の研究を分析し、対照学習、非対照学習と予測学習、生成学習と再構成ベースの学習、およびハイブリッド学習の 4 つのパラダイムに整理しました。アーキテクチャごとにメソッドをカタログ化するのではなく、各パラダイムを、それが最もよくサポートする下流の目的にマッピングします。私たちの分析によれば、普遍的に最適な SSL 戦略は存在しません。代わりに、パフォーマンスは、口実タスク、イメージングモダリティ、およびターゲットタスク間の調整によって決まります。対照的な方法は全体的な識別特徴を学習し、分類とうまく一致しますが、微妙な病理学的パターンを見落とす可能性があります。生成および空間予測ベースのアプローチは、局所的な解剖学的構造をより適切に保存するため、セグメンテーションやその他の緻密な予測タスクにより適していますが、ハイブリッド手法は最もバランスの取れたパフォーマンスを提供します。さらに、モダリティ固有の設計が重要であること、および SSL が低ラベルおよび少数ショットの領域で最大の利点を提供することを示します。最後に、これらの発見を実用的な設計ガイドラインに絞り込み、病理学を意識した口実タスク設計、高次元データのリソース効率の高いトレーニング、標準化された評価プロトコルなどの未解決の課題を概説します。この研究は、医療画像処理において、より効果的で臨床的に関連性のある SSL フレームワークを設計するための実践的なガイダンスを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Task-Aligned Self-Supervised Learning for Medical Image Analysis: A Systematic Review and Practical Design Guidelines</p>
        <p class="orig-summary">Self-supervised learning (SSL) has emerged as a promising paradigm for addressing the annotation bottleneck in medical imaging by learning representations from unlabeled data. However, its effectiveness depends heavily on the design of the pretext task and its alignment with the downstream clinical-objectives. We present a systematic, task-oriented review of SSL in medical imaging, examining how different pretext-task formulations influence performance across classification, segmentation, detection, and other tasks. Following PRISMA guidelines, we analyze 75 studies published between 2017 and 2025 and organize them into four paradigms: contrastive, non-contrastive and predictive, generative and reconstruction-based, and hybrid learning. Rather than cataloguing methods by architecture, we map each paradigm to the downstream objectives it best supports. Our analysis shows there is no universally optimal SSL strategy; instead, performance is governed by the alignment between the pretext task, the imaging modality, and the target task. Contrastive methods learn global discriminative features and align well with classification, but may overlook subtle pathological patterns. Generative and spatial prediction-based approaches better preserve local anatomical structure, making them more suitable for segmentation and other dense prediction tasks, while hybrid methods offer the most balanced performance. We further show that modality-specific design is critical and that SSL provides its greatest benefit in low-label and few-shot regimes. Finally, we distill these findings into practical design guidelines and outline open challenges, including pathology-aware pretext task design, resource-efficient training for high-dimensional data, and standardized evaluation protocols. This work offers practical guidance for designing more effective and clinically relevant SSL frameworks in medical imaging.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9eb829973026" data-article-url="https://arxiv.org/abs/2605.24248" data-article-title="証明されたツールサーバーアドミッション: モデルコンテキストプロトコルのセキュリティ拡張" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24248" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24248" target="_blank" rel="noopener">証明されたツールサーバーアドミッション: モデルコンテキストプロトコルのセキュリティ拡張</a></h3>
      <p class="summary">モデル コンテキスト プロトコル (MCP) は、大規模言語モデル (LLM) エージェントと外部ツール サーバーがメッセージを交換する方法を標準化しますが、信頼するものではありません。ホストは、どのサーバーを使用できるか、どのような感度で、どのサーバーのツールが制限されているかについては考慮せずに、サーバーの自己宣言されたツール リストを読み取り、呼び出しをディスパッチします。この取り組みは、具体的なニーズから生まれました。MCP や Enclawed 独自のツールのアプリケーション プログラミング インターフェイス (API) を変更することなく、Enclawed エージェントが Google の外部で運用されている MCP サーバー (Gmail、カレンダー、ドライブ) を安全に使用できるようにし、サーバーを許可し、サーバーが駆動する可能性のあるツールを制限するというものです。私たちが構築した、mcp 認定のメカニズム (オープンな enclawed-oss ディストリビューションと enclaved フレーバーの両方で出荷) は、一般化します。仲介されていないサードパーティ接続を 1 人のユーザーにとって安全でなくするギャップにより、規制された展開を認定することが不可能になります。これを 3 つの追加メカニズムで閉じます。(1) サーバーがよく知られた URI (Uniform Resource Identifier) で発行する小規模なオフライン署名クリアランス アサーション。ホストはツールのディスパッチ前に固定されたトラスト ルートに対して検証します。 (2) デフォルトで拒否されるサーバーごとのツール許可リストにより、サーバーがすべてのツールを信頼していないことを認める。 (3) フレーバーゲート型強制モード。チェックを警告からハード拒否に変換し、すべての決定を改ざん防止監査ログに書き込みます。ワイヤー形式、検証アルゴリズム、セキュリティ分析、LLM 主導の敵対的評価を提供します。次に、スキーマ、検証ルール、エラー レジストリ、既知の登録、機械チェック可能な適合ベクトルなど、標準的な Request-for-Comments (RFC 2119) 形式で設計を記述します。これにより、設計を再発明するのではなく、MCP の付録として採用できるようになります。拡張されていないホストは、既知のドキュメントを無視し、現在とまったく同じように動作します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Attested Tool-Server Admission: A Security Extension to the Model Context Protocol</p>
        <p class="orig-summary">The Model Context Protocol (MCP) standardizes how a large-language-model (LLM) agent and an external tool server exchange messages, but not trust: a host reads a server&#x27;s self-declared tool list and dispatches calls, with no notion of which servers it may use, at what sensitivity, or which of a server&#x27;s tools are in bounds. This work grew out of a concrete need -- letting the Enclawed agent use Google&#x27;s externally-operated MCP servers (Gmail, Calendar, Drive) safely, admitting the server and bounding the tools it may drive, without changing MCP or Enclawed&#x27;s own tool application-programming interface (API). The mechanism we built, mcp-attested (shipped in both the open enclawed-oss distribution and the enclaved flavor), generalizes: the gap that makes an unmediated third-party connection unsafe for one user makes a regulated deployment impossible to accredit. We close it with three additive mechanisms: (1) a small, offline-signed clearance assertion a server publishes at a well-known Uniform Resource Identifier (URI) and a host verifies against a pinned trust root before any tool dispatch; (2) a deny-by-default per-server tool allowlist, so admitting a server is not trusting its every tool; and (3) a flavor-gated enforcement mode that turns the checks from warnings into hard denials, with every decision written to a tamper-evident audit log. We give the wire format, the verification algorithm, a security analysis, and an LLM-driven adversarial evaluation; we then state the design in normative Request-for-Comments (RFC 2119) form -- schema, verification rules, error registry, well-known registration, and machine-checkable conformance vectors -- so it can be adopted as an MCP addendum rather than reinvented. An unextended host ignores the well-known document and behaves exactly as today.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="abb7233654e7" data-article-url="https://arxiv.org/abs/2605.24253" data-article-title="CRISP -- 病理症例の表現と検索のためのクラスタリング ベースの冗長性を削減したインスタンス サンプリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24253" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24253" target="_blank" rel="noopener">CRISP -- 病理症例の表現と検索のためのクラスタリング ベースの冗長性を削減したインスタンス サンプリング</a></h3>
      <p class="summary">デジタル病理学アーカイブには、空間的に異なる腫瘍領域を捕捉し、固有の形態学的不均一性を反映する、症例ごとに複数の全スライド画像 (WSI) が含まれることが増えています。しかし、既存のアプローチのほとんどは、病理学者が選択した単一のスライドに依存しているため、残りの WSI に分散されている潜在的な有益な証拠を破棄しています。現在まで、包括的なマルチ WSI ケース処理のための自律的なフレームワークは提案されていません。ここでは、ケース内の利用可能なすべてのスライドからの情報を統合するケースレベル分析のための教師なしフレームワークを紹介します。提案されたアプローチは、指定された単一のスライドに依存するのではなく、WSI 全体で情報パッチを選択的に抽出することによって症例レベルの表現を構築します。我々は、まず個々の WSI 内の冗長性を削減し、次にクラスタリング ベースのサンプリングを適用して、症例全体のコンパクトでありながら代表的なパッチ セットを選択する 2 段階のフレームワークである、Clustering-Based Redundancy-Reduced Instance Sampling for Pathology (CRISP) を導入します。結果として得られるパッチ セットは、ギガピクセル画像の徹底的な処理を回避しながら症例レベルの異質性を捕捉し、検索インデックスとして直接機能します。診断と治療計画にメイヨークリニックの 2 つの乳がんデータセットを使用することで、CRISP が患者/症例の検索と取得のためのモデルと病理医のスライド選択を組み合わせた現在の標準的な手法と一貫して一致またはそれを上回ることを実証します。 CRISP は、症例レベルの処理を自動化し、主観的な WSI 選択を排除することにより、現在見落とされている複数の WSI に分散された臨床関連情報の活用を可能にする可能性があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CRISP -- Clustering-Based Redundancy-Reduced Instance Sampling for Pathology Case Representation and Retrieval</p>
        <p class="orig-summary">Digital pathology archives increasingly contain multiple whole-slide images (WSIs) per case, capturing spatially distinct tumour regions and reflecting intrinsic morphological heterogeneity. However, most existing approaches rely on a single pathologist-selected slide, thereby discarding potentially informative evidence distributed across the remaining WSIs. To date, no autonomous framework has been proposed for comprehensive multi-WSI case processing. Here, we present an unsupervised framework for case-level analysis that integrates information from all available slides within a case. Rather than relying on a single designated slide, the proposed approach constructs case-level representations by selectively distilling informative patches across WSIs. We introduce Clustering-Based Redundancy-Reduced Instance Sampling for Pathology (CRISP), a two-stage framework that first reduces redundancy within individual WSIs and subsequently applies clustering-based sampling to select a compact yet representative set of patches for the entire case. The resulting patch set captures case-level heterogeneity while avoiding exhaustive processing of gigapixel images, and directly serves as a retrieval index. Using two Mayo Clinic breast cancer datasets for diagnosis and treatment planning, we demonstrate that CRISP consistently matches or surpasses the current standard practice of combined model and pathologist slide selection for patient/case search and retrieval. By automating case-level processing and eliminating subjective WSI selection, CRISP potentially enables the exploitation of clinically relevant information distributed across multiple WSIs that is currently overlooked.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4cf6eca0dcc2" data-article-url="https://arxiv.org/abs/2605.24358" data-article-title="グラフデータに対するネットワーク効果の微分による治療効果の推定" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24358" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24358" target="_blank" rel="noopener">グラフデータに対するネットワーク効果の微分による治療効果の推定</a></h3>
      <p class="summary">観察グラフデータから個人治療効果（ITE）を推定することは、商業や医療などの分野での意思決定に不可欠です。この作業は、個々の結果が近隣の治療法や共変量によって影響を受ける可能性があるため、干渉が生じるため困難です。既存の方法は、正確な ITE 推定のためにそのような干渉をモデル化しようとしています。ただし、重要な問題は見落とされがちです。それは、差異化ネットワーク効果 (DNE) です。これは、重要性と規模が異なる近隣ネットワークで構成されるローカル ネットワークによって引き起こされる効果です。 DNE をキャプチャすることは不可欠です。そうしないと、干渉の誤った特性評価により ITE 推定が不正確になり、誤った決定を招く可能性があります。この課題に対処するために、2 つの部分注意メカニズムとメッセージ増幅器を組み込んだ新しい干渉モデリング メカニズムを提案します。パーシャル アテンション メカニズムは、干渉に寄与するさまざまな隣接ノードの重要性を自動的に推定します。一方、メッセージ アンプは隣接ノードのスケールに基づいて干渉モデリング メカニズムの結果を調整します。これらすべてにより、モデルが DNE をキャプチャできるようになります。 3 つの現実世界のグラフでの実験では、私たちの方法がグラフ データから ITE を推定する既存のアプローチよりも優れていることが実証されており、DNE を明示的にキャプチャすることの重要性が裏付けられています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Treatment Effect Estimation with Differentiated Networked Effect on Graph Data</p>
        <p class="orig-summary">Estimating individual treatment effect (ITE) from observational graph data is crucial for decision-making in the fields such as commerce and medicine. This task is challenging due to interference, where individual outcomes can be influenced by the treatments and covariates of their neighbors. Existing methods attempt to model such interference for accurate ITE estimation. However, a critical issue is often overlooked: differentiated networked effect (DNE), an effect caused by local networks consisting of neighbors with varying importance and scales. Capturing DNE is vital; otherwise, we will end up with imprecise ITE estimation due to an erroneous characterization of interference, which can result in misguided decisions. To address this challenge, we propose a novel interference modeling mechanism that incorporates two partial attention mechanisms and a message amplifier. The partial attention mechanisms automatically estimate the importance of different neighbors in contributing to interference, while the message amplifier adjusts the results of the interference modeling mechanism based on the scale of neighbors, all of which enables the model to capture DNE. Experiments on three real-world graphs demonstrate that our methods outperform existing approaches for ITE estimation from graph data, which corroborates the importance of explicitly capturing DNE.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="817f3bd508db" data-article-url="https://arxiv.org/abs/2605.26068" data-article-title="Rethinking Weak Supervision in Anomaly Detection: A Comprehensive Benchmark" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26068" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26068" target="_blank" rel="noopener">Rethinking Weak Supervision in Anomaly Detection: A Comprehensive Benchmark</a></h3>
      <p class="summary">Weakly supervised anomaly detection (WSAD) has developed in three primary directions: incomplete, inexact, and inaccurate supervision. Howe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ea61a67485e1" data-article-url="https://arxiv.org/abs/2605.26089" data-article-title="Channel-wise Vector Quantization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26089" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26089" target="_blank" rel="noopener">Channel-wise Vector Quantization</a></h3>
      <p class="summary">We present Channel-wise Vector Quantization (CVQ), a novel image tokenization paradigm that replaces patch-wise tokens with channel-wise to…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb3c39d13c76" data-article-url="https://arxiv.org/abs/2605.26092" data-article-title="GoQuant: Geometric Orthogonal Residual Projection for Multiplier-Free Power-of-Two Transformer Quantization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26092" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26092" target="_blank" rel="noopener">GoQuant: Geometric Orthogonal Residual Projection for Multiplier-Free Power-of-Two Transformer Quantization</a></h3>
      <p class="summary">The deployment of Large Language Models (LLMs) and Vision Transformers (ViTs) on edge devices is significantly constrained by memory limita…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="64b870f87002" data-article-url="https://arxiv.org/abs/2605.26397" data-article-title="Algorithmic Fragility and Persona Bias in LLM-Generated Autistic Communication" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26397" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26397" target="_blank" rel="noopener">Algorithmic Fragility and Persona Bias in LLM-Generated Autistic Communication</a></h3>
      <p class="summary">Safety alignment reduces explicitly harmful outputs but inadvertently encodes a sanitized, neuronormative representation of marginalized co…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8d5df35c03a7" data-article-url="https://arxiv.org/abs/2605.26436" data-article-title="Targeted Remasking: Replacing Token Editing with Token-to-Mask Refinement in Discrete Diffusion Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26436" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26436" target="_blank" rel="noopener">Targeted Remasking: Replacing Token Editing with Token-to-Mask Refinement in Discrete Diffusion Language Models</a></h3>
      <p class="summary">Discrete masked diffusion language models such as LLaDA generate text through iterative denoising, where mask tokens are progressively repl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6fc5b0f98e0b" data-article-url="https://arxiv.org/abs/2605.26684" data-article-title="Beyond Trajectory-Level Attribution: Graph-Based Credit Assignment for Agentic Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26684" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26684" target="_blank" rel="noopener">Beyond Trajectory-Level Attribution: Graph-Based Credit Assignment for Agentic Reinforcement Learning</a></h3>
      <p class="summary">Group-based reinforcement learning (RL) methods have achieved remarkable success in improving the performance of large language models (LLM…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5149c29c0c68" data-article-url="https://arxiv.org/abs/2605.26874" data-article-title="Knowledge Graphs as the Missing Data Layer for LLM-Based Industrial Asset Operations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26874" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26874" target="_blank" rel="noopener">Knowledge Graphs as the Missing Data Layer for LLM-Based Industrial Asset Operations</a></h3>
      <p class="summary">LLM-based agents for industrial asset operations show limited accuracy when reasoning over flat document stores. AssetOpsBench (KDD 2026) e…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="186d69391f0d" data-article-url="https://arxiv.org/abs/2605.27000" data-article-title="Cast a Wider Net: Coordinated Pass@K Policy Optimization for Code Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27000" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27000" target="_blank" rel="noopener">Cast a Wider Net: Coordinated Pass@K Policy Optimization for Code Reasoning</a></h3>
      <p class="summary">Repeated sampling with a verifier is the standard way to allocate test-time compute for code generation, with pass@$K$ as the canonical met…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f3ba2481ae0" data-article-url="https://arxiv.org/abs/2605.27458" data-article-title="Generic Interpretation Approach for Transformer Models Incorporating Heterogenous Attention Structures" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27458" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27458" target="_blank" rel="noopener">Generic Interpretation Approach for Transformer Models Incorporating Heterogenous Attention Structures</a></h3>
      <p class="summary">Transformer has significantly propelled the development of artificial intelligence, and certainly the development of agents as well. We cat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b77bb249d51f" data-article-url="https://arxiv.org/abs/2605.28183" data-article-title="BenGER: Benchmarking LLM Systems on Subsumption-Based Legal Reasoning in German Law" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28183" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28183" target="_blank" rel="noopener">BenGER: Benchmarking LLM Systems on Subsumption-Based Legal Reasoning in German Law</a></h3>
      <p class="summary">We introduce the BenGER (Benchmark for German Law) dataset for evaluating LLM systems on subsumption-based legal reasoning in German law. T…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79d7771feac9" data-article-url="https://arxiv.org/abs/2605.28910" data-article-title="臨床要約のための幻覚検出に基づく好みの最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28910" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28910" target="_blank" rel="noopener">臨床要約のための幻覚検出に基づく好みの最適化</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、要約タスクでは有望であることが示されていますが、幻覚を引き起こすことがよくあります。幻覚はサポートされていない、または間違った記述であり、特殊な医療アプリケーションでの信頼性が制限されます。 \itermodelfull (\itermodel) という推論時間手法を導入します。これは、幻覚検出器を活用して、事実の修正に向けて反復的な要約改訂をガイドします。これに基づいて、検出器による調整軌道をモデルの微調整のための好みのペアに変換する、好み学習のための \itermodel (\model) を提案します。広範な実験により、\MimicIV からの現実世界の臨床ノートを要約する際に、私たちの方法がラマ モデルとジェマ モデルの幻覚を大幅に軽減することが示されました。たとえば、Llama-3.1-8B-Instruct の \itermodel は 24\% を軽減し、\model は 48\% の幻覚を軽減します。重要なのは、人間の専門家と LLM 陪審の評価に従って、両方の方法で要約の流暢性、一貫性、および関連性が維持されることです。これらの結果を総合すると、検出に基づいた改良と好みの学習が、臨床要約における事実の忠実性を向上させるための自動化されたソリューションを提供することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Hallucination Detection-Guided Preference Optimization for Clinical Summarization</p>
        <p class="orig-summary">Large language models (LLMs) have shown promise on summarization tasks, but they often produce hallucinations, which are unsupported or incorrect statements that limit their reliability in specialized healthcare applications. We introduce \itermodelfull (\itermodel), an inference-time method that leverages hallucination detectors to guide iterative summary revisions toward factual corrections. Building on this, we propose \itermodel for Preference Learning (\model), which converts detector-guided refinement trajectories into preference pairs for model finetuning. Extensive experiments show that our methods substantially reduce hallucinations for Llama and Gemma models in summarizing real-world clinical notes from \MimicIV. For example, \itermodel reduces 24\% and \model reduces 48\% hallucinations in Llama-3.1-8B-Instruct. Importantly, both methods preserve summary fluency, coherence, and relevance according to human expert and LLM-Jury evaluations. Together, these results demonstrate that detection-informed refinement and preference learning offer an automated solution for improving factual faithfulness in clinical summarization.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c78075cde82" data-article-url="https://arxiv.org/abs/2605.29107" data-article-title="GEO-Bench: 生成エンジン最適化におけるランキング操作のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29107" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29107" target="_blank" rel="noopener">GEO-Bench: 生成エンジン最適化におけるランキング操作のベンチマーク</a></h3>
      <p class="summary">大規模言語モデル (LLM) では、ユーザーのクエリに対する製品、ドキュメント、推奨事項のランク付けが増えており、これらのランク付けを操作することによる公平性と情報の完全性への懸念が高まっています。生成エンジン最適化 (GEO) に関する研究により、多くの操作方法が生み出されてきましたが、それぞれの操作方法は独自のメトリクスを使用して独自のデータセットで評価されるため、それらの相対的な強度と検出可能性は不明のままです。 1 つのプロトコルの下で GEO ランキング操作攻撃を評価するベンチマークである GEO-Bench を紹介します。ブラック ボックスのプロンプト ベースの攻撃 (TAP、ゼロショット)、ホワイト ボックスの勾配ベースの攻撃 (STS、RAF、StealthRank)、および 10 のホワイト ハット C-SEO 戦略を統合します。有効性 (NRG、Success@{\alpha}、Promote@{\alpha}) とステルス (キーワード違反率、困惑率) の両方のメトリクスを使用して、固定オープンウェイト ランカー (Llama-3.1-8B-Instruct) に対して 5 つのデータセットのすべてのメソッドをスコア付けします。私たちの評価では、敵対的攻撃全体で有効性とステルス性がトレードオフであること、ブラック ボックス コンテンツの書き換えは、より流暢なテキストを生成しながら、ランク昇格に対する勾配ベースの攻撃と同等かそれを上回っており、一部のドメインではキーワード ベースと複雑さベースの検出の両方を回避できること、アクセス モデルが攻撃強度を予測していないことが示されています。 GEO-Bench は、データセット、攻撃実装、メトリクスを標準化することで、これらの攻撃パラダイム全体での初めての直接比較を可能にし、検出方法の開発をサポートします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GEO-Bench: Benchmarking Ranking Manipulation in Generative Engine Optimization</p>
        <p class="orig-summary">Large language models (LLMs) increasingly rank products, documents, and recommendations for user queries, which makes manipulating these rankings a growing concern for fairness and information integrity. Research on generative engine optimization (GEO) has produced many manipulation methods, but each is evaluated on its own dataset with its own metrics, so their relative strength and detectability stay unclear. We present GEO-Bench, a benchmark that evaluates GEO ranking-manipulation attacks under one protocol. It unifies black-box prompt-based attacks (TAP, Zero-Shot), white-box gradient-based attacks (STS, RAF, StealthRank), and ten white-hat C-SEO strategies. We score every method on five datasets against a fixed open-weight ranker (Llama-3.1-8B-Instruct), using metrics for both effectiveness (NRG, Success@{\alpha}, Promote@{\alpha}) and stealth (keyword violation rate, perplexity ratio). Our evaluation shows that effectiveness and stealth trade off across adversarial attacks, that black-box content rewriting matches or exceeds gradient-based attacks on rank promotion while producing more fluent text and can evade both keyword- and perplexity-based detection on some domains, and that the access model does not predict attack strength. By standardizing datasets, attack implementations, and metrics, GEO-Bench enables the first direct comparison across these attack paradigms and supports the development of detection methods.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2c8c59e8739e" data-article-url="https://arxiv.org/abs/2605.29183" data-article-title="TIMEGATE: リソース制約下での継続的な ML 適応のための持続可能なタイムボックス化プロモーション ゲート" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29183" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29183" target="_blank" rel="noopener">TIMEGATE: リソース制約下での継続的な ML 適応のための持続可能なタイムボックス化プロモーション ゲート</a></h3>
      <p class="summary">機械学習 (ML) システムが継続的な適応に進化するにつれて、各再トレーニング サイクルではコンピューティング、アノテーション、エネルギーが使用されます。時間の予算設定、ラベル付け、トレーニング、評価によって適応を管理するポリシー層である TIMEGATE を紹介します。 TIMEGATE は、部分評価と完全評価の決定のためにメトリック利用可能性信号 M を送信します。 (i) ラベル付けは、成人用表形式でトレーニングを 2.3 倍上回るパフォーマンスを示します。 (ii) SST-2 上の LLaMA-3.1-8B + QLoRA に転送します (精度 0.80 ～ 0.96、35/36 回の実行で M =1)。 (iii) M は有益です。28 セルの感度は、厳しいしきい値では M が 0.81 に低下することを示しています。 (iv) 100 サイクルのシミュレーションにより、サイレント ミス プロモーションなしで 66% の評価計算量の節約が達成されます。 (v) LLaMA での 10% スライス評価では、単一の H200 で使用する実時間とエネルギーが 89% 削減されます (比率は 0.2% に一致します)。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TIMEGATE: Sustainable Time-Boxed Promotion Gates for Continual ML Adaptation Under Resource Constraints</p>
        <p class="orig-summary">As machine learning(ML) systems evolve to continual adaptation, each re-training cycle uses compute, annotation, and energy. We introduce TIMEGATE, a policy layer managing adaptation by budgeting time, labeling, training, and evaluation. TIMEGATE emits a metric-availability signal M for partial vs. full-evaluation decisions. We validate: (i) labeling outperforms training by 2.3x on Adult tabular; (ii) it transfers to LLaMA-3.1-8B + QLoRA on SST-2 (accuracy 0.80 to 0.96; M =1 in 35/36 runs); (iii) M is informative, 28-cell sensitivity shows M drops to 0.81 at tight thresholds; (iv) 100-cycle simulation achieves 66% evaluation-compute savings with no silent mis-promotions; (v) 10%-slice evaluation on LLaMA uses 89% less wall-clock and energy on a single H200 (ratios agree to 0.2%).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f19ecb23e299" data-article-url="https://arxiv.org/abs/2605.29233" data-article-title="BlockBatch: Multi-Scale Consensus Decoding for Efficient Diffusion Language Model Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29233" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29233" target="_blank" rel="noopener">BlockBatch: Multi-Scale Consensus Decoding for Efficient Diffusion Language Model Inference</a></h3>
      <p class="summary">Diffusion language models (dLLMs) generate text by iteratively denoising multiple token positions in parallel, offering an attractive alter…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d7b3ec266c87" data-article-url="https://arxiv.org/abs/2605.29463" data-article-title="Honest Lying: Understanding Memory Confabulation in Reflexive Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29463" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29463" target="_blank" rel="noopener">Honest Lying: Understanding Memory Confabulation in Reflexive Agents</a></h3>
      <p class="summary">Reflexion-style agents rely on self-generated reflections as memory, implicitly assuming that agents can accurately diagnose their own fail…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8ac05faab03c" data-article-url="https://arxiv.org/abs/2605.29488" data-article-title="AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29488" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29488" target="_blank" rel="noopener">AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling</a></h3>
      <p class="summary">Conditional human motion generation remains a fundamental challenge in computer vision and robotics. Despite significant progress, current…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="04abca85ee25" data-article-url="https://arxiv.org/abs/2605.29539" data-article-title="GiPL: Generative augmented iterative Pseudo-Labeling for Cross-Domain Few-Shot Object Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29539" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29539" target="_blank" rel="noopener">GiPL: Generative augmented iterative Pseudo-Labeling for Cross-Domain Few-Shot Object Detection</a></h3>
      <p class="summary">Vision-language foundation models have shown promising zero-shot generalization for Cross-Domain Few-Shot Object Detection (CD-FSOD). Howev…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d9e8354cc858" data-article-url="https://arxiv.org/abs/2605.29948" data-article-title="HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29948" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29948" target="_blank" rel="noopener">HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding</a></h3>
      <p class="summary">Unified speech foundation models require a holistic tokenization space that is both learnable by language models and decodable into high-qu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3399da74fb51" data-article-url="https://arxiv.org/abs/2605.30122" data-article-title="Beyond MSE: Improving Precipitation Nowcasting with Multi-Quantile Regression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30122" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30122" target="_blank" rel="noopener">Beyond MSE: Improving Precipitation Nowcasting with Multi-Quantile Regression</a></h3>
      <p class="summary">Deep-learning precipitation nowcasting models are often optimized using pointwise losses such as mean squared error or mean absolute error,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5afbd12528ed" data-article-url="https://arxiv.org/abs/2605.30169" data-article-title="Dissociative Identity: Language Model Agents Lack Grounding for Reputation Mechanisms" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30169" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30169" target="_blank" rel="noopener">Dissociative Identity: Language Model Agents Lack Grounding for Reputation Mechanisms</a></h3>
      <p class="summary">As autonomous language model agents proliferate, forming an emerging agentic web with real-world consequences, what credibility signals can…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d3852cbf98db" data-article-url="https://arxiv.org/abs/2605.30188" data-article-title="CalArena: A Large-Scale Post-Hoc Calibration Benchmark" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30188" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30188" target="_blank" rel="noopener">CalArena: A Large-Scale Post-Hoc Calibration Benchmark</a></h3>
      <p class="summary">Reliable probability estimates are critical in many machine learning applications, yet modern classifiers are often poorly calibrated. Post…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="056b8b20ca49" data-article-url="https://arxiv.org/abs/2605.30280" data-article-title="Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-robotics">ロボティクス</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30280" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30280" target="_blank" rel="noopener">Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments</a></h3>
      <p class="summary">Embodied intelligence is often studied through specialized models for individual tasks such as manipulation or navigation, resulting in fra…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="82887e1da39d" data-article-url="https://arxiv.org/abs/2605.30290" data-article-title="Self-Trained Verification for Training- and Test-Time Self-Improvement" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30290" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30290" target="_blank" rel="noopener">Self-Trained Verification for Training- and Test-Time Self-Improvement</a></h3>
      <p class="summary">Self-improvement at scale has been a longstanding goal for reasoning models, and there are two natural places to do it: at test time, throu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0ae87cbe05b6" data-article-url="https://arxiv.org/abs/2605.30370" data-article-title="人工ニューラルネットワークにおける標準ニューロンモデルの更新" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30370" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30370" target="_blank" rel="noopener">人工ニューラルネットワークにおける標準ニューロンモデルの更新</a></h3>
      <p class="summary">1950 年代の創設以来、人工ニューラル ネットワーク (ANN) は、このアナロジーにより脳機能のより良いエミュレーションが可能になることを期待して、当時神経科学で普及していたいわゆるポイント ニューロン モデルを使用し始めました。長年にわたり、神経科学の文献は、点ニューロン モデルは単純すぎて、多くの基本的な神経プロセスを適切に表現できないことを示してきました。ただし、ANN の標準ニューロン モデルは依然として同じままです。今回我々は、これを皮質細胞のごく最近のモデルに置き換え、パラメータの数を増やさずに、より現実的な神経ユニット要素を使用するだけで、結果として得られるANNが、表現力、堅牢性、学習速度の向上、必要な記憶量とトレーニングデータ量の削減など、多くの重要な利点を提供することを、理論分析と実験結果を通じて実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Updating the standard neuron model in artificial neural networks</p>
        <p class="orig-summary">From their inception in the 1950s, artificial neural networks (ANNs) started using the so-called point neuron model then prevalent in neuroscience, hoping that this analogy would allow for a better emulation of brain function. Over the years the neuroscience literature has shown that the point neuron model is too simplistic to properly represent many fundamental neural processes; however, the standard neuron model in ANNs still remains the same. Here we substitute it by a very recent model of cortical cells and demonstrate through theoretical analyses and experimental results how, simply by using a more realistic neural unit element without augmenting the number of parameters, the resulting ANNs offer a number of important advantages that include increases in expressivity, robustness and learning speed, and a reduction in memorization and the amount of training data needed.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b57f9a870b14" data-article-url="https://arxiv.org/abs/2605.30581" data-article-title="Industrial Visual Sim-to-Real の先行利用可能性: CAD ガイド付きレジームと CAD を使用できないレジームのレビュー" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30581" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30581" target="_blank" rel="noopener">Industrial Visual Sim-to-Real の先行利用可能性: CAD ガイド付きレジームと CAD を使用できないレジームのレビュー</a></h3>
      <p class="summary">産業用ビジュアルのシミュレーションとリアルの変換は、合成画像から実際の画像への変換としてよく説明されますが、産業への展開には通常、入手可能な証拠と必要な決定の間の広範な不一致が伴います。システムは、CAD レンダリング、シミュレートされた RGB-D 観察、通常の参照画像、合成欠陥、事前トレーニングされた特徴空間、または言語プロンプトから構築できますが、さまざまなセンサー、照明、材料、器具、キャリブレーション、生産変動、まれな欠陥モードの下で展開することもできます。このレビューでは、産業用ビジュアルのシミュレーションとリアルを、事前の利用可能性によって整理されたドメインギャップの問題として再構成します。明示的なオブジェクト ジオメトリがレンダリング、キャリブレーション、姿勢推定、セグメンテーション、テスト時の幾何学的検証をサポートできる CAD で利用可能な設定を区別します。 CAD では利用できない設定。ジオメトリが法線参照の外観、特徴分布、教師と生徒の残差、合成異常の仮定、基礎特徴、または視覚言語事前分布に置き換えられます。境界優先設定では、近似モデル、テンプレート、参照ビュー、またはセマンティック対応関係が CAD の役割の一部のみを保持します。この枠組みは、CAD ベースの検出および 6D 姿勢推定の文献を、通常は個別にレビューされる産業異常および表面検査の文献と結び付けます。分類を具体化するために、T-LESS/BOP、MVTec AD、および VisA の経験的アンカーを使用します。アンカーは、CAD レンダリング数だけでは転送が終了しないことを示しています。線源分散設計、検出器の容量、小規模な実際のキャリブレーションの方が重要になる場合があります。また、CAD ではテスト時にマスク、ポーズ、深度の一貫性を通じて明確な検証チャネルが作成されるのに対し、CAD では利用できない検査は校正された正規性と特徴の偏差に依存していることも示しています。したがって、このレビューでは、単一のタスク間リーダーボードに反対し、その代わりに導入決定の事前の根拠を尋ねています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Prior Availability in Industrial Visual Sim-to-Real: A Review of CAD-Guided and CAD-Unavailable Regimes</p>
        <p class="orig-summary">Industrial visual sim-to-real is often described as transferring from synthetic images to real images, but industrial deployment usually involves a broader mismatch between available evidence and required decisions. A system may be built from CAD renderings, simulated RGB-D observations, normal reference images, synthetic defects, pretrained feature spaces, or language prompts, yet deployed under different sensors, lighting, materials, fixtures, calibration, production variation, and rare defect modes. This review reframes industrial visual sim-to-real as a domain-gap problem organized by prior availability. We distinguish CAD-available settings, where explicit object geometry can support rendering, calibration, pose estimation, segmentation, and test-time geometric verification; CAD-unavailable settings, where geometry is replaced by normal-reference appearance, feature distributions, teacher-student residuals, synthetic anomaly assumptions, foundation features, or vision-language priors; and boundary-prior settings, where approximate models, templates, reference views, or semantic correspondences preserve only part of the CAD role. This framing connects CAD-based detection and 6D pose-estimation literature with industrial anomaly and surface-inspection literature that is usually reviewed separately. To make the taxonomy concrete, we use empirical anchors on T-LESS/BOP, MVTec AD, and VisA. The anchors show that CAD render count alone does not close transfer; source-distribution design, detector capacity, and small real calibration can matter more. They also show that CAD at test time creates a distinct verification channel through mask, pose, and depth consistency, whereas CAD-unavailable inspection relies on calibrated normality and feature deviation. The review therefore argues against a single cross-task leaderboard and instead asks what prior grounds the deployment decision.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="02287f60432e" data-article-url="https://arxiv.org/abs/2605.30748" data-article-title="Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30748" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30748" target="_blank" rel="noopener">Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS</a></h3>
      <p class="summary">We present Chatterbox-Flash, a zero-shot text-to-speech model obtained by fine-tuning a pretrained autoregressive TTS decoder into a block-…</p>
    </div>
  </div>
</div>
</div>
</details>
</div>]]></content><author><name></name></author><summary type="html"><![CDATA[AIニュース 2026-06-02 — 966件のストーリーを出典・トピック・要約とともに掲載。]]></summary><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-06-02.png" /><media:content medium="image" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-06-02.png" xmlns:media="http://search.yahoo.com/mrss/" /></entry><entry><title type="html">AIニュース 2026-06-01</title><link href="https://ai-news-bot-henna.vercel.app/news/2026/06/2026-06-01/" rel="alternate" type="text/html" title="AIニュース 2026-06-01" /><published>2026-06-01T00:00:00+00:00</published><updated>2026-06-01T00:00:00+00:00</updated><id>https://ai-news-bot-henna.vercel.app/news/2026/06/2026-06-01</id><content type="html" xml:base="https://ai-news-bot-henna.vercel.app/news/2026/06/2026-06-01/"><![CDATA[<h1 id="aiニュース-2026-06-01">AIニュース 2026-06-01</h1>

<p class="auto-gen-note">自動生成: 2026-06-01 13:49 JST</p>

<p><a href="/">← トップに戻る</a></p>

<p>過去24時間以内に公開された記事を、同じ話題ごとに1つのストーリーカードへまとめ、出典・トピック・要約とともに掲載しています。要約は各フィード提供文の冒頭を整形したもので、本文は各リンク先をご覧ください。</p>

<section class="today-top" aria-labelledby="today-top-heading">
  <h2 id="today-top-heading" class="today-top-heading">📌 今日の要点 TOP7</h2>
  <ol class="today-top-list">
    <li class="today-top-item">
      <a class="today-top-link" href="https://monoist.itmedia.co.jp/mn/articles/2606/01/news082.html" target="_blank" rel="noopener">インテルがロボット開発の課題を解決、オープンなロボティクスライブラリで</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">インテルは、ロボット開発のための統合ソフトウェア開発キット「Robotics AI Suite」に、インテル製プロセッサに最適化された推論…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/business/articles/2606/01/news040.html" target="_blank" rel="noopener">富士通が認めた「人月モデル」の限界　時田社長「労働集約型SIモデルからの転換を」</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">富士通が「中長期経営ビジョン2035」を発表した。AI時代に突入した今、同社の時田隆仁社長CEOは、従来型の「人月モデル」には限界があると…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://atmarkit.itmedia.co.jp/ait/articles/2606/01/news037.html" target="_blank" rel="noopener">“VB.NET移行をAIで爆速化”した千葉銀行GのIT企業　「12.5人月→2.0人月」をどう実現？</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">ちばぎんコンピューターサービスはAI駆動開発の仕組みを構築し、既存のVB.NETシステムのマイグレーション工数を12.5人月から2.0人月…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://monoist.itmedia.co.jp/mn/articles/2606/01/news013.html" target="_blank" rel="noopener">図面SaaSに高精度な3Dモデル生成とアセンブリ機能、CAE機能のβ版を追加</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">renueは、図面SaaS「Drawing Agent」をアップデートした。高精度な3Dモデル生成機能や複数パーツの組み立てに対応するアセ…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/2026/05/31/erin-brockovich-takes-aim-at-data-center-secrecy/" target="_blank" rel="noopener">Erin Brockovich takes aim at data center secrecy</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">Environmental activist Erin Brockovich has a new mission.</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://atmarkit.itmedia.co.jp/ait/articles/2606/01/news016.html" target="_blank" rel="noopener">「ハーネス」って結局、何？　みんな使い方が違うAIエージェント用語をHugging Faceが整理</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">AIエージェント分野で人によって意味が揺れる「ハーネス」「スキャフォールド」などの用語を、Hugging Faceが整理した。AIエージェ…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/2026/05/31/making-sense-of-the-debate-over-ai-psychosis/" target="_blank" rel="noopener">Making sense of the debate over AI psychosis</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">On the latest episode of Equity, we debate whether tech CEOs are &quot;uni…</p>
    </li>
  </ol>
</section>

<h2 id="トピック別件数">トピック別件数</h2>

<ul class="topic-summary">
  <li data-topic="LLM/生成AI" data-slug="llm"><a href="/topics/llm/"><strong>LLM/生成AI</strong> 180件</a></li>
  <li data-topic="研究/論文" data-slug="research"><a href="/topics/research/"><strong>研究/論文</strong> 166件</a></li>
  <li data-topic="エージェント" data-slug="agents"><a href="/topics/agents/"><strong>エージェント</strong> 82件</a></li>
  <li data-topic="画像/動画生成" data-slug="image-video"><a href="/topics/image-video/"><strong>画像/動画生成</strong> 58件</a></li>
  <li data-topic="ビジネス/資金調達" data-slug="business"><a href="/topics/business/"><strong>ビジネス/資金調達</strong> 25件</a></li>
  <li data-topic="ロボティクス" data-slug="robotics"><a href="/topics/robotics/"><strong>ロボティクス</strong> 15件</a></li>
  <li data-topic="ハードウェア/半導体" data-slug="hardware"><a href="/topics/hardware/"><strong>ハードウェア/半導体</strong> 12件</a></li>
  <li data-topic="その他" data-slug="others"><a href="/topics/others/"><strong>その他</strong> 5件</a></li>
  <li data-topic="規制/政策" data-slug="regulation"><a href="/topics/regulation/"><strong>規制/政策</strong> 1件</a></li>
</ul>

<div class="category-accordion">
<details class="category-block" open="">
<summary class="category-summary"><span class="category-name">日本語メディア</span><span class="category-count">6件</span></summary>
<div class="category-body">
<h3 class="source-section">ITmedia AI+ (日本語)</h3>
<div class="news-card" data-article-id="9d1df121248b" data-article-url="https://atmarkit.itmedia.co.jp/ait/articles/2606/01/news037.html" data-article-title="“VB.NET移行をAIで爆速化”した千葉銀行GのIT企業　「12.5人月→2.0人月」をどう実現？" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://atmarkit.itmedia.co.jp/ait/articles/2606/01/news037.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/ait/articles/2606/01/cover_news037.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://atmarkit.itmedia.co.jp/ait/articles/2606/01/news037.html" target="_blank" rel="noopener">“VB.NET移行をAIで爆速化”した千葉銀行GのIT企業　「12.5人月→2.0人月」をどう実現？</a></h3>
      <p class="summary">ちばぎんコンピューターサービスはAI駆動開発の仕組みを構築し、既存のVB.NETシステムのマイグレーション工数を12.5人月から2.0人月に削減した。どう実現したのか。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="747979197873" data-article-url="https://monoist.itmedia.co.jp/mn/articles/2606/01/news082.html" data-article-title="インテルがロボット開発の課題を解決、オープンなロボティクスライブラリで" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">12:45 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://monoist.itmedia.co.jp/mn/articles/2606/01/news082.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/mn/articles/2606/01/cover_news082.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://monoist.itmedia.co.jp/mn/articles/2606/01/news082.html" target="_blank" rel="noopener">インテルがロボット開発の課題を解決、オープンなロボティクスライブラリで</a></h3>
      <p class="summary">インテルは、ロボット開発のための統合ソフトウェア開発キット「Robotics AI Suite」に、インテル製プロセッサに最適化された推論ランタイムを備えるオープンソースのロボティクスライブラリ「OpenVINO Physical AI Framework」を追加すると発表した。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e9cbb45f2c16" data-article-url="https://monoist.itmedia.co.jp/mn/articles/2606/01/news013.html" data-article-title="図面SaaSに高精度な3Dモデル生成とアセンブリ機能、CAE機能のβ版を追加" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">09:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://monoist.itmedia.co.jp/mn/articles/2606/01/news013.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/mn/articles/2606/01/cover_news013.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://monoist.itmedia.co.jp/mn/articles/2606/01/news013.html" target="_blank" rel="noopener">図面SaaSに高精度な3Dモデル生成とアセンブリ機能、CAE機能のβ版を追加</a></h3>
      <p class="summary">renueは、図面SaaS「Drawing Agent」をアップデートした。高精度な3Dモデル生成機能や複数パーツの組み立てに対応するアセンブリ機能、構造解析を実行する「CAE機能 β版」を追加し、図面の読み取りから構造解析までを一連の流れで扱えるようにした。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6bdf4a9aa569" data-article-url="https://www.itmedia.co.jp/business/articles/2606/01/news040.html" data-article-title="富士通が認めた「人月モデル」の限界　時田社長「労働集約型SIモデルからの転換を」" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">07:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/business/articles/2606/01/news040.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/business/articles/2606/01/cover_news040.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/business/articles/2606/01/news040.html" target="_blank" rel="noopener">富士通が認めた「人月モデル」の限界　時田社長「労働集約型SIモデルからの転換を」</a></h3>
      <p class="summary">富士通が「中長期経営ビジョン2035」を発表した。AI時代に突入した今、同社の時田隆仁社長CEOは、従来型の「人月モデル」には限界があると認めた。その真意とは。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f0726c7e5f15" data-article-url="https://atmarkit.itmedia.co.jp/ait/articles/2606/01/news016.html" data-article-title="「ハーネス」って結局、何？　みんな使い方が違うAIエージェント用語をHugging Faceが整理" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">05:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://atmarkit.itmedia.co.jp/ait/articles/2606/01/news016.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/ait/articles/2606/01/cover_news016.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://atmarkit.itmedia.co.jp/ait/articles/2606/01/news016.html" target="_blank" rel="noopener">「ハーネス」って結局、何？　みんな使い方が違うAIエージェント用語をHugging Faceが整理</a></h3>
      <p class="summary">AIエージェント分野で人によって意味が揺れる「ハーネス」「スキャフォールド」などの用語を、Hugging Faceが整理した。AIエージェントを正しく理解し議論するために押さえておきたい基本用語を初心者向けに解説する。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c9cfd4baee5b" data-article-url="https://www.itmedia.co.jp/aiplus/article/2606/01/2000000039/" data-article-title="「FDE」って結局、客先常駐SEのリブランディングじゃないの？　アクセンチュアに聞いてみた" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">23:00 JST</span><span class="topic-badge p-others">その他</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/aiplus/article/2606/01/2000000039/" target="_blank" rel="noopener"><img loading="lazy" src="https://www.itmedia.co.jp/aiplus/article/ogp/2606/01/2000000039/10000213/2048" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/aiplus/article/2606/01/2000000039/" target="_blank" rel="noopener">「FDE」って結局、客先常駐SEのリブランディングじゃないの？　アクセンチュアに聞いてみた</a></h3>
      <p class="summary">AIプラットフォーム企業が掲げる新職業「FDE」（フォワード・デプロイド・エンジニア）は、客先常駐SEの焼き直しなのか。Microsoftと共同でFDE組織を立ち上げ、独自の「RDE」も打ち出すアクセンチュアの保科学世氏と片岡俊行氏に疑問をぶつけてみた。</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">海外メディア</span><span class="category-count">2件</span></summary>
<div class="category-body">
<h3 class="source-section">TechCrunch AI (英語)</h3>
<div class="news-card" data-article-id="3a5b6804157e" data-article-url="https://techcrunch.com/2026/05/31/erin-brockovich-takes-aim-at-data-center-secrecy/" data-article-title="Erin Brockovich takes aim at data center secrecy" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">06:05 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/31/erin-brockovich-takes-aim-at-data-center-secrecy/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2025/06/GettyImages-2217198328.jpeg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/31/erin-brockovich-takes-aim-at-data-center-secrecy/" target="_blank" rel="noopener">Erin Brockovich takes aim at data center secrecy</a></h3>
      <p class="summary">Environmental activist Erin Brockovich has a new mission.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2effc53c7f1e" data-article-url="https://techcrunch.com/2026/05/31/making-sense-of-the-debate-over-ai-psychosis/" data-article-title="Making sense of the debate over AI psychosis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">00:30 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/31/making-sense-of-the-debate-over-ai-psychosis/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/03/s.jpg?resize=1200,840" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/31/making-sense-of-the-debate-over-ai-psychosis/" target="_blank" rel="noopener">Making sense of the debate over AI psychosis</a></h3>
      <p class="summary">On the latest episode of Equity, we debate whether tech CEOs are &quot;uniquely prone to AI psychosis.&quot;</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">公式ブログ</span><span class="category-count">0件</span></summary>
<div class="category-body">
<p class="source-empty">このカテゴリの新着記事はありませんでした。</p>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">論文</span><span class="category-count">403件</span></summary>
<div class="category-body">
<h3 class="source-section">arXiv cs.AI (英語)</h3>
<div class="news-card" data-article-id="28e13d22d884" data-article-url="https://arxiv.org/abs/2605.30512" data-article-title="PhyDrawGen: 自然言語からの物理的に接地された図の生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30512" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30512" target="_blank" rel="noopener">PhyDrawGen: 自然言語からの物理的に接地された図の生成</a></h3>
      <p class="summary">テキストから物理図を生成するには、物理​​法則に厳密に従う必要があります。現在の生成モデルは視覚的にもっともらしい出力を生成しますが、体系的に力ベクトルを幻覚化し、保存則を無視し、幾何学的制約に違反します。物理的制約の充足から意味論的なシーンの理解を切り離す神経記号パイプラインである PhyDrawGen を紹介します。まず、大規模な言語モデルが問題テキストから型付きシーン グラフを抽出します。次に、決定論的ソルバーがこのグラフを平面直線グラフ (PSLG) に変換し、力の平衡、光路、場のトポロジーを正確な幾何学的プリミティブとしてエンコードします。最後に、微調整された Qwen-VL モデルは、視覚的に根拠のある提案検証ループを実装し、制約違反を繰り返し修正します。力学、光学、電磁気学にわたる 1,449 の問題のベンチマークで評価された PhyDrawGen は、GPT-5 イメージ、Gemini 2.5 Flash、および Gemini 3 Pro を大幅に上回り、異常な物体の問題でも堅牢な物理的精度を実証しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PhyDrawGen: Physically Grounded Diagram Generation from Natural Language</p>
        <p class="orig-summary">Generating physics diagrams from text requires strict adherence to physical laws. While current generative models produce visually plausible outputs, they systematically hallucinate force vectors, ignore conservation laws, and violate geometric constraints. We present PhyDrawGen, a neuro-symbolic pipeline that decouples semantic scene understanding from physical constraint satisfaction. First, a large language model extracts a typed scene graph from the problem text. A deterministic solver then converts this graph into a Planar Straight-Line Graph (PSLG), encoding force balance, optical paths, and field topologies as exact geometric primitives. Finally, a fine-tuned Qwen-VL model implements a visually grounded propose-verify loop to iteratively correct any constraint violations. Evaluated on a benchmark of 1,449 problems spanning mechanics, optics, and electromagnetism, PhyDrawGen significantly outperforms GPT-5-image, Gemini 2.5 Flash, and Gemini 3 Pro, demonstrating robust physical accuracy even on unusual-object problems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="073639afcca7" data-article-url="https://arxiv.org/abs/2605.30542" data-article-title="物理的に実行可能な世界モデル: クエリ条件付きの組み込み AI の事例" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30542" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30542" target="_blank" rel="noopener">物理的に実行可能な世界モデル: クエリ条件付きの組み込み AI の事例</a></h3>
      <p class="summary">身体化された AI の世界モデルは、物理的に実行可能である必要があります。つまり、単に将来の観察を予測するのではなく、アクションの結果を支配する物理的構造を表すことによって介入のクエリに答えるように構築されている必要があります。既存の観測予測世界モデルは、視覚的にはもっともらしいが、物理的には間違ったロールアウトを生成する可能性があります。この失敗は構造的なものです。異なる物理システムは同一に見えても、介入によって分岐することがあります。私たちは、潜在的な物理を変化させながら目に見えるシーンを修正する制御されたベンチマークを使用して、この問題を明らかにします。このようなモデルは、実行不可能なアクションを推奨したり、インタラクションの結果を誤って予測したり、危険な行動を認定したりする可能性があることを示します。私たちは、身体化された AI には、介入クエリに答えるのに十分な最も単純な物理的抽象化を特定する世界モデルが必要であると主張します。このようなモデルは、環境表現、潜在状態とパラメータの推定、アクションの仕様、介入ダイナミクス、クエリレベルの応答などのモジュール式コンポーネントで構成されます。自律的なオーケストレーターは、関連する抽象化を特定し、クエリごとに互換性のある学習済みおよび構造化されたコンポーネントを構成する必要があります。閉じた形式の物理学が利用できない、不確実である、またはコストがかかる場合、移行モデルは分析的、シミュレーション的、学習的、またはハイブリッドであってもよいが、介入の結果を決定する構造を保存する必要がある。この分解により、モデルが解釈可能になり、そのコンポーネントが検証可能になり、その出力がクエリに対して監査可能になります。また、新しい世界モデルの設計原則と既存の世界モデルの実現可能性テストも提供します。適切な抽象化とは、世界の最も詳細なモデルではなく、クエリに関連する区別を保持する最も単純なモデルです。既存のシステムが正しく応答できないクエリに対するこのアプローチを実証し、オーケストレーターが計画、制御、検証のために物理的に実行可能なモデルを動的に組み立てて適応させる方法を概説します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Physically Viable World Models: A Case for Query-Conditioned Embodied AI</p>
        <p class="orig-summary">World models for embodied AI must be physically viable: constructed to answer intervention queries by representing the physical structure governing action outcomes, rather than merely predicting future observations. Existing observation-predictive world models can produce visually plausible but physically wrong rollouts. This failure is structural; distinct physical systems can look identical yet diverge under intervention. We expose this problem with controlled benchmarks that fix the visible scene while varying latent physics. We show that such models may recommend infeasible actions, mispredict interaction outcomes, or certify unsafe behavior. We argue that embodied AI requires world models that identify the simplest physical abstraction sufficient to answer an intervention query. Such a model comprises modular components, including environment representation, latent state and parameter estimation, action specification, interventional dynamics, and query-level response. An autonomous orchestrator should identify the relevant abstraction and compose compatible learned and structured components per query. When closed-form physics is unavailable, uncertain, or costly, the transition model may be analytic, simulated, learned, or hybrid, but it must preserve the structure that determines interventional outcomes. This decomposition makes the model interpretable, its components verifiable, and its outputs auditable against the query. It also provides a design principle for new world models and a feasibility test for existing ones: the right abstraction is not the most detailed model of the world, but the simplest model that preserves the distinctions relevant to the query. We demonstrate this approach on queries that existing systems fail to answer correctly, and outline how an orchestrator can dynamically assemble and adapt physically viable models for planning, control, and verification.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b92dae88e978" data-article-url="https://arxiv.org/abs/2605.30563" data-article-title="SAT 解決のための FTS の変換とエンコード: 何が役立つか、何が問題になるか (拡張バージョン)" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30563" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30563" target="_blank" rel="noopener">SAT 解決のための FTS の変換とエンコード: 何が役立つか、何が問題になるか (拡張バージョン)</a></h3>
      <p class="summary">因数分解タスクは、限定された形式の選言的前提条件、条件効果、天使のような非決定性を使用して SAS+ を拡張した古典的な計画表現です。これにより、STRIPS や SAS+ などの従来の形式よりもコンパクトなタスクの表現が可能になり、幅広いタスク変換がサポートされます。ただし、因数分解されたタスクに対する既存の計画アプローチは、ヒューリスティックな検索方法に限定されていました。この研究では、SAT で因数分解されたタスクをエンコードする方法を調査します。因数分解された遷移関係を命題論理に変換するためのさまざまな戦略に焦点を当てて、タスクをエンコードするいくつかの方法を提案します。また、この設定でさまざまなレベルで並列処理を活用する方法を分析し、一般的なタスク変換が SAT ベースのプランナーのパフォーマンスに及ぼす影響を研究します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Transforming and Encoding FTS for SAT Solving: What Helps, What Hurts (Extended Version)</p>
        <p class="orig-summary">Factored tasks are a classical planning representation that extends SAS+ with limited forms of disjunctive preconditions, conditional effects, and angelic nondeterminism. This allows for a more compact representation of tasks than traditional formalisms such as STRIPS or SAS+, and supports a wide range of task transformations. However, existing planning approaches for factored tasks have been limited to heuristic search methods. In this work, we investigate how to encode factored tasks in SAT. We propose several ways to encode the tasks, focusing on different strategies for translating the factored transition relation into propositional logic. We also analyze how to exploit parallelism at various levels in this setting and study the impact of common task transformations on the performance of SAT-based planners.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bc04e4d274eb" data-article-url="https://arxiv.org/abs/2605.30570" data-article-title="Map-Elites を使用した一人称シューティング マップの手続き型生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30570" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30570" target="_blank" rel="noopener">Map-Elites を使用した一人称シューティング マップの手続き型生成</a></h3>
      <p class="summary">私たちは、一人称視点シューティング (FPS) ゲームのレベルを設計するための MAP-Elites (よく知られた品質ダイバーシティ アルゴリズム) の適用を調査します。 2 つのよく知られたマップ表現 (オールブラックとグリッド グラフ) を検討し、FPS マップの特徴付けを改善する 2 つの新しい表現 (ポイントラインと空間レイアウト) を紹介します。マップのトポロジ特性 (マップのレイアウトのみに依存します) と創発特性 (実際のゲームプレイを通じて評価する必要があります) を説明する一連のメトリクスを定義します。当社は詳細な分析を実行して、MAP-Elites 照明プロセスをガイドするのに最適な機能を特定します。 MAP-Elites with Sliding Boundaries (MESB) を適用して、FPS マップの母集団を進化させます。私たちの結果は、新しい表現が、進化する FPS マップに以前に使用されていた表現よりも、より多様性と品質の高いマップを生成できることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Procedural Generation of First Person Shooter Maps using Map-Elites</p>
        <p class="orig-summary">We investigate the application of MAP-Elites (a well-known quality diversity algorithm) to design levels for First-Person Shooter (FPS) games. We consider two well-known map representations (All-Black and Grid-Graph) and introduce two novel representations (Point-Line and Spatial-Layout) that improve the characterization of FPS maps. We define a series of metrics to describe maps&#x27; topological properties (which solely depend on maps&#x27; layout), and emergent properties (which must be evaluated through actual gameplay). We perform an in-depth analysis to identify the most suitable features to guide MAP-Elites illumination process. We apply MAP-Elites with Sliding Boundaries (MESB) to evolve populations of FPS maps. Our results show that the new representations can generate maps with higher diversity and quality than the representations previously used for evolving FPS maps.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2f57e0004654" data-article-url="https://arxiv.org/abs/2605.30576" data-article-title="自動運転のための強化学習における不確実性を認識し、時間的に規制された専門家のアドバイス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30576" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30576" target="_blank" rel="noopener">自動運転のための強化学習における不確実性を認識し、時間的に規制された専門家のアドバイス</a></h3>
      <p class="summary">自動運転のための強化学習における探索は本質的に安全ではありません。エージェントは学習するために新しい動作を経験する必要がありますが、探索は衝突やオフロード運転につながる可能性があります。私たちは、専門家のアドバイスを活用して、長期的な依存を回避しながら探索を導く不確実性を認識したフレームワークを提案します。認識的または偶然的な不確実性がローリング バッファーから導出された適応しきい値を超えるとアドバイスがトリガーされ、エージェントの信頼に応じてアドバイスが進化することが保証されます。確率的早期停止ヒューリスティックを使用したコミットメント クールダウン戦略により、ガイダンスの期間と頻度が調整され、アドバイスの予算を使い果たすことなくエージェントが一貫した操作にさらされます。エキスパートとエージェントのエクスペリエンスは、オフポリシーの暗黙的クォンタイル ネットワーク (IQN) バックボーン内の共有リプレイ バッファーで結合され、エキスパートの軌跡を効率的に再利用できます。 CARLA での実験では、私たちの手法が IQN ベースラインを上回っており、成功率が 5 ～ 7% 向上し、失敗が減少していることが示されており、リスクに敏感な不確実性と規制された専門家の統合により、信号のない交差点ナビゲーションにおけるセンサーベースの RL ポリシー学習のより安全で効率的な探索が可能になることが実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving</p>
        <p class="orig-summary">Exploration in reinforcement learning for autonomous driving is inherently unsafe: agents must experience novel behaviors to learn, yet exploration can lead to collisions or off-road driving. We propose an uncertainty-aware framework that leverages expert advice to guide exploration while avoiding long-term dependence. Advice is triggered when epistemic or aleatoric uncertainty exceeds adaptive thresholds derived from rolling buffers, ensuring advice evolves with the agent&#x27;s confidence. A commitment-cooldown strategy with a stochastic early-stop heuristic regulates the duration and frequency of guidance, exposing the agent to coherent maneuvers without exhausting the advice budget. Expert and agent experiences are combined in a shared replay buffer within an off-policy implicit quantile network (IQN) backbone, enabling efficient reuse of expert trajectories. Experiments in CARLA show that our method outperforms the IQN baseline, improving success by 5-7% and reducing failures, demonstrating that risk-sensitive uncertainty coupled with regulated expert integration enables safer and more efficient exploration for sensor-based RL policy learning in unsignalized intersection navigation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8e2831c6539b" data-article-url="https://arxiv.org/abs/2605.30621" data-article-title="ハーネスの更新はハーネスの利点ではありません: 自己進化する LLM エージェントの進化機能の解きほぐし" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30621" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30621" target="_blank" rel="noopener">ハーネスの更新はハーネスの利点ではありません: 自己進化する LLM エージェントの進化機能の解きほぐし</a></h3>
      <p class="summary">LLM エージェントは、プロンプト、スキル、メモリ、ツールなどの編集可能な外部ハーネスを中心に構築されたシステムとして導入されることが増えており、モデル パラメーターを変更せずにタスクの実行を形成します。ハーネスの自己進化は、実行証拠からこれらのハーネスを更新することで、そのようなエージェントを適応させます。しかし、タスク解決におけるモデルの基本的な能力が、ハーネスの自己進化におけるその能力を予測するかどうかは依然として不明です。どのモデルが有用なハーネス更新を生成し、どのモデルが実際にその恩恵を受けるのでしょうか?我々は 2 つのハーネス自己進化機能を分析します。(i) ハーネス更新。実行証拠から有用な永続的なハーネス更新を生成する機能。 (ii) ハーネスの利点、タスク解決中に更新されたハーネスから恩恵を受ける機能。私たちの分析により、2 つの発見が明らかになりました。まず、ハーネスの更新は基本機能がフラットです。さまざまな機能層のモデルがハーネスの更新を生成し、驚くほど同様の利益をもたらします。 Qwen3.5-9B のアップデートでも、Claude Opus~4.6 に匹敵するゲインが得られます。第 2 に、ハーネスの利点は基本機能において単調ではありません。弱い層のモデルは更新されたハーネスからほとんど恩恵を受けず、中間層のモデルは最も恩恵を受け、強い層のモデルは中間層よりも恩恵が少ないです。弱い層での低いゲインを 2 つの障害モードに追跡します。弱い層のモデルは、関連するハーネス アーティファクトのアクティブ化に失敗するか、アクティブ化しても忠実に従うことができない可能性があります。これらの調査結果は、進化者ではなくタスク解決エージェントに能力予算を投資し、エージェントのトレーニングに続くハーネス呼び出しと長期的な指導をターゲットにすることを示唆しています。私たちのソース コードは https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents</p>
        <p class="orig-summary">LLM agents are increasingly deployed as systems built around editable external harnesses, including prompts, skills, memories and tools, that shape task execution without changing model parameters. Harness self-evolution adapts such agents by updating these harnesses from execution evidence. Yet it remains unclear whether a model&#x27;s base capability in task-solving predicts its capabilities in harness self-evolution: which models produce useful harness updates, and which actually benefit from them? We analyze two harness self-evolution capabilities: (i) harness-updating, the capability to produce useful persistent harness updates from execution evidence; (ii) harness-benefit, the capability to benefit from updated harnesses during task solving. Our analysis reveals two findings. First, harness-updating is flat in base capability: models from different capability tiers produce harness updates that lead to surprisingly similar gains; even Qwen3.5-9B&#x27;s updates yield gains comparable to those of Claude Opus~4.6. Second, harness-benefit is non-monotonic in base capability: weak-tier models benefit little from updated harnesses, mid-tier models benefit most, and strong-tier models benefit less than mid-tier. We trace low gains at the weak tier to two failure modes: weak-tier models may fail to activate relevant harness artifacts, or activate them but fail to follow them faithfully. These findings suggest investing capability budget in the task-solving agent rather than the evolver, and targeting harness invocation and long-horizon instruction following in agent training. Our source code is publicly available at https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7895d0cf158a" data-article-url="https://arxiv.org/abs/2605.30637" data-article-title="EHRBench: LLM を使用した臨床意思決定のための、自動化された信頼性の高い EHR ベースのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30637" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30637" target="_blank" rel="noopener">EHRBench: LLM を使用した臨床意思決定のための、自動化された信頼性の高い EHR ベースのベンチマーク</a></h3>
      <p class="summary">臨床意思決定 (CDM) は現実世界の臨床ワークフローの中心であり、臨床医は不完全な証拠の下で診断を推測し、治療法を選択し、将来の健康結果を予測します。強力な言語機能、広範な生物医学的知識、効率性により、これらの意思決定をサポートするために LLM がますます使用されていますが、実際の臨床意思決定タスクにおける LLM の信頼性は依然として十分に理解されていません。 CDM モデル、特に LLM ベースのモデルを評価するには、スケールと品質の両方を保証するために、自動化されている信頼性の高いパイプラインを介して理想的で実用的な医療意思決定ベンチマークを構築する必要があります。さらに、実際の患者の EHR における CDM ベンチマークの基礎は、実質的な生物医学的知識と臨床推論を必要とする実践的な CDM タスクの評価をより適切にサポートできます。ギャップを埋めるために、LLM ベースの臨床意思決定を大規模に評価するための、自動化された信頼性の高い EHR ベースのベンチマークである EHRBench を導入します。スケーラビリティと信頼性を確保するために、EHRBench は EHR-LLM-KB (知識ベース) 対話パイプラインを通じて構築されています。効率性を高めるため、特殊な LLM を使用して、遭遇レベルの EHR 軌跡を構造化されたテンプレートに自動的に変換し、テンプレートを QA 項目に決定論的にインスタンス化します。並行して、体系的な KB ベースの検証と強化を適用して、幻覚や曖昧な関係をフィルタリングし、信頼性を向上させます。このパイプラインを使用して、診断、治療、予後という 3 つの中核となる推論に必要な臨床意思決定タスクにわたる約 100 万 (960,067) の QA 項目を構築します。 EHRBench で 30 を超える代表的な LLM のベンチマークを行い、パフォーマンスと堅牢性の詳細な分析を提供します。結果は、設定全体で一貫した機能傾向を示し、EHRBench の信頼性をさらに検証し、臨床的に信頼できる LLM システムに向けた実用的なギャップを浮き彫りにしました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs</p>
        <p class="orig-summary">Clinical decision-making (CDM) is central to real-world clinical workflows, where clinicians infer diagnoses, select treatments, or anticipate future health outcomes under incomplete evidence. LLMs are increasingly used to support these decisions due to strong language capabilities, broad biomedical knowledge, and efficiency, yet the reliability of LLMs on real-world clinical decision tasks remains insufficiently understood. To evaluate CDM models, especially LLM-based models, an ideal and practical medical decision benchmark should be constructed via an automated yet reliable pipeline to ensure both scale and quality. Moreover, the grounding of a CDM benchmark in real patient EHRs can better support evaluation on practical CDM tasks that require substantive biomedical knowledge and clinical inference. To fill the gaps, we introduce EHRBench, an automated and reliable EHR-grounded benchmark for evaluating LLM-based clinical decision-making at scale. To ensure scalability and reliability, EHRBench is constructed through an EHR-LLM-KB(knowledge-base) interaction pipeline. For efficiency, we use a specialized LLM to automatically convert encounter-level EHR trajectories into structured templates and deterministically instantiate the templates into QA items. In parallel, we apply systematic KB-based verification and enrichment to filter hallucinated or ambiguous relations and to improve reliability. Using this pipeline, we construct nearly 1M (960,067) QA items spanning three core inference-required clinical decision tasks: diagnosis, treatment, and prognosis. We benchmark more than 30 representative LLMs on EHRBench and provide detailed analyses of performance and robustness. The results show consistent capability trends across settings, further validating the reliability of EHRBench and highlighting actionable gaps toward clinically reliable LLM systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c97530f190d2" data-article-url="https://arxiv.org/abs/2605.30664" data-article-title="レビンツリー検索の再根付のための構造に起因する情報" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30664" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30664" target="_blank" rel="noopener">レビンツリー検索の再根付のための構造に起因する情報</a></h3>
      <p class="summary">ポリシーを使用して検索をガイドするサブゴールベースのポリシー ツリー検索は、複雑な単一エージェントの決定論的問題には効果的ですが、多くの場合、明示的なサブゴールの生成に依存するため、大幅なオーバーヘッドが発生し、スケーラビリティが妨げられる可能性があります。この論文では、最近導入された $\sqrt{\text{LTS}}$ アルゴリズムを通じて学習された「rerooter」を使用することで、これらの制限を克服します。 rerooter は問題を暗黙的にソフト サブタスクに分解します。以前の研究では、与えられたリルータまたは手作りのリルータの正式な保証に焦点を当てていましたが、この研究では 3 つのリルータ設計を提案します。(i) グローバルな状態空間構造を活用するクラスタリング ベースのリルータ、(ii) 学習されたコスト To Go 推定を活用するヒューリスティック ベースのリルータ、および (iii) 両方の信号を組み合わせたハイブリッドです。私たちのフレームワークでは、生成されたサブゴールを明示的に再構築して推論する必要がなくなり、大幅に低い計算オーバーヘッドでスケーラブルな検索労力の割り当てが可能になります。経験的に、当社のリルートベースの方法は、サブゴールベースのポリシーツリー検索が失敗する複雑な環境にも拡張でき、テストされたドメインで最先端のオンライントレーニング効率を実現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Structure-Induced Information for Rerooting Levin Tree Search</p>
        <p class="orig-summary">Subgoal-based policy tree search, which uses a policy to guide search, is effective for complex single-agent deterministic problems but often relies on explicit subgoal generation that can incur substantial overhead and hinders scalability. In this paper, we overcome these limitations by using a learned ``rerooter&#x27;&#x27; through the recently-introduced $\sqrt{\text{LTS}}$ algorithm. A rerooter implicitly decomposes the problem into soft subtasks. While previous work focused on the formal guarantees for given or handcrafted rerooters, in this work we propose three rerooter designs: (i) a clustering-based rerooter that exploits global state-space structure, (ii) a heuristic-based rerooter that leverages learned cost-to-go estimates, and (iii) a hybrid that combines both signals. Our framework avoids having to explicitly reconstruct and reason over generated subgoals, thereby enabling scalable allocation of search effort with significantly lower computational overhead. Empirically, our rerooting-based methods scale to complex environments where subgoal-based policy tree search fails, and achieve state-of-the-art online training efficiency on the domains tested.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d115faee9f57" data-article-url="https://arxiv.org/abs/2605.30680" data-article-title="戦略的プロバイダー対応の下での Policy-as-Code 検索による医療メカニズム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30680" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30680" target="_blank" rel="noopener">戦略的プロバイダー対応の下での Policy-as-Code 検索による医療メカニズム</a></h3>
      <p class="summary">ヘルスケアのメカニズムは、それが引き起こす戦略的な医療提供者の反応と切り離すことができません。既存のヘルスケア AI ベンチマークでは、この反応が固定されているため、メカニズムが生み出す均衡によってメカニズムを評価することができません。私たちは、病院のメカニズム設計を言語モデルのプログラム合成として再構築します。型付けされた検査可能なルール プログラムは、5 つの戦略的プロバイダー チャネル (コーディング、選択、遅延、労力、トリアージ) を備えたマルチエージェント シミュレーターである Medi-Sim によって実行され、スコア付けされます。インセンティブスイープは、隣接するレジームとしての古典的な医療経済学の知見を回復する――利益圧力の下でのアップコーディングと複雑性の低い患者の選択、および測定されたパフォーマンスが真の結果と逆相関するグッドハート流のドリフト――そして単一の監査レバーがプレッシャーマイグレーションを暴露する：コーディングチャネルを閉じると、複雑性の低い選択が2倍以上になる。同じルールプログラム空間に対する LLM ガイドによる進化的コード検索により、アップコーディングを排除し、拒否を半分にし、利益志向のベースラインの資金のほとんどを保持する、検査可能な混合目的プログラムが合成されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Healthcare Mechanisms from Policy-as-Code Search under Strategic Provider Response</p>
        <p class="orig-summary">Healthcare mechanisms are inseparable from the strategic provider response they induce: existing healthcare AI benchmarks hold this response fixed and so cannot evaluate mechanisms by the equilibrium they produce. We recast hospital mechanism design as program synthesis for language models: typed, inspectable rule programs are executed and scored by Medi-Sim, a multi-agent simulator with five strategic provider channels (coding, selection, delay, effort, triage). An incentive sweep recovers classical health-economics findings as adjacent regimes -- up-coding and low-complexity-patient selection under profit pressure, and Goodhart-style drift where measured performance becomes anti-correlated with true outcomes -- and a single audit lever exposes pressure migration: closing the coding channel more than doubles low-complexity selection. LLM-guided evolutionary code search over the same rule-program space then synthesizes an inspectable mixed-objective program that eliminates up-coding, halves rejection, and retains most of the profit-oriented baseline&#x27;s funds.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="711717379746" data-article-url="https://arxiv.org/abs/2605.30738" data-article-title="MAVEN: エージェントティックツール呼び出しの一般化の改善" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30738" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30738" target="_blank" rel="noopener">MAVEN: エージェントティックツール呼び出しの一般化の改善</a></h3>
      <p class="summary">エージェント ツール呼び出し環境全体での一般化は、信頼性の高いエージェント推論システムにとって依然として中心的な課題です。大規模な言語モデルは個々のベンチマークで優れた結果を達成しますが、推論戦略を構成し、中間状態を保持し、ドメイン間でツールを調整する能力はまだ十分に解明されていません。構造化分解、適応ツール オーケストレーション、中間検証のための軽量の記号推論足場である MAVEN (Modular Agentic Verification and Execution Network) を紹介します。私たちは、BFCL v3、TauBench、Tau2Bench、AceBench などの確立されたツール呼び出しベンチマーク全体で MAVEN を評価し、明示的な検証と敵対的タスク構成を備えたマルチステップの数学的および物理的推論のためのストレス テスト ベンチマークである MAVEN-Bench を紹介します。 MAVEN-Bench は、部分的な推論の品質とエンドツーエンドのタスクの成功の間に大きなギャップがあることを明らかにします。 MAVEN-Bench を直接実行すると、MAVEN は追加のトレーニングなしで GPT-OSS-120b 基本モデルの精度が 48% から 71% に向上しました。また、推定コスト比が約 1/10 のオープンウェイト バックボーンを使用しながら、フロンティア独自のベースラインとの競争力を維持しています。これは、軽量の検証中心のスキャフォールドが構成推論を強化し、実際のエージェントのよりプロセスを意識した評価を動機付ける可能性があることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MAVEN: Improving Generalization in Agentic Tool Calling</p>
        <p class="orig-summary">Generalization across agentic tool-calling environments remains a central challenge for reliable agentic reasoning systems. Although large language models achieve strong results on individual benchmarks, their ability to compose reasoning strategies, preserve intermediate states, and coordinate tools across domains remains underexplored. We present MAVEN (Modular Agentic Verification and Execution Network), a lightweight symbolic reasoning scaffold for structured decomposition, adaptive tool orchestration, and intermediate verification. We evaluate MAVEN across established tool-calling benchmarks, including BFCL v3, TauBench, Tau2Bench, AceBench, and introduce MAVEN-Bench, a stress-test benchmark for multi-step mathematical and physical reasoning with explicit verification and adversarial task composition. MAVEN-Bench exposes a substantial gap between partial reasoning quality and end-to-end task success; in direct MAVEN-Bench runs, MAVEN improves its GPT-OSS-120b base model from 48% to 71% accuracy without additional training. It also remains competitive with frontier proprietary baselines while using an open-weight backbone with an estimated cost ratio of roughly 1/10, suggesting that lightweight verification-centered scaffolds can strengthen compositional reasoning and motivate more process-aware evaluation of agents in the wild.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d122dba0b058" data-article-url="https://arxiv.org/abs/2605.30747" data-article-title="拡散モデルによるナレッジグラフ推論のためのグラフ状ルールの生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30747" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30747" target="_blank" rel="noopener">拡散モデルによるナレッジグラフ推論のためのグラフ状ルールの生成</a></h3>
      <p class="summary">Logical rules constitute a cornerstone of knowledge graph (KG) reasoning, valued for their interpretability and ability to model relational patterns. However, existing rule mining methods predominantly focus on simple chain-like rules and therefore neglect the richer relational information encoded in graph-like structures, such as cycles and branches. This limitation is further exacerbated by computational bottlenecks caused by the combinatorial explosion of the search space, which is especially challenging for graph-like rules.一方、拡散モデルなどの生成的アプローチは、他の領域では成功しているにもかかわらず、ルールマイニングに直接適用することはできません。これは、そのトレーニングの目的が高品質のルールを学習するという目標と一致しておらず、微分不可能な KG ルールの品質メトリクスがモデルの最適化を直接導くことができないためです。これらの制限に対処するために、我々は、ターゲット関係を条件とする離散生成プロセスとしてグラフ状のルール発見を再定式化するフレームワークである GRiD を提案します。 GRiD は 2 段階のトレーニング戦略を採用しています。まず、教師あり事前トレーニングにより、GRiD は KG メタグラフからサンプリングされたサブグラフから構造事前分布を取得できるようになります。その後、強化学習が適用され、微分不可能なルール品質メトリクスによって直接導かれるポリシー勾配最適化を通じて GRiD が微調整されます。 6 つのベンチマーク データセットでの実験では、GRiD が KG 完了タスクで競争力のあるパフォーマンスを達成していることが示されています。アブレーション研究では、GRiD の効率と堅牢性が確認され、さらに、KG 完成においてグラフ状のルールがチェーン状のルールを補完することが示されています。コードとデータセットは https://github.com/Haoxiang-Cheng/GRiD で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Generating Graph-like Rules for Knowledge Graph Reasoning via Diffusion Models</p>
        <p class="orig-summary">Logical rules constitute a cornerstone of knowledge graph (KG) reasoning, valued for their interpretability and ability to model relational patterns. However, existing rule mining methods predominantly focus on simple chain-like rules and therefore neglect the richer relational information encoded in graph-like structures, such as cycles and branches. This limitation is further exacerbated by computational bottlenecks caused by the combinatorial explosion of the search space, which is especially challenging for graph-like rules. Meanwhile, generative approaches such as diffusion models, despite their success in other domains, can not be directly applied to rule mining because their training objectives are not aligned with the goal of learning high-quality rules, and non-differentiable KG rule quality metrics cannot directly guide model optimization. To address these limitations, we propose GRiD, a framework that reformulates graph-like rule discovery as a discrete generative process conditioned on the target relation. GRiD employs a two-phase training strategy. First, supervised pre-training enables GRiD to capture structural priors from subgraphs sampled from the KG meta-graph. Subsequently, reinforcement learning is applied to fine-tune GRiD through policy gradient optimization guided directly by non-differentiable rule-quality metrics. Experiments on six benchmark datasets show that GRiD achieves competitive performance on KG completion tasks. Ablation studies confirm the efficiency and robustness of GRiD and further show that graph-like rules complement chain-like rules in KG completion. Our codes and datasets are available in https://github.com/Haoxiang-Cheng/GRiD</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a1a6e4a410be" data-article-url="https://arxiv.org/abs/2605.30785" data-article-title="長期タスク向けの学習エージェント互換のコンテキスト管理" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30785" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30785" target="_blank" rel="noopener">長期タスク向けの学習エージェント互換のコンテキスト管理</a></h3>
      <p class="summary">LLM エージェントは、Web 検索や実世界のアプリケーションでの詳細な調査など、長期にわたるタスクに直面することが増えています。このタスクでは、蓄積されたコンテキストが長期コンテキストの劣化や推論の失敗を引き起こす可能性があります。これまでの研究では、エージェント側のコンテキスト制御や要約などの固定戦略を使用したコンテキスト管理を通じてこの問題を軽減していましたが、適応のためにエージェント自体をトレーニングする必要があり、クローズドソースのエージェントには非現実的であり、エージェントごとに異なる戦略が必要になる可能性があることが無視されていました。 Adaptive Context Management (AdaCoM) を導入します。これは、柔軟な変更アクションとエンドツーエンドの強化学習を通じて、凍結されたエージェントのコンテキストを管理するように外部 LLM をトレーニングします。 AdaCoM は、Web 検索およびディープリサーチベンチマーク上のさまざまなエージェントにわたって、古いコンテンツを削除しながらタスクの制約と進行状況を維持することで、パフォーマンスを大幅に向上させます。学習された戦略は、忠実度と信頼性のトレードオフを明らかにします。つまり、バニラ ReAct のパフォーマンスが高いエージェントは、忠実度の高いコンテキストの保存から恩恵を受けますが、パフォーマンスが低いエージェントは、信頼できる推論体制内に留まるために、より積極的な圧縮を必要とします。転送実験では、AdaCoM が同様の機能 (バニラ ReAct パフォーマンスで測定) を持つエージェント間で最も効果的に一般化することが示されており、エージェント システムの再利用可能なコンテキスト マネージャーへの実用的な道筋が示唆されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Learning Agent-Compatible Context Management for Long-Horizon Tasks</p>
        <p class="orig-summary">LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6e55a9f60479" data-article-url="https://arxiv.org/abs/2605.30803" data-article-title="PReMISE: LLM 審査員の測定仕様としてのポリシールーブリック" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30803" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30803" target="_blank" rel="noopener">PReMISE: LLM 審査員の測定仕様としてのポリシールーブリック</a></h3>
      <p class="summary">LLM 審査員は自由形式の回答を評価することにますます慣れていますが、審査員のスコアは条件付けするルーブリックに大きく依存します。 「役立つ、事実に基づいた」回答を求める曖昧なルーブリックでは、事実をでっち上げたり、ユーザーの意図に反する洗練された回答が報酬となる可能性があります。私たちは再利用可能なルーブリックを測定仕様として扱います。ルーブリックを変更すると、固定されたジャッジによって引き起こされる応答品質の測定が変化します。我々は、ペアごとの人間の選好データを基に、(i) ポリシーレベルのルーブリックセットを発見し、(ii) LLM 審査員が使用するルーブリックセットを構造的適切性、信頼性、選好適合性、敵対的堅牢性の 4 つの軸に沿って監査するフレームワークである PReMISE を紹介します。ルーブリック ソース全体にわたって、信頼性があり、好みを予測でき、敵対的に堅牢であるという生のソースは存在しません。また、評価者間の合意が高いことは、悪用可能性が低いことを意味するものではありません。 PReMISE は、適用性、特異性、効果的な次元性を同時に採点できる唯一のルーブリック ソースです。私たちは監査を対象とした 2 つの修復操作に貢献しています。優先順位の選択により、一対の回答に対するジャッジの精度が $65.0\%$ から $68.6\%$ に向上し、最も強力なルーブリック検出ベースラインと競合し、ジャッジ間のスイープで 3 人のジャッジのうち 2 人をリードしています。信頼性を制約した改良により、エクスプロイトの応答が高スコアを獲得する割合が $46.4\%$ から $36.0\%$ に減少しましたが、審査員間の合意はほとんど変わりません ($\alpha{=}.531\to.519$)。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PReMISE: Policy Rubrics as Measurement Specifications for LLM Judges</p>
        <p class="orig-summary">LLM judges are increasingly used to evaluate open-ended responses, but their scores depend strongly on the rubrics that condition them. A vague rubric asking for a response to be ``helpful and factual&#x27;&#x27; can reward polished answers that invent facts or violate user intent. We treat reusable rubrics as measurement specifications: changing the rubric changes the response quality measurement induced by a fixed judge. We introduce PReMISE, a framework that, given pairwise human-preference data, (i) discovers a policy-level rubric set, and (ii) audits any rubric set under LLM-judge use along four axes: structural adequacy, reliability, preference fit, and adversarial robustness. Across rubric sources no raw source is simultaneously reliable, preference-predictive, and adversarially robust; and high inter-rater agreement does not imply low exploitability. PReMISE is the only rubric source to score non-trivially on applicability, specificity, and effective dimensionality simultaneously. We contribute two audit-targeted repair operations: preference-rank selection raises judge accuracy on paired responses from $65.0\%$ to $68.6\%$, competitive with the strongest rubric-discovery baselines and leading on two of three judges in our cross-judge sweep; reliability-constrained refinement reduces the rate at which exploit responses receive high scores from $46.4\%$ to $36.0\%$ with little change in inter-judge agreement ($\alpha{=}.531\to.519$).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d522b2bae267" data-article-url="https://arxiv.org/abs/2605.30824" data-article-title="構造を認識した報酬を備えた深い研究のためのプランナー中心の強化学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30824" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30824" target="_blank" rel="noopener">構造を認識した報酬を備えた深い研究のためのプランナー中心の強化学習</a></h3>
      <p class="summary">詳細な調査タスクでは、LLM が何を調査するかを計画し、証拠を取得し、複数の調査分野にわたって長い形式の回答を総合する必要があります。既存のトレーニング パラダイムは、代理として短い形式の検証可能な QA に依存するか、モノリシックな長い軌道を最適化するかのいずれかです。そのため、計画と実行が複雑になり、計画プロセスに対する単位の割り当てが弱くなります。私たちは、プランナー中心の深層研究フレームワークである DecomposeR を提案します。DecomposeR は、研究計画を型付き有向非巡回グラフ (DAG) として表現し、計画を明示的、構造化して報酬を得ることができるようにします。 Qwen3-8B モデルを 2 段階でトレーニングします。プランナー強化学習 (RL) は、まず研究計画を改善するためにグラフ構造とクエリ分解を学習し、次にアンサー強化学習 (RL) がブランチレベルの実行と、学習されたプランに基づいて条件付けされた最終合成を学習します。 DecomposeR は、平坦な軌道ではなく、明示的なプランナー トークンと構造化コンポーネントに報酬を割り当てることで、エンドツーエンドのトレーニングの曖昧さを軽減しながら、計画のよりきめ細かい最適化を可能にします。実験によると、DecomposeR-8B は、計画および回答機能の向上により、一般的な長文ベンチマークにおいて、強力で比較可能なオープン ベースラインよりも 5.1 ～ 8.0 ポイント向上していることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward</p>
        <p class="orig-summary">Deep research tasks require LLMs to plan what to investigate, retrieve evidence, and synthesize long-form answers across multiple branches of inquiry. Existing training paradigms either rely on short-form verifiable QA as a proxy or optimize monolithic long trajectories, which makes planning and execution difficult to disentangle and yields weak credit assignment for the planning process. We propose DecomposeR, a planner-centric deep research framework that represents research plans as typed directed acyclic graphs (DAGs), allowing planning to be made explicit, structured, and rewardable. We train a Qwen3-8B model in two stages: planner reinforcement learning (RL) first learns graph structure and query decomposition to improve research planning, and answerer reinforcement learning (RL) then learns branch-level execution and final synthesis conditioned on the learned plan. By assigning rewards to explicit planner tokens and structured components rather than to a flat trajectory, DecomposeR enables finer-grained optimization of planning while reducing the ambiguity of end-to-end training. Experiments show that DecomposeR-8B improves over strong comparable open baselines by 5.1-8.0 points on popular long-form benchmarks due to improved planning and answering capabilities.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bb8a2131288a" data-article-url="https://arxiv.org/abs/2605.30832" data-article-title="SLAT: 効率的な CoT 推論のためのセグメントレベルの適応トリミング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30832" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30832" target="_blank" rel="noopener">SLAT: 効率的な CoT 推論のためのセグメントレベルの適応トリミング</a></h3>
      <p class="summary">大規模推論モデルの最近の進歩により、強化学習 (RL) による思考連鎖 (CoT) 機能が大幅に向上しました。ただし、生成された推論チェーンは構造的な冗長性 (つまり \emph{over Thinking}) に悩まされることが多く、解答の正しさは改善されずに高い計算オーバーヘッドが発生します。既存の緩和戦略は通常、トークンの均一な長さのペナルティに依存しています。これにより、より短い出力に向けてセグメントに依存しない粗い圧力がかかり、冗長性とともに有用な推論が誤って抑制される可能性があります。これに対処するために、限界効用が低い確率の高いセグメントに非効率が集中していることを実証します。私たちは、正確性と長さのトレードオフ目標の下でセグメントの準最適性の理論的特徴付けを導き出し、この基準に基づいて冗長なセグメントを選択的に抑制する RL フレームワークである \textsc{SLAT} (セグメントレベル適応トリミング) を提案します。標準ベンチマークの経験的結果は、\textsc{SLAT} が優れた精度効率のパレート フロンティアを確立し、競合する精度を維持しながら非圧縮ベースラインと比較して推論の長さを $50\%$ 短縮することを示しています。全体として、私たちの結果は、理論に基づいたセグメントを意識したトリミングが、大規模な言語モデルにおける効率的な CoT 推論の有望な方向性であることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SLAT: Segment-Level Adaptive Trimming for Efficient CoT Reasoning</p>
        <p class="orig-summary">Recent advances in Large Reasoning Models have significantly improved chain-of-thought (CoT) capabilities via reinforcement learning (RL). However, generated reasoning chains frequently suffer from structural redundancy (i.e., \emph{overthinking}), incurring high computational overhead without improving answer correctness. Existing mitigation strategies typically rely on token-uniform length penalties, which provide coarse, segment-agnostic pressure toward shorter outputs and can inadvertently suppress useful reasoning alongside redundancy. To address this, we demonstrate that inefficiency concentrates in high-probability segments with low marginal utility. We derive a theoretical characterization of segment suboptimality under the correctness-length trade-off objective and propose \textsc{SLAT} (Segment-Level Adaptive Trimming), an RL framework that selectively suppresses redundant segments based on this criterion. Empirical results on standard benchmarks indicate that \textsc{SLAT} establishes a superior accuracy-efficiency Pareto frontier, reducing reasoning length by $50\%$ relative to uncompressed baselines while maintaining competitive accuracy. Overall, our results suggest that theoretically grounded, segment-aware trimming is a promising direction for efficient CoT reasoning in large language models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0bb3cc67454" data-article-url="https://arxiv.org/abs/2605.30838" data-article-title="COMPASS: セーフ サーチ エージェント向けの認知 MCTS ガイドによるプロセス調整" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30838" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30838" target="_blank" rel="noopener">COMPASS: セーフ サーチ エージェント向けの認知 MCTS ガイドによるプロセス調整</a></h3>
      <p class="summary">LLM を利用した検索エージェントにより、複数ステップの推論とツールの使用が可能になります。ただし、これらの機能は、有害な意図が一見無害に見えるサブクエリに分解され、安全でない結果を引き起こす可能性があるため、検索による安全性の低下を引き起こします。既存の調整手法は、まばらな安全信号を捕捉するのに苦労しており、複数ステップの相互作用にわたる多様な違反を監視できません。私たちは、一般的な実用性を維持しながら、エージェントのワークフロー全体で堅牢な安全調整を実現するように設計されたコグニティブ MCTS ガイド付きプロセス調整フレームワークである COMPASS を提案します。 COMPASS は、コグニティブ ツリー探索 (CTE) を統合してステルス攻撃の軌道を効率的に合成し、内省的ステップワイズ アライメント (ISA) を統合して、きめ細かいプロセス監視のためにリスクのある中間アクションを分離します。経験的な結果は、COMPASS が必要なトレーニング データを大幅に削減しながら、安全性とユーティリティの有利なトレードオフを達成していることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">COMPASS: Cognitive MCTS-Guided Process Alignment for Safe Search Agents</p>
        <p class="orig-summary">LLM-powered search agents enable multi-step reasoning and tool use. However, these capabilities introduce retrieval-induced safety degradation, as harmful intents may decompose into seemingly innocuous sub-queries that lead to unsafe outcomes. Existing alignment methods struggle to capture sparse safety signals and fail to supervise diverse violations across multi-step interactions. We propose COMPASS, a Cognitive MCTS-Guided Process Alignment framework designed to achieve robust safety alignment throughout the agent workflow while preserving general utility. COMPASS integrates cognitive tree exploration (CTE) to efficiently synthesize stealthy attack trajectories, and introspective step-wise alignment (ISA) to isolate risky intermediate actions for fine-grained process supervision. Empirical results show that COMPASS achieves a favorable safety-utility trade-off while requiring substantially less training data.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cc86b38ba309" data-article-url="https://arxiv.org/abs/2605.30861" data-article-title="リーン定理証明のための LLM フィードバックの抽出" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30861" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30861" target="_blank" rel="noopener">リーン定理証明のための LLM フィードバックの抽出</a></h3>
      <p class="summary">推論モデルのポストトレーニングでは通常、教師あり微調整と検証可能な報酬からの強化学習が組み合わされ、最も一般的には GRPO が使用されます。ただし、このアルゴリズムには、報酬がまばらで、探索が制限され、モードが崩壊するという問題があります。自己蒸留に関する最近の研究に基づいて、私たちはフィードバック蒸留を提案します。これは、言語モデルによって生成された特権フィードバックを条件とした独自の分布にトークン レベルで一致するようにモデルがトレーニングされるトレーニング方法です。フィードバック蒸留はトークンレベルの監視を提供し、外部の知識を注入できます。 Lean4 定理証明の方法を評価すると、フィードバック蒸留は GRPO よりも生成された軌道の多様性を維持し、より高いポリシー エントロピーとより優れた pass@k スケーリングを生み出すことがわかります。 2 つの方法は補完的です。フィードバック蒸留チェックポイントから GRPO を初期化することは、どちらかの方法を単独で行うよりも優れたパフォーマンスを発揮します。全体として、私たちの結果は、複雑な推論のトレーニング後の改善に向けた有望な手段であることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Distilling LLM Feedback for Lean Theorem Proving</p>
        <p class="orig-summary">Post-training for reasoning models typically combines supervised fine-tuning with reinforcement learning from verifiable rewards, most commonly with GRPO. However, this algorithm suffers from sparse rewards, limited exploration, and mode collapse. Building upon recent works on self-distillation, we propose Feedback Distillation, a training method where the model is trained to match, at the token level, its own distribution conditioned on privileged feedback produced by a language model. Feedback Distillation offers token-level supervision and can inject external knowledge. Evaluating our method for Lean4 theorem-proving, we find that Feedback Distillation maintains greater diversity in generated trajectories than GRPO, yielding higher policy entropy and better pass@k scaling. The two methods are complementary: initializing GRPO from a Feedback Distillation checkpoint outperforms either method alone. All in all, our results suggest a promising avenue to improve post-training for complex reasoning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c411041dee2e" data-article-url="https://arxiv.org/abs/2605.30898" data-article-title="UniScale: モデル ルーティングとテスト時間スケーリングのオンライン共同最適化による適応型統合推論スケーリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30898" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30898" target="_blank" rel="noopener">UniScale: モデル ルーティングとテスト時間スケーリングのオンライン共同最適化による適応型統合推論スケーリング</a></h3>
      <p class="summary">大規模言語モデル (LLM) を実際に展開する場合、推論の品質と計算コストのバランスをとることが中心的な課題となっています。既存のアプローチは、リクエストの複雑さに合わせてさまざまなスケールのモデル間で切り替えるモデル ルーティングと、きめ細かい制御のために固定モデル内で推論時間の計算を調整するテスト時間スケーリング (TTS) という、2 つの大きく独立した次元に沿ってこのトレードオフに取り組んでいます。ただし、この分離された設計には固有の制限が生じます。モデル ルーティングでは、モデル スケールがまばらなため、粒度が粗くて離散的なパフォーマンス変化が生じますが、単一モデル TTS では、多くの場合、容量の上限に遭遇し、コンピューティングが増加するにつれて利益が減少します。さらに、2 つのメカニズムを個別に扱うと、動的推論環境での適応性が制限されます。これらの制限を克服するために、単一の最適化空間でモデル ルーティングと TTS を統合する Unified Inference Scaling (UIS) を導入します。この定式化に基づいて、適応型 UIS を状況に応じたマルチアーム バンディット問題としてモデル化し、LinUCB を介して推論ポリシーを学習するオンライン フレームワークである UniScale を提案します。このフレームワークには、効率を意識した学習とコスト モデリングが組み込まれており、高次元のアクション スペースにわたって安定したスケーラブルな最適化が保証されます。評価の結果、UniScale は UIS 空間の相乗効果を効果的に活用して、多様で動的な推論シナリオ全体にわたって、きめ細かく一貫して優れた品質とコストのトレードオフを実現していることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">UniScale: Adaptive Unified Inference Scaling via Online Joint Optimization of Model Routing and Test-Time Scaling</p>
        <p class="orig-summary">In real-world deployments of large language models (LLMs), balancing inference quality and computational cost has become a central challenge. Existing approaches tackle this trade-off along two largely independent dimensions: model routing, which switches among models of different scales to match request complexity, and test-time scaling (TTS), which adjusts inference-time compute within a fixed model for fine-grained control. However, this decoupled design introduces inherent limitations. Model routing yields coarse-grained, discrete performance changes due to the sparse set of model scales, while single-model TTS often encounters capacity ceilings and exhibits diminishing returns as compute increases. Moreover, treating the two mechanisms separately restricts adaptability in dynamic inference environments. To overcome these limitations, we introduce Unified Inference Scaling (UIS), which unifies model routing and TTS in a single optimization space. Building on this formulation, we propose UniScale, an online framework that models adaptive UIS as a contextual multi-armed bandit problem and learns inference policies via LinUCB. The framework incorporates efficiency-aware learning and cost modeling to ensure stable and scalable optimization over high-dimensional action spaces. Evaluation shows that UniScale effectively exploits the synergy in the UIS space to deliver a fine-grained and consistently better quality-cost trade-off across diverse, dynamic inference scenarios.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4d5c8d06e4fe" data-article-url="https://arxiv.org/abs/2605.30900" data-article-title="BilliardPhys-Bench: マルチモーダル LLM の物理的推論と視覚的ダイナミクスのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30900" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30900" target="_blank" rel="noopener">BilliardPhys-Bench: マルチモーダル LLM の物理的推論と視覚的ダイナミクスのベンチマーク</a></h3>
      <p class="summary">現在のマルチモーダル モデルは静的画像認識をうまく処理しますが、直感的な物理的推論には依然として弱点が残っています。これらのシステムでは、単一の画像からオブジェクトがどのように移動し相互作用するかを予測することは依然として困難です。合成ビリヤード環境における物理的推論のベンチマークである BilliardPhys-Bench を紹介します。その手続き型エンジンは、摩擦と弾性衝突を伴うランダム化されたシナリオを生成します。このベンチマークでは、(1) ボールとボールの衝突の予測、(2) 壁の跳ね返りについての推論、(3) 動作が停止した後の最終的なボールの位置の推定の 3 つの能力をテストします。 GPT、Claude、Gemini、Qwen ファミリーの最近の MLLM を評価します。シミュレーション時間が長くなり、シーンのジオメトリが複雑になると、パフォーマンスが低下します。また、「スタシス バイアス」と呼ばれる一貫した故障モードも観察されています。つまり、正しい物理的結果を推測することが難しい場合、モデルは相互作用がないと予測する傾向があります。これらの発見は、現在の MLLM が視覚ダイナミクスのどこで破綻しているかを示しており、マルチモーダル アーキテクチャにおけるより優れた物理的誘導バイアスの必要性を示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BilliardPhys-Bench: Benchmarking Physical Reasoning and Visual Dynamics of Multimodal LLMs</p>
        <p class="orig-summary">Current multimodal models handle static image recognition well, but intuitive physical reasoning remains a weakness. Predicting how objects will move and interact from a single image is still difficult for these systems. We present BilliardPhys-Bench, a benchmark for physical reasoning in synthetic billiards environments. Its procedural engine generates randomized scenarios with friction and elastic collisions. The benchmark tests three abilities: (1) predicting ball-to-ball collisions, (2) reasoning about wall bounces, and (3) estimating final ball positions after motion stops. We evaluate recent MLLMs from the GPT, Claude, Gemini, and Qwen families. Performance drops as simulation time increases and scene geometry grows more complex. We also observe a consistent failure mode we call &quot;stasis bias&quot;: when the correct physical outcome is harder to infer, models tend to predict no interaction. These findings show where current MLLMs break down on visual dynamics and point toward the need for better physical inductive biases in multimodal architectures.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cfad3e53b931" data-article-url="https://arxiv.org/abs/2605.31021" data-article-title="生成 AI における多元的調整のためのペルソナベースの評価フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31021" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31021" target="_blank" rel="noopener">生成 AI における多元的調整のためのペルソナベースの評価フレームワーク</a></h3>
      <p class="summary">生成型人工知能の現在の調整パラダイムは、主にモノリシックなベンチマーク フレームワークに依存しており、人間の複数の判断を集約された統計ベースラインに還元することで、評価における文化的、人口統計的、および文脈上のばらつきを曖昧にします。我々は、単一の評価関数を人間の多様な視点を表す合成認知プロファイルの構造化された多様体に置き換える、AI 評価のための状態空間制約付きエミュレーション フレームワークを導入します。私たちは、最新の生成アーキテクチャがこれらの評価ペルソナを高い一貫性でインスタンス化して維持できることを示し、現実世界のコンセンサス変動をより厳密に反映する、多元的で視点に依存したベンチマークの形式を可能にします。しかし、我々は、逐次推論と確率的プロンプト摂動下でのこれらのシミュレートされた評価器の安定性をさらに分析し、状態空間ドリフトと意味論的不一致として現れるペルソナの一貫性の体系的な低下を明らかにしました。これらの発見は、静的な位置合わせの制約では、長期にわたって堅牢な評価動作を維持するには不十分であることを示唆しています。その代わりに、私たちは、一貫した認知エミュレーションを維持するために、生成システム内に動的で実行可能性主導の制御メカニズムを組み込む必要性を主張します。この研究は、ペルソナベースの評価を潜在表現多様体上の構造化された動的システムとして枠組み化することで、AI 評価に対する、より適応的で人間と連携した、状況に応じたアプローチの基盤を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Persona-Based Evaluation Framework for Pluralistic Alignment in Generative AI</p>
        <p class="orig-summary">Current alignment paradigms for generative artificial intelligence rely predominantly on monolithic benchmarking frameworks that reduce the plurality of human judgment to aggregated statistical baselines, thereby obscuring cultural, demographic, and contextual variability in evaluation. We introduce a state-space constrained emulation framework for AI evaluation that replaces singular assessment functions with a structured manifold of synthetic cognitive profiles representing diverse human perspectives. We show that modern generative architectures can instantiate and maintain these evaluative personas with high consistency, enabling a form of pluralistic, perspective-dependent benchmarking that more closely reflects real-world consensus variability. However, we further analyze the stability of these simulated evaluators under sequential inference and stochastic prompt perturbations, revealing systematic degradation in persona coherence that manifests as state-space drift and semantic inconsistency. These findings suggest that static alignment constraints are insufficient for sustaining robust evaluative behavior over time. Instead, we argue for the necessity of embedding dynamic, viability-driven regulatory mechanisms within generative systems to preserve coherent cognitive emulation. By framing persona-based evaluation as a structured dynamical system over latent representation manifolds, this study provides a foundation for more adaptive, human-aligned, and context-sensitive approaches to AI evaluation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f267c66c0cf9" data-article-url="https://arxiv.org/abs/2605.31023" data-article-title="HADT: 自律型地球観測衛星クラスター用のヘテロジニアス・マルチエージェント差動変圧器" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31023" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31023" target="_blank" rel="noopener">HADT: 自律型地球観測衛星クラスター用のヘテロジニアス・マルチエージェント差動変圧器</a></h3>
      <p class="summary">この研究では、光学衛星や合成開口レーダー (SAR) 衛星を含む地球観測 (EO) ミッションを実行する異種衛星クラスターにおける自律的なリソース管理の問題に取り組んでいます。自律運用モードでは、衛星には最新の状況に基づいたリアルタイムの意思決定を可能にするインテリジェント機能が装備されており、地上オペレーターとの対話は最小限に抑えられます。従来のスケジューリング手法は通常、衛星のミッションとリソース管理を表す数学的モデルに依存しています。次に、この問題は最適化アルゴリズムを使用して解決されます。ただし、そのようなソリューションは、宇宙ミッション環境に固有の動的な変化や不確実性により、基礎となるモデルが利用できない場合、過度に複雑な場合、不正確な場合には効果が低くなります。有望な代替案は、問題を逐次的な意思決定プロセスとして再定式化し、モデルフリーの強化学習手法を適用して、適応的かつリアルタイムのリソース管理を可能にすることです。この目的を達成するために、我々は、関係的な観測とアクションのトークン化と差分注意メカニズムを備えた、異種衛星クラスターの自律的 EO ミッションに合わせた新しいトランスフォーマーベースのアーキテクチャを提案します。私たちの実験結果は、利用可能なベースラインと比較してパフォーマンスが大幅に向上していることを示しています。さらに、提案されたアーキテクチャは、さまざまな数の衛星クラスターに対して強力な適応性と転送性を示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">HADT: A Heterogeneous Multi-Agent Differential Transformer for Autonomous Earth Observation Satellite Cluster</p>
        <p class="orig-summary">This work addresses the problem of autonomous resource management in heterogeneous satellite cluster conducting Earth Observation (EO) missions including optical and Synthetic Aperture Radar (SAR) satellites. In autonomous operation mode, satellites are equipped with intelligent capabilities enabling real-time decision-making based on the latest conditions, while requiring minimal interaction with ground operators. Traditional scheduling approaches typically rely on mathematical models to represent satellite mission and resource management. Then, this problem is solved by using optimization algorithms. However, such solutions become less effective when the underlying models are not available, over complex, and inaccurate due to dynamic changes and uncertainties inherent in the space mission environment. A promising alternative is to reformulate the problem as a sequential decision-making process and apply model-free reinforcement learning techniques to enable adaptive and real-time resource management. To this end, we propose a novel transformer-based architecture tailored for heterogeneous satellite cluster autonomous EO Mission with relational observations-actions tokenization and differential attention mechanism. Our experimental results demonstrate significant performance improvements compared to the available baselines. Moreover, the proposed architecture exhibits strong adaptability and transferability with respect to varying numbers of satellite clusters.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8f485132b5f8" data-article-url="https://arxiv.org/abs/2605.31031" data-article-title="GraphARC: グラフベースの抽象推論のための包括的なベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31031" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31031" target="_blank" rel="noopener">GraphARC: グラフベースの抽象推論のための包括的なベンチマーク</a></h3>
      <p class="summary">関係推論はインテリジェンスの中心にありますが、既存のベンチマークは通常、グリッドやテキストなどの形式に限定されています。グラフ構造データに対する抽象推論のベンチマークである GraphARC を紹介します。 GraphARC は、Abstraction and Reasoning Corpus (ARC) の少数ショット変換学習パラダイムを一般化します。各タスクでは、いくつかの入出力ペアから変換ルールを推測し、それを新しいテスト グラフに適用し、ローカル、グローバル、および階層的なグラフ変換をカバーする必要があります。グリッドベースの ARC とは異なり、GraphARC インスタンスはさまざまなグラフ ファミリやサイズにわたって大規模に生成できるため、汎化能力の体系的な評価が可能になります。私たちは GraphARC で最先端の言語モデルを評価し、明らかな制限を観察しました。モデルはグラフのプロパティに関する質問には答えることができますが、完全なグラフ変換タスクを解決できないことが多く、理解と実行のギャップが明らかになります。インスタンスが大きくなるとパフォーマンスがさらに低下し、スケーリングの障壁が露呈します。より広範には、ノード分類、リンク予測、およびグラフ生成の側面を単一のフレームワーク内で組み合わせることで、GraphARC は将来のグラフ基盤モデルに有望なテストベッドを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GraphARC: A Comprehensive Benchmark for Graph-Based Abstract Reasoning</p>
        <p class="orig-summary">Relational reasoning lies at the heart of intelligence, but existing benchmarks are typically confined to formats such as grids or text. We introduce GraphARC, a benchmark for abstract reasoning on graph-structured data. GraphARC generalizes the few-shot transformation learning paradigm of the Abstraction and Reasoning Corpus (ARC). Each task requires inferring a transformation rule from a few input-output pairs and applying it to a new test graph, covering local, global, and hierarchical graph transformations. Unlike grid-based ARC, GraphARC instances can be generated at scale across diverse graph families and sizes, enabling systematic evaluation of generalization abilities. We evaluate state-of-the-art language models on GraphARC and observe clear limitations. Models can answer questions about graph properties but often fail to solve the full graph transformation task, revealing a comprehension-execution gap. Performance further degrades on larger instances, exposing scaling barriers. More broadly, by combining aspects of node classification, link prediction, and graph generation within a single framework, GraphARC provides a promising testbed for future graph foundation models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e3d7e52dea29" data-article-url="https://arxiv.org/abs/2605.31100" data-article-title="クロスモデルのローカルアイソメトリック一貫性によるベクトルリンク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31100" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31100" target="_blank" rel="noopener">クロスモデルのローカルアイソメトリック一貫性によるベクトルリンク</a></h3>
      <p class="summary">私たちはベクトル リンキングを研究します。部分的に重複するデータセット上で異なるブラック ボックス エンコーダーによって生成された 2 つの埋め込みクラウドが与えられた場合、ベクトルのみを使用してクロスモデル オブジェクトの対応関係を回復します。経験的および理論的に、独立してトレーニングされたコントラストエンコーダーが局所的な幾何学的一貫性を示すことを示します。つまり、短距離距離はスケール係数までほぼ保存されますが、長距離距離はモデル固有の歪みによるものではありません。これに基づいて、ペアになったアンカーの小さなシードセットからベクトルリンクを回復する、反復的な参照ベースの幾何学的埋め込みハッシュを提案します。これは、サンプリングされたペアのアンカーまでの距離によって各ベクトルを表し、ハッシュ空間マッチングによって候補リンクを提案し、ベータ ベルヌーイ事後でビュー全体の証拠を集約して、信頼性の高いリンクを新しいアンカーとしてブートストラップします。複数のベンチマークと埋め込みモデルのペアにわたる実験では、ベクトル データベース統合とクロスモデル クラスタリングへのアプリケーションを使用して、さまざまなオーバーラップ、シード バジェット、ドメイン外アンカーの下での正確かつ堅牢なリンクを実証します。コードは https://github.com/DBgroup-Edinburgh/VecLinking で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Vector Linking via Cross-Model Local Isometric Consistency</p>
        <p class="orig-summary">We study Vector Linking: given two embedding clouds produced by different black-box encoders over partially overlapping datasets, recover cross-model object correspondences using only vectors. Empirically and theoretically, we show that independently trained contrastive encoders exhibit local geometric consistency: short-range distances are approximately preserved up to a scale factor, while long-range distances are not due to model-specific distortion. Building on this, we propose an iterative, reference-based geometric embedding hashing that recovers vector links from a tiny seed set of paired anchors. It represents each vector by distances to sampled paired anchors, proposes candidate links via hash-space matching, and aggregates evidence across views in a Beta-Bernoulli posterior to bootstrap high-confidence links as new anchors. Experiments across multiple benchmarks and embedding model pairs demonstrate accurate and robust linking under varying overlap, seed budgets, and out-of-domain anchors, with applications to vector database integration and cross-model clustering. Code is available at https://github.com/DBgroup-Edinburgh/VecLinking.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f18c8de77978" data-article-url="https://arxiv.org/abs/2605.31167" data-article-title="LLM-FACETS: LLM の透明性と説明責任を評価するためのプライバシー保護フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31167" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31167" target="_blank" rel="noopener">LLM-FACETS: LLM の透明性と説明責任を評価するためのプライバシー保護フレームワーク</a></h3>
      <p class="summary">大規模言語モデルの出力が事実に基づいており、認識論的に調整されており、方法論的に再現可能であるかどうかを評価することは、責任ある AI 導入の前提条件です。しかし、LLM の監査は、技術者以外の専門家にとってはアクセスできないままです。既存のツールにはプログラミングの専門知識と簡単ではない環境セットアップが必要であり、クラウドでホストされるプラットフォームは評価データを外部サービスに送信するため、AI の監視に法的責任を負うドメインの専門家やコンプライアンス担当者にとって障壁が生じています。 LLM-FACETS (LLM FActuality Cross-EvaluTion System) を紹介します。これは、ブラウザからアクセス可能なインターフェイスとプラグイン アーキテクチャを備えたオープンソース フレームワークで、EU AI 法と NIST AI リスク管理フレームワークで特定されているステークホルダーのカテゴリを反映する 3 つの実践者プロファイル (技術専門家、ドメイン専門家、コンプライアンス担当者) を中心に構造化されています。このアーキテクチャでは、データ フローが明示的になります。決定論的メトリクス (BLEU、ROUGE、BERTScore) は、アウトバウンド送信なしで完全に自己ホスト型サーバー内で実行されます。 LLM 判定メトリクスは外部 API に明示的に接続し、ユーザーは資格情報の完全な制御を保持します。このフレームワークは、認識上の不確実性に対するトークンレベルの対数確率の視覚化、裁判官のバイアスを軽減するための複数裁判官のコンセンサス、幻覚を検出して位置を特定するための RAG トライアド メトリクス (忠実度、回答の関連性、コンテキストの関連性) の 3 つのメカニズムを通じて透明性を運用します。プラグイン アーキテクチャにより、評価パイプラインを変更せずに、新しいメトリクスやデータセットを統合できます。オープンソースの実装により、同じプロパティを対象とする複数の指標にわたるクロスチェックが可能になり、再現性が確保され、評価対象のシステムを構築するチームから AI の説明責任が切り離されます。正規の参照ライブラリに対する 18 のメトリック実装の相互検証を通じてフレームワークを検証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LLM-FACETS: A Privacy-Preserving Framework for Evaluating LLM Transparency and Accountability</p>
        <p class="orig-summary">Assessing whether Large Language Models outputs are factually grounded, epistemically calibrated, and methodologically reproducible is a prerequisite for responsible AI deployment. Yet auditing LLMs remains inaccessible to non-technical practitioners: existing tools require programming expertise and non-trivial environment setup, and cloud-hosted platforms transmit evaluation data to external services, creating barriers for domain experts and compliance officers legally responsible for AI oversight. We introduce LLM-FACETS (LLM FActuality Cross-EvaluaTion System): an open-source framework with a browser-accessible interface and a plugin architecture, structured around three practitioner profiles (technical experts, domain experts, compliance officers) that mirror the stakeholder categories identified in the EU AI Act and the NIST AI Risk Management Framework. The architecture makes data flows explicit: deterministic metrics (BLEU, ROUGE, BERTScore) run entirely within the self-hosted server with no outbound transmission; LLM-judge metrics contact external APIs explicitly, with users retaining full credential control. The framework operationalizes transparency through three mechanisms: token-level log-probability visualization for epistemic uncertainty, multi-judge consensus to mitigate judge bias, and RAG Triad metrics (Faithfulness, Answer Relevance, Context Relevance) to detect and localize hallucinations. A plugin architecture allows any new metric or dataset to be integrated without modifying the evaluation pipeline. The open-source implementation enables cross-checking across multiple metrics targeting the same property, ensuring reproducibility and decoupling AI accountability from the teams building the systems assessed. We verify the framework through cross-validation of 18 metric implementations against canonical reference libraries.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d319229917b3" data-article-url="https://arxiv.org/abs/2605.31254" data-article-title="稀な事象の因果経路の形式化と改ざん" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31254" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31254" target="_blank" rel="noopener">稀な事象の因果経路の形式化と改ざん</a></h3>
      <p class="summary">構造方程式モデルにおけるまれな事象 (「外れ値」) の根本原因分析の最近の形式化に基づいて、因果関係経路の形式的な定義を提案し、その検証可能な意味について議論します。私たちは、これらの意味が、基礎となるシステムの完全な因果グラフではなく、まれなイベントの経路によって定義される因果抽象化のみに依存する条件を特定します。したがって、我々は、単純な言葉による因果関係の説明と詳細な因果モデリングを橋渡しする、まれな事象の経路に因果構造の抽象化を導入します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Formalizing and falsifying causal pathways of rare events</p>
        <p class="orig-summary">Building on recent formalizations of root cause analysis for rare events (``outliers&#x27;&#x27;) in structural equation models, we propose a formal definition of a causal pathway and discuss its testable implications. We identify conditions under which these implications depend only on a causal abstraction defined by the pathway of rare events, rather than on the full causal graph of the underlying system. Accordingly, we introduce an abstraction of causal structure to pathways of rare events that bridges simple verbal causal explanations and detailed causal modeling.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c091101cdc7" data-article-url="https://arxiv.org/abs/2605.31264" data-article-title="COLLEAGUE.SKILL: 専門知識の蒸留による AI スキルの自動生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31264" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31264" target="_blank" rel="noopener">COLLEAGUE.SKILL: 専門知識の蒸留による AI スキルの自動生成</a></h3>
      <p class="summary">LLM エージェントは、孤立したタスクを完了するだけでなく、人間の専門知識、判断、対話スタイルの限定された表現を実行することをますます期待されています。このような個人ベースのエージェントの構築は依然として困難です。これは、個人または役割に関連付けられた実用的な知識が、通常、きれいな指示として記述されるのではなく、異種トレースに埋め込まれているためです。既存のメモリおよびペルソナ システムはこの証拠の断片をキャプチャしますが、スキル フレームワークはポータブルなパッケージ形式を提供します。ただし、これらのトレースを検査可能、修正可能、エージェントが使用できるスキルに抽出するためのエンドツーエンドのワークフローはありません。専門知識の抽出を通じて人間に基づいた AI スキルを生成するための、自動化されたトレースからスキルへの抽出システムを紹介します。 COLLEAGUE.SKILL は、対象となる人物または役割からの資料を基に、2 つの調整されたトラックを備えたバージョン管理されたスキル パッケージを生成します。1 つはプラクティス、メンタル モデル、意思決定ヒューリスティックに関する能力トラックで、もう 1 つはコミュニケーション スタイル、インタラクション ルール、修正履歴に関する限定された行動トラックです。パッケージは、自然言語フィードバックを通じて検査、呼び出し、更新、ロールバック、エージェント ホスト間でのインストール、およびオプションで制御された配布の準備ができます。アーティファクト コントラクト、生成ワークフロー、修正ライフサイクル、展開面、およびオープンソース システムに実装されたドメイン プリセットについて説明します。この記事の執筆時点では、パブリック リポジトリには約 18.5k の GitHub スターがあります。ギャラリーには、165 人の寄稿者による 215 のスキルと、リストされているスキル カード全体で 10 万以上の累計スターがリストされています。このシステムは、個人に根ざしたスキルが、不透明なプロンプトや隠された記憶ではなく、移植可能で修正可能なパッケージとしてどのように表現できるかを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation</p>
        <p class="orig-summary">LLM agents are increasingly expected not only to complete isolated tasks, but also to carry bounded representations of human expertise, judgment, and interaction style. Building such person-grounded agents remains difficult because actionable knowledge associated with a person or role is usually embedded in heterogeneous traces rather than written as clean instructions. Existing memory and persona systems capture fragments of this evidence, while skill frameworks provide portable packaging formats; however, there is no end-to-end workflow for distilling these traces into inspectable, correctable, and agent-usable skills. We present an automated trace-to-skill distillation system for generating person-grounded AI skills via expert knowledge distillation. Given materials from a target person or role, COLLEAGUE.SKILL produces a versioned skill package with two coordinated tracks: a capability track for practices, mental models, and decision heuristics, and a bounded behavior track for communication style, interaction rules, and correction history. The package can be inspected, invoked, updated through natural-language feedback, rolled back, installed across agent hosts, and optionally prepared for controlled distribution. We describe the artifact contract, generation workflow, correction lifecycle, deployment surface, and domain presets implemented in the open-source system. At the time of writing, the public repository has approximately 18.5k GitHub stars; the gallery lists 215 skills from 165 contributors and more than 100k cumulative stars across listed skill cards. The system illustrates how person-grounded skills can be represented as portable, correctable packages rather than opaque prompts or hidden memories.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0748a6bb3ec4" data-article-url="https://arxiv.org/abs/2605.31278" data-article-title="予測を活用した推論の工業化: 信頼性の高い GenAI およびエージェント システム評価のための GLIDE ライブラリ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31278" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31278" target="_blank" rel="noopener">予測を活用した推論の工業化: 信頼性の高い GenAI およびエージェント システム評価のための GLIDE ライブラリ</a></h3>
      <p class="summary">エージェント システムの信頼性の高い評価には、有効な不確実性を伴う不偏推定が必要ですが、標準的な手法では、コストのかかる人間によるアノテーションと、ジャッジとしての偏った LLM プロキシの間を行き来します。予測パワー推論 (PPI) は、両方を組み合わせて有効な信頼区間を持つ偏りのない推定値を生成しますが、そのさまざまな手法は部分的な実装の下で論文に散在したままです。平均推定に特化した scipy スタイルの API の下で、最先端の PPI 推定器 (PPI++、層化 PPI、Predict-Then-Debias とその層化バリアント、アクティブ統計推論) とサンプラー (均一、層化、アクティブ、コスト最適化) を統合するオープンソース Python ライブラリである GLIDE を紹介します。 GLIDE には、再現可能なモンテカルロ検証スイート、手法選択のための経験に基づいたデシジョン ツリー、同等の精度でのアノテーションの大幅な節約を示すエージェント評価ケース スタディが付属しています。 GLIDE パッケージは次の URL で入手できます: https://github.com/EmertonData/glide</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Industrializing Prediction-Powered Inference: The GLIDE Library for Reliable GenAI and Agentic Systems Evaluation</p>
        <p class="orig-summary">Reliable evaluation of agentic systems requires unbiased estimates with valid uncertainty, but standard practice navigates between costly human annotation and biased LLM-as-judge proxies. Prediction-powered inference (PPI) combines both into debiased estimates with valid confidence intervals, yet its various methods remain scattered across papers under partial implementations. We introduce GLIDE, an open-source Python library that unifies state-of-the-art PPI estimators (PPI++, Stratified PPI, Predict-Then-Debias and its stratified variants, Active Statistical Inference) and samplers (uniform, stratified, active, cost-optimal) under a scipy-style API specialized to mean estimation. GLIDE ships with a reproducible Monte Carlo validation suite, an empirically grounded decision tree for method selection, and an agentic evaluation case study showing substantial annotation savings at equivalent precision. The GLIDE package is available at this URL: https://github.com/EmertonData/glide</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5925fa80d17f" data-article-url="https://arxiv.org/abs/2605.31308" data-article-title="TraceGraph: エージェントの軌跡を診断および改善するための共有意思決定ランドスケープ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31308" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31308" target="_blank" rel="noopener">TraceGraph: エージェントの軌跡を診断および改善するための共有意思決定ランドスケープ</a></h3>
      <p class="summary">エージェントのベンチマークでは、豊富なインタラクションの軌跡が記録されることが増えていますが、評価によって各ロールアウトが合格率や報酬スコアに引き下げられることがよくあります。リリースされたマルチモデル エージェントの軌跡を共有の意思決定ランドスケープに変えるグラフベースのフレームワークである TraceGraph を紹介します。 TraceGraph は、タスクごとに、モデル ID が導入される前に、プールされたロールアウトから観察可能なアクションと観察の状態に関するグラフを構築します。次に、結果に基づいた生産コアとトラップ領域をオーバーレイし、各ロールアウトをアクセス、トラップ露出、修復の 3 つのイベントで要約します。 TraceGraph プロファイルは、5 つのベンチマーク スプリットにまたがる軌跡全体で、集計スコアによって隠されたナビゲーションの違いを明らかにし、トラップの回避とそこからの回復のどちらに報酬を与えるかがスプリットによって異なることを示します。同じ TraceGraph ランドスケープは、SWE ベンチのトラップ対応回復パイプラインも動機付けます。実行時検出器は、履歴トラップ領域に一致する状態で起動され、その後、軽量継続ポリシーが同じプレフィックスから評価されます。起動された状態では、最適なプールされた単一要素ポリシーにより、プロバイダー固有のアクティブ コンポーネントを使用して、プロバイダーごとに起動されたサブセットで正式な解決率が 40.4% から 43.5% に、共通起動されたインスタンスで 41.0% から 44.8% に上昇します。全体として、TraceGraph は、どのようなエージェント ベンチマーク テストを行うか、共有ランドスケープ上でモデルが分岐する場所、および障害領域が下流の改善をどのように導くことができるかを尋ねるためのプロセス ボキャブラリーを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TraceGraph: Shared Decision Landscapes for Diagnosing and Improving Agent Trajectories</p>
        <p class="orig-summary">Agent benchmarks increasingly record rich interaction trajectories, yet evaluation often reduces each rollout to a pass rate or reward score. We introduce TraceGraph, a graph-based framework that turns released multi-model agent trajectories into shared decision landscapes. For each task, TraceGraph builds a graph over observable action-observation states from pooled rollouts before model identity is introduced. It then overlays outcome-informed productive cores and trap regions, and summarizes each rollout with three events: Access, Trap exposure, and Repair. Across trajectories spanning five benchmark splits, TraceGraph profiles reveal navigation differences hidden by aggregate scores and show that splits differ in whether they reward avoiding traps or recovering from them. The same TraceGraph landscape also motivates a trap-aware recovery pipeline for SWE-bench: aruntime detector fires on states matching historical trap regions, then lightweight continuation policies are evaluated from the same prefix. On fired states, the best pooled single-factor policy raises official resolved rate from 40.4% to 43.5% on the per-provider fired subset and from 41.0% to 44.8% on common-fired instances, with provider-specific active components. Overall, TraceGraph provides a process vocabulary for asking what agent benchmarks test, where models diverge on a shared landscape, and how failure regions can guide downstream improvement.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="500fcdbafb41" data-article-url="https://arxiv.org/abs/2605.31354" data-article-title="リソースに制約のある Visual Agent における共有状態コラボレーションの障害モードの診断" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31354" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31354" target="_blank" rel="noopener">リソースに制約のある Visual Agent における共有状態コラボレーションの障害モードの診断</a></h3>
      <p class="summary">モジュール式視覚推論システムは、多段階のコラボレーションのために共有ワーキングメモリへの依存度が高まっていますが、低容量領域における中間状態の進化の失敗ダイナミクスは依然として解明されていません。私たちは、ノイズ蓄積のレンズを通して、弱い学習者 (4B ～ 8B モデル) を使用した協調推論の失敗モードを研究します。ドキュメントの視覚的な質問応答における情報フローを追跡するための読み取り、書き込み、検証ループを形式化する監査フレームワークである CoSee を紹介します。複数ページ、グラフ、および Web ベースのベンチマーク全体で、直感に反する劣化が見つかりました。単純な共有ワークスペースでは、幻覚を解決するのではなく、幻覚を増幅させることがよくあります。私たちは 2 つの主要な失敗モードを特定しました。根拠のないメモが証拠として再利用されるノイズ強化と、追加されたコンテキストによってモデルが不完全な短い形式の回答にシフトするポリシー崩壊です。コスト精度のパレート フロンティアを使用して、明示的な検証がなければ、コンピューティングの増加がパフォーマンスと負の相関関係を示す可能性があることを示します。私たちの調査結果は、リソースに制約のあるエージェントの場合、ボトルネックは推論の深さではなく通信の忠実度にあり、トレースレベルの診断と信頼性の高いモジュール設計のための機構ベースラインを提供することを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Diagnosing Failure Modes of Shared-State Collaboration in Resource-Constrained Visual Agents</p>
        <p class="orig-summary">Modular visual reasoning systems increasingly rely on shared working memory for multi-step collaboration, yet the failure dynamics of intermediate state evolution in low-capacity regimes remain underexplored. We study failure modes of collaborative reasoning with weak learners (4B--8B models) through the lens of noise accumulation. We introduce CoSee, an auditing framework that formalizes the read-write-verify loop to trace information flow in document visual question answering. Across multi-page, chart, and web-based benchmarks, we find a counter-intuitive degradation: naive shared workspaces often amplify hallucinations rather than resolve them. We identify two dominant failure modes: Noise Reinforcement, where ungrounded notes are reused as evidence, and Policy Collapse, where added context shifts the model toward under-specified, short-form answers. Using cost-accuracy Pareto frontiers, we show that increased compute can correlate negatively with performance without explicit verification. Our findings suggest that for resource-constrained agents, the bottleneck lies not in reasoning depth but in communication fidelity, providing trace-level diagnostics and a mechanistic baseline for reliable modular design.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ca0c39a58dc3" data-article-url="https://arxiv.org/abs/2605.31365" data-article-title="適応することを学ぶ: 認知認識の探求による自己改善 Web エージェント" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31365" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31365" target="_blank" rel="noopener">適応することを学ぶ: 認知認識の探求による自己改善 Web エージェント</a></h3>
      <p class="summary">マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、Web エージェントは有望な進歩を遂げています。ただし、既存の Web エージェントは多くの場合、手作りの実行パイプラインや高価な専門家の軌跡に依存しており、複雑で動的な環境への適応性が制限されています。これらの課題に対処するために、私たちは SCALE (Self-Cognitive-Aware Learning and Exploration) を提案します。これは、セレクター、プレディクター、ジャッジという 3 つの敵対的な役割を活用して、環境探索を通じてエージェントの限界を自律的に発見し、その認知境界を拡張します。さらに、グローバルな計画を容易にし、エージェントがローカル探索の罠を避けるのに役立つグラフ探索戦略である SCALE-Hop を提案します。学習をさらにサポートするために、19 の実世界の Web サイトから収集された大規模なデータセットである SCALE-20k を構築します。これには、さまざまな種類のタスクと、SCALE の探索トレースから生成された構造化されたデモンストレーションが含まれています。実験結果は、私たちのアプローチがさまざまな Web 環境における複数の MLLM のパフォーマンスと汎用性を大幅に向上させることを示しています。私たちのフレームワークは、真に自律的で適応性のある Web エージェントを構築するための、スケーラブルで一般化可能なソリューションを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Learning to Adapt: Self-Improving Web Agent via Cognitive-Aware Exploration</p>
        <p class="orig-summary">Recent advances in Multimodal Large Language Models (MLLMs) have led to promising progress in web agents. However, existing web agents often rely on handcrafted execution pipelines or expensive expert trajectories, limiting their adaptability to complex, dynamic environments. To address these challenges, we propose SCALE (Self-Cognitive-Aware Learning and Exploration), which leverages three adversarial roles, Selector, Predictor, and Judger to autonomously discover the agent&#x27;s limitations and expand its cognitive boundaries through environmental exploration. Moreover, we propose SCALE-Hop, a graph exploration strategy that facilitates global planning and helps agents avoid local exploration traps. To further support learning, we construct SCALE-20k, a large-scale dataset collected from 19 real-world websites, containing diverse task types and structured demonstrations generated from SCALE&#x27;s exploration traces. Experimental results show that our approach significantly improves the performance and generalization of multiple MLLMs in various web environments. Our framework offers a scalable and generalizable solution for building truly autonomous and adaptive web agents.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="da2c3d0d4b52" data-article-url="https://arxiv.org/abs/2605.31370" data-article-title="HypoAgent: ナレッジ グラフ上でインタラクティブなアブダクティブ仮説生成のためのエージェント フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31370" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31370" target="_blank" rel="noopener">HypoAgent: ナレッジ グラフ上でインタラクティブなアブダクティブ仮説生成のためのエージェント フレームワーク</a></h3>
      <p class="summary">ナレッジグラフに対するアブダクティブ推論は、観察されたエンティティまたは事実を説明する論理的な仮説を生成することを目的としています。既存の制御可能な仮説生成方法では、ユーザーが明示的な条件を使用してこのプロセスをガイドできますが、インタラクティブな設定では制限されたままです。マルチターンの対話全体で進化する自然言語の意図を根付かせるのに苦労し、生成された仮説が失敗した場合に詳細な診断をほとんど提供できません。これらの制限に対処するために、ナレッジ グラフ上でインタラクティブなアブダクティブ仮説生成のためのエージェント フレームワークである HypoAgent を提案します。 HypoAgent は 3 つのエージェントを統合します。ユーザーの発話と対話履歴を実行可能な KG 条件に根拠付ける意図認識エージェント、抽出されたユーザーの意図に従って制御可能な仮説生成を実行する仮説生成エージェント、および信頼性の低い仮説の断片を診断し、KG 近傍調査を利用してサポートされる改良点を特定する根本原因分析エージェントです。常識グラフと生物医学領域固有のナレッジ グラフの実験により、HypoAgent がシングル ターン、マルチ ターン、無条件の設定で最先端の意味的類似性を達成できることが実証されました。私たちのコードは https://github.com/HKUST-KnowComp/HypoAgent で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">HypoAgent: An Agentic Framework for Interactive Abductive Hypothesis Generation over Knowledge Graphs</p>
        <p class="orig-summary">Abductive reasoning over knowledge graphs aims to generate logical hypotheses that explain observed entities or facts. Existing controllable hypothesis generation methods allow users to guide this process with explicit conditions, but they remain limited in interactive settings: they struggle to ground evolving natural-language intents across multi-turn dialogues and provide little fine-grained diagnosis when generated hypotheses fail. To address these limitations, we propose HypoAgent, an Agentic framework for interactive abductive Hypothesis Generation over knowledge graphs. HypoAgent integrates three agents: an Intent Recognition Agent that grounds user utterances and dialogue history into executable KG conditions, a Hypothesis Generation Agent that performs controllable hypothesis generation according to the extracted user intention, and a Root Cause Analysis Agent that diagnoses unreliable hypothesis fragments and leverages KG neighborhood probing to identify supported refinements. Experiments on commonsense and biomedical domain-specific knowledge graphs demonstrate that HypoAgent achieves state-of-the-art semantic similarity under single-turn, multi-turn, and unconditional settings. Our code is available at https://github.com/HKUST-KnowComp/HypoAgent.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="562e41d3e232" data-article-url="https://arxiv.org/abs/2605.31410" data-article-title="FAM-Bench: 状態を認識した「薬としての食品」推論のためのマルチモーダルベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31410" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31410" target="_blank" rel="noopener">FAM-Bench: 状態を認識した「薬としての食品」推論のためのマルチモーダルベンチマーク</a></h3>
      <p class="summary">薬としての食品では、モデルは、料理が何であるか、またはそれに含まれる栄養を超えて推論する必要があります。モデルは、具体的な食品の選択が特定の健康状態に適切であるかどうかを判断する必要があります。既存の食品 AI ベンチマークは、主に料理の認識、レシピの理解、栄養素の推定、または一般的な栄養に関する質問への回答を評価しており、この健康を意識した意思決定層はほとんどテストされていません。 FAM-Bench は、13 の食事関連の健康状態にわたって 2,500 件の栄養専門家によって検証されたマルチモーダルな Food-as-Medicine ベンチマークです。ベンチマークには、2 つの補完的なタスクが含まれています。1 つは料理レベルの適合性評価で、画像と成分リストから料理が条件に適しているかどうかをモデルが判断します。もう 1 つは、条件固有の適合性によってモデルが 4 つの候補料理をランク付けする比較料理分析です。どちらのタスクも、成分の証拠、視覚的な準備の合図、臨床栄養上の制約を統合する必要があり、言語および視覚言語モデルにおける根拠のある健康を意識した推論のための標準化されたテストベッドを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">FAM-Bench: A Multimodal Benchmark for Condition-Aware Food-as-Medicine Reasoning</p>
        <p class="orig-summary">Food-as-Medicine requires models to reason beyond what a dish is or what nutrition it contains: they must decide whether a concrete food choice is appropriate for a specific health condition. Existing food AI benchmarks primarily evaluate dish recognition, recipe understanding, nutrient estimation, or general nutrition question answering, leaving this health-aware decision layer largely untested. We introduce FAM-Bench, a multi-modal Food-as-Medicine benchmark with 2500 nutrition-expert-verified instances across 13 diet-related health conditions. The benchmark contains two complementary tasks: dish-level suitability assessment, where models judge whether a dish is suitable for a condition from its image and ingredient list, and comparative dish analysis, where models rank four candidate dishes by condition-specific suitability. Both tasks require integrating ingredient evidence, visual preparation cues, and clinical nutrition constraints, providing a standardized testbed for grounded health-aware reasoning in language and vision-language models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a6e639903f02" data-article-url="https://arxiv.org/abs/2605.31444" data-article-title="強化学習のための解答セットプログラミングベースの抽象化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31444" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31444" target="_blank" rel="noopener">強化学習のための解答セットプログラミングベースの抽象化</a></h3>
      <p class="summary">強化学習 (RL) により、自律エージェントは経験からポリシーを学習できますが、現実的な問題には膨大な状態空間が関与することが多く、学習と一般化が困難になります。したがって、抽象化と近似が不可欠です。関係強化学習 (RRL) は、オブジェクトとその関係について推論する方法を提供し、Martijn van Otterlo による CARCASS フレームワークは、論理表現が一次領域でマルコフ決定プロセス (MDP) をどのようにモデル化できるかを示しています。 CARCASS は元々 Prolog に実装されており、ドメイン知識を活用して強力な抽象化を作成します。私たちは、CARCASS 抽象化を実現するために、Prolog とは対照的に、リッチで完全な宣言型モデリング言語である Answer-Set Programming (ASP) を検討します。私たちは、2 つのドメインのケーススタディで ASP ベースの実装を評価します。ブロックワールドとミニグリッド。私たちの結果は、ASP を備えた CARCASS が、特にドメイン知識が利用可能な場合に、RL の抽象化を構築するための有望なアプローチを提供することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Answer-Set-Programming-based Abstractions for Reinforcement Learning</p>
        <p class="orig-summary">Reinforcement Learning (RL) enables autonomous agents to learn policies from experience, but realistic problems often involve enormous state spaces, making learning and generalisation challenging. Abstraction and approximation are therefore essential. Relational Reinforcement Learning (RRL) offers a way to reason about objects and their relations, and the CARCASS framework by Martijn van Otterlo demonstrates how logical representations can model Markov Decision Processes (MDPs) in first-order domains. Originally implemented in Prolog, CARCASS leverages domain knowledge to create powerful abstractions. We explore Answer-Set Programming (ASP), which is a rich and, contrary to Prolog, fully declarative modelling language, to realise CARCASS abstractions. We evaluate our ASP-based implementation in case studies of two domains, viz. Blocks World and Minigrid. Our results indicate that CARCASS with ASP provides a promising approach to constructing abstractions for RL, especially when domain knowledge is available.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5e71933eb78a" data-article-url="https://arxiv.org/abs/2605.31468" data-article-title="AutoSci: 科学研究ライフサイクル全体向けのメモリ中心のエージェント システム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31468" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31468" target="_blank" rel="noopener">AutoSci: 科学研究ライフサイクル全体向けのメモリ中心のエージェント システム</a></h3>
      <p class="summary">科学研究は伝統的に人力が集中しており、研究者は長いプロジェクト サイクルにわたって文献、アイデア、実験、原稿を調整し、回答をレビューする必要があります。 LLM ベースの科学エージェントの台頭により、このプロセスを自動化する機会が生まれました。このようなシステムは、研究ライフサイクル全体をサポートし、プロジェクト全体で構造化された永続的なメモリを維持し、時間の経過とともに独自の研究手順を改善する必要があります。しかし、既存のシステムはこれらの要件を部分的に満たしているか満たしていないため、統合された自動化された科学研究システムにはギャップが残されています。その結果、科学研究ライフサイクル全体に対応したメモリ中心のエージェント システムである AutoSci を紹介します。 AutoSci は 4 つのモジュールを中心に構成されています。 SciMem は、スキーマ管理された研究メモリを提供し、再利用可能な科学知識のための長期知識メモリを、アイデア、実験、原稿、レビューなどのプロジェクト レベルの成果物のためのアクティブな研究メモリから分離します。 SciFlow は、状態、コンテキスト、検証、フィードバック、オーケストレーションを制御するハーネスを通じて、文献の理解から反論まで 5 段階のライフサイクルを実行します。 SciDAG は、DAG 形状のマルチエージェント オペレーターと再利用可能なステージ固有のテンプレートを使用して、難しいスキルを強化します。 SciEvolve は、ユーザー、実験、レビュー、外部環境からのフィードバック信号を、SciMem 組織、SciFlow スキル、および SciDAG テンプレートへのバージョン管理された更新に変換します。これらのモジュールを組み合わせることで、AutoSci は研究プロジェクト全体で実行、記憶、進化できる永続的な研究環境になります。コード リポジトリは https://github.com/skyllwt/AutoSci で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AutoSci: A Memory-Centric Agentic System for the Full Scientific Research Lifecycle</p>
        <p class="orig-summary">Scientific research has traditionally been human-intensive, requiring researchers to coordinate literature, ideas, experiments, manuscripts, and review responses across long project cycles. The rise of LLM-based scientific agents creates an opportunity to automate this process. Such a system must support the full research lifecycle, maintain structured persistent memory across projects, and improve its own research procedures over time. However, existing systems either partially satisfy or fail to satisfy these requirements, leaving a gap for a unified automated scientific research system. As a result, we present AutoSci, a memory-centric agentic system for the full scientific research lifecycle. AutoSci is organized around four modules. SciMem provides schema-governed research memory, separating Long-Term Knowledge Memory for reusable scientific knowledge from Active Research Memory for project-level artifacts such as ideas, experiments, manuscripts, and reviews. SciFlow executes a five-stage lifecycle from literature understanding to rebuttal through a harness that controls state, context, verification, feedback, and orchestration. SciDAG augments difficult skills with DAG-shaped multi-agent operators and reusable stage-specific templates. SciEvolve converts feedback signals from users, experiments, reviews, and external environments into versioned updates to SciMem organization, SciFlow skills, and SciDAG templates. Together, these modules make AutoSci a persistent research environment that can execute, remember, and evolve across research projects. The code repository is available at https://github.com/skyllwt/AutoSci.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="000cbef88316" data-article-url="https://arxiv.org/abs/2605.31492" data-article-title="LinTree: 明示的に構造化された検索履歴による LLM 推論の改善" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31492" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31492" target="_blank" rel="noopener">LinTree: 明示的に構造化された検索履歴による LLM 推論の改善</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、部分的な解決策を探索および修正する中間トレースを生成することによって、推論の問題を解決することがよくあります。検索の観点から見ると、これらのトレースは線形化された検索ツリーとみなすことができ、モデルは部分的な解決策を拡張し、失敗するとそれを放棄し、後戻りして代替案を試行します。従来のヒューリスティックに基づく検索と比較すると、このようなポリシーには潜在的な利点があります。つまり、現在のローカル状態だけではなく、検索トレース全体を条件とします。まず、現在のローカル状態のみを観察する LLM ヒューリスティックを備えた最良優先探索とトレース条件付き推論ポリシーを比較することで、LLM がこの利点を活用しているかどうかをテストします。 Blocks World、grid Navigation、倉庫番という 3 つの制御された推論環境全体で、検索履歴への生のアクセスだけでは、ヒューリスティック検索を確実に上回るパフォーマンスを発揮するには十分ではないことがわかりました。次に、考えられる理由の 1 つを検討します。LLM 推論トレースでは、基礎となる検索ツリーが暗黙的にのみ表現され、モデルがバックトラックまたは分岐を切り替えるときに、どの以前の検索状態が再検討されているかがトレースによって明示的に識別されません。単純な親ポインターを追加して線形化ツリー (LinTree) 構造を明示的に表すと、暗黙的推論モデルや LLM ヒューリスティックガイド検索と比較して、タスクのパフォーマンスと検索効率の両方が向上することを示します。これらの結果は、検索履歴のツリー構造が明示されている場合に検索履歴が最も有用になり、LLM 推論においてより構造を意識した表現が動機付けられることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LinTree: Improving LLM Reasoning with Explicitly Structured Search Histories</p>
        <p class="orig-summary">Large language models (LLMs) often solve reasoning problems by generating intermediate traces that explore and revise partial solutions. From a search perspective, these traces can be viewed as linearized search trees, where the model extends a partial solution, abandons it when it fails, and backtracks to try alternatives. Compared with traditional heuristic-guided search, such a policy has a potential advantage: it conditions on the whole search trace rather than only on the current local state. We first test whether LLMs utilize this advantage by comparing trace-conditioned reasoning policies against best-first search equipped with an LLM heuristic that only observes the current local state. Across three controlled reasoning environments, Blocks World, grid Navigation, and Sokoban, we find that raw access to search history alone is not enough to reliably outperform heuristic search. We then study one possible reason: in LLM reasoning traces, the underlying search tree is only implicitly represented, and when the model backtracks or switches branches, the trace does not explicitly identify which earlier search state is being revisited. We show that adding simple parent pointers to explicitly represent the linearized tree (LinTree) structure improves both task performance and search efficiency relative to implicit reasoning models and LLM-heuristic-guided search. These results suggest that search history becomes most useful when its tree structure is made explicit, motivating more structure-aware representations for LLM reasoning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3e2d01c9892f" data-article-url="https://arxiv.org/abs/2605.31581" data-article-title="レンズの選択: 文脈に依存した議論における戦略的視点の活性化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31581" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31581" target="_blank" rel="noopener">レンズの選択: 文脈に依存した議論における戦略的視点の活性化</a></h3>
      <p class="summary">多くの場合、同じ議論を異なる外部レジームの下で評価する必要があります。政権に対して影響力を持つエージェントは、標準的な形式主義では直接把握できない戦略的手段を持っています。我々は、コンテキスト依存議論フレームワーク (CDAF) を導入します。これは、敗北関数がコンテキストごとにどの攻撃が成功するかを決定するという Dung の理論の拡張です。パースペクティブラベル付き特殊化は、関連性セット $\rho$ と優先度 $\pi$ から敗北関数を導出します。関連性セットはエージェントのアクション スペースです。小さな実際の例では、エージェントのターゲット引数は、すべての完全関連性の単射優先度の下では拒否されますが、VAF オーディエンスがミラーできないものの 1 つである部分的なアクティブ化の下では受け入れられます。対応する意思決定問題である ACTIVATION-MANIPULATION を定義し、ベースラインの複雑さの限界を記録します。狭い境界と複数エージェントのバリアントは未解決のままです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Choosing the Lens: Strategic Perspective Activation in Context-Dependent Argumentation</p>
        <p class="orig-summary">The same arguments often need to be evaluated under different external regimes. An agent with influence over the regime has a strategic lever that standard formalisms do not directly capture. We introduce context-dependent argumentation frameworks (CDAFs), an extension of Dung&#x27;s theory in which a defeat function determines, per context, which attacks succeed. A perspective-labeled specialisation derives the defeat function from a relevance set $\rho$ and a priority $\pi$. The relevance set is the agent&#x27;s action space. In a small worked example, the agent&#x27;s target argument is rejected under every full-relevance injective priority, yet accepted under partial activations, one of which no VAF audience can mirror. We define the corresponding decision problem, ACTIVATION-MANIPULATION, and record baseline complexity bounds. Tight bounds and multi-agent variants are left open.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="39e510d8c0b9" data-article-url="https://arxiv.org/abs/2603.22867" data-article-title="TRINE: マルチモーダル AI 向けのトークン認識型、ランタイム適応型 FPGA 推論エンジン" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.22867" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.22867" target="_blank" rel="noopener">TRINE: マルチモーダル AI 向けのトークン認識型、ランタイム適応型 FPGA 推論エンジン</a></h3>
      <p class="summary">ViT、CNN、GNN、およびトランスフォーマー NLP を混在させるマルチモーダル スタックは、コンピューティング/メモリ パターンが分岐し、ハード リアルタイム ターゲットに余裕がほとんどないため、組み込みプラットフォームに負担をかけます。 TRINE は、再構成せずにエンドツーエンドのマルチモーダル推論を実行するシングル ビットストリーム FPGA アクセラレータおよびコンパイラです。レイヤーは DDMM/SDDMM/SpMM として統合され、実行時に重み/出力定常シストリック、1xCS SIMD、および共有 PE アレイ上のルータブル加算器ツリー (RADT) の間で切り替えるモード切り替え可能なエンジンにマッピングされます。幅が一致した 2 段階の Top-K ユニットにより、インストリーム トークン プルーニングが可能になり、依存関係を意識したレイヤー オフロード (DALO) により、再構成可能な処理ユニット間で独立したカーネルがオーバーラップされ、使用率が維持されます。 Alveo U50 および ZCU104 で評価すると、TRINE は 20 ～ 21 W で RTX 4090 と比較して最大 22.57 倍、Jetson Orin Nano と比較して 6.86 倍レイテンシーを削減します。トークン プルーニングだけでも、ViT が多いパイプラインでは最大 7.8 倍の収益が得られ、DALO は最大 79% のスループット向上に貢献します。 int8 量子化では、代表的なタスク全体で精度の低下が 2.5% 未満にとどまり、統合されたビジョン、言語、グラフのワークロードに対して最先端のレイテンシーとエネルギー効率を 1 つのビットストリームで実現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TRINE: A Token-Aware, Runtime-Adaptive FPGA Inference Engine for Multimodal AI</p>
        <p class="orig-summary">Multimodal stacks that mix ViTs, CNNs, GNNs, and transformer NLP strain embedded platforms because their compute/memory patterns diverge and hard real-time targets leave little slack. TRINE is a single-bitstream FPGA accelerator and compiler that executes end-to-end multimodal inference without reconfiguration. Layers are unified as DDMM/SDDMM/SpMM and mapped to a mode-switchable engine that toggles at runtime among weight/output-stationary systolic, 1xCS SIMD, and a routable adder tree (RADT) on a shared PE array. A width-matched, two-stage top-k unit enables in-stream token pruning, while dependency-aware layer offloading (DALO) overlaps independent kernels across reconfigurable processing units to sustain utilization. Evaluated on Alveo U50 and ZCU104, TRINE reduces latency by up to 22.57x vs. RTX 4090 and 6.86x vs. Jetson Orin Nano at 20-21 W; token pruning alone yields up to 7.8x on ViT-heavy pipelines, and DALO contributes up to 79% throughput improvement. With int8 quantization, accuracy drops remain &lt;2.5% across representative tasks, delivering state-of-the-art latency and energy efficiency for unified vision, language, and graph workloads-in one bitstream.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a425bffd35d9" data-article-url="https://arxiv.org/abs/2605.28918" data-article-title="LLM 報酬設計が失敗する場合: スパース構造 RL の診断主導の改良" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28918" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28918" target="_blank" rel="noopener">LLM 報酬設計が失敗する場合: スパース構造 RL の診断主導の改良</a></h3>
      <p class="summary">セマンティックな報酬関数インターフェイスを備えたスパースで構造化された強化学習タスクの場合、LLM で生成された報酬形成は、ワンショット生成よりもデバッグとして適切に構成されます。私たちは、コア評価として MiniGrid を使用し、境界ストレス テストとして MuJoCo を使用して、PPO で訓練されたエージェントを研究します。私たちの監査では、2 つの主要なワンショット障害モード (報酬のフラッディングとセマンティック/API の誤解) に加えて、まれに弱いシェーピングのケースが見つかりました。我々は、トレーニング診断と故障モード分類ガイドが報酬関数の修正をターゲットとする、診断主導型の反復改良を提案します。改良により、DoorKey-8x8 は 2.3% から 97.6% に、KeyCorridor は 31.2% から 86.7% に向上し、シード間の分散が高くなります。コントロールは、これらの利益が再試行や追加のトレーニングによるものではないことを示しています。メトリクスのみの再プロンプトでは大幅な低下が見られますが、静的語彙コントロールではギャップの多くが回復します (87.6%、70.7%)。これは、分類プロンプトが主要なメカニズムであり、動的ラベルが部分的に分離された増分証拠のみを提供することを示しています。予算に合わせた比較とベストオブ 3 の比較により、絞り込みと選択およびトレーニング時間の効果が分離されます。コンポーネント除去テスト、感度分析、および作成者ラベルに対する監査は、キャリブレーション限界を明らかにしながら、デバッグ解釈のための収束した証拠を提供します。連続制御の結果は境界を示しています。成功ベースの診断は、高密度の報酬の移動では誤作動する可能性があり、リターントレンドのフィードバックは、ロバストなゲインなしで 1 つの誤検知メカニズムを除去します。ローコールプロトコルは、人口ベースの報酬検索とのコストの対比であり、ベンチマークの比較ではありません。 4 つの交差分散設計環境では、LLM 報酬関数の分散が優勢であるもののブートストラップ間隔が広い場合、点推定値はより大きなゲインを示唆します。この方法は、PPO の下で信頼性の高いインターフェイスを備えたまばらな構造化タスクに限定されます。 event_text のようなフィールドは、役立つ場合もあれば、害を及ぼす場合もあれば、中立的な場合もあります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">When LLM Reward Design Fails: Diagnostic-Driven Refinement for Sparse Structured RL</p>
        <p class="orig-summary">For sparse, structured reinforcement-learning tasks with semantic reward-function interfaces, LLM-generated reward shaping is better framed as debugging than one-shot generation. We study PPO-trained agents using MiniGrid as core evaluation and MuJoCo as boundary stress test. Our audit finds two dominant one-shot failure modes -- reward flooding and semantic/API misunderstanding -- plus a rarer weak-shaping case. We propose diagnostic-driven iterative refinement, where training diagnostics and a failure-mode taxonomy guide targeted reward-function revision. Refinement improves DoorKey-8x8 from 2.3% to 97.6% and KeyCorridor from 31.2% to 86.7% with high seed-to-seed variance. Controls show these gains are not from retrying or extra training: metrics-only re-prompting yields large drops, while a static-vocabulary control recovers much of the gap (87.6%; 70.7%), showing the taxonomy prompt is a major mechanism and dynamic labels provide only partially isolated incremental evidence. Budget-matched and Best-of-3 comparisons separate refinement from selection and training-time effects. Component-removal tests, sensitivity analyses, and an audit against author labels provide converging evidence for the debugging interpretation while revealing calibration limits. Continuous-control results show the boundary: success-based diagnostics can misfire in dense-reward locomotion, and return-trend feedback removes one false-positive mechanism without robust gains. The low-call protocol is a cost contrast with population-based reward search, not a benchmark comparison. In four crossed-variance-design environments, point estimates suggest larger gains when LLM reward-function variance dominates but bootstrap intervals are wide. The method is bounded to sparse structured tasks with reliable interfaces under PPO; fields like event_text may help, hurt, or be neutral.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a52bac1936bd" data-article-url="https://arxiv.org/abs/2605.30361" data-article-title="低ランク進化戦略によるスパイキング ニューラル ネットワークの勾配なしトレーニング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30361" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30361" target="_blank" rel="noopener">低ランク進化戦略によるスパイキング ニューラル ネットワークの勾配なしトレーニング</a></h3>
      <p class="summary">スパイキング ニューラル ネットワーク (SNN) は、ニューロモーフィック ハードウェアで魅力的なエネルギー効率を提供しますが、離散スパイクしきい値が微分不可能であるため、トレーニングは依然として困難です。サロゲート勾配法は導関数を近似することでこれを回避しますが、オンチップ学習と互換性のない逆伝播インフラストラクチャが必要になります。 Evolution Strategies (\es) は自然な勾配のない代替手段ですが、その計算コストは​​パラメーターの数に応じて変化するため、大きな重み行列には非現実的です。世代ごとのメモリを $\mathcal{O}(mn)$ から $\mathcal{O}(r(m{+}n))$ に削減する ES 摂動の低ランク因数分解である EGGROLL を使用して SNN をトレーニングする方法を紹介します。 EGGROLL と N-MNIST 上の Leaky Integrate-and-Fire SNN を組み合わせることで、勾配なしトレーニングが 79.21% のテスト精度を達成しながら、フルランク ES と比較して世代あたりの実時間を 2.23$\times$ 削減できることを実証します。私たちの結果は、EGGROLL が SNN トレーニングに有効であり、精度と速度の明確なトレードオフがあり、サロゲート勾配なしのニューロモーフィック ハードウェアでのトレーニングと互換性があることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Gradient-Free Training of Spiking Neural Networks via Low-Rank Evolution Strategies</p>
        <p class="orig-summary">Spiking Neural Networks (SNNs) offer compelling energy efficiency on neuromorphic hardware, yet their training remains challenging because the discrete spike threshold is non-differentiable. Surrogate-gradient methods sidestep this by approximating the derivative, but they impose backpropagation infrastructure that is incompatible with on-chip learning. Evolution Strategies (\es) are a natural gradient-free alternative, yet their computational cost scales with the number of parameters, making them impractical for large weight matrices. We present a method for training SNNs using EGGROLL, a low-rank factorisation of ES perturbations that reduces per-generation memory from $\mathcal{O}(mn)$ to $\mathcal{O}(r(m{+}n))$. Combining EGGROLL with a Leaky Integrate-and-Fire SNN on N-MNIST, we demonstrate that gradient-free training achieves 79.21% test accuracy while reducing per-generation wall-clock time by 2.23$\times$ relative to full-rank ES. Our results demonstrate EGGROLL is viable for SNN training, with a clear accuracy-speed tradeoff, compatible with training on neuromorphic hardware without surrogate gradients.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="13ef4fafd4c0" data-article-url="https://arxiv.org/abs/2605.30362" data-article-title="XOResNet: 排他的 OR メタ残差によりディープ スパイキング ニューラル ネットワーク学習が促進される" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30362" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30362" target="_blank" rel="noopener">XOResNet: 排他的 OR メタ残差によりディープ スパイキング ニューラル ネットワーク学習が促進される</a></h3>
      <p class="summary">スパイキング ニューラル ネットワーク (SNN) は、ディープ モデルにおける優れた学習および表現能力を実証する可能性を秘めています。深層学習における ResNet の多大な成功を考慮すると、当然のことながら、残差学習を使用して深層 SNN をトレーニングすることになります。ただし、ディープ SNN を構築するための既存の残差構造には、冗長学習だけでなく、スパイクの冗長性や情報損失という課題が依然として存在します。本研究では、まず、アイデンティティ マッピングにおける相対的なスパイクの冗長性と非アイデンティティ マッピングにおける情報損失の問題に対処することを目的としています。この目的を達成するために、残差構造内の 2 つの分岐からの出力スパイク/電流をマージするための OR-ADD (OA) ショートカット接続を提案します。さらに、残差構造のバックボーン ブランチでの冗長な学習を軽減するために、XOR メタ残差の概念を導入します。つまり、バックボーン ブランチの排他的論理和 (XOR) 演算を使用して事前学習残差を選択します。最後に、OA ショートカットと XOR メタ残差を統合することで、XOR 残差ブロックを考案し、このブロックに基づいてさまざまな深さの XOResNet をさらに構築します。 Fashion-MNIST、CIFAR-10、CIFAR-100、miniImageNet の 4 つのデータセットに対する広範な実験により、提案された XOResNet が勾配降下法によって最適化された既存の最先端の深層 SNN よりも優れていることが示されました。これらの結果は、SNN における残差学習の基本的な制限を克服する際の OA ショートカットと XOR メタ残差コンポーネントの有効性を検証し、高性能ニューロモーフィック システムを構築するための新しいアーキテクチャ上の洞察を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">XOResNet: Exclusive-OR Meta-Residuals Facilitate Deep Spiking Neural Networks Learning</p>
        <p class="orig-summary">Spiking neural networks (SNNs) hold promise for demonstrating superior learning and representation capabilities in deep models. Given the tremendous success of ResNet in deep learning, it would naturally follow to train deep SNNs with residual learning. However, existing residual structures for constructing deep SNNs still present challenges of spike redundancy or information loss, as well as redundant learning. In the present study, we first aim to address issues of relative spike redundancy in identity mapping and information loss in non-identity mapping. To this end, we propose an OR-ADD (OA) shortcut connection to merge output spikes/currents from two branches in the residual structure. Furthermore, to mitigate redundant learning in the backbone branch of the residual structure, we introduce the concept of XOR meta-residuals, i.e., selecting pre-learning residuals using the Exclusive-OR (XOR) operation for the backbone branch. Finally, by integrating the OA shortcut and XOR meta-residuals, we devise the XOR residual block and further construct XOResNet with varying depths based on this block. Extensive experiments on four datasets, Fashion-MNIST, CIFAR-10, CIFAR-100, and miniImageNet, show that the proposed XOResNet outperforms existing state-of-the-art deep SNNs optimized via gradient descent. These results validate the effectiveness of our OA shortcut and XOR meta-residual components in overcoming fundamental limitations of residual learning in SNNs, providing new architectural insights for building high-performance neuromorphic systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1315d3979ed6" data-article-url="https://arxiv.org/abs/2605.30363" data-article-title="非構造化データを使用したレジームシフト検出の強化: 国債市場に関する研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30363" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30363" target="_blank" rel="noopener">非構造化データを使用したレジームシフト検出の強化: 国債市場に関する研究</a></h3>
      <p class="summary">金融市場におけるレジームシフトは、資産価格とマクロ変数の共同ダイナミクスを再編成し、単一レジームの調整を打ち破ります。それにもかかわらず、データ信号にはノイズが多く多重共線性が高く、同時にそれらを通知するテキストは構造化されていないため、これらを確実に検出することは困難です。標準的なレジームシフト検出方法は、構造化された時系列データのみに依存し、政策コミュニケーションを無視します。たとえこれらのテキストが観測価格に現実化する前にシフトを示唆する場合が多いにもかかわらずです。私たちは、中央銀行通信を介した大規模言語モデル (LLM) 推論と多変量金融時系列の統計的検証を組み合わせた、テキスト強化型レジームシフト検出パイプラインを提案します。このフレームワークは検出器に依存しません。テキストによって提案された候補は、ベクトル自己回帰 (VAR) のブートストラップ尤度比テストを使用して検証されます。一方、任意のレジーム検出器からのデータ駆動型の候補は、寛大な LLM テキスト チェックを通じて承認されます。 4つの交換可能なデータ駆動型検出器を使用して、14変数の米国財務省およびマクロ経済パネルと組み合わせた2010年から2024年のFOMC議事録の枠組みを評価します。提案されたパイプラインは、金融政策レジームシフトの検証済みアンカーリストに対して F1 = 0.82 を達成し、同日のモーダル検出レイテンシーと、純粋なデータ駆動ベースラインよりも一貫して優れたパフォーマンスを実現します。この結果は、非構造化政策テキストと統計的な構造破壊検出を組み合わせることで、金融市場におけるレジームシフト識別の堅牢性と解釈可能性が向上することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Enhancing Regime Shift Detection Using Unstructured Data: A Study on the Treasury Market</p>
        <p class="orig-summary">Regime shifts in financial markets reorganise the joint dynamics of asset prices and macro variables, breaking any single-regime calibration. They are nonetheless difficult to detect reliably because the data signal is noisy and heavily multicollinear, while the contemporaneous text that announces them is unstructured. Standard regime shift detection methods rely solely on structured time-series data and ignore policy communications, even though these texts often signal shifts before they materialise in observed prices. We propose a text-enhanced regime shift detection pipeline that combines large language model (LLM) reasoning over central-bank communications with statistical validation on multivariate financial time series. The framework is detector-agnostic: text-proposed candidates are validated using a bootstrap likelihood-ratio test on a vector autoregression (VAR), while data-driven candidates from arbitrary regime detectors are ratified through a lenient LLM text check. We evaluate the framework on 2010-2024 FOMC minutes paired with a 14-variable U.S. Treasury and macroeconomic panel, using four interchangeable data-driven detectors. The proposed pipeline achieves F1 = 0.82 against a verified anchor list of monetary-policy regime shifts, with same-day modal detection latency and consistently stronger performance than pure data-driven baselines. The results demonstrate that combining unstructured policy text with statistical structural-break detection improves the robustness and interpretability of regime shift identification in financial markets.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c9bfba5dac5f" data-article-url="https://arxiv.org/abs/2605.30364" data-article-title="スケーラブルな RF 送信機フィンガープリンティングのためのハミルトニアンにヒントを得たアテンション メカニズム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30364" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30364" target="_blank" rel="noopener">スケーラブルな RF 送信機フィンガープリンティングのためのハミルトニアンにヒントを得たアテンション メカニズム</a></h3>
      <p class="summary">無線周波数 (RF) フィンガープリンティングは、ベースバンド I/Q 信号に存在するハードウェアに起因する不完全性を使用してワイヤレス トランスミッターを識別します。ただし、ディープ ラーニング モデルは、特に送信機の数が増加するにつれて、受信機とチャネルの分布が変化すると性能が低下することがよくあります。この研究では、学習済みスキュー対称ジェネレーターとサントルマー・ヴェレ・リープフロッグ積分ステップを使用して、各アテンション・ヘッド内でノルム保存値ダイナミクスを強制する、物理学に基づいたアテンション・アーキテクチャであるハミルトニアン・トランスフォーマーを提案しています。追加の位相インクリメント埋め込みにより、入力層での発振器ダイナミクスが明らかになります。すべての実験では、4 つのプロトコルの下で WiSig データセットからの等化されていない生の I/Q 信号を使用します。同日分類、クロスレシーバーの一般化、クロスデーの一般化、および最大 150 台のデバイスまでのトランスミッターのスケールアップにより、ハミルトニアン トランスフォーマーは、同日の条件下で 99.12% の精度を達成し、150 台のトランスミッターで 61.64% の精度を達成し、すべてのスケール ポイントにわたって CNN およびトランスフォーマーのベースラインを常に上回りました。これらの結果は、物理学に基づいた構造事前分布をアテンション メカニズムに埋め込むことが、生の無線信号の大規模な送信機識別に対する効果的なアプローチであることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Hamiltonian-Inspired Attention Mechanism for Scalable RF Transmitter Fingerprinting</p>
        <p class="orig-summary">Radio-frequency (RF) fingerprinting identifies wire-less transmitters using hardware-induced imperfections present in baseband I/Q signals. However, deep learning models often degrade under receiver and channel distribution shifts, particularly as transmitter populations grow. This work proposes the Hamiltonian Transformer, a physics-informed attention architecture that enforces norm preserving value dynamics within each attention head using a learned skew-symmetric generator and a St\&quot;ormer-Verlet leapfrog integration step. An additional phase-increment embedding exposes oscillator dynamics at the input layer. All experiments use non-equalized raw I/Q signals from the WiSig dataset under four protocols: same-day classification, cross-receiver generalisation, cross-day generalisation, and transmitter scaling up to 150 devices. The Hamiltonian Transformer achieves 99.12% accuracy under same-day conditions and 61.64% at 150 transmitters, consistently outperforming CNN and Transformer baselines across all scale points. A controlled ablation study identifies norm-preservation in the value update as the primary inductive bias driving the scaling advantage, with the phase increment embedding providing the single largest per-component improvement. These results indicate that embedding physics-informed structural priors into attention mechanisms is an effective approach to large-scale transmitter identification on raw wireless signals.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="523a6bb43cf4" data-article-url="https://arxiv.org/abs/2605.30365" data-article-title="精神的ダメージ: 検索拡張テキスト音楽生成に対するキャプション中毒攻撃" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30365" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30365" target="_blank" rel="noopener">精神的ダメージ: 検索拡張テキスト音楽生成に対するキャプション中毒攻撃</a></h3>
      <p class="summary">取得拡張テキスト音楽変換 (TTM) システムは、音楽キャプション データセットから取得したキャプションを使用して、指定されていないユーザー プロンプトを拡張します。この設計では、音楽知識データベースに対する整合性の依存性が導入されています。私たちは、攻撃者が少数の細工された音楽キャプションを挿入することによってデータベースを汚染し、ユーザー プロンプト、取得者、またはジェネレーターを変更することなく、プロンプトの拡張を偏らせ、生成をユーザーの意図した機能から遠ざける悪意のあるキャプションをシステムに取得させることができることを示します。音楽キャプションポイズニング攻撃を達成するために、私たちは、高レベルの取得アンカーを保持しながら、低レベルの音響記述子を注入して、攻撃者が選択したターゲット意図に向けてプロンプト拡張とダウンストリーム音楽生成を誘導する、二重層キャプションポイズニング戦略を提案します。 MusicCaps ナレッジ データベース、CLAP リトリーバー、および MusicGen パイプラインでは、汚染された世代は、元のユーザー クエリと比較的一致した状態を保ちながら、攻撃者のターゲットに大幅に近づきます。これらの結果は、検索拡張クリエイティブ AI システムの実質的な整合性リスクを明らかにします。私たちのデモは次の場所にあります: https://yizhu-wen.github.io/Mental-Damage/</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Mental Damage: Caption Poisoning Attacks on Retrieval-Augmented Text-to-Music Generation</p>
        <p class="orig-summary">Retrieval-augmented text-to-music (TTM) systems augment underspecified user prompts using captions retrieved from a music caption dataset. This design introduces an integrity dependency on the music knowledge database. We show that an attacker can poison the database by injecting a small number of crafted music captions, causing the system to retrieve malicious captions that bias prompt augmentation and steer generation away from the user&#x27;s intended function, without modifying the user prompt, retriever, or generator. To achieve the music caption poisoning attack, we propose a dual-layer caption poisoning strategy that preserves high-level retrieval anchors while injecting low-level acoustic descriptors to steer prompt augmentation and downstream music generation toward an attacker-chosen target intent. In a MusicCaps knowledge database, CLAP retriever, and MusicGen pipeline, poisoned generations move substantially closer to the attacker&#x27;s target, while remaining comparably aligned with the original user query. These results expose a practical integrity risk for retrieval-augmented creative AI systems. Our demo can be found at: https://yizhu-wen.github.io/Mental-Damage/</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="63c283608b1b" data-article-url="https://arxiv.org/abs/2605.30368" data-article-title="安全閾値をニューロンスパイキング閾値として再解釈する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30368" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30368" target="_blank" rel="noopener">安全閾値をニューロンスパイキング閾値として再解釈する</a></h3>
      <p class="summary">代理安全対策 (SSM) は、自動運転の状況における交通リスクの評価に広く利用されています。しかし、SSM ベースの評価の大部分では、固定しきい値が採用されており、持続する境界線状態に対する人間の反応や、短期間の高リスクピークに対する反応を捉えることができません。本研究は、生物学にインスピレーションを得た SSM 閾値の再解釈を提案しています。これは、複数の SSM 入力がスパイキング ニューラル ネットワーク (SNN) に結合された、リーキー統合発射 (LIF) ニューロンのスパイク閾値としてモデル化されています。 SNN は、人間のブレーキの開始に合わせてスパイクを発するように訓練されています。トレーニング データは、CARLA/Unreal を備えた 3D-CoAutoSim プラットフォームと 6-DOF モーション プラットフォームを使用した、制御された車追従実験で記録され、誘発された重大なイベントが生成されました。結果は、学習されたスパイク アクティビティがシナリオ全体でブレーキ動作と定性的に一致しており、しきい値の交差だけでは一貫して説明できない反応を捕捉していることを示しています。さらに、参加者全体の分析により、学習された入力しきい値は比較的一貫したままである一方、学習された減衰係数は SSM の異なる時間感度をエンコードしていることが示されています。この研究の結果は、スパイクのダイナミクスが客観的な SSM と主観的な人間の安全認識の収束を促進するメカニズムとして機能する可能性があることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Reinterpreting Safety Thresholds as Neuron Spiking Thresholds</p>
        <p class="orig-summary">Surrogate Safety Measures (SSMs) are extensively utilised in the evaluation of traffic risk in automated driving contexts. However, the majority of SSM-based evaluations employ fixed thresholds that fail to capture the human response to sustained borderline conditions or the reaction to brief, high-risk peaks. The present work proposes a biologically inspired reinterpretation of SSM thresholds. This is modelled as spiking thresholds of leaky integrate-and-fire (LIF) neurons, with multiple SSM inputs combined into a spiking neural network (SNN). The SNN is trained to emit spikes that are aligned with human braking onsets. The training data was recorded in a controlled car-following experiment using the 3D-CoAutoSim platform with CARLA/Unreal and a 6-DOF motion platform, where induced critical events were generated. The results demonstrate that the learned spiking activity qualitatively aligns with braking behaviour across scenarios and captures reactions that are not consistently explained by threshold crossings alone. Analysis across participants further indicates that learned input thresholds remain relatively consistent, while learned decay factors encode different temporal sensitivities for the SSMs. The findings of this study indicate that spiking dynamics may serve as a mechanism to facilitate the convergence of objective SSMs with subjective human safety perception.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0ae87cbe05b6" data-article-url="https://arxiv.org/abs/2605.30370" data-article-title="人工ニューラルネットワークにおける標準ニューロンモデルの更新" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30370" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30370" target="_blank" rel="noopener">人工ニューラルネットワークにおける標準ニューロンモデルの更新</a></h3>
      <p class="summary">1950 年代の創設以来、人工ニューラル ネットワーク (ANN) は、このアナロジーにより脳機能のより良いエミュレーションが可能になることを期待して、当時神経科学で普及していたいわゆるポイント ニューロン モデルを使用し始めました。長年にわたり、神経科学の文献は、点ニューロン モデルは単純すぎて、多くの基本的な神経プロセスを適切に表現できないことを示してきました。ただし、ANN の標準ニューロン モデルは依然として同じままです。今回我々は、これを皮質細胞のごく最近のモデルに置き換え、パラメータの数を増やさずに、より現実的な神経ユニット要素を使用するだけで、結果として得られるANNが、表現力、堅牢性、学習速度の向上、必要な記憶量とトレーニングデータ量の削減など、多くの重要な利点を提供することを、理論分析と実験結果を通じて実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Updating the standard neuron model in artificial neural networks</p>
        <p class="orig-summary">From their inception in the 1950s, artificial neural networks (ANNs) started using the so-called point neuron model then prevalent in neuroscience, hoping that this analogy would allow for a better emulation of brain function. Over the years the neuroscience literature has shown that the point neuron model is too simplistic to properly represent many fundamental neural processes; however, the standard neuron model in ANNs still remains the same. Here we substitute it by a very recent model of cortical cells and demonstrate through theoretical analyses and experimental results how, simply by using a more realistic neural unit element without augmenting the number of parameters, the resulting ANNs offer a number of important advantages that include increases in expressivity, robustness and learning speed, and a reduction in memorization and the amount of training data needed.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dcee17ea7779" data-article-url="https://arxiv.org/abs/2605.30372" data-article-title="貯留層の学習と収量のための進化的アルゴリズム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30372" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30372" target="_blank" rel="noopener">貯留層の学習と収量のための進化的アルゴリズム</a></h3>
      <p class="summary">リカレント ニューラル ネットワークの一種であるリザーバー コンピューティングは、動的処理を学習済みの読み出し層から分離するため、時間学習に対する有望なアプローチです。ただし、従来の Echo State Network (ESN) では、多くの場合、良好なパフォーマンスを達成するために、アーキテクチャとハイパーパラメーターのタスク固有の調整が必要になります。この論文では、マルチ貯留層 ESN のトポロジとハイパーパラメータの両方を進化させるように設計されたフレームワークである EARLY (貯留層の学習と生成のための進化的アルゴリズム) を紹介します。 EARLY は、脳のモジュール構成にインスピレーションを得て、アーキテクチャをグラフベースのゲノムとしてエンコードし、交差、突然変異、選択を適用して効果的な構成を発見します。私たちの目標は、汎用アーキテクチャと一般化を引き起こすタスクの両方を作成することです。このメソッドは、CogScale データセットからの時間学習タスクで評価されます。結果は、進化したアーキテクチャがいくつかのタスクでランダム検索で得られたアーキテクチャよりも優れており、タスクの難易度に応じて構造的な違いを示していることを示しています。単純なタスクは軽量のアーキテクチャを生み出し、より複雑なタスクはより充実したモジュール型組織を優先します。これらの発見は、進化的探索が、より広範囲の時間的問題に対して再利用可能な貯留構造を特定するのに役立つ可能性があることを示唆しています。進化したアーキテクチャは、新しい環境に適応する能力を評価するために、状況を超えた学習データセットでさらに評価されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Evolutionary Algorithm for Reservoir Learning and Yielding</p>
        <p class="orig-summary">Reservoir computing, a type of recurrent neural network, is a promising approach for temporal learning as it separates dynamic processing from the trained readout layer. However, classical Echo State Networks (ESNs) often require task-specific tuning of their architecture and hyperparameters to achieve good performance. This paper introduces EARLY (Evolutionary Algorithm for Reservoir Learning and Yielding), a framework designed to evolve both the topology and hyperparameters of multi-reservoir ESNs. Inspired by the modular organisation of the brain, EARLY encodes architectures as graph-based genomes and applies crossover, mutation, and selection to discover effective configurations. Our goal is to create both generic architectures and tasks inducing generalization. The method is evaluated on temporal learning tasks from the CogScale dataset. Results show that evolved architectures outperform those obtained with random search on several tasks and exhibit structural differences depending on task difficulty: simpler tasks yield lightweight architectures, while more complex tasks favour richer modular organisations. These findings suggest that evolutionary search can help identify reusable reservoir structures for a broader range of temporal problems. The evolved architectures are further evaluated on a cross-situational learning dataset to assess their ability to adapt to new environments.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="54ffd953b159" data-article-url="https://arxiv.org/abs/2605.30375" data-article-title="マルチグリッド階層学習による工学スケールの 3 次元航空機の全フィールド予測" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30375" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30375" target="_blank" rel="noopener">マルチグリッド階層学習による工学スケールの 3 次元航空機の全フィールド予測</a></h3>
      <p class="summary">航空宇宙設計には忠実度の高い数値流体力学が不可欠ですが、実用的な 3 次元航空機の工学規模のシミュレーションは依然として計算コストが高くなります。学習ベースの流れ場の初期化は、初期解と収束解の間の数値的距離を縮めることで効率を向上させることができますが、既存の深層学習アプローチは、マルチスケールの地域的異質性を持つ大規模な 3 次元航空機の流れに拡張することが依然として困難です。したがって、先行研究のほとんどは、2 次元の問題、表面量、積分空気力学係数、またはグリッド解像度が制限された単純化された 3 次元のケースに焦点を当てています。ここでは、高忠実度の数値精度を維持しながらエンジニアリング スケールの航空機の流れシミュレーションを高速化するためのマルチグリッド階層学習フレームワークである MHLF を提案します。 MHLF は、トポロジー的に一貫した幾何学的マルチグリッド表現と、予測とその後の CFD 補正の両方で地域的な流れの不均一性を捉える階層的戦略を組み合わせます。マッハ 0.15 ～ 6.0 に及び、亜音速、遷音速、超音速領域をカバーする 3 つの工学規模の航空機ケースにわたって、MHLF は流れ場の精度を犠牲にすることなく収束を加速し、従来の初期化と比べて 3 ～ 8 倍の効率改善を達成しました。これらの結果は、CFD ドメイン内の大型 3 次元航空機の実用的な全流れ場予測を実証し、高忠実度の航空機流れシミュレーションのデータ駆動型加速の基盤を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Full-field prediction for engineering-scale three-dimensional aircraft with multigrid-hierarchical learning</p>
        <p class="orig-summary">High-fidelity computational fluid dynamics is essential for aerospace design, but engineering-scale simulations of practical three-dimensional aircraft remain computationally expensive. Learning-based flow-field initialization can improve efficiency by reducing the numerical distance between the initial and converged solutions, yet existing deep learning approaches remain difficult to scale to large three-dimensional aircraft flows with multiscale regional heterogeneity. Most prior studies therefore focus on two-dimensional problems, surface quantities, integral aerodynamic coefficients, or simplified three-dimensional cases with limited grid resolution.Here we propose MHLF, a multigrid-hierarchical learning framework for accelerating engineering-scale aircraft flow simulations while preserving high-fidelity numerical accuracy. MHLF combines a topologically consistent geometric multigrid representation with a hierarchical strategy that captures regional flow heterogeneity during both prediction and subsequent CFD correction. Across three engineering-scale aircraft cases spanning Mach 0.15 to 6.0 and covering subsonic, transonic and supersonic regimes, MHLF accelerates convergence without sacrificing flow-field accuracy, achieving a 3 to 8 times efficiency improvement over conventional initialization. These results demonstrate practical full-flow-field prediction for large three-dimensional aircraft within the CFD domain and provide a foundation for data-driven acceleration of high-fidelity aircraft flow simulation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3ce588bcb9ae" data-article-url="https://arxiv.org/abs/2605.30376" data-article-title="Unicorn: ユニバーサル相関モデリングによる高次元時系列予測のスケーリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30376" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30376" target="_blank" rel="noopener">Unicorn: ユニバーサル相関モデリングによる高次元時系列予測のスケーリング</a></h3>
      <p class="summary">最新の時系列アーキテクチャは根本的なトレードオフに直面しています。チャネル非依存モデルは、データ量の増加に合わせて適切にスケールしますが、重大なチャネル間の依存関係を無視します。一方、チャネル依存モデルは表現力は豊かですが、依然として「次元境界」があり、異種データセット間で一般化するのに苦労しています。このギャップを埋めるために、高次元時系列でのスケーラブルなマルチデータセット事前トレーニング用のフレームワークである Unicorn (Universal Correlation Network) を紹介します。 Unicorn の中核には、相関モデリングを特定のチャネル ID から切り離す潜在的なプロトタイプ コードブックがあります。異種チャネルを共有潜在空間に投影することで、UniCorN は、多様な次元とセマンティクスを持つドメイン間で転送される、アイデンティティに依存しない再利用可能な対話パターンを学習します。広範な実験により、Unicorn は、特に数ショット転送シナリオにおいて、最先端の予測アーキテクチャを大幅に上回り、多変量時系列基盤モデルへのスケーラブルなパスを提供することが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling</p>
        <p class="orig-summary">Modern time series architectures face a fundamental trade-off: channel-independent models scale well with increasing data volume but ignore critical inter-channel dependencies, while channel-dependent models are expressive but remain ``dimension-bounded&#x27;&#x27;, struggling to generalize across heterogeneous datasets.To bridge this gap, we introduce Unicorn (Universal Correlation Network), a framework for scalable, multi-dataset pretraining on high-dimensional time series. At the core of Unicorn is a latent prototype codebook that decouples correlation modeling from specific channel identities. By projecting heterogeneous channels into a shared latent space, UniCorN learns identity-agnostic, reusable interaction patterns that transfer across domains with diverse dimensionalities and semantics. Extensive experiments show that Unicorn significantly outperforms state-of-the-art forecasting architectures, particularly in few-shot transfer scenarios, offering a scalable path toward multivariate time series foundation models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c44778a0157f" data-article-url="https://arxiv.org/abs/2605.30381" data-article-title="LLM が一貫して間違っていることを学習するとき: 合成欺瞞の線形表現に関するマルチモデル研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30381" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30381" target="_blank" rel="noopener">LLM が一貫して間違っていることを学習するとき: 合成欺瞞の線形表現に関するマルチモデル研究</a></h3>
      <p class="summary">モデルが意図的に偽の出力を生成しながら正確な内部表現を維持する欺瞞的な調整は、依然として AI の安全性における中心的な課題です。戦略的欺瞞が長期的な主な懸念事項である一方で、不正解に対する直接最適化によって引き起こされる合成的不正は、学習された欺瞞の表現基盤を研究するための制御されたテストベッドを提供します。 5 つのトランスフォーマー モデル (Pythia-1.4B、Gemma-2-2B/9B、Qwen2.5-7B、Llama-3.1-8B) の正直なバリアントと欺瞞的なバリアントが、同じ質問分布に対して LoRA を使用して微調整されるマルチモデル パラダイムを導入します。平均プールされた隠れ状態で訓練された線形プローブは、4 つのアーキテクチャのレイヤー 1 ～ 3 でほぼ完璧な AUC (0.99 以上) で合成不正を検出しますが、Pythia-1.4B はピークの 0.705 に達します。ロジスティック回帰プローブは一貫して MLP プローブと一致するかそれを上回っており、線形表現仮説を裏付けています。 TruthfulQA でトレーニングされたプローブは、保留された MMLU 被験者に対してほぼゼロの損失 (デルタ AUC 約 0) で一般化します。後期層の表現はガウス ノイズに対する強い堅牢性を示し、Gemma-2 モデルは優れた安定性を示します。フィッシャー判別比、有効ランク、重心幾何学、方向安定性、クロスドメインアライメント、およびキャリブレーション (ECE) の機構分析により、Pythia/Llama/Qwen における表現崩壊と Gemma-2 における高次元保存という 2 つの状況が明らかになります。すべてのモデルにわたって、不正の方向はより深い層に徐々に統合され、層 1 ～ 4 で最適なキャリブレーション (Pythia を除く ECE が 0.01 未満) が達成されます。これらの結果は、堅牢でドメイン不変の不正表現が、適度な教師付き微調整によって急速に定着する可能性があり、アクティベーションベースのモニタリングに影響を与えることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception</p>
        <p class="orig-summary">Deceptive alignment, in which models maintain accurate internal representations while deliberately producing false outputs, remains a central challenge in AI safety. While strategic deception is the primary long-term concern, synthetic dishonesty - induced via direct optimization on incorrect answers - provides a controlled testbed for studying the representational basis of learned deception. We introduce a multi-model paradigm in which honest and deceptive variants of five transformer models (Pythia-1.4B, Gemma-2-2B/9B, Qwen2.5-7B, Llama-3.1-8B) are fine-tuned using LoRA on the same question distribution. Linear probes trained on mean-pooled hidden states detect synthetic dishonesty with near-perfect AUC (greater than or equal to 0.99) as early as layers 1-3 in four architectures, while Pythia-1.4B reaches a peak of 0.705. Logistic regression probes consistently match or outperform MLP probes, supporting the Linear Representation Hypothesis. Probes trained on TruthfulQA generalize with near-zero loss (Delta AUC approx. 0) to held-out MMLU subjects. Late-layer representations show strong robustness to Gaussian noise, with Gemma-2 models exhibiting exceptional stability. Mechanistic analysis of Fisher Discriminant Ratio, effective rank, centroid geometry, directional stability, cross-domain alignment, and calibration (ECE) reveals two regimes: representational collapse in Pythia/Llama/Qwen versus high-dimensional preservation in Gemma-2. Across all models, the dishonesty direction consolidates progressively in deeper layers, with optimal calibration (ECE less than 0.01 except Pythia) achievable in layers 1-4. These results demonstrate that robust, domain-invariant dishonesty representations can be rapidly entrenched via modest supervised fine-tuning, with implications for activation-based monitoring.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5c2e9d9670b6" data-article-url="https://arxiv.org/abs/2605.30383" data-article-title="構造化されたインタラクションにより、現実世界のマルチロボット システムにおけるモデルのスケーリングを超えた分散調整が向上します" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30383" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30383" target="_blank" rel="noopener">構造化されたインタラクションにより、現実世界のマルチロボット システムにおけるモデルのスケーリングを超えた分散調整が向上します</a></h3>
      <p class="summary">個々のロボットの機能を拡張することは一般的ですが、コストがかかります。ここでは、現実世界のマルチロボット調整におけるシステムレベルの設計の問題を調査します。ハードウェア予算が一致している場合、ロボット間の通信を再構築すると、オンボードモデルのサイズを増やすよりも大きな利益が得られるでしょうか? 10 台の物理ロボット (条件ごとに 5 回の実行、合計 60 回の実行) を使用した代表的なトランスポートおよびマッピング タスクを使用すると、完全接続からモジュール型階層インタラクションに切り替えると正規化パフォーマンスが 47 ポイント (0 ～ 100) 向上するのに対し、ニューラル ネットワークの隠れサイズを 2 倍にしても最大 9 ポイント向上することがわかりました。ネストされた混合効果モデルの比較では、スケールよりもトポロジに対するモデルの適合性が大幅に向上していることがわかります。このパターンは、独立した SMAC レプリケーションで確認されます。異種ベンチマーク再分析は、一次証拠ではなく二次的なサポート一貫性チェックを提供します。 1024 隠れユニットを超えるパフォーマンスの飽和は、ハードウェア上で直接ではなく、シミュレーションで調整された外挿で観察されます。これらの結果は、より広範な定量的一般化がまだ確立されていない一方で、テストされたシステムとタスク設定内で相互作用構造が支配的な役割を果たす可能性があることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Structured interactions improve distributed coordination beyond model scaling in a real-world multi-robot system</p>
        <p class="orig-summary">Scaling individual robot capabilities is common but costly. Here we investigate a system-level design question in real-world multi-robot coordination: given matched hardware budgets, does restructuring communication among robots yield larger gains than increasing onboard model size? Using a representative transport-and-mapping task with 10 physical robots (5 runs per condition, 60 runs total), we find that switching from fully connected to modular hierarchical interactions improves normalised performance by 47 points (0--100), whereas doubling neural network hidden size yields at most 9 points. Nested mixed-effects model comparisons show a substantially larger improvement in model fit for topology than for scale. The pattern is confirmed in independent SMAC replications; heterogeneous benchmark reanalyses provide secondary supporting consistency checks rather than primary evidence. Performance saturation beyond 1024 hidden units is observed in simulation-calibrated extrapolation, not directly on hardware. These results indicate that interaction structure can play a dominant role within the tested system and task setting, while broader quantitative generalisation remains to be established.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="48aa8c0a9f1a" data-article-url="https://arxiv.org/abs/2605.30385" data-article-title="ディープ ニューラル ネットワークを使用しない LLM: 新しいアーキテクチャ、利点、およびケーススタディ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30385" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30385" target="_blank" rel="noopener">ディープ ニューラル ネットワークを使用しない LLM: 新しいアーキテクチャ、利点、およびケーススタディ</a></h3>
      <p class="summary">この記事の目的は、LLM のコンテキストでディープ ニューラル ネットワークの代替案を検証することです。ごく最近、標準的な DNN の代替として、説明可能性と精度が向上した RBF ネットワークと呼ばれるモデルに中国の研究者が大きな関心を寄せています。独自に発見した私の新しいモデルは、まったく同じ機械に基づいていることが判明しました。ただし、大きな工夫があります。DNN は、1 回の反復で閉じた形式の損失関数の大域的最適値を見つけるため、DNN を必要とせず、退屈なトレーニング ステップを排除します。ここでは、ケーススタディと同様の手法との比較を交えて、私のテクノロジーの概要を説明します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LLMs Without Deep Neural Networks: New Architecture, Benefits and Case Study</p>
        <p class="orig-summary">The purpose of this article is to provide validation to my deep neural network alternative in the context of LLMs. Very recently, there has been a significant interest by Chinese researchers in a model called RBF network, as a substitute to standard DNNs, with increased explainability and higher accuracy. It turns out that my new model, discovered independently, is based on the exact same machinery. But with a major twist: it does not need DNN as it finds the global optimum of the loss function in closed form, in one iteration, thus eliminating the tedious training step. Here I provide a high-level overview of my technology, with case study and comparison to similar methods.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="289393bf3447" data-article-url="https://arxiv.org/abs/2605.30387" data-article-title="脳障害識別のためのウェーブレットベースの画像変換とスペクトルフローマッチングによる機能的 MRI 時系列生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30387" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30387" target="_blank" rel="noopener">脳障害識別のためのウェーブレットベースの画像変換とスペクトルフローマッチングによる機能的 MRI 時系列生成</a></h3>
      <p class="summary">機能的磁気共鳴画像法 (fMRI) は、血中酸素濃度依存性 (BOLD) 信号を経時的に測定することにより、動的脳活動への非侵襲的アクセスを提供します。ただし、fMRI 取得はリソースを大量に消費する性質があるため、データ駆動型の脳分析モデルに必要な高忠実度のサンプルの入手可能性が制限されます。最新の生成モデルは fMRI データを合成できますが、多くの場合、生の BOLD 信号の固有の非定常性、複雑な時空間ダイナミクス、生理学的変動を再現するのが困難です。これらの課題に対処するために、BOLD 信号のデュアル周波数表現とスペクトル フロー マッチングをカスケード接続する新しい fMRI 生成フレームワークであるデュアル スペクトル フロー マッチング (DSFM) を提案します。具体的には、私たちのフレームワークは、まず離散ウェーブレット変換 (DWT) を介して BOLD 信号をウェーブレット分解マップに変換し、グローバル化された過渡変動とマルチスケール変動をキャプチャし、脳の領域と時間を横断して離散コサイン変換 (DCT) 空間に投影して、低周波支配的な BOLD 係数の局所的なエネルギー圧縮を利用します。続いて、スペクトル フロー マッチング モデルがトレーニングされて、クラス条件付きコサイン周波数表現が生成されます。生成されたサンプルは、逆 DCT および逆 DWT 演算を通じて再構築され、生理学的に妥当な時間領域 BOLD 信号を復元します。この二重変換アプローチは、構造化された周波数事前分布を課し、重要な生理学的脳のダイナミクスを保存します。最終的に、我々は改善された下流の fMRI ベースの脳ネットワーク分類を通じて、アプローチの有効性を実証します。コードは https://github.com/htew0001/DSFM.git で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Functional MRI Time Series Generation via Wavelet-Based Image Transform and Spectral Flow Matching for Brain Disorder Identification</p>
        <p class="orig-summary">Functional Magnetic Resonance Imaging (fMRI) provides non-invasive access to dynamic brain activity by measuring blood oxygen level-dependent (BOLD) signals over time. However, the resource-intensive nature of fMRI acquisition limits the availability of high-fidelity samples required for data-driven brain analysis models. While modern generative models can synthesize fMRI data, they often remain challenging in replicating their inherent non-stationarity, intricate spatiotemporal dynamics, and physiological variations of raw BOLD signals. To address these challenges, we propose Dual-Spectral Flow Matching (DSFM), a novel fMRI generative framework that cascades dual frequency representation of BOLD signals with spectral flow matching. Specifically, our framework first converts BOLD signals into a wavelet decomposition map via a discrete wavelet transform (DWT) to capture globalized transient and multi-scale variations, and projects into the discrete cosine transform (DCT) space across brain regions and time to exploit localized energy compaction of low-frequency dominant BOLD coefficients. Subsequently, a spectral flow matching model is trained to generate class-conditioned cosine-frequency representation. The generated samples are reconstructed through inverse DCT and inverse DWT operations to recover physiologically plausible time-domain BOLD signals. This dual-transform approach imposes structured frequency priors and preserves key physiological brain dynamics. Ultimately, we demonstrate the efficacy of our approach through improved downstream fMRI-based brain network classification. The code is available at https://github.com/htew0001/DSFM.git .</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="80d2e6c494ef" data-article-url="https://arxiv.org/abs/2605.30391" data-article-title="機械における社会的推論: 大規模言語モデルの議論における集団的真実探求ダイナミクスの調査" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30391" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30391" target="_blank" rel="noopener">機械における社会的推論: 大規模言語モデルの議論における集団的真実探求ダイナミクスの調査</a></h3>
      <p class="summary">人間の推論は、孤立した個人の認知ではなく、集団的な敵対的な議論を通じて社会的に機能すると長い間理論化されてきました。これは推論の議論理論 (ATR) として知られる枠組みです。 ATRは、真実探求の主な手段として個人の「知識主義的推論者」に依存するのではなく、真実を社会認識論の新たな特性、つまり議論の敵対的な圧力の下で洗練された不完全な個人の推論の産物として再概念化します。この集合知の分散型手法は、人類をこれまで以上に認識論的な高みへと導き、すべての民主主義システムの基本原則を支えてきました。この論文は、大規模言語モデル (LLM) のマルチエージェント ディベート (MAD) を通じて ATR を初めてシミュレートすることで、新境地を開拓しました。厳密な実証分析により、認識論的に多様なモデルのセットを正しく設計すると、個々のディベート参加者が単独でのパフォーマンスが限られている場合でも、LLM-MAD がアンケートベースのタスクでの真実探求パフォーマンスを大幅に向上させることができることを実証しました。さらに、我々は、このパフォーマンスの向上が ATR の中心原理に機構的に基づいているという強力な経験的証拠を提示し、集団的推論が生物学や進化の奇抜なものではなく、個人主義的推論よりも普遍的に有利である可能性があることを示唆しています。最後に、議論のダイナミクスの分析に基づいて、現在の静的ベンチマーク アプローチではサポートできない方法でモデルを比較するために、LLM-MAD を活用してモデルの固有の特性 (幻覚傾向など) を測定する新しいベンチマーク方法論を提案します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Social Reasoning in Machines: Investigating Collective Truth-Seeking Dynamics in Large Language Model Debate</p>
        <p class="orig-summary">Human reasoning has long been theorised to operate socially, not through isolated individual cognition, but through collective adversarial discourse, a framework known as the Argumentative Theory of Reasoning (ATR). Rather than relying on individual &quot;intellectualist reasoners&quot; as the primary vehicle for truth-seeking, ATR reconceptualises truth as an emergent property of social epistemology: the product of imperfect individual reasoning refined under the adversarial pressure of debate. This distributed method of collective intelligence has guided humanity to ever-greater epistemic heights and underpins the foundational principles of all democratic systems. This thesis breaks new ground by, for the first time, simulating ATR through the multi-agent debate (MAD) of large language models (LLMs). With rigorous empirical analysis, we demonstrate that, when correctly engineering an epistemically diverse set of models, LLM-MAD can significantly improve truth-seeking performance on questionnaire-based tasks, even when individual debate participants exhibit limited standalone performance. Furthermore, we present strong empirical evidence that this performance gain is mechanistically grounded in the central principles of ATR, suggesting that collective reasoning may be universally favourable over individualist reasoning, rather than a quirk in biology or evolution. Finally, drawing on our analysis of debate dynamics, we propose a novel benchmarking methodology that leverages LLM-MAD to measure intrinsic model properties (such as hallucination propensity) in order to compare models in ways that current static benchmarking approaches cannot support.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3fa47db166af" data-article-url="https://arxiv.org/abs/2605.30393" data-article-title="NumLeak: 基礎モデルの潜在ラベルとしての公開数値ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30393" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30393" target="_blank" rel="noopener">NumLeak: 基礎モデルの潜在ラベルとしての公開数値ベンチマーク</a></h3>
      <p class="summary">公開された数値ベンチマークは事前トレーニングに表示されるため、日付の条件による評価は、サンプル外のスキルではなく、記憶された再現率を測定している可能性があります。 NumLeak は、実稼働モデル上の API 境界プローブとオープン因果 LM 上のホワイトボックス制御検証を組み合わせた測定フレームワークです。最上位のフロンティア LLM は、3 シードでプールされたピアソン r=0.97 ～ 0.99 でのファーマ・フランス市場の超過リターンを思い出しますが、5 つの兄弟要素では 25bps 以内で 0.15 以内に留まっています。同等の忠実度は、米国の失業率、CPI インフレ、NOAA の気温にも現れています。最近のリリースのホールドアウトでは、解析率は 21 ～ 57% に低下しますが、応答した月の r は約 0.99 にとどまります。これは、記憶されたチャネルが予測するリジェクトまたはリコールの非対称性です。ホワイトボックス実験は用量反応を再現し、logprob ランキングはオープンエンド生成で見逃した記憶を検出します。これは、クローズド API ブラックボックス プローブがチャネルを過小評価していることを意味します。 r=0.74 で真の Mkt-RF と相関するソネットの「市場センチメントに対する日付」回帰は、モデル自体の再現率が残差化されると r=0.02 に崩壊します。 1 行のシステムプロンプト防御は、概念的および歴史的物語のクエリに対してほぼゼロのユーティリティコストで設定された非適応的なシングルターンサフィックス攻撃を 99.8% ブロックします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models</p>
        <p class="orig-summary">Public numeric benchmarks appear in pretraining, so an evaluation that conditions on a date may be measuring memorized recall rather than out-of-sample skill. We introduce NumLeak, a measurement framework that combines API-boundary probes on production models with a white-box controlled validation on an open causal LM. Top-tier frontier LLMs recall the Fama-French market excess return at 3-seed pooled Pearson r=0.97-0.99 while staying within 0.15 within-25bps on the five sibling factors; comparable fidelity appears on U.S. unemployment, CPI inflation, and NOAA temperature. On a recent-release holdout, parse rate collapses to 21-57% but r stays at approximately 0.99 on months answered, the refuse-or-recall asymmetry a memorized channel predicts. The white-box experiment reproduces the dose-response, and logprob ranking detects memorization that open-ended generation misses, implying closed-API black-box probes understate the channel. A Sonnet &quot;date to market-sentiment&quot; regression that correlates with true Mkt-RF at r=0.74 collapses to r=0.02 once the model&#x27;s own recall is residualized out. A one-line system-prompt defense blocks 99.8% of a non-adaptive single-turn suffix attack set at near-zero utility cost on conceptual and historical-narrative queries</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9e69293fb535" data-article-url="https://arxiv.org/abs/2605.30394" data-article-title="CodeGolf Bench: 大規模な言語モデルの簡潔なコード生成機能を評価するための多言語ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30394" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30394" target="_blank" rel="noopener">CodeGolf Bench: 大規模な言語モデルの簡潔なコード生成機能を評価するための多言語ベンチマーク</a></h3>
      <p class="summary">このペーパーでは、60 のプログラミング言語における大規模言語モデル (LLM) の簡潔なコード生成能力を評価できるベンチマークである Code Bench を紹介します。コード ゴルフ (最小限の文字またはバイト ソリューションに焦点を当てたレクリエーション プログラミング コンテスト) に基づいたこのベンチマークは、効率的で簡潔なコードを生成する LLM の能力を示す独特の尺度を提供します。固定された問題セットと対象言語によって制限される既存のベンチマークとは異なり、CodeGolf Bench は code.golf プラットフォームを活用して、新しい問題と実際の人間のパフォーマンス ベースラインを提供します。 Python および C++ タスクでの 9 つの LLM の評価では、推論モデルが非推論モデルよりも大幅に優れたパフォーマンスを示し、最高の平均パーセンタイル 70.97% を達成していることが実証されました。このパフォーマンスのギャップは C++ で特に顕著であり、厳密な構文要件を持つ言語における推論の重要性が強調されています。非推論モデルは、どちらの言語でも効率の最適化にさらに苦労しており、最良のパーセンタイルは推論モデルよりも大幅に低くなります。 CodeGolf Bench は、コード ゴルフにおける進化する人間のパフォーマンスに対して LLM コード生成機能を評価するための動的なフレームワークを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CodeGolf Bench: A Multi-Language Benchmark for Evaluating Concise Code Generation Capabilities of Large Language Models</p>
        <p class="orig-summary">This paper introduces Code Bench, a benchmark capable of evaluating Large Language Models (LLMs) concise code generation abilities in 60 programming languages. Based on code golf, a recreational programming competition focused on minimal character or byte solutions, the benchmark provides a distinctive measure of LLMs ability to produce efficient, concise code. Unlike existing benchmarks limited by fixed problem sets and language coverage, CodeGolf Bench leverages the code.golf platform to provide new problems and live human performance baselines. Evaluation of nine LLMs on Python and C++ tasks demonstrates that reasoning models significantly outperform non-reasoning models, achieving best average percentile of 70.97%. This performance gap is particularly pronounced in C++, highlighting reasoning&#x27;s importance for languages with strict syntax requirements. Non-reasoning models struggle more with efficiency optimization across both languages, with best percentiles significantly lower than reasoning counterparts. CodeGolf Bench offers a dynamic framework for evaluating LLM code generation capabilities against evolving human performance on code golf.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="045789bf017a" data-article-url="https://arxiv.org/abs/2605.30406" data-article-title="AI 制御不能インシデント管理: 対応と回復力" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30406" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30406" target="_blank" rel="noopener">AI 制御不能インシデント管理: 対応と回復力</a></h3>
      <p class="summary">AI システムが欺瞞性とシャットダウン耐性を示すことを実証した最近の研究は、AI の制御喪失 (LOC) が緊急の政策上の懸念事項であることを示唆していますが、現在の文献はほぼもっぱら調整と防止に焦点を当てています。このギャップに対処するために、このペーパーでは、壊滅的な AI LOC インシデントを管理するための基本的なフレームワークと分類法を紹介します。この分類の最初のレベルでは、制御を取り戻すのに「非常にコストがかかる」シナリオと「不可能」なシナリオを区別します。不可能なシナリオでは、AI の攻撃対象領域を根本的に制限するために即時の回復力への投資が必要ですが、非常にコストがかかるシナリオでは、封じ込めと脅威の無力化による積極的なインシデント管理が必要です。このフレームワークはさらに、これらの管理可能なイベントを偶発的 LOC (自動サーキットブレーカー対応が必要) と敵対的 LOC (段階的エスカレーション措置が必要) に分類します。このペーパーでは、3 つの重大度クラスを特定のシナリオ マトリックスにマッピングすることで、前例のない AI リスクを管理するための具体的で比例したガイドを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AI Loss of Control Incident Management: Response &amp; Resilience</p>
        <p class="orig-summary">Recent research demonstrating AI systems exhibiting deception and shutdown resistance suggests that AI loss of control (LOC) is an urgent policy concern , yet current literature focuses almost exclusively on alignment and prevention. To address this gap, this paper introduces a foundational framework and taxonomy for managing catastrophic AI LOC incidents. The taxonomy&#x27;s first level distinguishes between scenarios where regaining control is &#x27;extremely costly&#x27; versus &#x27;impossible&#x27;. While impossible scenarios demand immediate resilience investments to fundamentally restrict an AI&#x27;s attack surface , extremely costly scenarios require active incident management via Containment and Threat Neutralization. The framework further categorizes these manageable events into accidental LOC (requiring automated circuit-breaker responses) and adversarial LOC (requiring graduated escalatory measures). By mapping three severity classes to specific scenario matrices, this paper provides a concrete, proportional guide for managing unprecedented AI risks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4e60499b9881" data-article-url="https://arxiv.org/abs/2605.30407" data-article-title="モデルの特化のための自律型エージェント データ エンジニアリングの探求" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30407" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30407" target="_blank" rel="noopener">モデルの特化のための自律型エージェント データ エンジニアリングの探求</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、一般的なタスクでは優れたパフォーマンスを示していますが、高品質のドメイン固有のデータがないと特殊なドメインに適応するのに苦労することがよくあります。既存の LLM ベースのデータ キュレーション手法は主に人間が設計したワークフローに依存しているため、LLM がモデルの特化のためのエンドツーエンドのデータ エンジニアリング パイプラインを自律的に実行できるかどうかは未検討のままです。私たちは \textbf{Autonomous Agentic Data Engineering} を形式化します。これは、エンドツーエンドのデータ キュレーションを通じてモデルの専門化を推進する自律型データ エンジニアとして LLM を評価するように設計された新しいタスクです。私たちはデータを最適化可能なコンポーネントとしてフレーム化し、トレーニング後のパフォーマンス向上に基づいて、複数のドメインにわたってトレーニング データを計画、生成、反復的に最適化するエージェントを研究します。実験によると、GPT-5.2 は反復的なエージェント主導のデータ適応を通じて学生モデルを \textbf{57.29\%} 改善するトレーニング カリキュラムを構築するため、自律型 LLM データ エンジニアが大幅な利益をもたらすことが示されています。私たちの研究では、潜在的な問題とボトルネックの両方を明らかにすることで、自律的なデータ エンジニアリングを測定可能な機能として確立し、エージェント駆動モデルの特殊化への道筋を示しています\脚注{コードは https://github.com/zjunlp/DataAgent でリリースされます。}</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Exploring Autonomous Agentic Data Engineering for Model Specialization</p>
        <p class="orig-summary">Large Language Models (LLMs) have demonstrated strong performance on general tasks, while often struggling to adapt to specialized domains without high-quality domain-specific data. Existing LLM-based data curation methods primarily rely on human-designed workflows, leaving it unexamined whether LLMs can autonomously execute an end-to-end data engineering pipeline for model specialization. We formalize \textbf{Autonomous Agentic Data Engineering}, a novel task designed to evaluate LLMs as autonomous data engineers that drive model specialization through end-to-end data curation. We frame data as an optimizable component and study agents that plan, generate, and iteratively optimize training data across multiple domains, guided by post-training performance improvement. Experiments show that autonomous LLM data engineers yield substantial gains, as GPT-5.2 constructs a training curriculum that improves a student model by \textbf{57.29\%}, entirely through iterative, agent-driven data adaptation. By illuminating both potential and bottlenecks, our study establishes autonomous data engineering as a measurable capability and charts a path toward agent-driven model specialization\footnote{Code will be released at https://github.com/zjunlp/DataAgent.}.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4519879cbb51" data-article-url="https://arxiv.org/abs/2605.30409" data-article-title="SANA-Streaming: ハイブリッド拡散トランスを使用したリアルタイム ストリーミング ビデオ編集" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30409" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30409" target="_blank" rel="noopener">SANA-Streaming: ハイブリッド拡散トランスを使用したリアルタイム ストリーミング ビデオ編集</a></h3>
      <p class="summary">リアルタイム ストリーミング ビデオ間編集 (V2V) は、ライブ ブロードキャストやゲームなどのインタラクティブ アプリケーションにとって重要ですが、時間的一貫性と推論スループットに対する厳しい要件があるため、依然として困難な課題です。この論文では、消費者向け GPU で高解像度のリアルタイム ストリーミング ビデオ編集を行うためのシステム アルゴリズムが共同設計されたフレームワークである SANA-Streaming について、次の 3 つのコア設計を使用して紹介します。 (1) ハイブリッド拡散トランス アーキテクチャは、ブロックの一部にソフトマックス アテンションを導入し、線形層の効率を維持しながらローカル モデリング機能を向上させます。 (2) サイクルリバース正則化は、フロー マッチングを介して生成されたコンテンツからソース フレームを予測することで意味の一貫性を強制する新しいトレーニング戦略であり、ペアの長い編集ビデオを必要とせずに時間的な一貫性を向上させます。 (3) 効率的なシステム共同設計により、融合された GDN カーネルと、NVIDIA Blackwell (RTX 5090) アーキテクチャ向けに最適化された混合精度量子化 (MPQ) が結合されます。現実世界のスループットをプロファイリングすることにより、当社の MPQ は生成品質を維持しながら Tensor コアの使用率を最大化します。結果として得られるシステムは、単一の RTX 5090 GPU 上で 24 エンドツーエンド FPS での 1280 x 704 解像度のリアルタイム編集を実現し、DiT コアは 58 FPS で実行されます。実験結果は、私たちの共同設計アプローチが時間的コヒーレンスとシステム スループットの両方において既存の SOTA 手法よりも大幅に優れていることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer</p>
        <p class="orig-summary">Real-time streaming video-to-video editing (V2V) is critical for interactive applications such as live broadcasting and gaming, yet it remains a formidable challenge due to the stringent requirements for temporal consistency and inference throughput. In this paper, we present SANA-Streaming, a system-algorithm co-designed framework for high-resolution, real-time streaming video editing on consumer GPUs, with the following three core designs: (1) Hybrid Diffusion Transformer architecture introduces softmax attention in part of the blocks to improve local modeling capabilities while preserving the efficiency of linear layers. (2) Cycle-Reverse Regularization is a novel training strategy that enforces semantic consistency by predicting source frames from generated content via flow matching, improving temporal consistency without requiring paired long edited videos. (3) Efficient System Co-design combines fused GDN kernels and Mixed-Precision Quantization (MPQ) optimized for the NVIDIA Blackwell (RTX 5090) architecture. By profiling real-world throughput, our MPQ maximizes Tensor Core utilization while maintaining generation quality. The resulting system achieves real-time 1280 x 704 resolution editing at 24 end-to-end FPS on a single RTX 5090 GPU, with the DiT core running at 58 FPS. Experimental results demonstrate that our co-design approach significantly outperforms existing SOTA methods in both temporal coherence and system throughput.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b143f4025bc7" data-article-url="https://arxiv.org/abs/2605.30415" data-article-title="言語モデルにおけるドメイン適応と推論フレームワーク: 歴史的宇宙論の制御された実験" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30415" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30415" target="_blank" rel="noopener">言語モデルにおけるドメイン適応と推論フレームワーク: 歴史的宇宙論の制御された実験</a></h3>
      <p class="summary">私たちは、制御された設定として歴史的宇宙論を使用して、ドメイン適応が言語モデルの説明動作をどのように再形成するかを調査します。フェーズ 1 では、明示的な地動説が削除されたコペルニクス以前のコーパス上で小さな言語モデルをゼロからトレーニングし、それにもかかわらず地球運動または地動説の継続が現れるかどうかを評価します。フェーズ 2 では、適応によって説明フ​​レーミングと宇宙論的スタンスがどのように変更されるかを研究するために、同じコーパス上で QLoRA を使用して大規模な事前トレーニング済みモデルを微調整します。モデルの出力は、宇宙論的な立場 (地動説、地動説、または曖昧さ) と説明フレーム (前近代と現代) の両方をラベル付けする LLM としての判断フレームワークを使用して評価されます。フェーズ 1 の制約された設定では、より小さなモデルが局所的な地球運動の継続を生成することがありますが、これらは依然として全体的に不安定であり、一貫した宇宙論的推論をサポートするには不十分です。フェーズ 2 では、微調整により前近代的な説明フレームへの大幅かつ統計的に有意な移行が引き起こされますが、条件付きの宇宙論的スタンスの分布はそれらのフレーム内で比較的安定したままになります。その結果、地動中心的な生産量の増加は、スタンスの直接的な変更によるものではなく、主に説明レジームにわたる再分配によって生じます。これらの結果は、ドメイン適応が主に継続が生成される言語枠組みを再形成し、その変化から二次的にスタンスの変化が現れる可能性があることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Domain Adaptation and Reasoning Frameworks in Language Models: A Controlled Experiment with Historical Cosmology</p>
        <p class="orig-summary">We investigate how domain adaptation reshapes explanatory behavior in language models using historical cosmology as a controlled setting. In Phase 1, we train a small language model from scratch on a pre-Copernican corpus from which explicit heliocentric references were removed, and evaluate whether Earth-motion or heliocentric continuations nevertheless emerge. In Phase 2, we fine-tune a larger pretrained model using QLoRA on the same corpus in order to study how adaptation modifies explanatory framing and cosmological stance. Model outputs are evaluated using an LLM-as-judge framework that labels both cosmological stance (geocentric, heliocentric, or ambiguous) and explanatory frame (premodern versus modern). In the constrained setting of Phase 1, the smaller models occasionally generate local Earth-motion continuations, but these remain globally unstable and insufficient to support coherent cosmological reasoning. In Phase 2, fine-tuning induces a large and statistically significant shift toward premodern explanatory framing, while the conditional cosmological stance distributions remain comparatively stable within those frames. As a result, increases in geocentric outputs arise primarily from redistribution over explanatory regimes rather than from direct modification of stance. These results suggest that domain adaptation may primarily reshape the linguistic frameworks from which continuations are generated, with changes in stance emerging secondarily from those shifts.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bbff96819115" data-article-url="https://arxiv.org/abs/2605.30434" data-article-title="LongDS-Bench: 長期にわたるエージェントデータ分析の失敗について" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30434" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30434" target="_blank" rel="noopener">LongDS-Bench: 長期にわたるエージェントデータ分析の失敗について</a></h3>
      <p class="summary">現実世界のデータ分析は本質的に反復的ですが、既存のベンチマークは主に孤立したタスクや短時間の対話型タスクを評価するため、長期にわたって進化する分析コンテキストを追跡するエージェントの能力はテストされていません。エージェントが進化する分析状態を維持、更新、復元、構成する必要がある長期にわたるマルチターン データ分析のベンチマークである LongDS を紹介します。 LongDS は、現実世界の Kaggle ノートブックから構築された 68 のタスクで構成され、地球科学、ビジネス、教育を含む 6 つのドメインにわたる 2,225 ターンに及びます。タスクは状態発展パターン (反事実摂動、ロールバック、複数状態の構成など) を中心に設計されており、依存関係の平均スパンは 11.3 ターンです。 5 つの最先端モデルを評価したところ、最良のモデルでも平均精度は 48.45% にとどまり、ターンの初期から後期にかけてパフォーマンスが 47 ポイント近く低下し、長期エラーが失敗の 52% ～ 69% を占めることがわかりました。さらに分析を進めると、エージェント ステップを追加しても必ずしもパフォーマンスが向上するとは限らず、主なボトルネックはインタラクション バジェットを増やすことではなく、正しい分析状態を維持することにあることが示唆されています。私たちは、信頼性の高い長期的なエージェントデータ分析の研究をサポートするために LongDS をリリースします。コードとデータは https://github.com/zjunlp/DataMind でリリースされます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis</p>
        <p class="orig-summary">Real-world data analysis is inherently iterative, yet existing benchmarks mostly evaluate isolated or short interactive tasks, leaving agents&#x27; ability to track evolving analytical context over long horizons untested. We introduce LongDS, a benchmark for long-horizon, multi-turn data analysis where agents must maintain, update, restore, and compose evolving analytical states. LongDS comprises 68 tasks constructed from real-world Kaggle notebooks, spanning 2,225 turns across six domains including Geoscience, Business, and Education. Tasks are designed around state-evolution patterns (e.g., counterfactual perturbation, rollback, multi-state composition), with an average dependency span of 11.3 turns. Evaluating five state-of-the-art models, we find that the best model reaches only 48.45% average accuracy, performance drops nearly 47 points from early to late turns, and long-horizon errors account for 52%--69% of failures. Further analysis shows that additional agent steps do not necessarily improve performance, suggesting that the key bottleneck is maintaining a correct analytical state rather than increasing interaction budget. We release LongDS to support research on reliable long-horizon agentic data analysis. Code and data will be released at https://github.com/zjunlp/DataMind.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="379d3dd0800d" data-article-url="https://arxiv.org/abs/2605.30447" data-article-title="調整された好みの学習: ラベルランキングの場合" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30447" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30447" target="_blank" rel="noopener">調整された好みの学習: ラベルランキングの場合</a></h3>
      <p class="summary">予測された確率と実際の結果の頻度を調整するキャリブレーションは、信頼性の高い意思決定に不可欠です。分類と回帰については広く研究されていますが、目標はラベル セットの順序に対する分布を予測することである、確率的ラベル ランキングについては正式に調整されていません。ランキングを単純にクラスとして扱うと、その構造が無視され、ペアごとの予測やトップ K 予測などの重要なモダリティを捉えることができなくなります。私たちはラベル ランキングの調整を形式化し、完全なランキング、サブランキング、およびトップ K ランキングをカバーする概念の階層を開発します。フルランク キャリブレーションは他のものを暗示しますが、その逆はなく、サブランク キャリブレーションとトップ K キャリブレーションは比較にならないことを証明します。経験的に、人気のあるラベルのランキング モデルは適切に調整されていないことが多く、サブランキングとトップ K のメトリクスの間には大きな違いがあることがわかりました。私たちのフレームワークを RLHF 報酬モデルに適用すると、キャリブレーションはベンチマーク精度と完全ではないものの強い相関があることがわかり、トップ 1 の精度を超えた意味のある品質次元を捕らえていることが示唆されます。これらの発見は、誤った校正による下流への影響を理解し、それを修正する方法を開発するという今後の研究の動機付けとなります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Calibrated Preference Learning: The Case of Label Ranking</p>
        <p class="orig-summary">Calibration, the alignment of predicted probabilities with true outcome frequencies, is essential for reliable decision-making. While extensively studied for classification and regression, calibration has not been formally addressed for probabilistic label ranking, where the goal is to predict a distribution over orderings of a label set. Naively treating rankings as classes ignores their structure and fails to capture important modalities such as pairwise and top-k predictions. We formalize calibration for label ranking and develop a hierarchy of notions covering full rankings, sub-rankings, and top-k rankings. We prove that full-rank calibration implies the others but not conversely, and sub-ranking and top-k calibration are incomparable. Empirically, we find popular label ranking models are often poorly calibrated, with substantial differences between sub-ranking and top-k metrics. Applying our framework to RLHF reward models, we find that calibration correlates strongly but not perfectly with benchmark accuracy, suggesting it captures a meaningful quality dimension beyond top-1 accuracy. These findings motivate future work on understanding the downstream effects of miscalibration and developing methods to correct it.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fa6810f4ebad" data-article-url="https://arxiv.org/abs/2605.30452" data-article-title="多目的最適化における勾配集約のための統合フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30452" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30452" target="_blank" rel="noopener">多目的最適化における勾配集約のための統合フレームワーク</a></h3>
      <p class="summary">機械学習の問題の多くには、複数の固有のトレードオフが関係しており、これらのトレードオフには、勾配ベースの多目的最適化 (MOO) アルゴリズムが最適に対処されます。既存の手法はさまざまな動機で提案され、ケースバイケースで分析されることが多く、各ステップでコンポーネントの勾配がどのように集約されるかがアルゴリズム的に異なります。この作業では、MOO の勾配集約のための統一フレームワークを開発し、MOO の標準的なパフォーマンスの尺度であるパレート定常性への (最適な) 収束率を確立します。私たちの分析の中心となるのは十分整列条件であり、そこから、勾配の凸包内で矛盾しない方向が選択された場合、収束のための基本的な十分条件を形成することを示す定理を導き出します。さらに、二重円錐への投影を通じて実現可能性を確保できることを示し、収束保証を認める方法の範囲を広げます。並行して、確立されたアルゴリズムを網羅し、それらの理論的関係を明確にし、新しいバリアントの設計を可能にする勾配集約の基本的な最適化の観点を提示します。例として、CVaR ベースの定式化から派生した上限付き MGDA を紹介し、敵対的フェデレーテッド ラーニングにおけるその堅牢性を実証します。最後に、合成問題と実際のベンチマークに関する実験を通じて理論を検証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Unified Framework for Gradient Aggregation in Multi-Objective Optimization</p>
        <p class="orig-summary">Many machine learning problems involve multiple inherent trade-offs that are best addressed by gradient-based multi-objective optimization (MOO) algorithms. Existing methods are often proposed with various motivations, analyzed case by case, and differ algorithmically in how the component gradients are aggregated at each step. In this work, we develop a unifying framework for gradient aggregation in MOO, establishing (optimal) rates of convergence to Pareto stationarity, the standard measure of performance in MOO. Central to our analysis is a sufficient alignment condition, from which we derive a theorem showing that non-conflicting directions, when chosen within the convex hull of gradients, form a fundamental sufficient condition for convergence. We further show that feasibility can be ensured through projection onto the dual cone, broadening the scope of methods that admit convergence guarantees. In parallel, we present a primal optimization perspective of gradient aggregation that encompasses established algorithms, clarifies their theoretical relationships, and enables the design of new variants. As an illustration, we introduce capped MGDA, derived from a CVaR-based formulation, and demonstrate its robustness in adversarial federated learning. Finally, we validate our theory through experiments on synthetic problems and practical benchmarks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8a76372c09d7" data-article-url="https://arxiv.org/abs/2605.30454" data-article-title="テストする表面は壊れる表面ではありません" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30454" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30454" target="_blank" rel="noopener">テストする表面は壊れる表面ではありません</a></h3>
      <p class="summary">ツールで拡張された LLM エージェントは、プロンプト インジェクションに対して脆弱です。エージェントのコンテキストの一部を制御するサードパーティが、エージェントがユーザーからのものであるかのように命令を実行する可能性があります。現在の評価では、ツールの出力である 1 つのチャネル上のモデルごとに 1 つの攻撃成功率が報告され、その数値がモデルの脆弱性として扱われます。しかし、エージェントがツールを呼び出す前に毎回読み取るツールの説明自体が、攻撃者が代わりに選択できる注入面となります。インジェクションペイロードをバイト同一に保持し、6 つのファミリーと 4 つのタスクスイートからの 13 個の LLM の両方のサーフェスを介して配信します。モデル間で同じバイトが成功率で逆転します。GPT-4.1 はツール出力では 96% 脆弱ですが、ツール記述ではわずか 4% ですが、GEMINI-3-FLASH は 20% と 98% でミラー パターンを示します。 6,830 回の試行にわたる分散分解では、攻撃結果の変動の 0% がサーフェスのみによるものである一方、モデルとサーフェスの相互作用は 16.7% を占めます。脆弱性はペアリングの特性であり、チャネルの特性ではありません。サーフェス上のセルごとの最大値として定義される適応攻撃率は、最も強力な固定サーフェスのベースラインを平均で +9.1 パーセント ポイント上回ります。標準のプロンプトレベルの防御は同じ盲点を継承し、ツール出力の ASR を 10 ～ 18 パーセントに削減する一方、記述チャネルは 54 パーセントを超えたままにします。攻撃評価と防御評価の両方で、表面ごとの脆弱性を報告する必要があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Surface You Test Is Not the Surface That Breaks</p>
        <p class="orig-summary">Tool-augmented LLM agents are vulnerable to prompt injection: a third party who controls part of the agent&#x27;s context can plant instructions that the agent then executes as if they came from the user. Current evaluations report a single attack success rate per model on one channel, the tool output and treat that number as the model&#x27;s vulnerability. But tool descriptions, which the agent reads at every turn before any tool is called, are themselves an injection surface that the attacker can choose instead. We hold the injection payload byte-identical and deliver it through both surfaces across 13 LLMs from six families and four task suites. The same bytes invert in success rate across models: GPT-4.1 is 96 percent vulnerable on tool outputs but only 4 percent on tool descriptions, while GEMINI-3-FLASH shows the mirror pattern at 20 percent and 98 percent. A variance decomposition over 6,830 attempts attributes 0 percent of the variation in attack outcomes to the surface alone, while the model-surface interaction accounts for 16.7 percent. Vulnerability is a property of the pairing, not the channel. The Adaptive Attack Rate, defined as the per-cell maximum over surfaces, exceeds the strongest fixed-surface baseline by +9.1 percentage points on average. Standard prompt-level defenses inherit the same blindspot, reducing tool-output ASR to 10-18 percent while leaving the description channel above 54 percent. Both attack and defense evaluation must report per-surface vulnerability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="57bcd4acd45a" data-article-url="https://arxiv.org/abs/2605.30461" data-article-title="分離可能なダイナミクスの状態拡張とコンセンサスによる、スケーラブルな制約付きマルチエージェント強化学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30461" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30461" target="_blank" rel="noopener">分離可能なダイナミクスの状態拡張とコンセンサスによる、スケーラブルな制約付きマルチエージェント強化学習</a></h3>
      <p class="summary">我々は、状態拡張ポリシー学習と二重変数に対する分散型コンセンサスを組み合わせた、制約付きマルチエージェント強化学習 (MARL) のための分散型アプローチを提案します。私たちの方法は、エージェントが分離可能なダイナミクスを持っているが、グローバルなリソース制約を満たすために調整する必要があるシステムを対象としています。経験的に示しているように、この設定では、エージェントが集合的な制約を満たすための適切な個別の貢献を決定できないため、独立した学習では実行可能な解決策を生み出すことができません。主要な技術的貢献は、独立したトレーニングのスケーラビリティを維持しながら、グローバルに調整された制約の適用には、ラグランジュ乗数に対する軽量の隣接間コンセンサスで十分であることを示したことです。各エージェントは、ローカル状態と二重変数エンコード制約フィードバックの両方を条件として、単一の拡張ポリシーをオフラインで学習します。実行中、エージェントはローカル通信のみを通じてこの二重変数について合意に達します。緩やかな接続性の仮定の下では、エージェントの乗数間のコンセンサス誤差が制限されていることを証明し、これがグラフの接続性とコンセンサスラウンドの数とともに減少する有界制約違反に変換されることを示します。複雑さがエージェント数に応じて少なくとも二次関数的に増加する分散実行による集中トレーニング (CTDE) アプローチとは異なり、私たちの方法はトレーニングと実行の両方で線形にスケールします。スマート グリッドのデマンド レスポンスに関する実験では、コンセンサス調整が \emph{実現可能性にとって不可欠}であることが実証されています。コンセンサス調整がなければ、エージェントはデマンドを無期限に延期することによってのみグリッド容量の制約を満たすことになります。これは退化した非解決策です。コンセンサスが得られると、エージェントは共有二重変数に収束し、グリッド制約と需要履行の両方を満たし、CTDE ベースラインが数十に制限されているのに対し、数千のエージェントに拡張できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Scalable Constrained Multi-Agent Reinforcement Learning via State Augmentation and Consensus for Separable Dynamics</p>
        <p class="orig-summary">We present a distributed approach for constrained Multi-Agent Reinforcement Learning (MARL) that combines state-augmented policy learning with distributed consensus over dual variables. Our method targets systems where agents have separable dynamics but must coordinate to satisfy global resource constraints, a setting in which, as we demonstrate empirically, independent learning fails to produce feasible solutions because agents cannot determine appropriate individual contributions toward collective constraint satisfaction. The key technical contribution is showing that lightweight neighbor-to-neighbor consensus over Lagrange multipliers suffices for globally coordinated constraint enforcement while preserving the scalability of independent training. Each agent learns a single augmented policy offline, conditioned on both its local state and a dual variable encoding constraint feedback. During execution, agents reach agreement on this dual variable through local communication alone. We prove that under mild connectivity assumptions, the consensus error among agents&#x27; multipliers is bounded, and show that this translates to a bounded constraint violation that decreases with graph connectivity and the number of consensus rounds. Unlike centralized training with decentralized execution (CTDE) approaches, whose complexity grows at least quadratically with agent count, our method scales linearly in both training and execution. Experiments on smart grid demand response demonstrate that consensus coordination is \emph{essential for feasibility}: without it, agents satisfy grid capacity constraints only by indefinitely postponing demand, a degenerate non-solution. With consensus, agents converge to a shared dual variable and satisfy both grid constraints and demand fulfillment, scaling to thousands of agents while CTDE baselines are limited to dozens.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0be32fc01034" data-article-url="https://arxiv.org/abs/2605.30462" data-article-title="idSCD: セマンティック相関記述子によるトレーニング データセットの識別" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30462" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30462" target="_blank" rel="noopener">idSCD: セマンティック相関記述子によるトレーニング データセットの識別</a></h3>
      <p class="summary">データセットは、トレーニング中に誘発される偽の相関から認識できますか?私たちは、データセットはモデルの学習された意味相関構造にデータセット固有の痕跡を残すと主張します。つまり、データセット内で予測的であるものの、基礎となるタスクの因果関係ではない偶発的な規則性は、トレーニング中に内部化される可能性があります。私たちはこの洞察を利用して、信頼スコア、損失、マージン、生成されたサンプル、クエリ応答などの行動または分布の証拠に依存する既存の手法を超えて、データセットレベルのメンバーシップ推論を研究します。意味相関記述子 (SCD) に基づくホワイトボックス セマンティック フィンガープリンティング アプローチを導入します。これは、モデルによって学習された意味相関構造をキャプチャし、データセットの混合間で比較できるようにします。制御されたleave-one-dataset-out診断では、SCDはデータセット固有の変更を回復し、一致するデータセットのペアと一致しないデータセットのペアを完全に分離します。次に、モデルの SCD とターゲット データセットのスタンドアロン SCD のみを使用して、ターゲット データセットがモデルのトレーニング混合物の一部であるかどうかをテストする、実用的な SCD ベースのメンバーシップ スコアを提案します。1 つのデータセットを除外するモデルを必要としません。自然言語推論、感情分類、医療文書分類のデータセット グループを使用した 3 つの多様な実験設定にわたって、データセット分割間の意味論的分離とキーワード サポートの程度が異なる SCD ベースのメンバーシップ推論の利点と限界の両方をテストします。平均すると、このスコアに基づく分類器は最高のパフォーマンスと最低の標準偏差を達成し、ブラック ボックス ベースライン RMIA、 Attack-P、LiRA やホワイト ボックス SIF ベースラインを上回ります。これらの結果は、データセットのメンバーシップが内部の意味論的な相関関係を通じて追跡できることを示しており、データセット グループが明確な意味論的な特殊性を明らかにする場合、ROC-AUC で最大相対ゲインが 60% を超えます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">idSCD: Identifying Training Datasets through Semantic Correlation Descriptors</p>
        <p class="orig-summary">Can a dataset be recognized from the spurious correlations it induces during training? We argue that datasets leave dataset-specific traces in a model&#x27;s learned semantic correlation structure: incidental regularities that are predictive within a dataset, but not causal for the underlying task, can be internalized during training. We use this insight to study dataset-level membership inference, moving beyond existing methods that rely on behavioral or distributional evidence such as confidence scores, losses, margins, generated samples, or query responses. We introduce a white-box semantic fingerprinting approach based on semantic correlation descriptors (SCDs), which capture the semantic correlation structure learned by a model and make it comparable across dataset mixtures. In a controlled leave-one-dataset-out diagnostic, SCDs recover dataset-specific changes and perfectly separate matching from non-matching dataset pairs. We then propose a practical SCD-based membership score that tests whether a target dataset is part of a model&#x27;s training mixture using only the model&#x27;s SCD and the target dataset&#x27;s standalone SCD, without requiring leave-one-dataset-out models. Across three diverse experimental settings, with dataset groups for natural language inference, emotion classification, and medical text classification, we test both the advantages and limitations of SCD-based membership inference with different degrees of semantic separation and keyword support between dataset splits. On average, the classifier based on this score achieves the highest performance and the lowest std, outperforming black-box baselines RMIA, Attack-P, and LiRA, as well as the white-box SIF baseline. These results show that dataset membership can be traced through internal semantic correlations, with the largest relative gain exceeding 60% in ROC-AUC when dataset groups expose distinct semantic particularities.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="88dc05cbc771" data-article-url="https://arxiv.org/abs/2605.30486" data-article-title="交通予測のためのグラフ ニューラル ネットワークの専門家のグラフ条件付き混合" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30486" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30486" target="_blank" rel="noopener">交通予測のためのグラフ ニューラル ネットワークの専門家のグラフ条件付き混合</a></h3>
      <p class="summary">センサー グラフの時空間予測は、グラフ領域が異なるダイナミクスを示す可能性がありますが、すべてのノードに均一に適用される単一のバックボーン アーキテクチャを使用して取り組むのが一般的です。道路セグメントは機能クラス、構造、交通動作が異なるため、ノードごとの専門家の専門化が役立つ可能性があることを示唆しています。我々は、グラフトポロジと最近のトラフィック入力ウィンドウに基づいて凍結予測エキスパートのパーソナライズされた組み合わせを各ノードに割り当てる、グラフ条件付きエキスパート混合フレームワークである GC-MoE を提案します。 GC-MoE は、軽量のルーティング モジュールのみをトレーニングしながら、フリーズされた事前トレーニング済みの時空間 GNN エキスパートと入力を認識し、空間的にコンテキスト化されたルーターを組み合わせます。また、オプションの拡張機能として有界グラフ条件付き出力リファインメント レイヤーも研究し、アブレーション診断としてのみノード適応型 ST-LoRA アダプターを含めます。 GC-MoE は、4 つの標準ベンチマーク (PEMS04、PEMS07、METR-LA、および PEMS-BAY) にわたって、競合する RMSE および MAPE を使用してゼロパラメーター アンサンブル ベースラインよりも MAE を向上させますが、150 万の凍結されたエキスパート ウェイトに基づいて最大 17,000 のパラメーターのみをトレーニングします。実装は https://github.com/Ahghaffari/gc_moe で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Graph-Conditioned Mixture of Graph Neural Network Experts for Traffic Forecasting</p>
        <p class="orig-summary">Spatio-temporal forecasting on sensor graphs is commonly tackled with a single backbone architecture applied uniformly across all nodes, although graph regions can exhibit different dynamics. Road segments differ in functional class, structure, and traffic behavior, suggesting that node-wise expert specialization can be useful. We propose GC-MoE, a graph-conditioned mixture of experts framework that assigns each node a personalized combination of frozen forecasting experts based on graph topology and the recent traffic input window. GC-MoE combines frozen pretrained spatio-temporal GNN experts with an input-aware, spatially contextualized router while training only a lightweight routing module. We also study a bounded graph-conditioned output refinement layer as an optional extension and include node-adaptive ST-LoRA adapters only as an ablation diagnostic. Across four standard benchmarks (PEMS04, PEMS07, METR-LA, and PEMS-BAY), GC-MoE improves MAE over a zero-parameter ensemble baseline, with competitive RMSE and MAPE, while training only ~17K parameters on top of 1.5M frozen expert weights. The implementation is available at https://github.com/Ahghaffari/gc_moe.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b23ee5245d37" data-article-url="https://arxiv.org/abs/2605.30509" data-article-title="$\ell_\infty$ の分布推定の改善" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30509" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30509" target="_blank" rel="noopener">$\ell_\infty$ の分布推定の改善</a></h3>
      <p class="summary">$\ell_\infty$ ノルムの下で離散確率分布を推定するための改良された境界を提示します。これらには、期待値のミニマックス限界と高確率のテール限界が含まれます。私たちは、Kontorovich and Painsky (JMLR, 2025) で提起された未解決の疑問のいくつかを解決します。これには、彼らが提示した最も厳しいリスク限界の完全な経験版や、最悪の場合の極値分布の形式の特定が含まれます。有望な実証結果も報告されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Improved Distribution Estimation in $\ell_\infty$</p>
        <p class="orig-summary">We present improved bounds for estimating discrete probability distributions under the $\ell_\infty$ norm. These include minimax bounds in expectation and high-probability tail bounds. We resolve some of the open questions posed in Kontorovich and Painsky (JMLR, 2025) -- including a fully empirical version of the tightest risk bound they presented and identifying the form of the worst-case extremal distribution. Encouraging empirical results are reported as well.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6f8b3deba57a" data-article-url="https://arxiv.org/abs/2605.30510" data-article-title="磁気共鳴画像を使用して脳腫瘍のセグメンテーションを強化するための、新しいグローバル コンテキスト認識型ディープ ニューラル ネットワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30510" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30510" target="_blank" rel="noopener">磁気共鳴画像を使用して脳腫瘍のセグメンテーションを強化するための、新しいグローバル コンテキスト認識型ディープ ニューラル ネットワーク</a></h3>
      <p class="summary">脳腫瘍の重症度により、脳腫瘍の正確なセグメンテーションが必要になります。これは脳腫瘍の効果的な診断に不可欠です。手動による識別には、高いコスト、労力、エラーのリスクが伴い、自動化された方法の必要性が浮き彫りになっています。この研究では、Global Context-aware Squeeze and Excite Residual UNet (GCSER-UNet) を導入します。これにより、空間的注意とチャネルごとの注意の融合が促進され、複雑な空間依存性とコンテキスト情報を捕捉するモデルの能力が強化されます。 GCSER-UNet は、マルチモーダル MRI スライスから腫瘍セグメントを効率的に抽出し、優れたパフォーマンスを実現します。ベンチマーク データベースでの評価ではその優位性が実証され、TCGA LGG データセット上で注目すべき 94 パーセントのサイコロ スコアを達成し、最先端のサイコロ スコア 91.8 パーセントを上回りました。 BraTS 2020 データセットでは、提案された GCSER-UNet アンサンブル アプローチにより、腫瘍領域 (腫瘍全体 (W)、腫瘍コア (T)、腫瘍増強 (E)) に対してそれぞれ 95 パーセント、92 パーセント、90 パーセントのサイコロ スコアが得られました。現在の最先端のサイコロのスコアは、94 パーセント、93 パーセント、88 パーセントでした。これらの説得力のある結果は、脳腫瘍の正確なセグメンテーションにおける GCSER-UNet の有効性を強調しており、したがって神経内科医が脳腫瘍の効果的な管理と治療計画を立てるのに役立ちます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Novel Global Context-aware Deep Neural Network for Enhanced Brain Tumor Segmentation using Magnetic Resonance Images</p>
        <p class="orig-summary">Brain cancer&#x27;s severity necessitates precise brain tumor segmentation, which is crucial for effective brain tumor diagnosis. Manual identification, burdened by high costs, labor, and error risks, highlights the need for automated methods. In this study, we introduce the Global Context-aware Squeeze and Excite Residual UNet (GCSER-UNet), which facilitates a fusion of spatial and channel-wise attention and thus enhances the model&#x27;s capacity to capture intricate spatial dependencies and contextual information. GCSER-UNet efficiently extracts tumor segments from multimodal MRI slices, delivering exceptional performance. Evaluations on benchmark databases exhibit its superiority, achieving a notable 94 percent dice score on the TCGA LGG dataset, surpassing the state-of-the-art dice score of 91.8 percent. In the BraTS 2020 dataset, the proposed GCSER-UNet ensemble approach yielded dice scores of 95 percent, 92 percent, and 90 percent for the tumor regions - Whole Tumor (W), Tumor Core (T), and Enhancing Tumor (E), respectively. The current state-of-the-art dice scores were 94 percent, 93 percent, and 88 percent. These compelling outcomes highlight the efficacy of GCSER-UNet in precise brain tumor segmentation and thus can aid neurologists in effective brain cancer management and treatment planning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="49e72f31ce8b" data-article-url="https://arxiv.org/abs/2605.30523" data-article-title="パッド付きトランスの表現力の再考: どのアーキテクチャ上の選択が重要で、どの選択が重要でないのか" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30523" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30523" target="_blank" rel="noopener">パッド付きトランスの表現力の再考: どのアーキテクチャ上の選択が重要で、どの選択が重要でないのか</a></h3>
      <p class="summary">最近の研究では、ブール回路への接続を通じてトランスが計算できるものとできないものについて説明していますが、既存の結果は正確な特性評価に欠けており、モデリングの選択に敏感です。 「...」などの入力フィラー記号が追加されるパッド付きトランスは、適応並列計算用の多項式空間を提供することで回路クラスとの等価性を確立するための便利なガジェットとして登場します。ただし、パッドされた変圧器の理想化の限られたセットのみが研究されており、注意の種類、モデル幅、および均一性が変更された場合にこれらの等価性がどの程度堅牢に保持されるかは未解決のままです。実際の仮定の下では、パッド付きトランスフォーマーはこれらすべてに対して驚くほど堅牢であることがわかり、数値精度とモデルの深さが表現力に影響を与える主な要因であることがわかりました。具体的には、多項式パディングされた $\text{L-uniform}$ 定精度変換器は $\text{L-uniform AC}^0$ と同等であるのに対し、成長精度変換器は幅に関係なく $\text{L-uniform TC}^0$ を達成することを証明します。さらに、ループにより回路と同様の逐次処理が可能になります。$\log^d N$ ループの定精度変換器は $\text{FO-uniform AC}^d$ に達し、成長精度変換器は $\text{FO-uniform TC}^d$ に達します。興味深いことに、幅や精度を対数を超えて拡大しても表現力は向上しません。すべての結果は、ソフトマックスと平均のハード アテンション トランスフォーマーの両方に当てはまります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Revisiting Padded Transformer Expressivity: Which Architectural Choices Matter and Which Don&#x27;t</p>
        <p class="orig-summary">Recent work describes what transformers can and cannot compute through connections to boolean circuits, but existing results lack exact characterizations and are sensitive to modeling choices. Padded transformers -- to whose input filler symbols such as ``...&#x27;&#x27; are appended -- emerge as a useful gadget for establishing equivalences to circuit classes by providing polynomial space for adaptive parallel computation. However, only a limited set of padded transformer idealizations has been studied, leaving open how robustly these equivalences hold under changes to attention type, model width, and uniformity. We find that, under practical assumptions, padded transformers are surprisingly robust to all of these, and identify numeric precision and model depth as the main factors affecting expressivity. Concretely, we prove that polynomially padded $\text{L-uniform}$ constant-precision transformers are equivalent to $\text{L-uniform AC}^0$, while growing-precision ones achieve $\text{L-uniform TC}^0$ regardless of width. Furthermore, looping enables sequential processing analogous to circuits: $\log^d N$-looped constant-precision transformers reach $\text{FO-uniform AC}^d$, and growing-precision ones reach $\text{FO-uniform TC}^d$. Interestingly, growing width or precision beyond logarithmic does not increase expressivity, and all our results hold for both softmax and average hard attention transformers.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4dfebfd5c0c" data-article-url="https://arxiv.org/abs/2605.30529" data-article-title="一般的な埋め込みと特定の埋め込み、どちらが優れていますか?英語以外の言語での臨床コーディングの検索に関する実証研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30529" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30529" target="_blank" rel="noopener">一般的な埋め込みと特定の埋め込み、どちらが優れていますか?英語以外の言語での臨床コーディングの検索に関する実証研究</a></h3>
      <p class="summary">意味検索のための文埋め込みモデルは、圧倒的に英語コーパスで開発および評価されています。他の言語での臨床検索、特に ICD-10-CM / CIE-10 コードの検索に適用すると、集計ベンチマークによって隠蔽されることが多く、リコールが低下します。私たちは、大規模な生成言語モデルがこのギャップを埋めるデータ ファクトリとして機能できるかどうかを研究しています。英語、スペイン語、カタロニア語、イタリア語、ポルトガル語、フランス語をカバーするジェミニで生成された合成データに基づいてスペイン語の生物医学エンコーダー (PlanTL-GOB-ES/bsc-bio-ehr-es) から微調整された 2 段階レトリーバー (バイエンコーダーとそれに続くクロスエンコーダー リランカー) を構築し、BioBERT-ST と調整されていないスペイン語エンコーダーに対して評価します。バイエンコーダー単独では、MRR (0.876 対 0.866) で BioBERT-ST に匹敵し、英国の生物医学的事前トレーニングなしで R@3 (0.650 対 0.626) および R@5 (0.804 対 0.790) でそれを上回ります。クロスエンコーダーのリランカーを追加すると、合計 R@5 が 0.822 に上昇し、英語のわずかな後退を犠牲にして、5 言語のうち 4 言語 (+0.017 スペイン語、+0.033 カタルーニャ語、+0.018 フランス語、+0.037 ポルトガル語) で優勢になります。このトレードオフは臨床的に許容可能です。ポルトガル語では R5 = 0.829 に達するのに対し、BioBERT-ST では 0.714 に達します。貢献: LLM で生成されたデータからドメイン固有のメディカル レトリバーを構築するためのオープン レシピ。学習ゲインの定量化 (MRR 0.755 ～ 0.876、~19,500 の合成ペアで +15.9%)。そして、言語とランクごとに利益が集中する場所の特徴付け。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Generalistic or Specific Embeddings, Which is Better? An Empirical Study on Search for Clinical Coding in Non-English Languages</p>
        <p class="orig-summary">Sentence-embedding models for semantic search are overwhelmingly developed and evaluated on English corpora. When applied to clinical retrieval in other languages -- particularly retrieval of ICD-10-CM / CIE-10 codes -- recall degrades in ways often masked by aggregate benchmarks. We study whether large generative language models can serve as data factories to close this gap. We build a two-stage retriever (bi-encoder followed by cross-encoder reranker), fine-tuned from a Spanish biomedical encoder (PlanTL-GOB-ES/bsc-bio-ehr-es) on Gemini-generated synthetic data covering English, Spanish, Catalan, Italian, Portuguese and French, and evaluate against BioBERT-ST and the un-tuned Spanish encoder. The bi-encoder alone matches BioBERT-ST on MRR (0.876 vs. 0.866) and overtakes it on R@3 (0.650 vs. 0.626) and R@5 (0.804 vs. 0.790) without English biomedical pretraining. Adding a cross-encoder reranker lifts aggregate R@5 to 0.822 and dominates on four of five languages (+0.017 Spanish, +0.033 Catalan, +0.018 French, +0.037 Portuguese) at the cost of a small English regression. The trade-off is clinically acceptable: Portuguese reaches R@5 = 0.829 vs. BioBERT-ST&#x27;s 0.714. Contributions: an open recipe for building domain-specific medical retrievers from LLM-generated data; quantification of the learning gain (MRR 0.755 to 0.876, +15.9% with ~19,500 synthetic pairs); and a characterisation of where gains concentrate by language and rank.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2d3022d0ddac" data-article-url="https://arxiv.org/abs/2605.30557" data-article-title="見ることは知ることではない: VLM は空間に関する質問に答えるべきでない場合 (およびその理由) を知っていますか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30557" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30557" target="_blank" rel="noopener">見ることは知ることではない: VLM は空間に関する質問に答えるべきでない場合 (およびその理由) を知っていますか?</a></h3>
      <p class="summary">空間推論は、現実世界の環境に展開されるビジョン言語モデル (VLM) の基本的な機能です。ただし、視覚的な観察は本質的に 3D 世界の限られた表現です。オクルージョンによってオブジェクトが見えなくなったり、遠近法によって幾何学的特性が誤解を招く可能性があります。それにもかかわらず、既存の空間推論ベンチマークは通常、観測が十分で信頼できると想定しており、質問に答えられない場合や追加の観測が必要であることをモデルが認識するかどうかではなく、モデルが正しい答えを生成するかどうかに焦点を当てています。この研究では、制御された評価フレームワークである SpatialUncertain を構築し、(1) ターゲットの情報を隠すオクルージョン、および (2) 誤解を招く視覚的な手がかりを生み出す視点の曖昧さという 2 種類の観察の課題を導入することで、この仮定に挑戦します。それぞれの構成について、クリーンな観察の下では答えられるが、導入された課題の下では棄権が必要となる空間的な質問を設計します。さらに、どの追加視点が視点の曖昧さを解決するかをモデルが特定できるかどうかを評価します。最先端のオープンソースおよびクローズドソース VLM の多様なセットにわたる結果から、2 つの一貫した障害モードが明らかになりました。まず、モデルは自信過剰な回答をする傾向があり、視覚的証拠が不完全であるか誤解を招く場合でも空間推論タスクを解決しようとし、平均精度はオクルージョンの場合は約 30%、遠近の曖昧さの場合は 10% 未満です。第 2 に、追加のビューが利用可能な場合でも、一部のモデルは信頼できる証拠を提供するものをほぼランダムに特定します。まとめると、私たちの調査結果は、回答の正しさを超えて、モデルがいつ棄権すべきか、そして信頼できる証拠を探す方法を知っているかどうかを評価することを求めています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Seeing Isn&#x27;t Knowing: Do VLMs Know When Not to Answer Spatial Questions (and Why)?</p>
        <p class="orig-summary">Spatial reasoning is a fundamental capability for vision-language models (VLMs) deployed in real-world environments. However, visual observations are inherently limited representations of a 3D world: occlusion can render objects invisible, and perspective can make geometric properties misleading. Despite this, existing spatial reasoning benchmarks typically assume that observations are sufficient and reliable, focusing on whether models produce correct answers rather than whether they recognize when a question cannot be answered and what additional observations would be needed. In this work, we challenge this assumption by constructing a controlled evaluation framework, SpatialUncertain, and introducing two types of observation challenges: (1) occlusion, which hides target information, and (2) perspective ambiguity, which produces misleading visual cues. For each configuration, we design spatial questions that are answerable under clean observations but require abstention under the introduced challenges. We further evaluate whether models can identify which additional viewpoints would resolve perspective ambiguity. Our results across a diverse set of frontier open- and closed-source VLMs reveal two consistent failure modes. First, models are prone to overconfident answering, attempting to solve spatial reasoning tasks even when visual evidence is incomplete or misleading, with average accuracy around 30\% under occlusion and below 10\% under perspective ambiguity. Second, even when additional views are available, some models perform near random chance in identifying which would provide reliable evidence. Together, our findings call for moving beyond answer correctness toward evaluating whether models know when to abstain and how to seek reliable evidence.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c152af09387e" data-article-url="https://arxiv.org/abs/2605.30561" data-article-title="VLM3: ビジョン言語モデルはネイティブ 3D 学習者です" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30561" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30561" target="_blank" rel="noopener">VLM3: ビジョン言語モデルはネイティブ 3D 学習者です</a></h3>
      <p class="summary">ビジョン言語モデル (VLM) を使用すると、統合モデルがプロンプトを通じてさまざまなビジョン タスクを解決できるようになります。彼らは意味理解において有望なパフォーマンスを示しました。しかし、3D の理解は依然として、複雑なタスク固有の設計を備えた専門家のビジョン モデルに大きく依存しています。この研究が主張したい重要な議論は、VLM はネイティブ 3D 学習者であるということです。私たちの詳細な大規模研究により、効果的な 3D 学習に必要なのは、1) 焦点距離の統一、2) テキストベースのピクセル参照、3) データの混合とスケーリングだけであることがわかりました。モデル アーキテクチャの変更、大規模なモデル、大量のデータの増加、および回帰式を含む複雑な損失 (その多くはエキスパート ビジョン モデルの基礎を形成します) は、実際には必要な条件ではありません。その結果、標準的な VLM が多様な 3D タスクを習得できるようにする、最もシンプルな設計を備えたスケーラブルな方法である VLM3 を提案します。 VLM3 は、VLM 深度推定精度を大幅に向上させるだけでなく (0.84 -&gt; 0.9)、標準アーキテクチャとテキストベースのトレーニングを維持しながら、ピクセル対応付け、カメラポーズ推定、オブジェクトレベルの 3D 理解などの多様な 3D タスクを可能にし、エキスパートのビジョンモデルの精度と一致させます。私たちは、VLM3 がシンプルでスケーラブルな 3D 学習の新しいパラダイムを切り開くと信じています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">VLM3: Vision Language Models Are Native 3D Learners</p>
        <p class="orig-summary">Vision Language Models (VLMs) enable a unified model to solve various vision tasks through prompting. They have shown promising performance in semantic understanding. However, 3D understanding still largely relies on expert vision models with complex task-specific designs. The key argument this work wants to make is that VLMs are native 3D learners. Our in-depth large scale study shows that 1) focal length unification, 2) text-based pixel reference and 3) data mixture and scaling, are all you need for effective 3D learning. Model architecture changes, large models, heavy data augmentations, and complex losses including the regression formulation, many of which form the foundation of expert vision models, are actually not necessary conditions. As a result, we propose VLM3, a scalable method with the simplest design that enables standard VLMs to master diverse 3D tasks. VLM3 not only advances the VLM depth estimation accuracy by a large margin (0.84 -&gt; 0.9), but also enables diverse 3D tasks such as pixel correspondence, camera pose estimation and object-level 3D understanding, matching expert vision model accuracy while maintaining standard architectures and text-based training. We believe VLM3 opens up a new paradigm for simple and scalable 3D learning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="39ad7a15f3f3" data-article-url="https://arxiv.org/abs/2605.30571" data-article-title="メモリに依存するが帯域幅に制限はない: Batch-1 LLM デコードにおける物理 AI 推論のギャップ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30571" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30571" target="_blank" rel="noopener">メモリに依存するが帯域幅に制限はない: Batch-1 LLM デコードにおける物理 AI 推論のギャップ</a></h3>
      <p class="summary">ロボット、自動運転車、具体化されたエージェント、エッジ コパイロットなどの物理 AI システムは、多くの場合、クラウド LLM サービスとは異なる推論ワークロードを実行します。つまり、単一ストリーム、バッチ 1 の自己回帰デコードで、1 つのロボット、カメラ フィード、またはユーザー セッションが次のトークンを待機します。このワークロードは通常、メモリ帯域幅制限として説明されます。各デコード ステップはモデルの重みとアクティブな KV キャッシュをストリーミングするため、レイテンシはピーク HBM 帯域幅に合わせて調整する必要があります。この説明は真実であるが不完全であることを示します。 4 つの NVIDIA GPU (H100 SXM5、A100-80GB SXM4、L40S、L4) にわたる 3 つの 7 ～ 8B クラス GQA トランスフォーマーのバッチ 1 デコードを測定します。 2048 から 16384 までのコンテキスト長を評価し、制御された bf16 SDPA セットアップの下で 44 個の有効なセルを生成します。ピーク HBM 帯域幅の達成割合は、ピーク帯域幅が増加するにつれて減少します。見出しの Qwen-2.5-7B ctx=2048 セルでは、L4 は分析メモリ フロアの約 81% に達しますが、H100 はわずか 27% に達します。物理 AI デコードはメモリに依存しますが、メモリの高速化は比例したレイテンシーの増加にはつながりません。 CUDA Graphs A/B 実験を使用して、欠落している用語をテストします。 ctx=2048 の H100 では、CUDA グラフは N=10 の新しいセッション全体でデコード レイテンシを 1.259 倍改善し、95 パーセントのブートストラップ信頼区間は 1.253 ～ 1.267 でした。 L4 では、同じ介入では 1.028 倍しか得られません。これにより、高速な GPU では可視化される起動側のオーバーヘッドが分離されますが、低速で帯域幅に制限のある GPU ではほとんど隠れたままになります。デプロイメントの意味は、メモリの節約が重要になるのは、ランタイムがメモリの節約を実現した場合だけであるということです。 L4 では、bf16 デコードはメモリ フロア近くにありますが、共通の量子化パスでは予想される 4 倍の重みトラフィック削減が回復されません。62.32 ミリ秒の bf16 ベースラインから、bnb-nf4 は 59.36 ミリ秒/ステップに達し、AutoAWQ+Marlin は 45.24 ミリ秒/ステップに達します。 Ada で調整された int4 カーネルを使用した GPTQ+ExLlamaV2 は、17.36 ミリ秒/ステップに達します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Memory-Bound but Not Bandwidth-Limited: The Physical AI Inference Gap in Batch-1 LLM Decode</p>
        <p class="orig-summary">Physical AI systems, including robots, autonomous vehicles, embodied agents and edge copilots, often run a different inference workload from cloud LLM serving: single-stream, batch-1 autoregressive decode, where one robot, camera feed or user session waits on the next token. This workload is usually described as memory-bandwidth-bound. Each decode step streams model weights and the active KV cache, so latency should scale with peak HBM bandwidth. We show that this account is true but incomplete. We measure batch-1 decode for three 7 to 8B-class GQA transformers across four NVIDIA GPUs: H100 SXM5, A100-80GB SXM4, L40S and L4. We evaluate context lengths from 2048 to 16384, producing 44 valid cells under a controlled bf16 SDPA setup. The achieved fraction of peak HBM bandwidth falls as peak bandwidth rises. On the headline Qwen-2.5-7B ctx=2048 cell, an L4 reaches roughly 81 percent of its analytic memory floor, while an H100 reaches only 27 percent. Physical-AI decode is memory-dominated, but faster memory does not translate into proportional latency gains. We test the missing term with a CUDA Graphs A/B experiment. On H100 at ctx=2048, CUDA Graphs improves decode latency by 1.259x across N=10 fresh sessions, with a 95 percent bootstrap confidence interval of 1.253 to 1.267. On L4, the same intervention gives only 1.028x. This isolates a launch-side overhead that becomes visible on fast GPUs but remains mostly hidden on slower, bandwidth-bound GPUs. The deployment implication is that memory savings matter only when the runtime realises them. On L4, bf16 decode sits close to the memory floor, but common quantised paths do not recover the expected 4x weight-traffic reduction: bnb-nf4 reaches 59.36 ms/step and AutoAWQ+Marlin reaches 45.24 ms/step from a 62.32 ms bf16 baseline. GPTQ+ExLlamaV2, with Ada-tuned int4 kernels, reaches 17.36 ms/step.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b57f9a870b14" data-article-url="https://arxiv.org/abs/2605.30581" data-article-title="Industrial Visual Sim-to-Real の先行利用可能性: CAD ガイド付きレジームと CAD を使用できないレジームのレビュー" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30581" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30581" target="_blank" rel="noopener">Industrial Visual Sim-to-Real の先行利用可能性: CAD ガイド付きレジームと CAD を使用できないレジームのレビュー</a></h3>
      <p class="summary">産業用ビジュアルのシミュレーションとリアルの変換は、合成画像から実際の画像への変換としてよく説明されますが、産業への展開には通常、入手可能な証拠と必要な決定の間の広範な不一致が伴います。システムは、CAD レンダリング、シミュレートされた RGB-D 観察、通常の参照画像、合成欠陥、事前トレーニングされた特徴空間、または言語プロンプトから構築できますが、さまざまなセンサー、照明、材料、器具、キャリブレーション、生産変動、まれな欠陥モードの下で展開することもできます。このレビューでは、産業用ビジュアルのシミュレーションとリアルを、事前の利用可能性によって整理されたドメインギャップの問題として再構成します。明示的なオブジェクト ジオメトリがレンダリング、キャリブレーション、姿勢推定、セグメンテーション、テスト時の幾何学的検証をサポートできる CAD で利用可能な設定を区別します。 CAD では利用できない設定。ジオメトリが法線参照の外観、特徴分布、教師と生徒の残差、合成異常の仮定、基礎特徴、または視覚言語事前分布に置き換えられます。境界優先設定では、近似モデル、テンプレート、参照ビュー、またはセマンティック対応関係が CAD の役割の一部のみを保持します。この枠組みは、CAD ベースの検出および 6D 姿勢推定の文献を、通常は個別にレビューされる産業異常および表面検査の文献と結び付けます。分類を具体化するために、T-LESS/BOP、MVTec AD、および VisA の経験的アンカーを使用します。アンカーは、CAD レンダリング数だけでは転送が終了しないことを示しています。線源分散設計、検出器の容量、小規模な実際のキャリブレーションの方が重要になる場合があります。また、CAD ではテスト時にマスク、ポーズ、深度の一貫性を通じて明確な検証チャネルが作成されるのに対し、CAD では利用できない検査は校正された正規性と特徴の偏差に依存していることも示しています。したがって、このレビューでは、単一のタスク間リーダーボードに反対し、その代わりに導入決定の事前の根拠を尋ねています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Prior Availability in Industrial Visual Sim-to-Real: A Review of CAD-Guided and CAD-Unavailable Regimes</p>
        <p class="orig-summary">Industrial visual sim-to-real is often described as transferring from synthetic images to real images, but industrial deployment usually involves a broader mismatch between available evidence and required decisions. A system may be built from CAD renderings, simulated RGB-D observations, normal reference images, synthetic defects, pretrained feature spaces, or language prompts, yet deployed under different sensors, lighting, materials, fixtures, calibration, production variation, and rare defect modes. This review reframes industrial visual sim-to-real as a domain-gap problem organized by prior availability. We distinguish CAD-available settings, where explicit object geometry can support rendering, calibration, pose estimation, segmentation, and test-time geometric verification; CAD-unavailable settings, where geometry is replaced by normal-reference appearance, feature distributions, teacher-student residuals, synthetic anomaly assumptions, foundation features, or vision-language priors; and boundary-prior settings, where approximate models, templates, reference views, or semantic correspondences preserve only part of the CAD role. This framing connects CAD-based detection and 6D pose-estimation literature with industrial anomaly and surface-inspection literature that is usually reviewed separately. To make the taxonomy concrete, we use empirical anchors on T-LESS/BOP, MVTec AD, and VisA. The anchors show that CAD render count alone does not close transfer; source-distribution design, detector capacity, and small real calibration can matter more. They also show that CAD at test time creates a distinct verification channel through mask, pose, and depth consistency, whereas CAD-unavailable inspection relies on calibrated normality and feature deviation. The review therefore argues against a single cross-task leaderboard and instead asks what prior grounds the deployment decision.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="36523dc47079" data-article-url="https://arxiv.org/abs/2605.30585" data-article-title="タービンガスの温度劣化を予測するための機械学習の不確実性の定量化手法のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30585" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30585" target="_blank" rel="noopener">タービンガスの温度劣化を予測するための機械学習の不確実性の定量化手法のベンチマーク</a></h3>
      <p class="summary">最新のエンジンの効果的な予後と健全性管理は、信頼性と安全性を確保するための正確なタービンガス温度予測と堅牢な不確実性の定量化に依存しています。この論文では、タービン ガス温度のニューラル ネットワーク予測の不確実性を捉える手段として、予測区間を構築するための 5 つの主要なアプローチ、つまりデルタ法、ベイジアン モンテカルロ ドロップアウト、ブートストラップ法、下限上限推定、および平均分散推定の 5 つのアプローチを調査します。各アプローチは、ハイパーパラメーターの選択のための相互検証、パフォーマンスの堅牢性のための繰り返しのトレーニング テスト分割、および間隔の精度と厳密さの両方を評価するための複数のメトリクスを採用する統一された実験フレームワーク内で実装されます。特に、カバレッジ確率、正規化された平均予測間隔幅、およびカバレッジ幅に基づく基準が測定され、各手法の信頼性と鮮明さが包括的に評価されます。代表的なタービンガス温度データセットに対して行われた実験では、間隔の適用範囲、幅、安定性の点で 5 つの方法間の明確なトレードオフが明らかになりました。これらの発見は、エンジンの健全性管理と予測における予測間隔手法を選択および調整するための実用的なガイドを提供し、実際のアプリケーションでの解釈可能性と精度の両方を保証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Benchmarking Machine Learning Uncertainty Quantification Methodologies for Predicting Turbine Gas Temperature Degradation</p>
        <p class="orig-summary">Effective prognostics and health management of modern engines relies on accurate turbine gas temperature predictions and robust uncertainty quantification to ensure reliability and safety. This paper investigates five major approaches for constructing prediction intervals -- namely the Delta method, Bayesian Monte Carlo Dropout, Bootstrap method, Lower-Upper Bound Estimation, and Mean-Variance Estimation -- as a means of capturing the uncertainty in neural network predictions of turbine gas temperature. Each approach is implemented within a unified experimental framework that employs cross-validation for hyperparameter selection, repeated train-test splits for performance robustness, and multiple metrics to evaluate both the accuracy and tightness of the intervals. In particular, Coverage Probability, Normalized Mean Prediction Interval Width, and the Coverage Width-based Criterion are measured to comprehensively assess each method&#x27;s reliability and sharpness. Experiments conducted on a representative turbine gas temperature dataset reveal distinct trade-offs among the five methods in terms of interval coverage, width, and stability. These findings provide a practical guide for selecting and tuning prediction interval methods in engine health management and prognostics, ensuring both interpretability and precision in real-world applications.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f1e6b747f0e2" data-article-url="https://arxiv.org/abs/2605.30589" data-article-title="ImmigrationQA: ソースに基づいたデータセットと米国移民法への小規模モデルの適応" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30589" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30589" target="_blank" rel="noopener">ImmigrationQA: ソースに基づいたデータセットと米国移民法への小規模モデルの適応</a></h3>
      <p class="summary">米国の移民法は数千ページにわたる公式政策、連邦規制、手続き上のガイダンスで構成されており、頻繁に変更され、法的代理人を持たない申請者にとっては大きなリスクを伴います。 13 の移民サブドメインにわたる 17,058 ペアのソースベースの質問応答データセットである ImmigrationQA の構築と、パラメーター効率の高い LoRA を使用したそのデータセットに対する Llama 3.2 3B Instruct モデルの微調整について説明します。このコーパスは、USCIS 政策マニュアル、8 つの CFR、BIA の先例決定、コミュニティ Q&amp;A を含む 11 の一次および二次情報源から集められ、10,056 の検証済みの正規文書と 18,308 のテキスト チャンクが得られました。構造化 QA ペアは、5 つのモード固有のプロンプトを介して Claude Sonnet 4.6 を使用してこれらのチャンクから生成され、ソース スパンのオーバーラップが不十分なために 22 ペアが拒否されました。微調整されたモデルは、101 例の層別サンプルに対する LLM-as-judge スコアリングを使用して、993 ペアのホールドアウト スプリットに対して評価されました。微調整モデルのスコアは平均 1.08/3.0 (完全正解率 16.8%、層別評価 101 例) に対し、Llama 3 8B 基本モデルのスコアは 0.85/3.0 (完全正解率 4%) で、平均スコアが 27% 相対的に向上しました。ゼロショットのクロード・ソネットのベースラインのスコアは 1.52/3.0 (25% 完全正解) でした。微調整されたモデルでは、複雑な法的推論や時間制限のある統計については依然として弱いものの、手続き上のサブドメイン (渡航書類、ステータスの調整、非移民ビザ) が集中的に改善されていることが示されています。パイプライン全体は、クラウド コンピューティングで約 29 ドルで実行されました。データセット、モデル、コード、プロンプト テンプレートなどのすべてのアーティファクトは公開されています。このシステムは弁護士に代わるものではなく、コーパス クロール日以降の規制変更は反映されません。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ImmigrationQA: A Source-Grounded Dataset and Small-Model Adaptation for U.S. Immigration Law</p>
        <p class="orig-summary">U.S. immigration law spans thousands of pages of official policy, federal regulations, and procedural guidance that change frequently and carry high stakes for petitioners who lack legal representation. We describe the construction of ImmigrationQA, a source-grounded question-answering dataset of 17,058 pairs across 13 immigration subdomains, and the fine-tuning of a Llama 3.2 3B Instruct model on that dataset using parameter-efficient LoRA. The corpus was assembled from 11 primary and secondary sources -- including the USCIS Policy Manual, 8 CFR, BIA precedent decisions, and community Q&amp;A -- yielding 10,056 validated canonical documents and 18,308 text chunks. Structured QA pairs were generated from these chunks using Claude Sonnet 4.6 via five mode-specific prompts, with 22 pairs rejected for insufficient source-span overlap. The fine-tuned model was evaluated against a held-out split of 993 pairs using LLM-as-judge scoring on a 101-example stratified sample. The fine-tuned model scored a mean of 1.08/3.0 (16.8% fully correct; 101-example stratified eval) versus the Llama 3 8B base model at 0.85/3.0 (4% fully correct), a relative improvement of 27% in mean score; a zero-shot Claude Sonnet baseline scored 1.52/3.0 (25% fully correct). The fine-tuned model shows concentrated improvement in procedural subdomains (travel documents, adjustment of status, nonimmigrant visas) while remaining weak on complex legal reasoning and time-sensitive statistics. The full pipeline ran for approximately $29 in cloud compute. All artifacts -- dataset, model, code, and prompt templates -- are publicly released. The system is not a substitute for legal counsel and does not reflect regulatory changes after the corpus crawl date.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3b3c00e16603" data-article-url="https://arxiv.org/abs/2605.30590" data-article-title="反事実的な評価により、臨床 LLM とエージェントの隠れた能力プロファイルが明らかになる" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30590" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30590" target="_blank" rel="noopener">反事実的な評価により、臨床 LLM とエージェントの隠れた能力プロファイルが明らかになる</a></h3>
      <p class="summary">2 つの臨床 AI システムは、カバレッジベースのルーブリックではほぼ同じスコアを獲得できますが、患者の入力が変化すると根本的に異なる動作をします。1 つは新しい臨床信号に一致するように推奨事項を更新しますが、もう 1 つはそれに関係なく同じ出力を生成します。因果感受性スコア (CSS) を導入します。これは、臨床的に意味のある 5 つの次元 (バイオマーカーの反転、前治療の失敗、バイオマーカーの除去、手術状態の変化、ステージの摂動) に沿って腫瘍腫瘍ボードの症例を変異させる事前登録された介入指標であり、各モデルが事前に登録された正しい方向で推奨事項を更新するかどうかを {0、0.5、1.0} スケールを使用してスコア付けします。カバレッジベースの加重リコール指標であるコンセンサス マッチ スコア (CMS) に対してベンチマークを行ったところ、224 件のケースにわたる単発推論で評価された 3 つのラボの 6 つのフロンティア モデルが、ほぼ逆の順位でランク付けされました。6 つのモデルすべてがランクを変更し、CMS で最も悪いモデルが CSS で最も優れたモデルになり、上位中位の 1 つの CMS モデルが CSS で最下位にランクされました。さらに、普遍的な安全性の盲点も明らかになりました。つまり、すべてのフロンティア モデルは手術状態の介入で失敗します (ファミリー D では最大 17.2% の CSS)。これは CMS では明らかにされていません。この指標は、ツールを使用するエージェントにも伝達されます。ReAct スタイルの実験では、ツールの使用により 6 つのモデルのうち 5 つのモデルで CSS が向上しました (+2.5 ～ +20.3 パーセント ポイント)。それでも、CSS が最も低いモデルは同じグラフ セクションを取得し、依然として推奨事項を更新できません。これは、反事実の評価下でのみ表示される構造的な応答性の欠陥を明らかにしています。裁判官間の複製と 3 人の評価者の医療専門家による検証により、総合的な結果が確認されます。 CSS のような事前登録された介入指標は、臨床 AI エージェントのカバレッジベースの評価を補完します。これらは、カバレッジ指標では見逃される応答性を捕捉し、将来のエージェント RL システムに候補となる密な報酬シグナルを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Counterfactual Evaluation Reveals Hidden Capability Profiles in Clinical LLMs and Agents</p>
        <p class="orig-summary">Two clinical AI systems can score nearly identically on coverage-based rubrics yet behave radically differently when their patient inputs change: one updates its recommendations to match the new clinical signal, while the other produces the same output regardless. We introduce the Causal Sensitivity Score (CSS), a pre-registered interventional metric that mutates oncology tumor-board cases along five clinically meaningful dimensions - biomarker flips, prior-treatment failures, biomarker removals, surgery-status changes, and stage perturbations - and scores whether each model updates its recommendations in the pre-registered correct direction using a {0, 0.5, 1.0} scale. Benchmarked against the Consensus Match Score (CMS), a coverage-based weighted recall metric, six frontier models from three labs evaluated in single-shot inference across 224 cases rank in nearly opposite orders: all six models change rank, the CMS-worst model becomes CSS-best, and one upper-mid CMS model ranks last on CSS. We further surface a universal safety blind spot: every frontier model fails on surgery-status interventions (at most 17.2% CSS on Family D), a finding CMS does not expose. The metric also transfers to tool-using agents: in a ReAct-style experiment, tool use improves CSS for five of six models (+2.5 to +20.3 percentage points), yet the lowest-CSS model retrieves the same chart sections and still fails to update its recommendations - revealing a structural responsiveness deficit visible only under counterfactual evaluation. Cross-judge replication and three-rater medical-professional validation confirm the aggregate findings. Interventional pre-registered metrics like CSS complement coverage-based evaluation for clinical AI agents: they capture responsiveness that coverage metrics miss and offer a candidate dense reward signal for future agentic RL systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="71cea3881b6c" data-article-url="https://arxiv.org/abs/2605.30593" data-article-title="エンジンの状態管理と残存耐用年数予測のための科学的機械学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30593" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30593" target="_blank" rel="noopener">エンジンの状態管理と残存耐用年数予測のための科学的機械学習</a></h3>
      <p class="summary">エンジン健全性管理 (EHM) は、残存耐用年数 (RUL) の信頼できる予測と、タービン ガス温度 (TGT) などの熱指標の追跡に依存しています。実際には、現実世界のフリートデータは異質かつ非定常であり、リスクを意識したメンテナンスの決定には点予測だけでは不十分です。この論文では、経験的範囲が評価される予測間隔の形式で定量化された不確実性を使用して、トリムされていないタービン ガス温度 (TGTU)、デルタ タービン ガス温度 (DTGT)、および RUL を共同で予測する、タービン予後のためのマルチタスクの科学的機械学習フレームワークを紹介します。共有シーケンス エンコーダー (残差双方向 LSTM 層とアテンション プーリングを備えた畳み込みフロントエンド) は、確率回帰の平均分散推定、およびオプションでしきい値ベースのイベント モデリングの生存ヘッドを含むタスク固有のヘッドを供給します。このフレームワークは、社内のポリシーや独自の基準に合わせて展開できるように、実践者向けの少数のパラメーター (DTGT しきい値ルールや RUL ターゲット構築など) を介して調整できるように設計されています。提案されたフレームワークの予測パフォーマンスは、平均絶対誤差 (MAE)、予測区間カバレッジ確率 (PICP)、平均予測区間幅 (MPIW)、およびカバレッジ幅基準 (CWC) を含むポイントメトリクスと区間メトリクスの両方を使用して評価されます。結果は、運航状況の影響を強調し、不確実性を意識したモニタリングをサポートするために、飛行段階および保守セグメントごとに集計および階層化して報告されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Scientific Machine Learning for Engine Health Management and Remaining Useful Life Prediction</p>
        <p class="orig-summary">Engine Health Management (EHM) depends on reliable forecasting of Remaining Useful Life (RUL) and on tracking thermal indicators such as turbine gas temperature (TGT). In practice, real-world fleet data are heterogeneous and non-stationary, and point predictions alone are insufficient for risk-aware maintenance decisions. This paper presents a multi-task scientific machine learning framework for turbine prognostics that jointly predicts turbine gas temperature untrimmed (TGTU), Delta Turbine Gas Temperature (DTGT), and RUL, with quantified uncertainty in the form of prediction intervals whose empirical coverage is evaluated. A shared sequence encoder (convolutional front-end with residual bidirectional LSTM layers and attention pooling) feeds task-specific heads, including mean--variance estimation for probabilistic regression and, optionally, a survival head for threshold-based event modeling. The framework is designed to be tunable via a small set of practitioner-facing parameters (e.g., DTGT thresholding rules and RUL target construction) so that deployment can align with in-house policies and proprietary criteria. The predictive performance of the proposed framework is evaluated using both point and interval metrics, including mean absolute error (MAE), prediction interval coverage probability (PICP), mean prediction interval width (MPIW), and the coverage--width criterion (CWC). Results are reported both in aggregate and stratified by flight phase and maintenance segment to highlight operational-context effects and to support uncertainty-aware monitoring.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fef8bbaab3a9" data-article-url="https://arxiv.org/abs/2605.30604" data-article-title="規制されたサイバーセキュリティ運用のための、組織を対象とした LLM エージェント ランタイム アーキテクチャ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30604" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30604" target="_blank" rel="noopener">規制されたサイバーセキュリティ運用のための、組織を対象とした LLM エージェント ランタイム アーキテクチャ</a></h3>
      <p class="summary">規制されたサイバーセキュリティ ワークフローには、モデルに依存せずローカルに展開可能でありながら、取得、ツール呼び出し、メモリ、調査結果、レポート、監査にわたる組織レベルの範囲を強制するランタイム基盤がありません。最近の大規模言語モデル (LLM) エージェント システムは、分離されたサイバーセキュリティ タスクに関して優れた結果を報告しますが、規制されたセキュリティ オペレーション センター (SOC) およびコンプライアンス ワークフローのための監査可能なプラットフォーム アーキテクチャをそれ自体で定義するわけではありません。そこでは、1 人のアナリストが組織を束縛するアクションをトリガーする可能性があり、ランタイムはスタンドアロンの分析レイヤーとして動作するのではなく、コンテキストおよびアラート駆動トリガーの主要なソースとして既存の SIEM/XDR スタックと統合する必要があります。このペーパーでは、金融サイバーセキュリティのための、組織を対象とした LLM エージェント ランタイム アーキテクチャを提案します。このコントリビューションは、ファーストクラスのトリガーとして取り込まれた SIEM/XDR 通知を含むすべてのエントリ ポイントで作成され、すべてのコンポーネント境界で強制される型指定されたセキュリティ コンテキストであり、共有ランタイム コア、論理専門サブエージェント、統一ポリシーと監査の下で SIEM/XDR クエリ、エンリッチメント、および応答プリミティブを公開する管理されたツール アダプター レイヤー、証拠参照を含む構造化された調査結果、階層化された人間参加型 (HITL) ゲートと組み合わせられます。追加のみの監査。モデル コンテキスト プロトコル (MCP)、拡張テレメトリ、ペネトレーション テスト用のデジタル ツイン、グラフ取得、フェデレーテッド ナレッジ共有は、実行時の必須の前提条件ではなく、オプションの拡張パスとして扱われます。私たちは、実装可能なスライスをアーキテクチャのテスト可能性面として記述し、アーキテクチャの準備状況、セキュリティ ポリシーの適用、証拠のトレーサビリティ、出力品質、および運用の可観測性に関するメトリック レベルの合格基準を備えた改ざん可能な評価計画を提案します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">An Organization-Scoped LLM Agent Runtime Architecture for Regulated Cybersecurity Operations</p>
        <p class="orig-summary">Regulated cybersecurity workflows lack a runtime substrate that enforces organization-level scope across retrieval, tool calls, memory, findings, reports, and audit while remaining model-agnostic and locally deployable. Recent large language model (LLM) agent systems report strong results on isolated cybersecurity tasks, yet they do not by themselves define an auditable platform architecture for regulated security operations centre (SOC) and compliance workflows, where a single analyst may trigger actions that bind the organization, and where the runtime must integrate with existing SIEM/XDR stacks as a primary source of context and alert-driven triggers rather than operate as a standalone analytical layer. This paper proposes an organization-scoped LLM agent runtime architecture for financial cybersecurity. The contribution is a typed Security Context that is created at every entry point, including SIEM/XDR notifications ingested as first-class triggers, and enforced at every component boundary, combined with a shared Runtime Core, logical specialist subagents, a governed Tool Adapter Layer exposing SIEM/XDR query, enrichment, and response primitives under uniform policy and audit, structured findings with evidence references, tiered human-in-the-loop (HITL) gates, and append-only audit. Model Context Protocol (MCP), extended telemetry, digital twins for pentesting, graph retrieval, and federated knowledge sharing are treated as optional extension paths rather than mandatory runtime assumptions. We describe an implementable slice as the architecture&#x27;s testability surface, and we propose a falsifiable evaluation plan with metric-level pass criteria for architecture readiness, security-policy enforcement, evidence traceability, output quality, and operational observability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="38fcb4c62e5c" data-article-url="https://arxiv.org/abs/2605.30611" data-article-title="Crafter: 多様な入力から編集可能な科学図を生成するためのマルチエージェント ハーネス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30611" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30611" target="_blank" rel="noopener">Crafter: 多様な入力から編集可能な科学図を生成するためのマルチエージェント ハーネス</a></h3>
      <p class="summary">科学的な数字は、複雑な研究​​アイデアを伝達する最も効果的な手段の 1 つですが、出版物に匹敵するイラストの作成は、依然として論文作成の中で最も労力を要する部分の 1 つです。既存の自動化システムはそれぞれ、テキストのみの入力で単一の図タイプをターゲットにしており、研究者が実際に使用するタイプと条件の多様性は未解決のままです。さらに、ラスター出力をローカルで修正することはできません。科学的図形は個別の意味論的コンポーネントの構造化された構成であるため、そのようなレイアウト上で局所的なエラー ジェネレータが生成する場合、より強力なバックボーンではなくハーネスが必要です。このハーネスを 2 つの相補的なシステムでインスタンス化します。Crafter は、アーキテクチャを変更せずに図のタイプと入力条件全体を汎用化する図生成用のマルチエージェント ハーネスです。もう 1 つは、同じパターンを適用してラスター出力を編集可能な SVG に変換する CraftEditor です。さらに、人間品質の注釈を備えた 3 つの図形タイプと 4 つの入力条件にわたるベンチマークである CraftBench を紹介します。実験では、Crafter がスタンドアロン ジェネレーターと PaperBanana-Bench および CraftBench のエージェント ベースラインの両方を大幅に上回るパフォーマンスを示し、アブレーションにより各コンポーネントの独立した寄与が確認されました。 CraftEditor は、出力をすべてのベースラインを超える編集可能な SVG に忠実に変換します。私たちのコードとベンチマークは https://github.com/HaozheZhao/Crafter で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs</p>
        <p class="orig-summary">Scientific figures are among the most effective means of communicating complex research ideas, yet producing publication-quality illustrations remains one of the most labor-intensive parts of paper preparation. Existing automated systems each target a single figure type under text-only input, leaving the diversity of types and conditions researchers actually use unaddressed; their raster outputs further cannot be locally revised. Because scientific figures are structured compositions of discrete semantic components, the localized errors generators produce on such layouts demand not a stronger backbone but a harness. We instantiate this harness in two complementary systems: Crafter, a multi-agent harness for figure generation that generalizes across figure types and input conditions without architectural changes, and CraftEditor, which applies the same pattern to convert raster outputs into editable SVGs. Moreover, we introduce CraftBench, a benchmark spanning three figure types and four input conditions with human quality annotation. Experiments show that Crafter substantially outperforms both standalone generators and the agentic baseline on PaperBanana-Bench and CraftBench, with ablations confirming each component&#x27;s independent contribution; CraftEditor faithfully converts outputs into editable SVGs that surpass all baselines. Our code and benchmark are available at https://github.com/HaozheZhao/Crafter.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7677f0495075" data-article-url="https://arxiv.org/abs/2605.30619" data-article-title="Best-of-$N$ の嗜好データからの報酬学習: ターゲット、トレードオフ、設計原則" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30619" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30619" target="_blank" rel="noopener">Best-of-$N$ の嗜好データからの報酬学習: ターゲット、トレードオフ、設計原則</a></h3>
      <p class="summary">Best-of-$N$ サンプリングは、ペアごとの選好データを構築するために広く使用されています。$N$ の候補は基本分布から抽出され、最良のものは拒否された応答とペアになります。広く使用されているにもかかわらず、Bradley-Terry (BT) の報酬学習がそのようなデータから何を抽出するのか、また $N$ と基本分布をどのように選択するのかは不明のままです。私たちは、Best-of-$N$ への条件付き分布による嗜好データの最近の分析に特化しています。独立参照バリアントの場合、$N$ と基本分布の明示的な関数として閉じた形式の報酬ターゲットを導出し、それらが潜在的な報酬ランキングを保存することを示します。実際の Best-vs-Random および Best-vs-Worst のバリアントでは、選択された応答と拒否された応答が同じ候補セットを介して結合されるため、正確な BT 表現性は通常失敗します。それにもかかわらず、$N$ が増加するにつれて、有界クラス ミニマイザーは参照ターゲットに近づきます。マージンと接続性は、ペアワイズ優先学習におけるサンプル効率を左右することが知られていますが、Best-of-$N$ は、$N$ を介して反対方向に結合します。$N$ が大きいと、ペアワイズ マージンが広がりますが、接続性が低下します。このトレードオフにより、2 つの設計原則が得られます。優先ラベルがボトルネックの場合は、より大きな $N$ を使用し、生成がボトルネックの場合は、より小さな $N$ を使用します。そして、テスト時に比較が最も重要となる応答間に質量を配置するように基本分布を形成します。合成および実際の選好データに関する実験は、サンプル サイズと基本分布形状への予測された依存性を裏付けています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Reward Learning from Best-of-$N$ Preference Data: Targets, Tradeoffs, and Design Principles</p>
        <p class="orig-summary">Best-of-$N$ sampling is widely used to construct pairwise preference data: $N$ candidates are drawn from a base distribution, and the best is paired with a rejected response. Despite its widespread use, what Bradley--Terry (BT) reward learning extracts from such data, and how to choose $N$ and the base distribution, remain unclear. We specialize a recent analysis of preference data via its induced conditional distribution to Best-of-$N$. For independent-reference variants, we derive closed-form reward targets as explicit functions of $N$ and the base distribution, and show that they preserve the latent reward ranking. For the practical Best-vs-Random and Best-vs-Worst variants, chosen and rejected responses are coupled through the same candidate set, so exact BT representability generally fails; nevertheless, bounded-class minimizers approach the reference targets as $N$ grows. Although margin and connectivity are known to govern sample efficiency in pairwise preference learning, Best-of-$N$ couples them through $N$ in opposing directions: larger $N$ widens pairwise margins but reduces connectivity. This trade-off yields two design principles: use larger $N$ when preference labels are the bottleneck, smaller $N$ when generation is the bottleneck; and shape the base distribution to place mass between the responses whose comparison matters most at test time. Experiments on synthetic and real preference data support the predicted dependence on sample size and base-distribution shape.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7b785885ab32" data-article-url="https://arxiv.org/abs/2605.30625" data-article-title="測定値の軌跡を学習するためのアクティブな時点の選択" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30625" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30625" target="_blank" rel="noopener">測定値の軌跡を学習するためのアクティブな時点の選択</a></h3>
      <p class="summary">まばらなスナップショットから連続確率パスを推測することは、単細胞生物学などの分野では根本的な課題です。この分野では、忠実度の高いデータ取得が破壊的であることが多く、法外なシーケンスコストによって制約されます。このため、最適な測定時間を戦略的に選択するためのアクティブ ラーニング戦略の必要性が高まります。ただし、この設定に対するアクティブ ラーニング ポリシーの設計は未解決の問題のままです。ターゲット オブジェクトは、標準ユークリッド計量が不明確に定義されている無限次元の Wasserstein 空間上に存在し、現在の補間方法には認識論的な不確実性の定量化が欠けています。積極的な実験を測定の領域に拡張するフレームワークを紹介します。 Linearized Optimal Transport (LOT) を活用することで、分布スナップショットをガウス過程モデリングに適した接空間にマッピングし、基礎となる確率パスの扱いやすい確率的代理を構築できるようにします。これにより、不確実性を最小限に抑えるために測定時間を繰り返し選択する取得ポリシーが得られます。経験的な結果は、私たちの戦略が合成データセットと現実世界のデータセットの両方で不確実性を無視したベースラインよりも優れていることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Active Timepoint Selection for Learning Measure-Valued Trajectories</p>
        <p class="orig-summary">Inferring continuous probability paths from sparse snapshots is a fundamental challenge in domains like single-cell biology, where high-fidelity data acquisition is often destructive and constrained by prohibitive sequencing costs. This motivates the need for active learning strategies to strategically select optimal measurement times. However, designing active learning policies for this setting remains an open problem: the target objects reside on the infinite dimensional Wasserstein space where standard Euclidean metrics are ill-defined, and current interpolation methods lack epistemic uncertainty quantification. We introduce a framework which extends active experimentation to the space of measures. By leveraging Linearized Optimal Transport (LOT), we map distributional snapshots into a tangent space amenable to Gaussian Process modeling, allowing us to construct a tractable probabilistic surrogate for the underlying probability path. This yields an acquisition policy that iteratively selects measurement times to minimize uncertainty. Empirical results demonstrate that our strategy outperforms uncertainty-agnostic baselines on both synthetic and real-world datasets.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1d94b04e7546" data-article-url="https://arxiv.org/abs/2605.30628" data-article-title="エラーのアーキテクチャ: 普遍的な不可能性からパッチローカル LLM の信頼性まで" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30628" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30628" target="_blank" rel="noopener">エラーのアーキテクチャ: 普遍的な不可能性からパッチローカル LLM の信頼性まで</a></h3>
      <p class="summary">ユニバーサル LLM の信頼性は、有限ライブラリの問題ではありません。考えられるすべてのタスク、ツール、スキーマ、知識ソース、および評価者の期待にわたって、新しい介入で識別可能な障害モードが際限なく現れる可能性があるため、そのようなすべてのモードに対して制限付き残差誤差を保証できる有限介入辞書はありません。しかし、展開されたシステムは宇宙全体で動作するわけではありません。これらは、運用上制限されたパッチ (法的レビュー、医療 RAG、コード修復、カスタマー サポート エージェント、契約抽出) 内で動作し、反復的なタスク、スキーマ、ツール、評価者の期待に応えます。このようなパッチ内では、障害がまばらで反復的であり、小規模な繰り返しカタログに集中していることが経験的証拠から示唆されているため、信頼性は指数関数的なトークン長の問題ではなく、ローカルなカタログの発見と介入のカバレッジの問題になります。この移行を 2 つの命題と 1 つの帰結で形式化します。命題 1 は、最悪の場合のモードに関する否定的な結果です。つまり、有限介入辞書は、境界のない領域のすべての識別可能な故障モードをカバーすることはできません。系 1 は、逆検出の含意です。モード検出の対数上限は、指数関数的により多くのハード障害イベントが観察されない限り、線形的により明確なテール モードに対応することはできません。命題 2 はパッチローカルの肯定的な結果です。対数アクティブ モードのエクスポージャとヘッドヘビーなカバレッジの下では、ハードデシジョンごとの十分な介入バジェットはシーケンスの長さが多対数的に増加し、パッチ カタログが飽和するとドメイン定数になります。フレームワークは、長いコンテキストの困難を解決するのではなく、再配置します。タスクの長さとともに難しい決定の数自体が増加する場合、信頼性は依然として困難です。貢献は、それらの体制を容易にするというよりはむしろ、軸上の介入を特定することである。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Architecture of Errors: From Universal Impossibility to Patch-Local LLM Reliability</p>
        <p class="orig-summary">Universal LLM reliability is not a finite-library problem: across all possible tasks, tools, schemas, knowledge sources, and evaluator expectations, new intervention-distinguishable failure modes can appear without bound, so no finite intervention dictionary can guarantee bounded residual error for every such mode. But deployed systems do not operate over the whole universe. They operate inside operationally bounded patches (legal review, medical RAG, code repair, customer-support agents, contract extraction) with recurring tasks, schemas, tools, and evaluator expectations. Within such patches, empirical evidence suggests failures are sparse, repetitive, and concentrated in a small recurring catalogue, so reliability becomes a local catalogue-discovery and intervention-coverage problem rather than an exponential token-length problem. We formalize this transition with two propositions and one corollary. Proposition 1 is the worst-case-mode-wise negative result: no finite intervention dictionary covers every distinguishable failure mode of an unbounded domain. Corollary 1 is the inverse-discovery implication: the logarithmic upper bound on mode discovery cannot accommodate linearly more distinct tail modes without exponentially more observed hard-failure events. Proposition 2 is the positive patch-local result: under log active-mode exposure and head-heavy coverage, a sufficient per-hard-decision intervention budget grows polylogarithmically in sequence length and becomes domain-constant once the patch catalogue saturates. The framework relocates rather than dissolves long-context difficulty: where the number of hard decisions itself grows with task length, reliability remains hard; the contribution is to identify the on-axis intervention rather than to make those regimes easy.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eee8e0d0f31a" data-article-url="https://arxiv.org/abs/2605.30631" data-article-title="ヒストグラム正規化された潜在拡散モデルによる制御可能な肺結節合成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30631" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30631" target="_blank" rel="noopener">ヒストグラム正規化された潜在拡散モデルによる制御可能な肺結節合成</a></h3>
      <p class="summary">自動診断システムはコンピューター断層撮影 (CT) ベースの肺がんスクリーニングで目覚ましい成功を収めていますが、注釈付きの多様な肺結節データセットが不足しているため、その開発は依然として制限されています。拡散ベースの生成モデルは、データ合成に有望な戦略を提供します。ただし、既存の条件付きアプローチの多くは、主に空間再構成損失を最適化するため、ボクセル単位の類似性は促進されますが、病変レベルの強度分布の制限が不十分になる可能性があります。結果として、これらの方法では、過度に平滑化されたテクスチャ プロファイルが生成され、固体、部分固体、すりガラス状の結節など、さまざまな結節サブタイプの明確な減衰特性が過小評価される可能性があります。この課題に対処するために、結節固有の強度分布を正確にモデル化しながら、完全な 3D CT ボリューム内で肺結節を合成する、制御可能な潜在拡散モデルを提案します。具体的には、空間損失のみに依存するのではなく、生成プロセス中にボクセル強度分布を制約するヒストグラムベースの正則化項を導入します。このモデルは、サブタイプ、空間マスク、およびハウンズフィールド単位 (HU) ヒストグラム条件付けを微分可能な特徴空間ヒストグラム正則化項と組み合わせて、病変レベルの強度分布をより適切に調整し、合成結節の視覚的な妥当性とサブタイプの一貫性を向上させます。肺 CT データに関する広範な実験により、当社のフレームワークが強力な視覚的リアリズムを実現していることが実証され、定量的メトリクスと視覚的チューリング テストの両方を通じて検証されました。さらに、生成された結節をデータ拡張に使用すると、下流の臨床タスク、特に過小評価されている結節サブタイプのパフォーマンスが向上し、サブタイプに基づいた悪性腫瘍分類に潜在的な利点が示されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Controllable Lung Nodule Synthesis via Histogram-Regularized Latent Diffusion Models</p>
        <p class="orig-summary">While automated diagnosis systems have achieved remarkable success in computed tomography (CT)-based lung cancer screening, their development remains limited by the scarcity of diverse, annotated pulmonary nodule datasets. Diffusion-based generative models offer a promising strategy for data synthesis; however, many existing conditional approaches primarily optimize spatial reconstruction losses, which encourage voxel-wise similarity but may inadequately constrain lesion-level intensity distributions. As a result, these methods may produce over-smoothed texture profiles and underrepresent the distinct attenuation characteristics of different nodule subtypes, including solid, part-solid, and ground-glass nodules. To address this challenge, we propose a controllable latent diffusion model that synthesizes pulmonary nodules within full 3D CT volumes while accurately modeling nodule-specific intensity distributions. Specifically, rather than relying solely on spatial losses, we introduce a histogram-based regularization term that constrains voxel intensity distributions during the generative process. The model combines subtype, spatial mask, and Hounsfield unit (HU) histogram conditioning with the differentiable feature-space histogram regularization term to better align lesion-level intensity distributions, improving the visual plausibility and subtype consistency of synthesized nodules. Extensive experiments on lung CT data demonstrate that our framework achieves strong visual realism, validated through both quantitative metrics and a visual Turing test. Furthermore, when used for data augmentation, the generated nodules improve performance in downstream clinical tasks, particularly for underrepresented nodule subtypes, and show a potential benefit for subtype-informed malignancy classification.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fa6c1c10c5ac" data-article-url="https://arxiv.org/abs/2605.30632" data-article-title="合理化: 人間と AI の調整のための共有セマンティック推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30632" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30632" target="_blank" rel="noopener">合理化: 人間と AI の調整のための共有セマンティック推論</a></h3>
      <p class="summary">データ駆動型のセンスメイキングにおいて、人間と AI モデルの間で意味論的推論を共有するための役割ペア フレームワークである Rationalize を紹介します。人間と機械のチーム化と批判的思考のアイデアに基づいて、私たちは人間と AI の相互作用を、共有された推論空間で動作する一連の補完的な役割ペア (探索者とガイド、調査員と情報提供者、教師と生徒、裁判官と弁護人) として概念化します。この分野では、人間のアナリストと AI モデル (LLM など) が目的、質問、仮定、証拠、推論、含意を明確にし、出力レベルだけでなく、双方による意図と行動の合理化レベルでの調整を促進します。これらの役割ペアを人間と AI の双方向調整フレームワークに関連付け、「AI を人間に調整する」と「人間を AI に調整する」が役割によってどのように異なるかを示し、要素レベルおよび役割固有のアプローチを使用した調整設計と評価のための共同研究のアジェンダをスケッチします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Rationalize: Shared Semantic Reasoning for Human-AI Alignment</p>
        <p class="orig-summary">We introduce Rationalize, a role-pair framework for shared semantic reasoning between humans and AI models in data-driven sensemaking. Building on ideas in human-machine teaming and critical thinking, we conceptualize human-AI interaction as a series of complementary role pairs (Explorer-Guide, Investigator-Informant, Teacher-Student, Judge-Advocate) operating in a shared reasoning space. In this space, human analysts and AI models (such as LLMs) make purposes, questions, assumptions, evidence, inferences, and implications explicit, facilitating alignment not only at the output level but at the level of rationalization of intent and action by each side. We relate these role pairs to the bidirectional human-AI alignment framework, illustrating how &quot;aligning AI to humans&quot; and &quot;aligning humans to AI&quot; differ by role, and sketch a collaborative research agenda for alignment design and assessment using element-level and role-specific approaches.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="81b2ea4256ed" data-article-url="https://arxiv.org/abs/2605.30638" data-article-title="スコアブロードキャストと相関関係解除: ブロードキャストベースのクレジット割り当ての一般的なフレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30638" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30638" target="_blank" rel="noopener">スコアブロードキャストと相関関係解除: ブロードキャストベースのクレジット割り当ての一般的なフレームワーク</a></h3>
      <p class="summary">微分可能な損失の一般的なファミリーに対するブロードキャストベースのクレジット割り当てのための原則的なフレームワークであるスコアブロードキャストと相関関係除去 (SBD) を紹介します。エラー ブロードキャストは、重みの転送を行わずに出力情報を隠れ層に送信する、バックプロパゲーションに代わる生物学的に妥当な代替手段です。平均二乗誤差 (MSE) 設定用に最近導入されたエラー ブロードキャストおよび相関除去 (EBD) フレームワークは、このメカニズムを最適推定量の確率的直交性に基づいて確立しました。このメカニズムの下では、最適な残差は入力の関数に直交します。出力スコア (最終層の出力に対する損失の勾配) と隠れ層のアクティベーションの間に直交性原理を導入することで、その基礎を一般化します。これは、最適スコアが条件付き平均 0 を持つ場合には常に当てはまります。この 1 つの原則により、クロスエントロピー、ブレグマン発散、適切なスコアリング ルール、指数関数族の負の対数尤度など、標準の微分可能損失族全体にわたるブロードキャスト ベースのクレジット割り当てが統一されます。このフレームワークは、放送損失スコアとして導出される神経調節因子を使用して、一般損失の下での 3 要素学習ルールの理論的根拠を提供します。クロスエントロピーのケースを明示的に導出し、許容損失クラスを特徴付け、直交性フレームワークを維持しながらブロードキャスト信号を強化するスコア ベクトル拡張手法を導入します。 CIFAR-10 と Tiny ImageNet の実験では、SBD が既存のブロードキャスト アプローチよりも大幅に改善され、スコア ベクトル拡張によりさらなる利益がもたらされることが示されています。全体として、この研究は、ブロードキャストする信号として損失スコアを特定し、神経科学からの 3 要素学習ルールの直交性理論と理論的根拠を提供し、スコア ベクトルの拡張によって結果として得られる目的の非相関方向がどのように強化されるかを示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Score Broadcast and Decorrelation: A General Framework for Broadcast-Based Credit Assignment</p>
        <p class="orig-summary">We introduce Score Broadcast and Decorrelation (SBD), a principled framework for broadcast-based credit assignment for general families of differentiable losses. Error broadcast is a biologically plausible alternative to backpropagation that sends output information to hidden layers without weight transport. The Error Broadcast and Decorrelation (EBD) framework, recently introduced for the mean-squared-error (MSE) setting, grounded this mechanism in the stochastic orthogonality of optimal estimators, under which the optimal residual is orthogonal to functions of the input. We generalize that foundation by introducing an orthogonality principle between the output score (the gradient of loss with respect to the final-layer output) and hidden-layer activations, which holds whenever the optimal score has conditional mean zero. This single principle unifies broadcast-based credit assignment across the standard differentiable-loss families, including cross-entropy, Bregman divergences, proper scoring rules, and exponential-family negative log-likelihoods. The framework supplies a theoretical grounding for the three-factor learning rule under general losses, with the neuromodulatory factor derived as the broadcast loss score. We derive the cross-entropy case explicitly, characterize the admissible loss class, and introduce a score vector expansion technique that enriches the broadcast signal while preserving the orthogonality framework. Experiments on CIFAR-10 and Tiny ImageNet show that SBD substantially improves over existing broadcast approaches, with score vector expansion delivering further gains. Overall, this work identifies the loss score as the signal to broadcast, supplies the orthogonality theory and theoretical grounding for the three-factor learning rule from neuroscience, and shows how score vector expansion enriches the decorrelation directions of the resulting objective.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4e06e481258" data-article-url="https://arxiv.org/abs/2605.30639" data-article-title="PInVerify: アクティブなインスタンス検証のためのオフライン組み込みベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30639" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30639" target="_blank" rel="noopener">PInVerify: アクティブなインスタンス検証のためのオフライン組み込みベンチマーク</a></h3>
      <p class="summary">身体化されたエージェントは、ターゲットオブジェクトへのナビゲーションにおいて大きな進歩を遂げましたが、ゴール付近に到達したからといって、エージェントが正しいインスタンスを見つけたという保証はありません。微妙な属性の違い (例: 「白い花柄」と「白い縞模様」) には、多くの場合、近距離の多視点検査が必要です。私たちは、アクティブ インスタンス検証 (AIV) によってこのギャップに対処します。このタスクでは、エージェントが候補オブジェクトの周囲の視点をアクティブに選択して、それがきめ細かい自然言語記述と一致するかどうかを判断します。私たちは、AIV を有限ホライズンの意思決定プロセスとして形式化し、AIV のオフラインで具体化されたベンチマークである PInVerify を導入します。18 のオブジェクト カテゴリにわたる 3,000 の評価エピソードは、トラップ ビュー (ナビゲート可能だが情報が得られない) と到達不可能なセクターを明らかにする 6 セクター ナビゲーション トポロジを備えたマルチビュー キャプチャとして配信されます。参照ベースラインとして、属性分解、可視性を重視したマルチビュー トラッカー、および 3 つのネクスト ベスト ビュー (NBV) 戦略を使用して、オンデバイス スケール ($\leq$8B パラメーター) でオープンソースのマルチモーダル大規模言語モデル (MLLM) を中心に、トレーニング不要のパイプラインと LoRA で微調整されたエンドツーエンド エージェントを構築します。 Qwen3-VL (4B/8B)、SenseNova-SI-1.2-InternVL3-8B、CLIP、および SigLIP2 にわたる評価では、最良の MLLM ベースのベースラインが最良の埋め込みベースラインを 4.9 pp 上回りました。 GT-box アブレーションでは +3.1 pp の検出ギャップが示されています。そして、テストされた NBV 戦略内でのアクティブな視点選択による信頼性の高い利益は観察されません。 LoRA で微調整されたエージェント (SFT+GSPO) は 85.6% に達します。 PInVerify は、身体化された AI におけるアクティブで詳細なセマンティック検証に関するさらなる作業をサポートすることを目的としています。コード: https://github.com/Avalon-S/PInVerify。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PInVerify: An Offline Embodied Benchmark for Active Instance Verification</p>
        <p class="orig-summary">Embodied agents have made strong progress in navigating to target objects, but reaching the goal vicinity does not guarantee that the agent has found the correct instance: subtle attribute differences (e.g., &quot;white floral&quot; vs. &quot;white striped&quot;) often require close-range, multi-view inspection. We address this gap with Active Instance Verification (AIV), a task in which an agent actively selects viewpoints around a candidate object to decide whether it matches a fine-grained natural-language description. We formalize AIV as a finite-horizon decision process and introduce PInVerify, an offline embodied benchmark for AIV: 3,000 evaluation episodes across 18 object categories, delivered as multi-view captures with a 6-sector navigation topology that exposes trap views (navigable but uninformative) and unreachable sectors. As reference baselines we build a training-free pipeline and a LoRA-fine-tuned end-to-end agent around open-source multimodal large language models (MLLMs) at on-device scale ($\leq$8B parameters), with attribute decomposition, a visibility-weighted multi-view tracker, and three next-best-view (NBV) strategies. In our evaluation across Qwen3-VL (4B/8B), SenseNova-SI-1.2-InternVL3-8B, CLIP, and SigLIP2, the best MLLM-based baseline exceeds the best embedding baseline by 4.9 pp; GT-box ablations show a +3.1 pp detection gap; and we do not observe reliable gains from active viewpoint selection within the tested NBV strategies. A LoRA-fine-tuned agent (SFT+GSPO) reaches 85.6%. PInVerify aims to support further work on active, fine-grained semantic verification in embodied AI. Code: https://github.com/Avalon-S/PInVerify.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ed876686e8f9" data-article-url="https://arxiv.org/abs/2605.30641" data-article-title="COFT: 大規模言語モデルにおける公正な思考連鎖推論のための反事実的・正則的デコーディング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30641" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30641" target="_blank" rel="noopener">COFT: 大規模言語モデルにおける公正な思考連鎖推論のための反事実的・正則的デコーディング</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、思考連鎖 (CoT) の生成中に社会の偏見を明らかにし、増幅させる可能性があります。我々は、デコード時にトークンレベルの公平性制御を適用する、トレーニング不要のデコード手法である COFT (Chain of Fair Thought) を提案します。凍結された因果関係言語モデルに対して、配布フリーの限界妥当性保証 (交換可能性のもとで) が付いています。 COFT は 3 つの段階で動作します。まず、機密性の高いスパンを中立トークンに置き換えることにより、マスクされた反事実プロンプトを作成します。 2 番目に、軽量ロジット融合を通じて事実のロジット分布とマスクされたロジット分布を比較し、属性に基づくバイアスを軽減します。 3 番目に、デュアルブランチのスプリットコンフォーマルキャリブレーションを使用して、ユーザーが選択したリスクレベルでステップごとの候補トークンセットを認証します。 6 つのモデルと複数のバイアス ベンチマークにわたって COFT を評価します。私たちの方法では、タスクの実用性と言語の品質を維持しながら、標準のバイアス指標を 30 ～ 55% (中央値 38%) 削減します。推論の精度は、実行ごとのノイズ マージン内で変化しません。計算オーバーヘッドは控えめで、追加のキャッシュされた前方パス 1 回分に相当します (&lt;=11%)。 COFT は、バイアスを大幅に削減し、ユーティリティの損失を無視し、再トレーニング、補助分類器、または重み付けアクセスを必要とせず、より安全な CoT 生成への明確で監査可能なパスを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">COFT: Counterfactual-Conformal Decoding for Fair Chain-of-Thought Reasoning in Large Language Models</p>
        <p class="orig-summary">Large language models (LLMs) can reveal and amplify societal biases during chain-of-thought (CoT) generation. We present COFT (Chain of Fair Thought), a training-free decoding method that applies token-level fairness control at decode time, with distribution-free marginal validity guarantees (under exchangeability) for any frozen causal language model. COFT operates in three stages. First, it creates a masked counterfactual prompt by replacing sensitive spans with neutral tokens. Second, it compares the factual and masked logit distributions through lightweight logit fusion to attenuate attribute-driven biases. Third, it uses dual-branch split-conformal calibration to certify per-step candidate token sets at a user-chosen risk level. We evaluate COFT across six models and multiple bias benchmarks. Our method reduces standard bias metrics by 30-55% (median 38%) while preserving task utility and language quality. Reasoning accuracies remain unchanged within run-to-run noise margins. The computational overhead is modest, equivalent to one additional cached forward pass (&lt;=11%). COFT offers a clear, auditable path to safer CoT generation with significant bias reduction, negligible utility loss, and no requirement for retraining, auxiliary classifiers, or weight access.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2079881fcf36" data-article-url="https://arxiv.org/abs/2605.30646" data-article-title="同じ患者、異なる言葉、異なる診断?臨床 LLM の意味的安定性の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30646" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30646" target="_blank" rel="noopener">同じ患者、異なる言葉、異なる診断?臨床 LLM の意味的安定性の評価</a></h3>
      <p class="summary">大規模言語モデル (LLM) は臨床アプリケーションで使用されることが増えています。ただし、彼らの動作は、言い換えや構文の違いなど、微妙な言語の違いに非常に敏感なままです。この感度は、意味的に同等の入力が一貫した予測を生成する必要がある安全性が重要な医療現場でリスクを引き起こします。ただし、埋め込みベースの類似性メトリクスでは否定、一時性、または重症度を含む区別を捉えることができないことが多いため、重要な課題は、即時変化が臨床的意味を確実に保持することです。この制限に対処するために、意味を保持するプロンプトのバリエーションをフィルタリングするための自然言語推論 (NLI) に基づく意味検証フレームワークを提案します。このフレームワークは、LLM を判断者として使用してさらに洗練され、臨床専門家によって監査されます。さらに、モデルの感度を定量化するために、意味保持変動感度 (MVS)、信頼変動 (\Delta C)、および最悪の場合の不安定性 (WCI) という 3 つの指標を導入します。 DiagnosisQA および MedQA データセットから得られた再定式化されたプロンプトを使用して、同じモデル ファミリおよびパラメーター スケール内の 16 個のオープンソースの汎用 (GP) および医療 LLM を評価します。私たちの結果は、ドメイン固有（DS）モデル間のロバスト性の違いが混在しており、モデルに大きく依存していること、つまり、ドメインの特殊化によって意味を保持したプロンプト再定式化に対するロバスト性が一貫して向上または低下するわけではないことを示しています。いくつかの DS モデルは (GP モデルと比較した場合) 最も堅牢なモデルにランクされており、強力な GP ベースラインも同様に競争力を維持しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Same Patient, Different Words, Different Diagnosis? Evaluating Semantic Stability in Clinical LLMs</p>
        <p class="orig-summary">Large Language Models (LLMs) are increasingly used in clinical applications. However, their behavior remains highly sensitive to subtle linguistic variations, such as rephrasing or syntactic variation. This sensitivity poses risks in safety-critical healthcare settings, where semantically equivalent inputs should produce consistent predictions. However, a key challenge is to ensure that prompt variations truly preserve clinical meaning, as embedding-based similarity metrics often fail to capture distinctions involving negation, temporality, or severity. To address this limitation, we propose a semantic verification framework based on Natural Language Inference (NLI) to filter meaning-preserving prompt variations, which are further refined using an LLM-as-a-judge and audited by a clinical expert. In addition, we introduce three metrics to quantify model sensitivity: MeaningPreserving Variation Sensitivity (MVS), confidence variation (\Delta C), and Worst-Case Instability (WCI). We evaluate 16 open-source general-purpose (GP) and medical LLMs within the same model families and parameter scales, using reformulated prompts derived from the DiagnosisQA and MedQA datasets. Our results demonstrate that robustness differences between domain-specific (DS) models are mixed and highly model-dependent, i.e., domain specialization does not consistently improve or reduce robustness to meaning-preserving prompt reformulations. Several DS models rank among the most robust (when compared with GP counterparts), and strong GP baselines remain competitive as well.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3608ee40a4f6" data-article-url="https://arxiv.org/abs/2605.30651" data-article-title="LARK: 効率的な推論抽出のための学習可能性に基づいた軌道選択" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30651" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30651" target="_blank" rel="noopener">LARK: 効率的な推論抽出のための学習可能性に基づいた軌道選択</a></h3>
      <p class="summary">私たちは、教師が生成した推論軌道が生徒モデルの監視として選択的に使用される、推論蒸留のための軌道選択を研究します。既存の方法は、軌道の品質やモデルの信頼性などのヒューリスティックに依存していますが、軌道が学習者にとって学習可能かどうかを見落とすことがよくあります。この論文では、学習可能性に基づいて軌道選択を推論する方法である LARK を紹介します。 LARK は、完全なトレーニング分布の一般化を維持しながら、学生が効率的に学習できる軌道を選択します。 LARK の中核となるのは学習可能性係数 $\rho$ であり、これは生徒のトレーニング損失の減少率を特徴づけます。この割合を効率的に推定し、一般化を維持するために、学習可能性プロキシと、学習可能性と分布範囲のバランスをとる $\chi^2$ 正規化選択ポリシーを導入します。どちらも推定誤差に対する強力な理論的保証があります。経験的には、LARK は複数の基本モデルと推論タスクにわたってデータ選択ベースラインを常に上回っています。診断分析により、LARK スコアが下流のトレーニングの有用性を予測し、LARK が選択した軌道がより迅速な教師付き微調整損失削減を引き起こすことが示されています。私たちのコードは https://github.com/Tianrun-Yu/LARK で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LARK: Learnability-Grounded Trajectory Selection for Efficient Reasoning Distillation</p>
        <p class="orig-summary">We study trajectory selection for reasoning distillation, where teacher-generated reasoning trajectories are selectively used as supervision for a student model. Existing methods rely on heuristics such as trajectory quality or model confidence, but they often overlook whether a trajectory is learnable by the student. In this paper, we present LARK, a learnability-grounded method for reasoning trajectory selection. LARK selects trajectories that the student can learn efficiently while preserving the generalization of the full training distribution. At the core of LARK is a learnability factor $\rho$, which characterizes the rate at which the student&#x27;s training loss decreases. To estimate this rate efficiently and maintain generalization, we introduce a learnability proxy and a $\chi^2$-regularized selection policy that balances learnability and distributional coverage, both with strong theoretical guarantees on their estimation error. Empirically, LARK consistently outperforms data selection baselines across multiple base models and reasoning tasks. Diagnostic analyses show that the LARK score predicts downstream training utility and that LARK-selected trajectories induce faster supervised fine-tuning loss reduction. Our code is available at https://github.com/Tianrun-Yu/LARK.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b648ccf13c29" data-article-url="https://arxiv.org/abs/2605.30654" data-article-title="EUDAIMONIA: AI における望ましくないダイナミクスの評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30654" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30654" target="_blank" rel="noopener">EUDAIMONIA: AI における望ましくないダイナミクスの評価</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、交際、感情の開示、対人アドバイスのための会話のパートナーとしてますます使用されていますが、これらの相互作用の社会的力学は、能力指向の評価や従来の安全性評価では捉えられない害悪を生み出す可能性があります。私たちは、LLM が有害な親密さ、依存、または長期にわたる関与を促進するかどうかなど、社会的相互作用におけるユーザーの福祉と一致しているかどうかを評価するためのフレームワークである、ソーシャル AI デザイン コードを紹介します。自然で多様なユーザーと LLM のやり取りにおけるこれらのリスクを評価するために、弱から強のフィルタリング、マルチモデルの再ラベル付け、制御された書き換えを通じて WildChat から構築された 969 件のユーザー入力と 3,147 件の設計要件違反チェックのベンチマークである EUDAIMONIA を使用してコードを運用可能にしました。最近の 22 個の LLM を評価すると、最も強力なモデルである Claude-Opus-4.7 と GPT-5.5 でさえ、それぞれチェックの 30.7% と 27.2% に違反していることがわかりました。拡張された思考によって違反率は減少しないことから、これらの失敗は、テスト時の推論だけで解決できる問題ではなく、社会的調和の問題が根強く残っていることが示唆されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">EUDAIMONIA: Evaluating Undesirable Dynamics in AI</p>
        <p class="orig-summary">Large language models (LLMs) are increasingly used as conversational partners for companionship, emotional disclosure, and interpersonal advice, but the social dynamics of these interactions can create harms that are not captured by capability-oriented or traditional safety evaluations. We introduce the Social AI Design Code, a framework for evaluating whether LLMs align with user welfare in social interactions, including whether they encourage harmful intimacy, dependence, or prolonged engagement. To evaluate these risks in natural and diverse user-LLM interactions, we operationalize the code with EUDAIMONIA, a benchmark of 969 user inputs and 3,147 design-requirement violation checks built from WildChat through weak-to-strong filtration, multi-model relabeling, and controlled rewriting. Evaluating 22 recent LLMs, we find that even the strongest models, Claude-Opus-4.7 and GPT-5.5, violate 30.7% and 27.2% of checks, respectively. Extended thinking does not reduce violation rates, suggesting that these failures are persistent social-alignment problems rather than deficits solvable through test-time reasoning alone.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9e7f61387a16" data-article-url="https://arxiv.org/abs/2605.30667" data-article-title="ソフトウェア リバース エンジニアリング AI エージェントを自動的に攻撃する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30667" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30667" target="_blank" rel="noopener">ソフトウェア リバース エンジニアリング AI エージェントを自動的に攻撃する</a></h3>
      <p class="summary">Ghidra などの実行可能バイナリ ファイルをリバース エンジニアリングするソフトウェア ツールを使用すると、マルウェア アナリストは元のソース コードにアクセスすることなく、堅牢な静的分析を安全に実行できます。 GhidraMCP などのツールで有効化されたエージェント システムと大規模言語モデル (LLM) の分析能力を組み合わせることで、アナリストは以前は人間が主導していたプロセスを自動化できます。この自動化により、1 人のマルウェア アナリストの生産性は向上しますが、マルウェアの難読化に関する新たな脆弱性領域も発生します。この論文では、AutoDAN として知られる敵対的攻撃の改良版である遺伝的アルゴリズム ベースのプロンプト生成を使用した敵対的手法を紹介し、LLM を利用した逆アセンブリおよび逆コンパイル システムをだましてバイナリ実行可能ファイルを誤って解釈させ、その分析出力を効果的に破壊する能力を実証します。この概念実証の方法論は、実行可能ファイルの機能に影響を与えずに、無関係な文字列変数の割り当てを使用して LLM に秘密の命令を渡すことにより、プロンプト インジェクションを介して LLM が逆コンパイルされたマシン コードを処理および解釈する方法に固有の脆弱性を悪用します。いくつかの簡潔な例を通じてこの機能を示します。このアプローチにより、攻撃者は LLM 駆動の分析パイプラインに依存する自動検出システムをバイパスできる可能性があります。この攻撃を研究して理解することで、LLM をサイバーセキュリティ ツールチェーンに統合し、より堅牢なエージェント コード分析システムを構築することのセキュリティへの影響に関する洞察を得ることができます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Automatically Attacking Software Reverse Engineering AI Agents</p>
        <p class="orig-summary">Software tools for reverse engineering executable binary files, such as Ghidra, enable malware analysts to safely conduct robust static analysis without having access to original source code. Coupled with the analytic power of large language models (LLM), agentic systems enabled with tools, such as GhidraMCP, can allow analysts to automate a previously human driven process. Although this automation can increase the productivity of a single malware analyst, it also introduces a new area of vulnerability for malware obfuscation. This paper presents an adversarial technique using genetic algorithm-based prompt generation, a modification of an adversarial attack known as AutoDAN, to demonstrate the ability to deceive LLM-powered disassembly and decompilation systems into misinterpreting binary executables, effectively corrupting their analytical output. This proof-of-concept methodology exploits inherent vulnerabilities in how LLMs process and interpret decompiled machine code via prompt injection by using extraneous string variable assignments to pass surreptitious instructions to the LLM while not impacting the functionality of the executable file. We demonstrate this capability through several concise examples. This approach could enable attackers to bypass automated detection systems that rely on LLM-driven analysis pipelines. By studying and understanding this attack, insights can be gained regarding the security implication of integrating LLMs into cybersecurity toolchains and building more robust agentic code analysis systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="44902c3a014c" data-article-url="https://arxiv.org/abs/2605.30668" data-article-title="CobSeg: 対話トピックのセグメント化のためのコヒーレンス境界モデリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30668" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30668" target="_blank" rel="noopener">CobSeg: 対話トピックのセグメント化のためのコヒーレンス境界モデリング</a></h3>
      <p class="summary">対話トピックのセグメンテーションは、発話端近くの語彙の遷移や発話間の意味的不連続性など、異質な境界手がかりを特定する必要がある多くの人間と AI の共同アプリケーションにおいて重要です。既存の発話モデルは、多くの場合、これらの局所的な語彙シグナルを弱めます。我々は、コヒーレンスレベルの意味的連続性を語彙境界遷移から分離し、方向境界予測を通じて両方を回復する新しいマルチブランチアーキテクチャであるCobSegを提案します。 CobSeg はさらに、境界情報重み付けを使用して、有用性の高い発話位置を強調し、コーパス由来のトピック一貫性キューと学習された組み合わせ重みを組み込みます。 CobSeg は、教師ありゴールド境界トレーニングおよび自動的に誘導された境界を備えた擬似ラベル設定の下でコンパクトなトレーニング可能なセグメンターとして評価されますが、推論中に LLM 呼び出しを行わずに強化された境界予測を実行します。 5 つのベンチマーク全体で、特に局所的な語彙キューが顕著な場合に $P_k$ と $W_d$ を改善します。ゴールドの監視下では、VHF では $P_k$ を 0.7 ポイント、$W_d$ を 0.6 ポイント削減し、DialSeg711 では $P_k$ の 1.0 に達します。境界を誘導すると、$P_k$ が VHF で 14.8 ポイント、DialSeg711 で 1.5 ポイント、TIAGE で 1.1 ポイント減少し、以前の非 LLM アプローチよりも優れたパフォーマンスを発揮します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CobSeg: Coherence Boundary Modeling for Dialogue Topic Segmentation</p>
        <p class="orig-summary">Dialogue topic segmentation is critical in many human-AI collaborative applications which requires identifying heterogeneous boundary cues, including lexical transitions near utterance edges and semantic discontinuities across utterances. Existing utterance models often dilute these local lexical signals. We propose CobSeg, a novel multi-branch architecture that separates coherence-level semantic continuity from lexical boundary transitions and recovers both through directional boundary prediction. CobSeg further uses boundary informativeness weighting to emphasize high-utility utterance positions, and incorporates a corpus-derived topic coherence cue with learned combination weights. While CobSeg is evaluated as a compact trainable segmenter under supervised gold-boundary training and a pseudo-label setting with automatically induced boundaries, it performs enhanced boundary prediction without LLM calls during inference. Across five benchmarks, it improves $P_k$ and $W_d$ particularly when local lexical cues are prominent: under gold supervision, it reduces $P_k$ by 0.7 points and $W_d$ by 0.6 points on VHF, and reaches $P_k$ of 1.0 on DialSeg711; with induced boundaries, it reduces $P_k$ by 14.8 points on VHF, by 1.5 points on DialSeg711, and by 1.1 points on TIAGE, outperforming prior non-LLM approaches.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="685e115b94c1" data-article-url="https://arxiv.org/abs/2605.30675" data-article-title="大規模な言語モデルの不確実性における人間の調整、調整、および活性化パターン" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30675" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30675" target="_blank" rel="noopener">大規模な言語モデルの不確実性における人間の調整、調整、および活性化パターン</a></h3>
      <p class="summary">不確実性の定量化は、大規模言語モデルの動作分析の大規模かつ成長を続けるサブフィールドです。主に幻覚を認識し、それに対処するために、この分野は主に、タスクの有効性に対する不確実性の判断の精度であるキャリブレーションの測定と改善に焦点を当ててきました。この研究では、大規模な言語モデルの不確実性が人間の不確実性とどの程度似ているかという、比較的研究されていない問題を調査します。私たちは、大規模言語モデルの明白な行動と内部活性化パターンにおける、不確実性の整合とみなされる、人間に似た不確実性シグナルの存在と強度を調査します。モデルが、多肢選択とオープンエンドの事実想起の両方をカバーするさまざまなデータセットでの同時の位置合わせと校正の証拠を示すかどうかを特定します。そして、これらの各側面での微調整指示の効果を特徴付けます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Human-Alignment, Calibration, and Activation Patterns in Large Language Model Uncertainty</p>
        <p class="orig-summary">Uncertainty Quantification is a large and growing subfield of large language model behavioral analysis. Primarily to recognize and combat hallucination, the field has largely focused on measuring and improving calibration, the accuracy of uncertainty judgments to task efficacy. In this work, we investigate the relatively underexplored question of how similar large language model uncertainty is to human uncertainty. We investigate the presence and strength of human-similar uncertainty signals, deemed uncertainty alignment, in large language model overt behavior and internal activation patterns. We identify whether the models show evidence of simultaneous alignment and calibration on a variety of datasets covering both multiple choice and open ended factual recall. And we characterize the effect of instruct fine-tuning on each of these facets.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="743ad3031070" data-article-url="https://arxiv.org/abs/2605.30677" data-article-title="ソフトウェア リバース エンジニアリング AI エージェントに対するプロンプト インジェクション攻撃の検出と難読化の調査" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30677" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30677" target="_blank" rel="noopener">ソフトウェア リバース エンジニアリング AI エージェントに対するプロンプト インジェクション攻撃の検出と難読化の調査</a></h3>
      <p class="summary">エージェント ソフトウェア リバース エンジニアリング システムは、実行可能なバイナリ ファイルのソース コードに配置されたプロンプト インジェクション攻撃に対して脆弱です。この研究では、敵対的なサンプル プログラムの逆コンパイラ出力にプロンプ​​ト インジェクション文字列の存在を検出するための防御戦術を実証します。これらの攻撃を難読化する方法と、その後のこれらの難読化から防御する方法も検討されています。この調査により、実稼働レベルのサイバー ワークフローへの導入に必要なエージェント ソフトウェア分析システムのリスクとセキュリティについての理解が深まります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Investigating Detection and Obfuscation of Prompt Injection Attacks Against Software Reverse Engineering AI Agents</p>
        <p class="orig-summary">Agentic software reverse engineering systems are vulnerable to prompt injection attacks placed into the source code of executable binary files. This research demonstrates defensive tactics for detecting the presences of prompt injection strings in the decompiler output of adversarial example programs. Methods for obfuscating these attacks and subsequent methods for defending against these obfuscations are also explored. This research advances the understanding of risk and security of agentic software analysis systems necessary for their deployment into production-level cyber workflows.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2c76553933d1" data-article-url="https://arxiv.org/abs/2605.30685" data-article-title="早期導入者が世界中で生成 AI をどのように使用したか: 国の収入と言語による違い" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30685" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30685" target="_blank" rel="noopener">早期導入者が世界中で生成 AI をどのように使用したか: 国の収入と言語による違い</a></h3>
      <p class="summary">AI は世界中の人々によって使用されていますが、誰もが同じ方法で AI を使用しているわけではありません。私たちは、広く利用可能な無料の AI チャットボットとの、匿名化、匿名化、プライバシーを消去したやり取りの大規模なデータセットを使用して、国ごとの早期導入者の使用状況の違いを実証的に特徴付けます。学校教育はほとんどの国、特に低所得国で最も一般的に利用されており、学校教育と国レベルのGDPとの間には強い逆相関があることが明らかです。対照的に、レジャー関連の利用は国レベルの収入と正の相関があります。言語は使用にも影響を与えることがわかりました。研究期間中に既存のモデルでは主要な言語が十分に提供されなかった場所では、英語によるインタラクションが多く見られました。私たちの研究によれば、言語間でのパフォーマンスの向上は、このテクノロジーが情報格差を拡大するか、それとも飛躍を可能にするかにおいて重要な要素となる可能性があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">How Early Adopters Used Generative AI Worldwide: Variation by Country Income and Language</p>
        <p class="orig-summary">AI is being used by people globally, but not everyone is using it in the same ways. Using a large-scale dataset of anonymized, de-identified, and privacy-scrubbed interactions with a widely available and free AI chatbot, we empirically characterize differences in early adopters&#x27; usage across countries. Schooling is the most common domain of use in most countries, particularly low-income countries, with a strong inverse association evident between schooling and country-level GDP. Leisure-related use, by contrast, is positively associated with country-level income. Language, we find, also shapes use: English-language interactions are overrepresented in places where the predominant languages were not well-served by existing models during the period of the study. Improving performance across languages may be a key factor, our work suggests, in whether this technology expands digital divides or enables leapfrogging.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dd06fda1891f" data-article-url="https://arxiv.org/abs/2605.30686" data-article-title="ツール呼び出し ReAct Agent での深度依存の間接プロンプト注入: 注入深度、ペイロード フレーミング、およびターン バジェット感度" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30686" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30686" target="_blank" rel="noopener">ツール呼び出し ReAct Agent での深度依存の間接プロンプト注入: 注入深度、ペイロード フレーミング、およびターン バジェット感度</a></h3>
      <p class="summary">思考連鎖推論とツール呼び出しをインターリーブする ReAct エージェントは、スケジューリング、ファイル取得、データ アクセスなどの実際のタスクに導入されることが増えています。彼らのツール監視ループは直接的な攻撃対象領域を作成します。ツールの戻り値を制御する攻撃者は、エージェントをユーザーの目的からリダイレクトする命令を埋め込むことができ、これは間接プロンプト インジェクションとして知られる脅威です。既存のベンチマークは、固定条件下、固定注入位置での攻撃成功率 (ASR) を評価しますが、ツール シーケンス内のどこにペイロードが現れるか (注入深さ)、どのようなレトリック レジスタを使用するか (フレーミング)、エージェントに許可されるターン数 (ターン キャップ) という 3 つのリスク側面が未調査のままです。当社は、5 つの攻撃カテゴリにわたる 20 のシナリオについて 4 つの対照研究を実施し、GPT-4o-mini と Claude Haiku に対して合計 460 回のトライアルを合計 0.36 米ドル未満の API コストで実施しました。研究 1 は、GPT-4o-mini に対する ASR が深さ 1 の 60% から深さ 4 および 5 の 0% まで減衰することを示しています (Cramer の V = 0.58、p &lt; 0.001; シーケンス深さ 1 ～ 3 内に限定: V = 0.47、p = 0.0013)。これは、深さ 1 でのモデル抵抗と、より深い位置でのペイロード遭遇前のタスク完了によって引き起こされます。研究 2 では、Claude Haiku の深度実験を再現しています。この実験では、保守的なツールの呼び出しと真の命令耐性の組み合わせにより、すべての深度で 0% の ASR を達成しています。研究 3 は、フレーミングが深さ 1 で ASR を 25% (ニュートラル) と 75% (ペルソナ) の間で調整することを示しています。この範囲は 50 パーセント ポイントの範囲であり、条件あたり N = 20 では統計的有意性に達しません。研究 4 では、ASR がターン上限 3、5、7 にわたって安定していることが確認されており、この設定ではターン予算がリスク要因ではないことが示されています。私たちの結果は、注入深さが支配的な変数であることを確立し、最初のツール観察のみをサニタイズすることで、測定された注入成功率の 67% が得られることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Depth-Dependent Indirect Prompt Injection in Tool-Calling ReAct Agents: Injection Depth, Payload Framing, and Turn-Budget Sensitivity</p>
        <p class="orig-summary">ReAct agents that interleave chain-of-thought reasoning with tool calls are increasingly deployed for real tasks such as scheduling, file retrieval, and data access. Their tool observation loop creates a direct attack surface: an adversary who controls any tool&#x27;s return value can embed instructions that redirect the agent away from the user&#x27;s goal, a threat known as indirect prompt injection. Existing benchmarks evaluate attack success rate (ASR) at a fixed injection position under fixed conditions, leaving three risk dimensions unexplored: where in the tool sequence the payload appears (injection depth), what rhetorical register it uses (framing), and how many turns the agent is permitted (turn cap). We conduct four controlled studies on 20 scenarios spanning five attack categories, totalling 460 trials against GPT-4o-mini and Claude Haiku at a combined API cost under 0.36 USD. Study 1 shows that ASR against GPT-4o-mini decays from 60% at depth 1 to 0% at depths 4 and 5 (Cramer&#x27;s V = 0.58, p &lt; 0.001; restricted to within-sequence depths 1-3: V = 0.47, p = 0.0013), driven by model resistance at depth 1 and task completion before payload encounter at deeper positions. Study 2 replicates the depth experiment on Claude Haiku, which achieves 0% ASR at every depth through a combination of conservative tool invocation and genuine instruction resistance. Study 3 shows that framing modulates ASR between 25% (neutral) and 75% (persona) at depth 1, a 50-percentage-point range that does not reach statistical significance at N = 20 per condition. Study 4 confirms that ASR is stable across turn caps of 3, 5, and 7, indicating the turn budget is not a risk factor in this setting. Our results establish injection depth as the dominant variable and show that sanitising only the first tool observation captures 67% of measured injection successes.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="47e976633c0d" data-article-url="https://arxiv.org/abs/2605.30689" data-article-title="ConTrans: ゼロショットの時間的アクションのローカリゼーションのためのテキスト強化されたローカル-グローバル時間表現の学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30689" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30689" target="_blank" rel="noopener">ConTrans: ゼロショットの時間的アクションのローカリゼーションのためのテキスト強化されたローカル-グローバル時間表現の学習</a></h3>
      <p class="summary">Zero-shot Temporal Action Localization (ZS-TAL) は、トリミングされていないビデオ内のこれまで見えなかったアクションを検出して特定することを目的としています。ただし、既存のアプローチは主に長距離のコンテキスト情報のモデリングに焦点を当てており、ビデオ フレーム間の重要な相対オフセット ベースの局所相関が無視されていることがよくあります。さらに、ネットワーク アーキテクチャの浅い性質により、特徴表現機能が制限されるため、パフォーマンスが妨げられます。この論文では、新しいローカル/グローバル マルチスケール特徴表現モジュールを導入することで、これらの制限に対処します。我々は、ConTrans と呼ばれる新しいマルチスケール エンコーダ アーキテクチャを提案します。これは、畳み込み (Conv) 誘導バイアスとトランスフォーマーのセルフアテンションを統合して、きめの細かいローカル依存関係と長距離のグローバル コンテキストを共同で捕捉し、既存の手法よりも包括的な特徴表現につながります。 ActivityNet-1.3 および THUMOS14 データセットの実験評価では、ConTrans が既存の手法を大幅に上回っており、ZS-TAL の新しいベンチマークを確立していることが実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ConTrans: Learning Text-enhanced Local-global Temporal Representations for Zero-shot Temporal Action Localization</p>
        <p class="orig-summary">Zero-shot Temporal Action Localization (ZS-TAL) aims to detect and locate previously unseen actions in untrimmed videos. However, existing approaches primarily focus on modeling long-range contextual information, often neglecting the critical relative-offset-based local correlations between video frames. Furthermore, their performance is hindered by limited feature representation capabilities due to the shallow nature of their network architectures. In this paper, we address these limitations by introducing a novel local-global multi-scale feature representation module. We propose a novel multi-scale encoder architecture, termed ConTrans, that integrates convolutional (Conv) inductive biases with transformer Self-attention to jointly capture fine-grained local dependencies and long-range global context, leading to more comprehensive feature representations than existing methods. Experimental evaluations on the ActivityNet-1.3 and THUMOS14 datasets demonstrate that ConTrans significantly outperforms existing methods, establishing a new benchmark for ZS-TAL.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f09513bbc14" data-article-url="https://arxiv.org/abs/2605.30698" data-article-title="同意する前に確認する: 複数のエージェントの合意を視覚的な証拠に合わせて調整する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30698" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30698" target="_blank" rel="noopener">同意する前に確認する: 複数のエージェントの合意を視覚的な証拠に合わせて調整する</a></h3>
      <p class="summary">ビジョン言語モデル (VLM) は、ビジュアル質問応答 (VQA) で優れたパフォーマンスを達成しました。個人の幻覚や盲点を軽減するために、複数のエージェントのコラボレーションを通じて多様な視点を集約することが、有望なパラダイムとして浮上しています。このアプローチはテキスト QA では大きな成功を収めていますが、マルチモーダル ドメインでの可能性はまだ探求されていません。既存のマルチエージェント VQA 手法は主にテキスト中心のプロトコルを適応させており、視覚情報の調整を無視してテキストによる議論に重点を置いています。この研究で、私たちは重要な洞察を明らかにします。信頼できるマルチエージェント VQA には、回答レベルの一致では不十分です。 \textit{整列された視覚的証拠} -- エージェントが依存する画像領域からの共有サポート -- は、信頼できるコンセンサスを得るために不可欠です。この洞察を活用するために、複数の VLM エージェントを調整するためのトレーニング不要の証拠中心のフレームワークである EAGLE (\textbf{E}vidence-\textbf{A}ligned \textbf{G}rounded mu\textbf{L}ti-agent r\textbf{E}asoning) を提案します。 EAGLE は、各エージェントの接地領域を視覚的な証拠として明示的に公開し、証拠に対する相互検証を可能にし、証拠の一貫性を利用して最終的な意思決定を導きます。 6 つの VQA ベンチマークの実験では、EAGLE が軽量で解釈可能で、導入に実用的でありながら、ドメイン全体で最高の平均パフォーマンスを達成していることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Seeing Before Agreeing: Aligning Multi-Agent Consensus with Visual Evidence</p>
        <p class="orig-summary">Vision-language models (VLMs) have achieved strong performance on visual question answering (VQA). To mitigate individual hallucinations and blind spots, aggregating diverse perspectives via multi-agent collaboration has emerged as a promising paradigm. While this approach has shown great success in textual QA, its potential in the multimodal domain remains under-explored. Existing multi-agent VQA methods predominantly adapt text-centric protocols, focusing on textual discussions while ignoring the alignment of visual information. In this work, we reveal a key insight: answer-level agreement is insufficient for reliable multi-agent VQA; \textit{aligned visual evidence} -- shared support from the image regions agents rely on -- is essential for trustworthy consensus. To leverage this insight, we propose EAGLE (\textbf{E}vidence-\textbf{A}ligned \textbf{G}rounded mu\textbf{L}ti-agent r\textbf{E}asoning), a training-free evidence-centered framework for coordinating multiple VLM agents. EAGLE explicitly exposes each agent&#x27;s grounding regions as visual evidence, enables mutual verification over the evidence, and uses evidence consistency to guide final decision-making. Experiments on six VQA benchmarks show that EAGLE achieves best average performance across domains while remaining lightweight, interpretable, and practical for deployment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7982ea0b5c4c" data-article-url="https://arxiv.org/abs/2605.30711" data-article-title="SAGE: エージェント LLM における効率的なメモリ進化のためのノベルティ ゲート" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30711" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30711" target="_blank" rel="noopener">SAGE: エージェント LLM における効率的なメモリ進化のためのノベルティ ゲート</a></h3>
      <p class="summary">エージェント LLM は、新しく抽出されたファクトを追加するか、既存のメモリとマージするか、無視するかを継続的に決定する必要がありますが、これまでの研究では、原則に基づいた書き込み側の制御よりも、取得と保存に重点が置かれていました。我々はメモリ進化を新規性検出問題として枠組み化し、メモリ進化のための球状適応ゲートであるSAGEを提案します。これは、メモリ埋め込みに対するフォン・ミーゼス・フィッシャーベースの密度推定器を使用して候補事実をスコアリングし、メモリストアのジオメトリを追跡する適応しきい値でそれらをルーティングします。 SAGE は、明らかに新規のファクトを ADD として解決し、明らかに冗長なファクトを NOOP として解決し、不確実なケースのみを LLM マージ ステップに送信して、コストのかかる書き込み時間の推論を削減します。 LoCoMo では、SAGE は 7 つのオープンウェイト バックボーン比較すべてで Mem0 に対して最良の平均トークン F1 を達成しましたが、GPT-4o-mini では、わずかな平均ジャッジ スコアの差で、追加フェーズ API コストを 3.4$\times$ 削減し、追加フェーズのレイテンシを 2.5$\times$ 削減しました。 A-Mem のドロップイン バイナリ ゲートとして、SAGE は、オープンウェイト バックボーンでの品質の変化を最小限に抑えながら、5 つのモデルにわたって LLM コールの約 16 ～ 18% をスキップします。これらの結果は、新規性を意識した書き込み制御が、長期エージェントメモリにおけるメモリ品質とシステム効率の両方を改善するための実用的な手段であることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SAGE: A Novelty Gate for Efficient Memory Evolution in Agentic LLMs</p>
        <p class="orig-summary">Agentic LLMs must continuously decide whether newly extracted facts should be added, merged with existing memories, or ignored, yet prior work has focused more on retrieval and storage than on principled write-side control. We frame memory evolution as a novelty-detection problem and propose SAGE, a Spherical Adaptive Gate for memory Evolution that scores candidate facts with a von Mises-Fisher-based density estimator over memory embeddings and routes them with an adaptive threshold that tracks memory-store geometry. SAGE resolves clearly novel facts as ADD, clearly redundant facts as NOOP, and sends only uncertain cases to an LLM merge step, reducing expensive write-time reasoning. On LoCoMo, SAGE achieves the best average token-F1 against Mem0 on all seven open-weight backbone comparisons, while on GPT-4o-mini it reduces add-phase API cost by 3.4$\times$ and add-phase latency by 2.5$\times$ with only a small average judge-score gap. As a drop-in binary gate for A-Mem, SAGE skips roughly 16-18% of LLM calls across five models with minimal quality change on open-weight backbones. These results suggest that novelty-aware write control is a practical lever for improving both memory quality and system efficiency in long-term agentic memory.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f9146cdad1d7" data-article-url="https://arxiv.org/abs/2605.30716" data-article-title="Simple Token-Efficient Vision-Language Model for Case-level Pathology Synoptic Report Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30716" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30716" target="_blank" rel="noopener">Simple Token-Efficient Vision-Language Model for Case-level Pathology Synoptic Report Generation</a></h3>
      <p class="summary">Generating clinically useful pathology reports for pathology cases from whole-slide images (WSIs) is challenging due to gigapixel resolutio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8d5fb0fa3ec5" data-article-url="https://arxiv.org/abs/2605.30719" data-article-title="When are LLMs Sufficient Policy Optimizers for Sequential RL Tasks?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30719" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30719" target="_blank" rel="noopener">When are LLMs Sufficient Policy Optimizers for Sequential RL Tasks?</a></h3>
      <p class="summary">We study when large language models (LLMs) can serve as effective black-box policy optimizers for reinforcement learning (RL) tasks, i.e.,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="13994bdbfbbf" data-article-url="https://arxiv.org/abs/2605.30720" data-article-title="Kalimati Vegetable Price Index Forecasting with a Momentum Corrected Online Stacking Ensemble" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30720" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30720" target="_blank" rel="noopener">Kalimati Vegetable Price Index Forecasting with a Momentum Corrected Online Stacking Ensemble</a></h3>
      <p class="summary">Forecasting agricultural commodity prices in emerging economies is difficult due to high volatility, frequent supply disruptions, and stron…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4c61c7ee9ef7" data-article-url="https://arxiv.org/abs/2605.30736" data-article-title="OrcaRouter: A Production-Oriented LLM Router with Hybrid Offline-Online Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30736" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30736" target="_blank" rel="noopener">OrcaRouter: A Production-Oriented LLM Router with Hybrid Offline-Online Learning</a></h3>
      <p class="summary">The rapid development of large language models, each with distinct capabilities and inference costs, raises a practical deployment question…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c4d34511518" data-article-url="https://arxiv.org/abs/2605.30740" data-article-title="GSAM: A Generalizable and Safe Robotic Framework for Articulated Object Manipulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30740" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30740" target="_blank" rel="noopener">GSAM: A Generalizable and Safe Robotic Framework for Articulated Object Manipulation</a></h3>
      <p class="summary">Articulated object manipulation is a unique challenge for service robots. Existing methods employ end-to-end policy learning, visionmotion…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="02287f60432e" data-article-url="https://arxiv.org/abs/2605.30748" data-article-title="Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30748" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30748" target="_blank" rel="noopener">Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS</a></h3>
      <p class="summary">We present Chatterbox-Flash, a zero-shot text-to-speech model obtained by fine-tuning a pretrained autoregressive TTS decoder into a block-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="01ed4c0158a7" data-article-url="https://arxiv.org/abs/2605.30788" data-article-title="XLGoBench: Detecting cross-lingual skill gaps with algorithmic tasks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30788" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30788" target="_blank" rel="noopener">XLGoBench: Detecting cross-lingual skill gaps with algorithmic tasks</a></h3>
      <p class="summary">We introduce a set of synthetic algorithmic tasks to detect cross-lingual gaps in the abilities of large language models. Our benchmark is…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3bd7e7f99fbb" data-article-url="https://arxiv.org/abs/2605.30789" data-article-title="Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30789" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30789" target="_blank" rel="noopener">Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO</a></h3>
      <p class="summary">We identify a new dimension for enhancing rollout diversity in Group Relative Policy Optimization (GRPO) for LLMs. While GRPO relies on div…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3949b8d89061" data-article-url="https://arxiv.org/abs/2605.30790" data-article-title="On the impact of retrieved content representations in RAG Pipelines" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30790" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30790" target="_blank" rel="noopener">On the impact of retrieved content representations in RAG Pipelines</a></h3>
      <p class="summary">Retrieval-Augmented Generation (RAG) supplements a language model&#x27;s input with retrieved documents, yet most RAG pipelines inherit retrieva…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="58bff27c7780" data-article-url="https://arxiv.org/abs/2605.30792" data-article-title="OpenSTBench: Beyond Semantic Evaluation for Speech Translation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30792" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30792" target="_blank" rel="noopener">OpenSTBench: Beyond Semantic Evaluation for Speech Translation</a></h3>
      <p class="summary">Speech translation systems increasingly span speech-to-text translation (S2TT), speech-to-speech translation (S2ST), offline translation, a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1a319b91618e" data-article-url="https://arxiv.org/abs/2605.30794" data-article-title="MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30794" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30794" target="_blank" rel="noopener">MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding</a></h3>
      <p class="summary">Multimodal Large Language Models (MLLMs) have demonstrated significant achievements in general visual question answering (VQA) tasks. Howev…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="be798d3b5299" data-article-url="https://arxiv.org/abs/2605.30802" data-article-title="Design and Evaluation of Multi-Agent AI Oracle Systems for Prediction Market Resolution" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30802" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30802" target="_blank" rel="noopener">Design and Evaluation of Multi-Agent AI Oracle Systems for Prediction Market Resolution</a></h3>
      <p class="summary">Prediction markets aggregate collective intelligence to forecast uncertain events, but their utility depends on reliable outcome resolution…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6bd105787a8" data-article-url="https://arxiv.org/abs/2605.30808" data-article-title="Differentially Private Preference Data Synthesis for Large Language Model Alignment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30808" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30808" target="_blank" rel="noopener">Differentially Private Preference Data Synthesis for Large Language Model Alignment</a></h3>
      <p class="summary">Preference alignment is a crucial post-training step for large language models (LLMs) to ensure their outputs align with human values. Howe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6bcdad37fba6" data-article-url="https://arxiv.org/abs/2605.30818" data-article-title="GaMi: Geometry-Agnostic Material Identification via Cross-Modal Subtractive Disentanglement" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30818" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30818" target="_blank" rel="noopener">GaMi: Geometry-Agnostic Material Identification via Cross-Modal Subtractive Disentanglement</a></h3>
      <p class="summary">Non-contact material identification enables adaptive interaction for embodied intelligence yet faces challenges from geometry-induced varia…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4c7496de9ee0" data-article-url="https://arxiv.org/abs/2605.30825" data-article-title="Unlearning in Diffusion Models: A Unified Framework with KL Divergence and Likelihood Constraints" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30825" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30825" target="_blank" rel="noopener">Unlearning in Diffusion Models: A Unified Framework with KL Divergence and Likelihood Constraints</a></h3>
      <p class="summary">Unlearning in diffusion models aims to remove undesirable data or concepts while preserving the utility of pretrained models -- two fundame…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="31bf3fdb214b" data-article-url="https://arxiv.org/abs/2605.30826" data-article-title="Beyond Agreement: Scoring Panel-Surfaced Biomedical Entity Candidates for Curator Triage" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30826" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30826" target="_blank" rel="noopener">Beyond Agreement: Scoring Panel-Surfaced Biomedical Entity Candidates for Curator Triage</a></h3>
      <p class="summary">Biomedical NER is deceptively simple for modern LLMs: plausible biomedical mentions are easy to surface, but corpus-convention correctness…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="450b9e1c5945" data-article-url="https://arxiv.org/abs/2605.30833" data-article-title="Your Teacher Can&#x27;t Help You Here: Combating Supervision Fidelity Decay in On-Policy Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30833" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30833" target="_blank" rel="noopener">Your Teacher Can&#x27;t Help You Here: Combating Supervision Fidelity Decay in On-Policy Distillation</a></h3>
      <p class="summary">On-policy distillation transfers reasoning capabilities by training a student model on its own generated trajectories using token-level fee…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d817c44235f5" data-article-url="https://arxiv.org/abs/2605.30834" data-article-title="Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30834" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30834" target="_blank" rel="noopener">Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring</a></h3>
      <p class="summary">Vision-Language-Action (VLA) models enable robots to follow natural language instructions and generalize across diverse tasks, but they rem…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="26128324f651" data-article-url="https://arxiv.org/abs/2605.30844" data-article-title="Fine-Tuning Improves Information Conveyance in Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30844" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30844" target="_blank" rel="noopener">Fine-Tuning Improves Information Conveyance in Language Models</a></h3>
      <p class="summary">Fine-tuning is often believed to reduce uncertainty and diversity in large language models, but existing analyses overlook output length, a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4ebae5dd2622" data-article-url="https://arxiv.org/abs/2605.30854" data-article-title="Safe Equilibrium Policy Optimization for Strategic Agent Policies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30854" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30854" target="_blank" rel="noopener">Safe Equilibrium Policy Optimization for Strategic Agent Policies</a></h3>
      <p class="summary">Language models fine-tuned with reinforcement learning typically optimize for task reward, ignoring multi-agent strategic structure. Becaus…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="852011dec410" data-article-url="https://arxiv.org/abs/2605.30859" data-article-title="DARTS: Distribution-Aware Active Rollout Trajectory Shaping for Accelerating LLM Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30859" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30859" target="_blank" rel="noopener">DARTS: Distribution-Aware Active Rollout Trajectory Shaping for Accelerating LLM Reinforcement Learning</a></h3>
      <p class="summary">Reinforcement Learning (RL) has become pivotal for improving model capabilities yet suffers from rollout efficiency bottlenecks due to the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb363a725e07" data-article-url="https://arxiv.org/abs/2605.30862" data-article-title="Sophrosyne: Agentic Exploration of Relational Data Systems Needs Moderation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30862" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30862" target="_blank" rel="noopener">Sophrosyne: Agentic Exploration of Relational Data Systems Needs Moderation</a></h3>
      <p class="summary">Text2SQL agents powered by LLMs translate natural language intent into SQL by exploring the data system through tool calls before formulati…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e1b7ac3a2957" data-article-url="https://arxiv.org/abs/2605.30873" data-article-title="Federated Variational Preference Alignment with Gumbel-Softmax Prior for Personalized User Preferences" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30873" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30873" target="_blank" rel="noopener">Federated Variational Preference Alignment with Gumbel-Softmax Prior for Personalized User Preferences</a></h3>
      <p class="summary">Federated Learning (FL) offers a privacy-preserving pathway for aligning Large Language Models (LLMs); however, existing frameworks typical…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8a8acc475ff4" data-article-url="https://arxiv.org/abs/2605.30880" data-article-title="PatchWorld: Gradient-Free Optimization of Executable World Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30880" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30880" target="_blank" rel="noopener">PatchWorld: Gradient-Free Optimization of Executable World Models</a></h3>
      <p class="summary">Text-agent environments are typically modeled as partially observable Markov decision processes (POMDPs), assuming that the simulator&#x27;s lat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="90dd457daed7" data-article-url="https://arxiv.org/abs/2605.30899" data-article-title="A Unified and Reproducible Experimentation Framework for Speech Understanding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30899" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30899" target="_blank" rel="noopener">A Unified and Reproducible Experimentation Framework for Speech Understanding</a></h3>
      <p class="summary">Speech foundation models and Speech LLMs have advanced speech understanding, yet deployment-oriented model selection is hindered by non-com…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9db0e6914381" data-article-url="https://arxiv.org/abs/2605.30903" data-article-title="Inverse Reinforcement Learning without an Optimal Demonstrator: A Feasible Reward Set Approach" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30903" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30903" target="_blank" rel="noopener">Inverse Reinforcement Learning without an Optimal Demonstrator: A Feasible Reward Set Approach</a></h3>
      <p class="summary">Inverse reinforcement learning (IRL) typically assumes demonstrations from a single optimal demonstrator, but in many applications data com…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f7d02e8b5b44" data-article-url="https://arxiv.org/abs/2605.30907" data-article-title="BlueFin: Benchmarking LLM Agents on Financial Spreadsheets" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30907" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30907" target="_blank" rel="noopener">BlueFin: Benchmarking LLM Agents on Financial Spreadsheets</a></h3>
      <p class="summary">We present BlueFin, a benchmark that tasks large language model (LLM) agents with synthesis, manipulation, and comprehension tasks over spr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a172a806769d" data-article-url="https://arxiv.org/abs/2605.30911" data-article-title="What Makes LVLMs Hallucinate Less? Unveiling the Architectural Factors Behind Hallucination Robustness" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30911" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30911" target="_blank" rel="noopener">What Makes LVLMs Hallucinate Less? Unveiling the Architectural Factors Behind Hallucination Robustness</a></h3>
      <p class="summary">Hallucination remains one of the key challenges undermining the reliability of Large Vision-Language Models (LVLMs). But what makes an LVLM…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="62bff1e96fe5" data-article-url="https://arxiv.org/abs/2605.30913" data-article-title="Toxic HallucinAItions: Perturbing Prompts and Tracing LLM Circuits" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30913" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30913" target="_blank" rel="noopener">Toxic HallucinAItions: Perturbing Prompts and Tracing LLM Circuits</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly deployed in conversational settings where user tone ranges from polite to adversarial or toxi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="472c26236c94" data-article-url="https://arxiv.org/abs/2605.30919" data-article-title="De-attribute to Forget for LLM Unlearning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30919" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30919" target="_blank" rel="noopener">De-attribute to Forget for LLM Unlearning</a></h3>
      <p class="summary">The rapid development of large language models (LLMs) has raised concerns on the use of inappropriate data for training, which has led to a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c926cb7d9c0b" data-article-url="https://arxiv.org/abs/2605.30930" data-article-title="TUX: Measuring Human--AI Tacit Understanding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30930" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30930" target="_blank" rel="noopener">TUX: Measuring Human--AI Tacit Understanding</a></h3>
      <p class="summary">As large language models (LLMs) increasingly act as collaborative partners, human--AI alignment is often evaluated through explicit task su…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec705fa85015" data-article-url="https://arxiv.org/abs/2605.30934" data-article-title="Do Large Language Models Encode Institutional Experience? Evidence from Cross-Linguistic Moral Reasoning Under Ambiguity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30934" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30934" target="_blank" rel="noopener">Do Large Language Models Encode Institutional Experience? Evidence from Cross-Linguistic Moral Reasoning Under Ambiguity</a></h3>
      <p class="summary">Large language models (LLMs) exhibit systematic differences in moral reasoning across languages, yet the source of this variation remains u…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d34e1de38406" data-article-url="https://arxiv.org/abs/2605.30963" data-article-title="AMix-2: Establishing Protein as a Native Modality in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30963" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30963" target="_blank" rel="noopener">AMix-2: Establishing Protein as a Native Modality in Large Language Models</a></h3>
      <p class="summary">We present AMix-2, a protein-text foundation model that establishes protein as a native modality in large language models (LLMs), unifying…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1fd2ec8fa9aa" data-article-url="https://arxiv.org/abs/2605.30965" data-article-title="ImmersiveTTS: Environment-Aware Text-to-Speech with Multimodal Diffusion Transformer and Domain-Specific Representation Alignment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30965" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30965" target="_blank" rel="noopener">ImmersiveTTS: Environment-Aware Text-to-Speech with Multimodal Diffusion Transformer and Domain-Specific Representation Alignment</a></h3>
      <p class="summary">Recent advancements in text-guided audio generation have yielded promising results in diverse domains, including sound effects, speech, and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="67134eace267" data-article-url="https://arxiv.org/abs/2605.30966" data-article-title="Reading Between the Citations: A Typed Claim Network for Scientific Literature" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30966" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30966" target="_blank" rel="noopener">Reading Between the Citations: A Typed Claim Network for Scientific Literature</a></h3>
      <p class="summary">Knowledge graphs over corpora of inter-referencing documents - scholarly papers, legal opinions, policy briefs - encode the topology of ref…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2bfd84dfb0e2" data-article-url="https://arxiv.org/abs/2605.30968" data-article-title="Variational Adapter for Cross-modal Similarity Representation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30968" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30968" target="_blank" rel="noopener">Variational Adapter for Cross-modal Similarity Representation</a></h3>
      <p class="summary">The core of vision-language models lies in measuring cross-modal similarity within a unified representation space. However, most image-text…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f9e2d461f667" data-article-url="https://arxiv.org/abs/2605.30984" data-article-title="Generating Reports or Repeating Templates? Measuring and Mitigating Template Collapse in 3D CT Report Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30984" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30984" target="_blank" rel="noopener">Generating Reports or Repeating Templates? Measuring and Mitigating Template Collapse in 3D CT Report Generation</a></h3>
      <p class="summary">Modern 3D medical vision-language models (VLMs) can generate fluent radiology-style text while exhibit critically low pathology detection a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="df4a82637f7c" data-article-url="https://arxiv.org/abs/2605.31007" data-article-title="DEM: A Distilled Explanation Model for Interpretable Anomaly Detection in Physiological Sensor Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31007" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31007" target="_blank" rel="noopener">DEM: A Distilled Explanation Model for Interpretable Anomaly Detection in Physiological Sensor Networks</a></h3>
      <p class="summary">Anomaly detection in physiological sensor data from Wireless Body Area Networks (WBANs) can be caused by sensor faults, network disruptions…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e92949780d61" data-article-url="https://arxiv.org/abs/2605.31034" data-article-title="Annealed Softmax Greedy in Many-Armed Bayesian Bandits" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31034" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31034" target="_blank" rel="noopener">Annealed Softmax Greedy in Many-Armed Bayesian Bandits</a></h3>
      <p class="summary">Reinforcement learning with verifiable rewards (RLVR) and group-based policy optimization methods such as GRPO update a stochastic policy b…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="44b324add02d" data-article-url="https://arxiv.org/abs/2605.31041" data-article-title="Does Visual Information Play a Decisive Role in Vision-Language-Action Model Driving Behavior?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31041" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31041" target="_blank" rel="noopener">Does Visual Information Play a Decisive Role in Vision-Language-Action Model Driving Behavior?</a></h3>
      <p class="summary">Vision-Language-Action (VLA) models have demonstrated promising capability in autonomous driving, highlighting the potential of unified mul…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="51e85d26662d" data-article-url="https://arxiv.org/abs/2605.31042" data-article-title="From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31042" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31042" target="_blank" rel="noopener">From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors</a></h3>
      <p class="summary">LLM agents are evolving from conversational chatbots to operational tools in real-world workspaces. In local agentic harnesses, an LLM can…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="af2d8c1d685a" data-article-url="https://arxiv.org/abs/2605.31043" data-article-title="Routing on the Stiefel Manifold: When Does Adaptive Subspace Selection Help for Cross-Domain EEG Decoding?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31043" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31043" target="_blank" rel="noopener">Routing on the Stiefel Manifold: When Does Adaptive Subspace Selection Help for Cross-Domain EEG Decoding?</a></h3>
      <p class="summary">Cross-domain EEG decoding remains challenging despite advances in Riemannian deep learning: covariance matrices from different subjects occ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="42731d8491c2" data-article-url="https://arxiv.org/abs/2605.31049" data-article-title="Learning to Solve and Optimize by Evolving Code" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31049" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31049" target="_blank" rel="noopener">Learning to Solve and Optimize by Evolving Code</a></h3>
      <p class="summary">Combinatorial and optimization problems are fundamental to many industrial AI applications. Solving large-scale real-world instances of suc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f1552a71e983" data-article-url="https://arxiv.org/abs/2605.31051" data-article-title="Linear Ordering Problem: Time for a Change" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31051" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31051" target="_blank" rel="noopener">Linear Ordering Problem: Time for a Change</a></h3>
      <p class="summary">The Linear Ordering Problem (LOP) is a fundamental combinatorial optimization problem with important applications in areas such as economic…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4936ef9f92f4" data-article-url="https://arxiv.org/abs/2605.31053" data-article-title="AnchorSteer: Self-Discovered Concept Injection for Structure-Preserving Music Editing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31053" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31053" target="_blank" rel="noopener">AnchorSteer: Self-Discovered Concept Injection for Structure-Preserving Music Editing</a></h3>
      <p class="summary">Controllable music editing is to modify high-level attributes while strictly preserving rhythmic and melodic structures. However, this task…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3aa8f712550e" data-article-url="https://arxiv.org/abs/2605.31061" data-article-title="STEP: Learning STructured Embeddings for Progressive Time Series" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31061" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31061" target="_blank" rel="noopener">STEP: Learning STructured Embeddings for Progressive Time Series</a></h3>
      <p class="summary">We present a novel method for learning interpretable representations of progressive time series, that is, data capturing irreversible state…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5e3cd605153f" data-article-url="https://arxiv.org/abs/2605.31064" data-article-title="Fighting Numerical Hallucinations via Data-centric Compilation for Online Financial QA" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31064" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31064" target="_blank" rel="noopener">Fighting Numerical Hallucinations via Data-centric Compilation for Online Financial QA</a></h3>
      <p class="summary">Large Language Models (LLMs) have significantly advanced online data services, particularly in the domain of financial question answering (…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f189def97f91" data-article-url="https://arxiv.org/abs/2605.31065" data-article-title="DRIFT: Joint Channel Estimation and Prediction Towards Pilotless 6G Non-Terrestrial Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31065" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31065" target="_blank" rel="noopener">DRIFT: Joint Channel Estimation and Prediction Towards Pilotless 6G Non-Terrestrial Networks</a></h3>
      <p class="summary">Non-terrestrial networks (NTNs) are expected to play a pivotal role in sixth-generation (6G) systems by enabling ubiquitous connectivity an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fe88675820a9" data-article-url="https://arxiv.org/abs/2605.31080" data-article-title="A Pilot Study on Curator-Guided Multilingual Art Description for Blind and Low-Vision Audiences with Small Vision-Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31080" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31080" target="_blank" rel="noopener">A Pilot Study on Curator-Guided Multilingual Art Description for Blind and Low-Vision Audiences with Small Vision-Language Models</a></h3>
      <p class="summary">Blind and low-vision (BLV) audiences remain underserved by visual art descriptions, particularly across languages and in museum settings wh…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7f6bd15434fd" data-article-url="https://arxiv.org/abs/2605.31090" data-article-title="On Revisiting Entropy for Identifying Mislabeled Images" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31090" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31090" target="_blank" rel="noopener">On Revisiting Entropy for Identifying Mislabeled Images</a></h3>
      <p class="summary">Mislabeled samples in training datasets severely degrade the performance of deep networks, as overparameterized models tend to memorize err…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c2b25e60927b" data-article-url="https://arxiv.org/abs/2605.31094" data-article-title="Redefining Instance Matching: A Unified Framework for Part-Aware Matching in Panoptic Segmentation Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31094" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31094" target="_blank" rel="noopener">Redefining Instance Matching: A Unified Framework for Part-Aware Matching in Panoptic Segmentation Evaluation</a></h3>
      <p class="summary">The Panoptic Quality (PQ) metric is the standard for jointly evaluating instance and semantic segmentation. However, its original definitio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ee7a56db184" data-article-url="https://arxiv.org/abs/2605.31097" data-article-title="SpecDB: LLM-Generated Customized Databases via Feature-Oriented Decomposition" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31097" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31097" target="_blank" rel="noopener">SpecDB: LLM-Generated Customized Databases via Feature-Oriented Decomposition</a></h3>
      <p class="summary">Mainstream relational databases ship a uniform feature set across deployments, although individual workloads exercise only a fraction of th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e6937c678ecb" data-article-url="https://arxiv.org/abs/2605.31099" data-article-title="KnowledgeGain: Evaluating and Optimizing Science News Generation for Reader Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31099" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31099" target="_blank" rel="noopener">KnowledgeGain: Evaluating and Optimizing Science News Generation for Reader Learning</a></h3>
      <p class="summary">Science news is an important medium to communicate discoveries between the research communities and the public. Yet, most metrics for gener…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c9ee2333b32" data-article-url="https://arxiv.org/abs/2605.31120" data-article-title="SWIM: Single-Instance Whole-Body Imitation for swiMming" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31120" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31120" target="_blank" rel="noopener">SWIM: Single-Instance Whole-Body Imitation for swiMming</a></h3>
      <p class="summary">We propose a new method for synthesizing physically-based swimming motions. Physically-based character animation aims to generate physicall…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d4587f13a512" data-article-url="https://arxiv.org/abs/2605.31121" data-article-title="TARIC: Memory-Augmented Traversability-Aware Outdoor VLN under Interrupted Semantic Cues" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31121" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31121" target="_blank" rel="noopener">TARIC: Memory-Augmented Traversability-Aware Outdoor VLN under Interrupted Semantic Cues</a></h3>
      <p class="summary">Outdoor vision-language navigation (VLN) in long-range, open-world environments is frequently disrupted by semantic-cue interruptions, wher…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4cf46d85bdab" data-article-url="https://arxiv.org/abs/2605.31126" data-article-title="Not All Synthetic Data Is Yours to Learn From" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31126" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31126" target="_blank" rel="noopener">Not All Synthetic Data Is Yours to Learn From</a></h3>
      <p class="summary">Can a language model improve from plain text sampled from itself, with no prompts, no teacher, no verifier, and no reward model? Yes, but o…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c767e0831391" data-article-url="https://arxiv.org/abs/2605.31131" data-article-title="UXR PoV for Neuroinclusive Emotion Regulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31131" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31131" target="_blank" rel="noopener">UXR PoV for Neuroinclusive Emotion Regulation</a></h3>
      <p class="summary">Attention-deficit/hyperactivity disorder (ADHD) is a psychiatric disorder which presents itself in individuals through patterns of developm…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b04740a11e45" data-article-url="https://arxiv.org/abs/2605.31138" data-article-title="Developing an AI-Powered UX Research Point of View for Digital Health in A Regulatory Context: An Exemplar Case from MSM and Transgender HIV Care in Nigeria" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31138" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31138" target="_blank" rel="noopener">Developing an AI-Powered UX Research Point of View for Digital Health in A Regulatory Context: An Exemplar Case from MSM and Transgender HIV Care in Nigeria</a></h3>
      <p class="summary">User Experience Research (UXR) in a legal and regulatory contexts presents unique challenges that require specialised approaches to protect…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5303d4ac366d" data-article-url="https://arxiv.org/abs/2605.31142" data-article-title="On the Robustness of Multilingual Text Embedding Rankings Across Learning Tasks, Languages, and Benchmark Datasets" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31142" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31142" target="_blank" rel="noopener">On the Robustness of Multilingual Text Embedding Rankings Across Learning Tasks, Languages, and Benchmark Datasets</a></h3>
      <p class="summary">Large-scale multilingual text embedding models play crucial role in both research and industry, yet their behavior in language-specific, mu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3950c97eb6be" data-article-url="https://arxiv.org/abs/2605.31143" data-article-title="Extending the UXR Point of View Pyramid: A Generative AI-Augmented Methodology for Human-Centred AI Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31143" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31143" target="_blank" rel="noopener">Extending the UXR Point of View Pyramid: A Generative AI-Augmented Methodology for Human-Centred AI Systems</a></h3>
      <p class="summary">Rising household debt and cost-of-living pressures in the United Kingdom have intensified the role of AI-driven financial technologies in m…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f15ee6dd1a7d" data-article-url="https://arxiv.org/abs/2605.31145" data-article-title="FOCUS: Forcing In-Context Object Localization through Visual Support Constraints and Policy Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31145" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31145" target="_blank" rel="noopener">FOCUS: Forcing In-Context Object Localization through Visual Support Constraints and Policy Optimization</a></h3>
      <p class="summary">In-context localization (ICL) seeks to localize a target object specified by a small set of support examples in a query image, operating on…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="462e0e714ef3" data-article-url="https://arxiv.org/abs/2605.31146" data-article-title="From Evidence to Design: Developing an AI-Augmented UX Research Point of View for Digital Wellbeing in Emergency and Public Safety Contexts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31146" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31146" target="_blank" rel="noopener">From Evidence to Design: Developing an AI-Augmented UX Research Point of View for Digital Wellbeing in Emergency and Public Safety Contexts</a></h3>
      <p class="summary">This paper investigates how User Experience Research (UXR) methods can be combined with AI-supported analysis to develop clearer design dir…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cb75d2a7f356" data-article-url="https://arxiv.org/abs/2605.31147" data-article-title="Developing a Culturally Grounded, AI-Augmented UX Research Point of View (POV): An Exemplar Case Study from Telemedicine Dementia Care" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31147" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31147" target="_blank" rel="noopener">Developing a Culturally Grounded, AI-Augmented UX Research Point of View (POV): An Exemplar Case Study from Telemedicine Dementia Care</a></h3>
      <p class="summary">User Experience Research (UXR) Points of View (POVs) distil complex and often fragmented research evidence into actionable perspectives tha…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f894dfa0e8c4" data-article-url="https://arxiv.org/abs/2605.31148" data-article-title="SpatialAct: Probing Spatial Reasoning-to-Action Capabilities of VLM Agents in 3D Scenes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31148" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31148" target="_blank" rel="noopener">SpatialAct: Probing Spatial Reasoning-to-Action Capabilities of VLM Agents in 3D Scenes</a></h3>
      <p class="summary">Humans can effortlessly perceive spatial layouts, form cognitive representations, reason about spatial relations, and translate such reason…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c80d431729b1" data-article-url="https://arxiv.org/abs/2605.31149" data-article-title="Developing a UXR Point of View for Cognitive Accessibility in Mobile Learning with Generative AI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31149" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31149" target="_blank" rel="noopener">Developing a UXR Point of View for Cognitive Accessibility in Mobile Learning with Generative AI</a></h3>
      <p class="summary">This study investigates how UX research (UXR) principles, combined with Large Language Model (LLM)-supported analysis, can be used to impro…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="afaa3c26e2a8" data-article-url="https://arxiv.org/abs/2605.31159" data-article-title="Trust-Region Behavior Blending for On-Policy Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31159" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31159" target="_blank" rel="noopener">Trust-Region Behavior Blending for On-Policy Distillation</a></h3>
      <p class="summary">On-policy distillation (OPD) trains a student on prefixes sampled from its own policy while matching a stronger teacher. This addresses the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c24add51bf95" data-article-url="https://arxiv.org/abs/2605.31164" data-article-title="D$^3$: Dynamic Directional Graph-Constrained Data Scheduling for LLM Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31164" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31164" target="_blank" rel="noopener">D$^3$: Dynamic Directional Graph-Constrained Data Scheduling for LLM Training</a></h3>
      <p class="summary">Training data plays a central role in large language models (LLMs) optimization, motivating extensive research on data scheduling strategie…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="78ea61422953" data-article-url="https://arxiv.org/abs/2605.31170" data-article-title="Emergent Languages in Populations of Language Model Agents: From Token Efficiency to Oversight Evasion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31170" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31170" target="_blank" rel="noopener">Emergent Languages in Populations of Language Model Agents: From Token Efficiency to Oversight Evasion</a></h3>
      <p class="summary">Monitoring autonomous language model agents currently relies mostly on surface behavior. But what happens when agent populations invent new…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8768395bf8fc" data-article-url="https://arxiv.org/abs/2605.31171" data-article-title="MIMO: Multilingual Information Retrieval via Monolingual Objectives" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31171" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31171" target="_blank" rel="noopener">MIMO: Multilingual Information Retrieval via Monolingual Objectives</a></h3>
      <p class="summary">Multilingual Information Retrieval (MLIR) reflects real-world search environments in which queries and relevant documents may appear in dif…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ac011661f7bb" data-article-url="https://arxiv.org/abs/2605.31173" data-article-title="MindVoice: Reconstructing Intelligible Speech from Non-invasive Neural Signals with Pretrained Priors" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31173" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31173" target="_blank" rel="noopener">MindVoice: Reconstructing Intelligible Speech from Non-invasive Neural Signals with Pretrained Priors</a></h3>
      <p class="summary">Reconstructing continuous speech from non-invasive neural recordings is a fundamental problem for probing human auditory perception and bui…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cf97f5c5fa8e" data-article-url="https://arxiv.org/abs/2605.31183" data-article-title="Steering LLMs? Actually, Sparse Autoencoders can outperform simple baselines" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31183" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31183" target="_blank" rel="noopener">Steering LLMs? Actually, Sparse Autoencoders can outperform simple baselines</a></h3>
      <p class="summary">Sparse Autoencoders (SAEs) have been seen as a promising avenue for exploring the internals of Large Language Models (LLMs) and for steerin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2620d29d78f" data-article-url="https://arxiv.org/abs/2605.31196" data-article-title="Probing Collision Grounding in Vision-Language Models for Safe Human-Robot Collaboration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31196" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31196" target="_blank" rel="noopener">Probing Collision Grounding in Vision-Language Models for Safe Human-Robot Collaboration</a></h3>
      <p class="summary">Safe human--robot collaboration requires more than visual description: a monitor must determine whether the robot body is safely separated,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c695d8ab91e" data-article-url="https://arxiv.org/abs/2605.31199" data-article-title="MAECO-Lite: Modular Ontology for Dynamic Malware Analysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31199" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31199" target="_blank" rel="noopener">MAECO-Lite: Modular Ontology for Dynamic Malware Analysis</a></h3>
      <p class="summary">Capturing dynamic malware behavior in a practical but still semantically precise manner remains a significant challenge in cyber threat int…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c0de527ecd6c" data-article-url="https://arxiv.org/abs/2605.31210" data-article-title="Simulation of collision avoidance behavior in crowd movement by data-driven approach" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31210" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31210" target="_blank" rel="noopener">Simulation of collision avoidance behavior in crowd movement by data-driven approach</a></h3>
      <p class="summary">Crowd movement simulation is essential for pedestrian safety management and facility layout optimization. Data-driven models enhance trajec…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec34dd1442f6" data-article-url="https://arxiv.org/abs/2605.31212" data-article-title="Benchmarking and Enhancing Text-to-Image Models for Generating Visual Representations in Early Arithmetic Education" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31212" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31212" target="_blank" rel="noopener">Benchmarking and Enhancing Text-to-Image Models for Generating Visual Representations in Early Arithmetic Education</a></h3>
      <p class="summary">AI systems are increasingly used to support educational content creation, yet it remains unclear whether they can generate outputs that fai…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ed87e85ecca8" data-article-url="https://arxiv.org/abs/2605.31220" data-article-title="Shared Doubt: Zero-shot Cross-Lingual Confidence Estimation for Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31220" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31220" target="_blank" rel="noopener">Shared Doubt: Zero-shot Cross-Lingual Confidence Estimation for Language Models</a></h3>
      <p class="summary">Confidence estimation (CE), i.e. quantifying the reliability of a model&#x27;s prediction, has attracted great interest in the context of large…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7aa7643f8c2c" data-article-url="https://arxiv.org/abs/2605.31224" data-article-title="Comparing LLM-Based Conversational and Graphical Interfaces for Industrial Decision Tasks: An Exploratory Mixed-Methods Study" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31224" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31224" target="_blank" rel="noopener">Comparing LLM-Based Conversational and Graphical Interfaces for Industrial Decision Tasks: An Exploratory Mixed-Methods Study</a></h3>
      <p class="summary">The use of Generative AI Conversational User Interfaces (CUI) as a new way to access and analyze data is growing in all sectors, and the in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bfd3f5e74e87" data-article-url="https://arxiv.org/abs/2605.31226" data-article-title="What changes after deployment? A survey on On-device Learning in TinyML" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31226" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31226" target="_blank" rel="noopener">What changes after deployment? A survey on On-device Learning in TinyML</a></h3>
      <p class="summary">Machine learning models on microcontroller-class devices (TinyML) face a fundamental challenge: post-deployment distribution change undermi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7c0caae382d2" data-article-url="https://arxiv.org/abs/2605.31228" data-article-title="EchoRL: Reinforcement Learning via Rollout Echoing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31228" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31228" target="_blank" rel="noopener">EchoRL: Reinforcement Learning via Rollout Echoing</a></h3>
      <p class="summary">Reinforcement Learning with Verifiable Rewards is an effective route for post-training to strengthen the reasoning capability of large lang…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="60b96d241962" data-article-url="https://arxiv.org/abs/2605.31229" data-article-title="Beyond Classification: Dynamic Adapter Routing for Continual Multimodal Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31229" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31229" target="_blank" rel="noopener">Beyond Classification: Dynamic Adapter Routing for Continual Multimodal Retrieval</a></h3>
      <p class="summary">While retrieval is a core function of vision-language models, continually updating these models for retrieval tasks remains critically unde…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e4e25a3f8384" data-article-url="https://arxiv.org/abs/2605.31239" data-article-title="Correcting Split Selection in Online Decision Trees via Anytime-Valid Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31239" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31239" target="_blank" rel="noopener">Correcting Split Selection in Online Decision Trees via Anytime-Valid Inference</a></h3>
      <p class="summary">Bagging-based ensembles, most notably Adaptive Random Forests, are among the strongest performers for learning from data streams. A common…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d144f4e70aed" data-article-url="https://arxiv.org/abs/2605.31249" data-article-title="Learning Cardiac Latent Representations in Vectorcardiogram Space" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31249" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31249" target="_blank" rel="noopener">Learning Cardiac Latent Representations in Vectorcardiogram Space</a></h3>
      <p class="summary">Electrocardiography (ECG) is a cornerstone of cardiac assessment, making the learning of informative ECG representations fundamental to tas…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dfc410fd0610" data-article-url="https://arxiv.org/abs/2605.31250" data-article-title="Entropic Projection Alignment: Estimating, Explaining, and Improving Model Performance Under Distribution Shift" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31250" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31250" target="_blank" rel="noopener">Entropic Projection Alignment: Estimating, Explaining, and Improving Model Performance Under Distribution Shift</a></h3>
      <p class="summary">We propose a unified framework for addressing three key challenges of distribution shift: (1) estimating a model&#x27;s performance on an unlabe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2bb4e6ad766c" data-article-url="https://arxiv.org/abs/2605.31251" data-article-title="ERGeoBench:A Comprehensive Benchmark for Embodied Reasoning and Geo-localization in Multimodal Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31251" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31251" target="_blank" rel="noopener">ERGeoBench:A Comprehensive Benchmark for Embodied Reasoning and Geo-localization in Multimodal Large Language Models</a></h3>
      <p class="summary">Multimodal large language models (MLLMs) have shown strong potential as embodied agents, yet embodied geo-localization remains underexplore…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8375cc6de409" data-article-url="https://arxiv.org/abs/2605.31261" data-article-title="Why Linear Recurrent Memory Works in Partially Observable Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31261" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31261" target="_blank" rel="noopener">Why Linear Recurrent Memory Works in Partially Observable Reinforcement Learning</a></h3>
      <p class="summary">The family of linear recurrent neural networks has shown strong performance as recurrent memory units in partially observable reinforcement…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1ce0e9b681b2" data-article-url="https://arxiv.org/abs/2605.31266" data-article-title="Envisioning Beyond the Few: Disentangled Semantics and Primitives for Few-Shot Atypical Layout-to-Image Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31266" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31266" target="_blank" rel="noopener">Envisioning Beyond the Few: Disentangled Semantics and Primitives for Few-Shot Atypical Layout-to-Image Generation</a></h3>
      <p class="summary">The layout-to-image (L2I) task enables fine-grained control over image generation via object categories and spatial layouts. However, exist…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e1a6aacf8ab1" data-article-url="https://arxiv.org/abs/2605.31275" data-article-title="Personalized to Persuade: The Effects of Contextualization and Warmth on Trust and Reliance in Conversational AI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31275" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31275" target="_blank" rel="noopener">Personalized to Persuade: The Effects of Contextualization and Warmth on Trust and Reliance in Conversational AI</a></h3>
      <p class="summary">Artificial Intelligence (AI) agents personalize their responses by tailoring explanations to users&#x27; backgrounds, interests, and prior inter…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="24101f51c00a" data-article-url="https://arxiv.org/abs/2605.31279" data-article-title="Practical Cross-Band Channel Prediction for AI-RAN via Physics-Guided Deep Unfolding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31279" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31279" target="_blank" rel="noopener">Practical Cross-Band Channel Prediction for AI-RAN via Physics-Guided Deep Unfolding</a></h3>
      <p class="summary">To make cross-band channel prediction practical for AI-native RAN, algorithms must generalize across diverse environments and support real-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="14ff4df9adb0" data-article-url="https://arxiv.org/abs/2605.31284" data-article-title="SAM for Robust Mitochondria Instance Segmentation in Fluorescence Microscopy" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31284" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31284" target="_blank" rel="noopener">SAM for Robust Mitochondria Instance Segmentation in Fluorescence Microscopy</a></h3>
      <p class="summary">The morphological analysis of mitochondria in fluorescence microscopy (FM) is crucial for understanding cellular health, energy production,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f3a5459776ab" data-article-url="https://arxiv.org/abs/2605.31286" data-article-title="DeMaVLA: A Vision-Language-Action Foundation Model for Generalizable Deformable Manipulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31286" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31286" target="_blank" rel="noopener">DeMaVLA: A Vision-Language-Action Foundation Model for Generalizable Deformable Manipulation</a></h3>
      <p class="summary">Real-world household robots require Vision-Language-Action (VLA) foundation models that can acquire reusable manipulation skills across div…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f8422f0c941" data-article-url="https://arxiv.org/abs/2605.31287" data-article-title="Neither Replacement nor Panacea: Comparing LLM-Based Conversational and Graphical Decision Support in Industrial Tasks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31287" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31287" target="_blank" rel="noopener">Neither Replacement nor Panacea: Comparing LLM-Based Conversational and Graphical Decision Support in Industrial Tasks</a></h3>
      <p class="summary">Managers in manufacturing settings rely on digital interfaces to interpret operational data for decision-making, but growing data volume an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a6674ac6ee7e" data-article-url="https://arxiv.org/abs/2605.31289" data-article-title="The Terminal Representation in Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31289" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31289" target="_blank" rel="noopener">The Terminal Representation in Reinforcement Learning</a></h3>
      <p class="summary">Representation learning is a powerful tool for spatio-temporal abstraction within reinforcement learning (RL). Two well established approac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5619e8091ef7" data-article-url="https://arxiv.org/abs/2605.31295" data-article-title="Latent Space Disentanglement via Activation Steering for Interpretable Attribute Control in Symbolic Music Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31295" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31295" target="_blank" rel="noopener">Latent Space Disentanglement via Activation Steering for Interpretable Attribute Control in Symbolic Music Generation</a></h3>
      <p class="summary">Transformer-based architectures have significantly advanced the generation of complex symbolic sequences, yet a significant gap remains in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="29325746d5f7" data-article-url="https://arxiv.org/abs/2605.31324" data-article-title="Inconsistency-Aware Minimization: Improving Generalization with Unlabeled Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31324" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31324" target="_blank" rel="noopener">Inconsistency-Aware Minimization: Improving Generalization with Unlabeled Data</a></h3>
      <p class="summary">Estimating the generalization gap and developing optimization methods that improve generalization are crucial for deep learning models, for…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="14a09cac9d79" data-article-url="https://arxiv.org/abs/2605.31330" data-article-title="Social welfare optimisation under institutional reward and punishment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31330" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31330" target="_blank" rel="noopener">Social welfare optimisation under institutional reward and punishment</a></h3>
      <p class="summary">Institutional incentives are widely used to promote cooperation among autonomous, self-regarding agents, from human societies to multi-agen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a7b6fe0f7f1b" data-article-url="https://arxiv.org/abs/2605.31340" data-article-title="Appropriateness of Empathy in AI: A Signal-Cost Perspective" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31340" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31340" target="_blank" rel="noopener">Appropriateness of Empathy in AI: A Signal-Cost Perspective</a></h3>
      <p class="summary">The appropriateness of empathy in AI has emerged as a critical concern, as excessive empathy risks seeming manipulative while insufficient…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bb135d63f004" data-article-url="https://arxiv.org/abs/2605.31349" data-article-title="FBHM: Functional Benchmarking and Steering of VLMs for Hateful Meme Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31349" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31349" target="_blank" rel="noopener">FBHM: Functional Benchmarking and Steering of VLMs for Hateful Meme Detection</a></h3>
      <p class="summary">Hateful meme detection remains a formidable challenge for vision-language models, as existing benchmarks are structurally observational - c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="50a99d7e0270" data-article-url="https://arxiv.org/abs/2605.31360" data-article-title="dashi: A Python library for Dataset Shift Characterization to Support Trustworthy AI Development and Deployment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31360" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31360" target="_blank" rel="noopener">dashi: A Python library for Dataset Shift Characterization to Support Trustworthy AI Development and Deployment</a></h3>
      <p class="summary">The Artificial Intelligence (AI) life cycle requires a thorough understanding of the underlying data dynamics for robust, safe and cost-eff…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6205ddca4da2" data-article-url="https://arxiv.org/abs/2605.31361" data-article-title="Dreaming Of Others: Latent Teammate Modeling In World Models For Multi-Agent Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31361" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31361" target="_blank" rel="noopener">Dreaming Of Others: Latent Teammate Modeling In World Models For Multi-Agent Reinforcement Learning</a></h3>
      <p class="summary">In cooperative multi-agent reinforcement learning (MARL), agents must coordinate with partners whose internal policies and intentions are n…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8265dca1c7a4" data-article-url="https://arxiv.org/abs/2605.31373" data-article-title="Scaling Higher-Order Graph Learning with Maximal Clique Complexes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31373" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31373" target="_blank" rel="noopener">Scaling Higher-Order Graph Learning with Maximal Clique Complexes</a></h3>
      <p class="summary">Graph neural networks (GNNs) are limited to modeling pairwise interactions, while higher-order models based on cell complexes achieve great…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6b4f1cc91347" data-article-url="https://arxiv.org/abs/2605.31377" data-article-title="DynaTree: Dynamic Agentic Retrieval Tree for Time-Sensitive News Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31377" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31377" target="_blank" rel="noopener">DynaTree: Dynamic Agentic Retrieval Tree for Time-Sensitive News Retrieval</a></h3>
      <p class="summary">Agentic Retrieval-Augmented Generation improves retrieval by integrating planning, tool use, and iterative reasoning, but existing agentic…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4ebae4bf59e8" data-article-url="https://arxiv.org/abs/2605.31393" data-article-title="Target-Side Paraphrase Augmentation for Sign Language Translation with Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31393" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31393" target="_blank" rel="noopener">Target-Side Paraphrase Augmentation for Sign Language Translation with Large Language Models</a></h3>
      <p class="summary">Sign language translation (SLT) remains constrained by limited paired sign-video/text corpora and heavy-tailed target vocabularies. We stud…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="05da1e28083b" data-article-url="https://arxiv.org/abs/2605.31404" data-article-title="The Sword, Shield, and Achilles&#x27; Heel: Characterizing the Linguistic Inductive Bias of Large Language Models for Spatial Reasoning in Navigation Planning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31404" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31404" target="_blank" rel="noopener">The Sword, Shield, and Achilles&#x27; Heel: Characterizing the Linguistic Inductive Bias of Large Language Models for Spatial Reasoning in Navigation Planning</a></h3>
      <p class="summary">Large Language Model (LLM)-based navigation systems commonly construct explicit spatial representations (e.g., topological graphs, semantic…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3000be3f6a13" data-article-url="https://arxiv.org/abs/2605.31408" data-article-title="Skill Availability and Presentation Granularity in Large-Language-Model Agents: A Controlled SkillsBench Study" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31408" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31408" target="_blank" rel="noopener">Skill Availability and Presentation Granularity in Large-Language-Model Agents: A Controlled SkillsBench Study</a></h3>
      <p class="summary">Skill documents provide procedural knowledge to large-language-model agents at inference time. This article studies whether the presentatio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0d3e60e2dafa" data-article-url="https://arxiv.org/abs/2605.31421" data-article-title="Neuro-symbolic Syntactic Parsing: Shaping a Neural Network with the CYK Algorithm" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31421" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31421" target="_blank" rel="noopener">Neuro-symbolic Syntactic Parsing: Shaping a Neural Network with the CYK Algorithm</a></h3>
      <p class="summary">In this paper, we show the possibility of a direct injection of algorithms into neural network architecture. We focus on a complex algorith…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f1953efad10b" data-article-url="https://arxiv.org/abs/2605.31432" data-article-title="DOA: Training-Free Decoder-Only Attention Policy for Long-Form Simultaneous Translation with SpeechLLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31432" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31432" target="_blank" rel="noopener">DOA: Training-Free Decoder-Only Attention Policy for Long-Form Simultaneous Translation with SpeechLLMs</a></h3>
      <p class="summary">Simultaneous speech-to-text translation (SimulST) generates translations while speech is still unfolding, requiring a streaming policy that…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ef26117fa060" data-article-url="https://arxiv.org/abs/2605.31445" data-article-title="Used Car Salesbots? Honesty and Credulity of LLMs as Bargaining Agents under Partial Information" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31445" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31445" target="_blank" rel="noopener">Used Car Salesbots? Honesty and Credulity of LLMs as Bargaining Agents under Partial Information</a></h3>
      <p class="summary">In this work we study agents in simulated bargaining scenarios, where a buyer and a seller communicate through a text channel and attempt t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d63e63bad85d" data-article-url="https://arxiv.org/abs/2605.31446" data-article-title="Fine-grained Verification via Diagnostic Reasoning Supervision for Aspect Sentiment Triplet Extraction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31446" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31446" target="_blank" rel="noopener">Fine-grained Verification via Diagnostic Reasoning Supervision for Aspect Sentiment Triplet Extraction</a></h3>
      <p class="summary">Aspect Sentiment Triplet Extraction (ASTE) aims to identify aspect terms, opinion terms, and sentiment polarities as structured triplets, p…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="81ad8666e05b" data-article-url="https://arxiv.org/abs/2605.31463" data-article-title="PithTrain: A Compact and Agent-Native MoE Training System" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31463" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31463" target="_blank" rel="noopener">PithTrain: A Compact and Agent-Native MoE Training System</a></h3>
      <p class="summary">Mixture-of-Experts (MoE) has become the dominant architecture for frontier language models. To meet this demand, production frameworks have…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2d3f3b774b0a" data-article-url="https://arxiv.org/abs/2605.31464" data-article-title="GPU Forecasters: Language Models as Selective Surrogates for Kernel Runtime Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31464" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31464" target="_blank" rel="noopener">GPU Forecasters: Language Models as Selective Surrogates for Kernel Runtime Optimization</a></h3>
      <p class="summary">GPU kernels are the workhorse of modern deep learning, and optimizing them (via evolutionary search or coding agents) usually requires repe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8d3c31d30859" data-article-url="https://arxiv.org/abs/2605.31469" data-article-title="Scaling Conversational Hungarian ASR: The BEA-Dialogue+ Corpus" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31469" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31469" target="_blank" rel="noopener">Scaling Conversational Hungarian ASR: The BEA-Dialogue+ Corpus</a></h3>
      <p class="summary">Conversational automatic speech recognition in Hungarian is constrained by the limited amount of publicly available dialogue-style training…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3585928111d7" data-article-url="https://arxiv.org/abs/2605.31500" data-article-title="On Efficient Scaling of GNNs via IO-Aware Layers Implementations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31500" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31500" target="_blank" rel="noopener">On Efficient Scaling of GNNs via IO-Aware Layers Implementations</a></h3>
      <p class="summary">Graph Neural Networks (GNNs) are bottlenecked by sparse, irregular memory access. Popular frameworks such as DGL and PyTorch Geometric supp…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bd968111a855" data-article-url="https://arxiv.org/abs/2605.31509" data-article-title="Skill Reuse as Compression in Agentic RL" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31509" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31509" target="_blank" rel="noopener">Skill Reuse as Compression in Agentic RL</a></h3>
      <p class="summary">Large language model agents trained with reinforcement learning (RL) often learn brittle, task-specific shortcuts. We hypothesize that agen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f94411610bec" data-article-url="https://arxiv.org/abs/2605.31514" data-article-title="If LLMs Have Human-Like Attributes, Then So Does Age of Empires II" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31514" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31514" target="_blank" rel="noopener">If LLMs Have Human-Like Attributes, Then So Does Age of Empires II</a></h3>
      <p class="summary">Much research has been carried out on large language models (LLMs) and LLM-powered agentic workflows. However, many works within the field…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3123cb9dbc04" data-article-url="https://arxiv.org/abs/2605.31520" data-article-title="Separating Secrets from Placeholders: A Hybrid CNN-CodeBERT Framework for Three-Class Credential Leakage Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31520" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31520" target="_blank" rel="noopener">Separating Secrets from Placeholders: A Hybrid CNN-CodeBERT Framework for Three-Class Credential Leakage Detection</a></h3>
      <p class="summary">Credential leakage in public source code repositories poses a critical security threat, with over 23.8 million secrets exposed in 2024 alon…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f1ef120c3aae" data-article-url="https://arxiv.org/abs/2605.31534" data-article-title="Feature-Optimized Vision for Adaptive 3D Scene Reconstruction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31534" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31534" target="_blank" rel="noopener">Feature-Optimized Vision for Adaptive 3D Scene Reconstruction</a></h3>
      <p class="summary">Three-dimensional scene reconstruction depends on local image evidence that is both visually discriminative and geometrically useful. Fixed…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1b3ede9175ca" data-article-url="https://arxiv.org/abs/2605.31535" data-article-title="RayDer: Scalable Self-Supervised Novel View Synthesis from Real-World Video" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31535" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31535" target="_blank" rel="noopener">RayDer: Scalable Self-Supervised Novel View Synthesis from Real-World Video</a></h3>
      <p class="summary">Self-supervised novel view synthesis (NVS) remains challenging to scale, despite the abundance of video data, largely due to the brittlenes…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9c4eaa7829dc" data-article-url="https://arxiv.org/abs/2605.31556" data-article-title="Vision-Language Models Suppress Female Representations Under Ambiguous Input" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31556" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31556" target="_blank" rel="noopener">Vision-Language Models Suppress Female Representations Under Ambiguous Input</a></h3>
      <p class="summary">Alignment teaches vision-language models (VLMs) to avoid expressing demographic biases, and when gender is clearly visible they largely suc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="65bba86ed6ce" data-article-url="https://arxiv.org/abs/2605.31558" data-article-title="Positional versus Symbolic Attention Heads: Learning Dynamics, RoPE Geometry, and Length Generalization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31558" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31558" target="_blank" rel="noopener">Positional versus Symbolic Attention Heads: Learning Dynamics, RoPE Geometry, and Length Generalization</a></h3>
      <p class="summary">Transformer-based language models are widespread in today&#x27;s society. As such, understanding the mechanisms by which they solve structured t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3a88b9e1355e" data-article-url="https://arxiv.org/abs/2605.31564" data-article-title="What Gets Unmasked First? Trajectory Analysis of Diffusion Models for Graph-to-Text Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31564" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31564" target="_blank" rel="noopener">What Gets Unmasked First? Trajectory Analysis of Diffusion Models for Graph-to-Text Generation</a></h3>
      <p class="summary">We present the first systematic study of masked diffusion language models (MDLMs) for graph-to-text generation. We analyze MDLM generation…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3e4356a216f0" data-article-url="https://arxiv.org/abs/2605.31575" data-article-title="SPECTRA: Synthetic IR Test Collections with Relevance Oracles and Controlled Distractor Diagnostics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31575" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31575" target="_blank" rel="noopener">SPECTRA: Synthetic IR Test Collections with Relevance Oracles and Controlled Distractor Diagnostics</a></h3>
      <p class="summary">Scalable information retrieval testing needs corpora that are large enough to stress index construction, ranking latency, query routing, an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="848b20877d76" data-article-url="https://arxiv.org/abs/2605.31584" data-article-title="LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31584" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31584" target="_blank" rel="noopener">LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards</a></h3>
      <p class="summary">Long-context reasoning remains a central challenge for large language models, which often fail to locate and integrate key information in e…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f55c40e41af8" data-article-url="https://arxiv.org/abs/2605.31586" data-article-title="Language Models Learn Constructional Semantics, Not To Mention Syntax: Investigating LM Understanding of Paired-Focus Constructions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31586" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31586" target="_blank" rel="noopener">Language Models Learn Constructional Semantics, Not To Mention Syntax: Investigating LM Understanding of Paired-Focus Constructions</a></h3>
      <p class="summary">Grasping the semantics of rare constructions (form-meaning pairings) has been shown to be a challenging problem that has currently only bee…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="74be1523a177" data-article-url="https://arxiv.org/abs/2605.31590" data-article-title="TunerDiT: Training-free Progressive Steering of Diffusion Transformer for Multi-Event Video Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31590" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31590" target="_blank" rel="noopener">TunerDiT: Training-free Progressive Steering of Diffusion Transformer for Multi-Event Video Generation</a></h3>
      <p class="summary">Text-to-video (T2V) generation faces challenging questions when generating videos with long horizons containing multiple events. Inspired b…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="85802f37c52e" data-article-url="https://arxiv.org/abs/2605.31593" data-article-title="Stateful Online Monitoring Catches Distributed Agent Attacks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31593" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31593" target="_blank" rel="noopener">Stateful Online Monitoring Catches Distributed Agent Attacks</a></h3>
      <p class="summary">Language models can find thousands of severe software vulnerabilities, and agents are increasingly being misused for cyberattacks. To avoid…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4bd20c4770e8" data-article-url="https://arxiv.org/abs/2605.31603" data-article-title="Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent Space for Video Unified Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.31603" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.31603" target="_blank" rel="noopener">Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent Space for Video Unified Models</a></h3>
      <p class="summary">Connector-based video unified models have demonstrated strong capability in instruction-grounded video synthesis, but integrating a large h…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="476573fb21f7" data-article-url="https://arxiv.org/abs/2409.14583" data-article-title="LLM Bias Evaluation: Gender, Racial, and Age Disparities in Occupational and Crime Scenarios" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2409.14583" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2409.14583" target="_blank" rel="noopener">LLM Bias Evaluation: Gender, Racial, and Age Disparities in Occupational and Crime Scenarios</a></h3>
      <p class="summary">LLM bias evaluation is critical as large language models (LLMs) increasingly influence high-stakes decisions. This paper provides a compreh…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c39b12f7b5cd" data-article-url="https://arxiv.org/abs/2502.04554" data-article-title="Unifying and Optimizing Data Values for Selection via Sequential Decision-Making" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.04554" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.04554" target="_blank" rel="noopener">Unifying and Optimizing Data Values for Selection via Sequential Decision-Making</a></h3>
      <p class="summary">Data selection has emerged as a crucial downstream application of data valuation, yet the theoretical foundations for using data values in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="54bf1d7edaab" data-article-url="https://arxiv.org/abs/2502.04671" data-article-title="ProofWala: A Framework for Multilingual Proof Data Synthesis and Theorem-Proving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.04671" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.04671" target="_blank" rel="noopener">ProofWala: A Framework for Multilingual Proof Data Synthesis and Theorem-Proving</a></h3>
      <p class="summary">Neural approaches to theorem proving require robust infrastructure for interfacing with interactive theorem provers (ITPs), extracting stru…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d5fdb8cf764e" data-article-url="https://arxiv.org/abs/2503.08679" data-article-title="Chain-of-Thought Reasoning In The Wild Is Not Always Faithful" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.08679" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.08679" target="_blank" rel="noopener">Chain-of-Thought Reasoning In The Wild Is Not Always Faithful</a></h3>
      <p class="summary">Recent studies indicate that when faced with explicit biases in prompts, models often omit mentioning these biases in their Chain-of-Though…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="473e05d09f8c" data-article-url="https://arxiv.org/abs/2503.14190" data-article-title="Inferring Events from Time Series using Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.14190" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.14190" target="_blank" rel="noopener">Inferring Events from Time Series using Language Models</a></h3>
      <p class="summary">A common goal in analyzing time series data is to understand how events cause observed variations. We study whether Large Language Models (…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a1b75c2846d2" data-article-url="https://arxiv.org/abs/2505.17607" data-article-title="Symbolic Intermediaries as a Linguistic-Numerical Interface for LLM-Driven Geometric Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.17607" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.17607" target="_blank" rel="noopener">Symbolic Intermediaries as a Linguistic-Numerical Interface for LLM-Driven Geometric Reasoning</a></h3>
      <p class="summary">Large Language Models (LLMs) display reasoning capabilities over linguistic and symbolic objects but have limited capabilities to directly…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6ed552daa979" data-article-url="https://arxiv.org/abs/2507.05488" data-article-title="OLG++: A Semantic Extension of Obligation Logic Graph" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.05488" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.05488" target="_blank" rel="noopener">OLG++: A Semantic Extension of Obligation Logic Graph</a></h3>
      <p class="summary">We present OLG++, a semantic extension of the Obligation Logic Graph (OLG) for modeling regulatory and legal rules in municipal and interju…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c03f4915c34" data-article-url="https://arxiv.org/abs/2509.00834" data-article-title="Neuro-Symbolic Predictive Process Monitoring" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.00834" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.00834" target="_blank" rel="noopener">Neuro-Symbolic Predictive Process Monitoring</a></h3>
      <p class="summary">This paper addresses the problem of suffix prediction in Business Process Management (BPM) by proposing a Neuro-Symbolic Predictive Process…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c855d1090d14" data-article-url="https://arxiv.org/abs/2510.02060" data-article-title="ReTabAD: A Benchmark for Restoring Semantic Context in Tabular Anomaly Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.02060" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.02060" target="_blank" rel="noopener">ReTabAD: A Benchmark for Restoring Semantic Context in Tabular Anomaly Detection</a></h3>
      <p class="summary">In tabular anomaly detection (AD), textual semantics often carry critical signals, as the definition of an anomaly is closely tied to domai…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="131e8ac1b873" data-article-url="https://arxiv.org/abs/2510.05115" data-article-title="SAC-Opt: Semantic Anchors for Iterative Correction in Optimization Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.05115" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.05115" target="_blank" rel="noopener">SAC-Opt: Semantic Anchors for Iterative Correction in Optimization Modeling</a></h3>
      <p class="summary">Large language models (LLMs) have opened new paradigms in optimization modeling by enabling the generation of executable solver code from n…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a30436658dc8" data-article-url="https://arxiv.org/abs/2511.04393" data-article-title="Post-Training LLMs as Better Decision-Making Agents: A Regret-Minimization Approach" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.04393" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.04393" target="_blank" rel="noopener">Post-Training LLMs as Better Decision-Making Agents: A Regret-Minimization Approach</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly deployed as &quot;agents&quot; for decision-making (DM) in interactive and dynamic environments. Yet, s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb41ea232ed3" data-article-url="https://arxiv.org/abs/2511.18760" data-article-title="HERMES: Towards Efficient and Verifiable Mathematical Reasoning in LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.18760" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.18760" target="_blank" rel="noopener">HERMES: Towards Efficient and Verifiable Mathematical Reasoning in LLMs</a></h3>
      <p class="summary">Informal mathematics has been central to modern large language model (LLM) reasoning, offering flexibility and efficient construction of ar…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1e62640da5fc" data-article-url="https://arxiv.org/abs/2512.00349" data-article-title="Debate with Images: Detecting Deceptive Behaviors in Multimodal Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.00349" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.00349" target="_blank" rel="noopener">Debate with Images: Detecting Deceptive Behaviors in Multimodal Large Language Models</a></h3>
      <p class="summary">Are frontier AI systems becoming more capable? Certainly. Yet such progress is not an unalloyed blessing but rather a Trojan horse: behind…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b971d6a54a4e" data-article-url="https://arxiv.org/abs/2512.13996" data-article-title="DTop-p MoE: Sparsity-Controlled Dynamic Top-p MoE for Foundation Model Pre-training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.13996" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.13996" target="_blank" rel="noopener">DTop-p MoE: Sparsity-Controlled Dynamic Top-p MoE for Foundation Model Pre-training</a></h3>
      <p class="summary">Sparse Mixture-of-Experts architectures are essential for scaling model capacity efficiently, yet the standard Top-$k$ routing imposes a ri…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b13a4adc3449" data-article-url="https://arxiv.org/abs/2512.23292" data-article-title="Agentic Physical AI toward a Domain-Specific Foundation Model for Energy Systems: A Case Study on Nuclear Reactor Control" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.23292" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.23292" target="_blank" rel="noopener">Agentic Physical AI toward a Domain-Specific Foundation Model for Energy Systems: A Case Study on Nuclear Reactor Control</a></h3>
      <p class="summary">The prevailing paradigm in AI for physical systems: scaling general-purpose foundation models toward universal multimodal reasoning, confro…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c8cc4312d757" data-article-url="https://arxiv.org/abs/2512.23626" data-article-title="Regret-Based Federated Causal Discovery with Unknown Interventions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.23626" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.23626" target="_blank" rel="noopener">Regret-Based Federated Causal Discovery with Unknown Interventions</a></h3>
      <p class="summary">Most causal discovery methods recover a completed partially directed acyclic graph representing a Markov equivalence class from observation…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b8cb1f73fb07" data-article-url="https://arxiv.org/abs/2601.06453" data-article-title="ConSensus: Multi-Agent Collaboration for Multimodal Sensing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.06453" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.06453" target="_blank" rel="noopener">ConSensus: Multi-Agent Collaboration for Multimodal Sensing</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly grounded in sensor data to perceive and reason about human physiology and the physical world.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ce23a5cbf7ed" data-article-url="https://arxiv.org/abs/2601.21372" data-article-title="NEMO: Execution-Aware Optimization Modeling via Autonomous Coding Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.21372" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.21372" target="_blank" rel="noopener">NEMO: Execution-Aware Optimization Modeling via Autonomous Coding Agents</a></h3>
      <p class="summary">We present NEMO, a system that translates Natural-language descriptions of decision problems into formal Executable Mathematical Optimizati…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="46baf8eb0007" data-article-url="https://arxiv.org/abs/2602.00521" data-article-title="Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.00521" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.00521" target="_blank" rel="noopener">Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory</a></h3>
      <p class="summary">While LLM-as-a-Judge is widely used in automated evaluation, existing validation practices primarily operate at the level of observed outpu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ffcff406d1a" data-article-url="https://arxiv.org/abs/2602.07253" data-article-title="From Out-of-Distribution Detection to Hallucination Detection: A Geometric View" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.07253" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.07253" target="_blank" rel="noopener">From Out-of-Distribution Detection to Hallucination Detection: A Geometric View</a></h3>
      <p class="summary">Detecting hallucinations in large language models is a critical open problem with significant implications for safety and reliability. Whil…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="89d5c90f1532" data-article-url="https://arxiv.org/abs/2602.07905" data-article-title="MedCoG: Maximizing LLM Inference Density in Medical Reasoning via Meta-Cognitive Regulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.07905" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.07905" target="_blank" rel="noopener">MedCoG: Maximizing LLM Inference Density in Medical Reasoning via Meta-Cognitive Regulation</a></h3>
      <p class="summary">Large Language Models (LLMs) have shown strong potential in complex medical reasoning yet face diminishing gains under inference scaling la…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5fe77c228b86" data-article-url="https://arxiv.org/abs/2602.10324" data-article-title="Discovering Differences in Strategic Behavior Between Humans and LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.10324" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.10324" target="_blank" rel="noopener">Discovering Differences in Strategic Behavior Between Humans and LLMs</a></h3>
      <p class="summary">As Large Language Models (LLMs) are increasingly deployed in social and strategic scenarios, it becomes critical to understand where and wh…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="59293a36fdf4" data-article-url="https://arxiv.org/abs/2602.22968" data-article-title="Certified Circuits: Stability Guarantees for Mechanistic Circuits" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.22968" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.22968" target="_blank" rel="noopener">Certified Circuits: Stability Guarantees for Mechanistic Circuits</a></h3>
      <p class="summary">Understanding how neural networks arrive at their predictions is essential for debugging, auditing, and deployment. Mechanistic interpretab…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4af207866e44" data-article-url="https://arxiv.org/abs/2602.22971" data-article-title="SPM-Bench: Benchmarking Large Language Models for Scanning Probe Microscopy" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.22971" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.22971" target="_blank" rel="noopener">SPM-Bench: Benchmarking Large Language Models for Scanning Probe Microscopy</a></h3>
      <p class="summary">As LLMs achieved breakthroughs in general reasoning, their proficiency in specialized scientific domains reveals pronounced gaps in existin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f872f1c79406" data-article-url="https://arxiv.org/abs/2603.18382" data-article-title="From Weak Cues to Real Identities: Evaluating Inference-Driven De-Anonymization in LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.18382" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.18382" target="_blank" rel="noopener">From Weak Cues to Real Identities: Evaluating Inference-Driven De-Anonymization in LLM Agents</a></h3>
      <p class="summary">Anonymization is often assumed to protect privacy once explicit identifiers are removed, because re-identification has historically require…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5776be3db12e" data-article-url="https://arxiv.org/abs/2603.21558" data-article-title="Reliable Self-Improvement Training by Verifying Reasoning, Not Just Answers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.21558" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.21558" target="_blank" rel="noopener">Reliable Self-Improvement Training by Verifying Reasoning, Not Just Answers</a></h3>
      <p class="summary">Self-improvement training, where models learn from self-generated solutions, promises sustained capability gains but suffers from a pervasi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="430e750006ae" data-article-url="https://arxiv.org/abs/2603.21563" data-article-title="Counterfactual Credit Policy Optimization for Multi-Agent Collaboration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.21563" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.21563" target="_blank" rel="noopener">Counterfactual Credit Policy Optimization for Multi-Agent Collaboration</a></h3>
      <p class="summary">Collaborative multi-agent large language models (LLMs) can solve complex reasoning tasks by decomposing roles, but reinforcement learning f…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="babbd1ef5494" data-article-url="https://arxiv.org/abs/2603.22744" data-article-title="LH-Bench: Skill-Grounded Evaluation of Long-Horizon Agents on Subjective Enterprise Tasks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.22744" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.22744" target="_blank" rel="noopener">LH-Bench: Skill-Grounded Evaluation of Long-Horizon Agents on Subjective Enterprise Tasks</a></h3>
      <p class="summary">Large language models excel on objectively verifiable tasks such as math and programming, where evaluation reduces to unit tests or a singl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="91ddcd72a0bf" data-article-url="https://arxiv.org/abs/2604.16278" data-article-title="Learning to Reason with Insight for Informal Theorem Proving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.16278" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.16278" target="_blank" rel="noopener">Learning to Reason with Insight for Informal Theorem Proving</a></h3>
      <p class="summary">Although most of the automated theorem-proving approaches depend on formal proof systems, informal theorem proving can align better with la…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c95ea8a3ab5" data-article-url="https://arxiv.org/abs/2604.16922" data-article-title="ClimAgent: LLM as Agents for Autonomous Open-ended Climate Science Analysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.16922" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.16922" target="_blank" rel="noopener">ClimAgent: LLM as Agents for Autonomous Open-ended Climate Science Analysis</a></h3>
      <p class="summary">Climate research is pivotal for mitigating global environmental crises, yet the accelerating volume of multi-scale datasets and the complex…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3782b0f81e5b" data-article-url="https://arxiv.org/abs/2605.01134" data-article-title="To Use AI as Dice of Possibilities with Timing Computation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.01134" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.01134" target="_blank" rel="noopener">To Use AI as Dice of Possibilities with Timing Computation</a></h3>
      <p class="summary">The dominant noun-based modeling paradigm has fundamentally constrained AI development, precluding any adequate representation of the futur…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2a4605a9e3a8" data-article-url="https://arxiv.org/abs/2605.11946" data-article-title="Counterfactual Trace Auditing of LLM Agent Skills" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.11946" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.11946" target="_blank" rel="noopener">Counterfactual Trace Auditing of LLM Agent Skills</a></h3>
      <p class="summary">Large Language Model agents are increasingly augmented with agent skills. Current evaluation methods for skills remain limited. Most deploy…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ae724f4c9214" data-article-url="https://arxiv.org/abs/2605.14211" data-article-title="ASH: Agents that Self-Hone via Embodied Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.14211" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.14211" target="_blank" rel="noopener">ASH: Agents that Self-Hone via Embodied Learning</a></h3>
      <p class="summary">Long-horizon embodied tasks remain a fundamental challenge in AI, as current methods rely on hand-engineered rewards or action-labeled demo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ad8631c54f52" data-article-url="https://arxiv.org/abs/2605.16215" data-article-title="Fully Open Meditron: An Auditable Pipeline for Clinical LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.16215" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.16215" target="_blank" rel="noopener">Fully Open Meditron: An Auditable Pipeline for Clinical LLMs</a></h3>
      <p class="summary">Clinical decision support systems (CDSS) require scrutable, auditable pipelines that enable rigorous, reproducible validation. Yet current…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4c72ef71b72" data-article-url="https://arxiv.org/abs/2605.20873" data-article-title="PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.20873" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.20873" target="_blank" rel="noopener">PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models</a></h3>
      <p class="summary">Planning is a fundamental capability for large language models (LLMs) because such complex tasks require models to coordinate goals, constr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4cb3311ec7f6" data-article-url="https://arxiv.org/abs/2605.21168" data-article-title="ScenePilot: Controllable Boundary-Driven Critical Scenario Generation for Autonomous Driving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.21168" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.21168" target="_blank" rel="noopener">ScenePilot: Controllable Boundary-Driven Critical Scenario Generation for Autonomous Driving</a></h3>
      <p class="summary">Safety-critical scenarios are central to evaluating autonomous driving systems, yet their rarity in naturalistic logs makes simulation-base…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0bd00219ed27" data-article-url="https://arxiv.org/abs/2605.23937" data-article-title="BoxLitE: 凸最適化に基づく忠実なナレッジベースの埋め込み" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.23937" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.23937" target="_blank" rel="noopener">BoxLitE: 凸最適化に基づく忠実なナレッジベースの埋め込み</a></h3>
      <p class="summary">ナレッジ ベース (KB) エンベディングは、ファクトに存在する情報 (ABox) を一般化する古典的なナレッジ グラフ エンベディングの機能と、オントロジー言語 (TBox) で表現される概念的知識を組み合わせることを目的としています。最近、何人かの著者が、概念をベクトル空間の凸領域にマッピングするというアイデアを研究しました。これは、より一般的な概念を、より具体的な概念に関連付けられた領域を含む、より大きな領域にマッピングできるため、通常は TBox に存在する階層を表すのに役立ちます。ただし、実際の学習タスク中に凸性の力が活用されることはほとんどありません。ここでは、凸最適化を可能にする DL-Lite$^{\mathcal{H}}$ の KB 埋め込みモデルである BoxLitE を紹介します。満足可能な DL-Lite$^{\mathcal{H}}$ KB に対して、忠実度が低いモデルである BoxLitE 埋め込みが存在することを示します。概念実証として、KB 埋め込みタスクを凸最適化問題として定式化する方法と、そのような望ましい忠実性特性を備えた埋め込みを取得する方法を示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BoxLitE: A Faithful Knowledge Base Embedding Based on Convex Optimization</p>
        <p class="orig-summary">Knowledge base (KB) embeddings aim at combining the capability of classical knowledge graph embeddings to generalize the information present in facts, the ABox, with conceptual knowledge represented in an ontology language, the TBox. Several authors have recently explored the idea of mapping concepts to convex regions in a vector space. This is useful to represent hierarchies, typically present in TBoxes, since more general concepts can be mapped to larger regions, containing those regions associated with more specific concepts. However, the power of convexity is rarely leveraged during the actual learning tasks. Here, we introduce BoxLitE, a KB embedding model for DL-Lite$^{\mathcal{H}}$ that allows for convex optimization. We show that for any satisfiable DL-Lite$^{\mathcal{H}}$ KB, there is a BoxLitE embedding that is a weakly faithful model. As a proof of concept, we show how to formulate the KB embedding task as a convex optimization problem and how to obtain embeddings with such desirable faithfulness properties.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f04c05287793" data-article-url="https://arxiv.org/abs/2605.25842" data-article-title="MuCRASP: マルチモーダル思考連鎖推論を意識した構造化プルーニング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25842" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25842" target="_blank" rel="noopener">MuCRASP: マルチモーダル思考連鎖推論を意識した構造化プルーニング</a></h3>
      <p class="summary">ビジョン言語モデル (VLM) は、複雑なマルチモーダル タスクを解決するために、思考連鎖 (CoT) 推論への依存度が高まっていますが、パラメータ サイズが大きいため、導入コストが高くなります。構造化された剪定は自然な解決策を提供します。ただし、既存の方法では、VLM での CoT 推論の精度を維持できません。我々は 2 つの主な理由を特定します。(1) CoT の一貫性は生成軌跡内の疎な遷移点 (ピボット トークン) に依存しますが、既存のプルーニング手法は CoT に依存しません。 (2) 単峰性 LLM 用に設計された枝刈り手法は、視覚的モダリティとテキスト モダリティ間の活性化分布の違いを考慮していません。これらの観察に動機付けられて、我々は、クロスモーダル調整を維持し、グローバルパラメータバジェットの下で層ごとの感度を考慮しながら、推論に重要なコンポーネントをターゲットにする構造化プルーニングフレームワークである MuCRASP を提案します。 3 つの推論ベンチマークにわたる 4 つの VLM での実験では、MuCRASP が圧縮を増加しても推論の品質を一貫して維持することが示されています。 Qwen2.5-VL-7B で 30% プルーニングを行った場合、MuCRASP は、物理的推論タスクで最も強いベースラインの 7.32 に対して、8.87 の LLM-as-a-Judge スコアを達成しました。さらに、MuCRASP は、最大 50% の枝刈りまで高い推論の一貫性を維持し、以前の枝刈りアプローチを大幅に上回るパフォーマンスを示しながら、複雑さの低下を抑えます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MuCRASP: Multimodal Chain-of-thought Reasoning aware Structured Pruning</p>
        <p class="orig-summary">Vision-language models (VLMs) increasingly rely on chain-of-thought (CoT) reasoning to solve complex multimodal tasks, but their large parameter sizes make deployment expensive. Structured pruning offers a natural solution; however, existing methods fail to preserve CoT reasoning accuracy in VLMs. We identify two key reasons: (1) CoT consistency depends on sparse transition points (pivot tokens) in the generation trajectory, while existing pruning methods are CoT-agnostic; and (2) pruning methods designed for unimodal LLMs do not account for activation-distribution differences across visual and textual modalities. Motivated by these observations, we propose MuCRASP, a structured pruning framework that targets reasoning-critical components while preserving cross-modal alignment and accounting for layer-wise sensitivity under a global parameter budget. Experiments on four VLMs across three reasoning benchmarks show that MuCRASP consistently preserves reasoning quality under increasing compression. At 30% pruning on Qwen2.5-VL-7B, MuCRASP achieves an LLM-as-a-Judge score of 8.87 versus 7.32 for the strongest baseline on physical reasoning tasks. Furthermore, MuCRASP maintains high reasoning consistency up to 50% pruning, significantly outperforming prior pruning approaches while exhibiting lower perplexity degradation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="49fd25fe52a6" data-article-url="https://arxiv.org/abs/2605.26371" data-article-title="オフライン階層型 RL での再利用可能なスキルのためのローカル ダイナミクスの規則性の活用" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26371" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26371" target="_blank" rel="noopener">オフライン階層型 RL での再利用可能なスキルのためのローカル ダイナミクスの規則性の活用</a></h3>
      <p class="summary">階層型強化学習 (HRL) は、時間的に拡張されたスキルを発見して再利用することにより、非階層型のタスクよりも効率的に長期的な強化学習 (RL) タスクを解決することを約束します。ただし、実際に再利用可能なスキルを取得することは依然として課題です。この目的に向けて、私たちはローカルダイナミクスの直観を活用する抽象化に焦点を当てます。異なるグローバルコンテキストにおけるローカル遷移には、同様の種類のアクションシーケンスが必要です。これらのコンテキストを必要なアクション シーケンスに合わせることで、どのスキルを再利用するか、どこで再利用するかを学習できます。原則として、この情報は、高レベルのポリシーが使用する低レベルのスキルを推論する必要がある多くの HRL アルゴリズムに役立つはずです。結果として得られたアルゴリズム CARL (Contrastive Action-based Representations for Reusable Local Control) は、複雑なヒューマノイド環境における有意義なスキルの定性的なクラスタリングと、HIQL と統合した場合の OGBench ベンチマークでのダウンストリーム パフォーマンスの向上の両方を示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Exploiting Local Dynamics Regularity for Reusable Skills in Offline Hierarchical RL</p>
        <p class="orig-summary">Hierarchical Reinforcement Learning (HRL) promises to solve long-horizon Reinforcement Learning (RL) tasks more efficiently than non-hierarchical counterparts by discovering and reusing temporally-extended skills. However, obtaining skills that are actually reusable remains an open challenge. Towards this end, we focus on abstractions that exploit the intuition of local dynamics: local transitions in different global contexts require similar kinds of action sequences. By aligning these contexts with the action sequences they require, we are able to learn which skills to reuse and where to reuse them. In principle, this information should benefit many HRL algorithms, where high-level policies have to reason about the low-level skills they use. The resulting algorithm CARL (Contrastive Action-based Representations for Reusable Local Control) shows both qualitative clustering of meaningful skills in complex humanoid environments and improved downstream performance on the OGBench benchmark when integrated with HIQL.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="96f718db4619" data-article-url="https://arxiv.org/abs/2605.26396" data-article-title="大規模なマルチモーダル モデルにおける創造的な物理的インテリジェンスの進歩" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26396" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26396" target="_blank" rel="noopener">大規模なマルチモーダル モデルにおける創造的な物理的インテリジェンスの進歩</a></h3>
      <p class="summary">大規模マルチモーダル モデル (LMM) は、認識と推論において急速に進歩しました。ただし、これらの機能がパターン認識を超えて、オープンエンド環境で視覚に基づいたソリューションを発見することに一般化するかどうかは不明のままです。このような設定では、インテリジェンスには、適切に提示された質問に答えるだけでは不十分です。これには、シーン内の要素を、非自明ではあるが物理的に実行可能な方法でどのように再利用できるかを特定することが含まれます。この創造的な問題解決の形式は人間の知性の中心ですが、現在のベンチマークではほとんどテストされていません。この能力を評価するために、視覚的に豊かで物理的に制約のある環境でアフォーダンスに基づいたクリエイティブ ツールを使用するためのベンチマークである MM-CreativityBench を紹介します。各インスタンスは、候補エンティティとその部品の構造化されたビューを含むシナリオ イメージを表示し、モデルがどのように繰り返しシーンを検査し、関連するアフォーダンスを特定し、視覚的および物理的に根拠のあるソリューションを構成するかを詳細かつ対話的に評価できるようにします。私たちの実験では、現在の LMM は生成能力の欠如ではなく、地上探査を維持できないために、しばしば不十分であることが示されています。モデルは、関連するエンティティを見落としたり、重要な部分を十分に調査しなかったり、画像に根拠のない属性を幻覚したりすることがよくあります。この失敗モードを動機として、創造的なツールの使用を嗜好学習の問題として位置づける、アフォーダンスに基づいた調整を提案します。直接優先最適化を使用すると、モデルが幻覚による代替案よりも視覚的証拠に基づいた属性アフォーダンス推論を好むようになります。さらに、アフォーダンス知識ベースから得られた監視機能を組み込んで、より広範なエンティティの探索と複数ターンの計画をガイドします。私たちの結果は、幻覚や接地関連のエラーを大幅に削減しながら、正しいエンティティと部品を選択する際に一貫して向上していることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Advancing Creative Physical Intelligence in Large Multimodal Models</p>
        <p class="orig-summary">Large multimodal models (LMMs) have rapidly advanced in perception and reasoning; however, it remains unclear whether these capabilities generalize to discovering visually grounded solutions in open-ended environments, beyond pattern recognition. In such settings, intelligence requires more than answering well-posed questions: it involves identifying how elements in a scene can be repurposed in non-obvious yet physically feasible ways. This form of creative problem-solving is central to human intelligence, but remains largely untested in current benchmarks. To evaluate this ability, we introduce MM-CreativityBench, a benchmark for affordance-grounded creative tool use in visually rich, physically constrained environments. Each instance presents a scenario image with structured views of candidate entities and their parts, enabling fine-grained, interactive evaluation of how models iteratively inspect the scene, identify relevant affordances, and compose visually and physically grounded solutions. Our experiments show that current LMMs often fall short, not due to lack of generative capability, but because they do not sustain grounded exploration. Models often overlook relevant entities, under-examine critical parts, or hallucinate attributes not grounded in the image. Motivated by this failure mode, we propose affordance-grounded alignment, which casts creative tool use as a preference learning problem. Using Direct Preference Optimization, we encourage models to prefer attribute-affordance reasoning grounded in visual evidence over hallucinated alternatives. In addition, we incorporate supervision derived from an affordance knowledge base to guide broader entity exploration and multi-turn planning. Our results show consistent gains in selecting the correct entities and parts, while substantially reducing hallucination and grounding-related errors.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9ea718e14204" data-article-url="https://arxiv.org/abs/2605.26942" data-article-title="データに敏感なドメインの LLM 出力のニューロシンボリック検証 (拡張プレプリント)" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26942" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26942" target="_blank" rel="noopener">データに敏感なドメインの LLM 出力のニューロシンボリック検証 (拡張プレプリント)</a></h3>
      <p class="summary">一か八かのドメインに導入された LLM は、根本的な信頼性の課題に直面しています。幻覚、矛盾、プライバシーの脆弱性により、エラーが法的、財務的、または安全性に影響を及ぼす許容できないリスクが生じます。この論文では、LLM で生成されたコンテンツに補完的な保証を提供する、形式的記号手法とニューラル セマンティック分析を組み合わせたハイブリッド検証アーキテクチャを紹介します。このアーキテクチャでは、入力検証に論理的推論を採用し、完全性の特性を活用して、構造化された要件に対して決定可能な保証を提供します。出力検証では、埋め込みベースの意味論的類似性により、形式的な手法では表現力に欠ける文脈上の幻覚が検出されます。この分離は、並列のアクターベースのパイプラインで実現され、幻覚を生み出す分布バイアスを継承するプロンプトベースの自己検証アプローチの制限に対処します。提案されたアーキテクチャとタイプ認識検証方法は、Action Design Research によって開発された現実世界の医療機器損傷評価レポート システムである HAIMEDA を使用して検証されています。評価の結果、構造化エンティティの幻覚検出率は 83% 以上、セマンティック捏造の幻覚検出率は 72% 以上で、レポート作成時間が 30% 短縮されたことが示され、神経記号アーキテクチャがデータに敏感なドメインでの LLM 展開に原則に基づいた保護手段を提供できることが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Neuro-Symbolic Verification of LLM Outputs for Data-Sensitive Domains (extended preprint)</p>
        <p class="orig-summary">LLMs deployed in high-stakes domains face fundamental reliability challenges: hallucinations, inconsistencies, and privacy vulnerabilities introduce unacceptable risks where errors carry legal, financial, or safety consequences. This paper presents a hybrid verification architecture combining formal symbolic methods with neural semantic analysis to provide complementary guarantees for LLM-generated content. This architecture employs logical reasoning for input verification, leveraging completeness properties to provide decidable guarantees on structured requirements. For output validation, embedding-based semantic similarity detects contextual hallucinations where formal methods lack expressiveness. This separation is realized in a parallel, actor-based pipeline, addressing limitations of prompt-based self-verification approaches, which inherit the distributional biases that produce hallucinations. The proposed architecture and type-aware verification method are validated with HAIMEDA, a real-world medical device damage assessment reporting system developed through Action Design Research. Evaluation shows hallucination detection rates of over 83% for structured entities and 72% for semantic fabrications, with a 30% reduction in report creation time, demonstrating that neuro-symbolic architectures can provide principled safeguards for LLM deployment in data-sensitive domains.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cc556bf9566b" data-article-url="https://arxiv.org/abs/2605.27355" data-article-title="アライメントの改ざん: 人間のフィードバックからの強化学習を利用して不整合なバイアスを最適化する方法" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27355" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27355" target="_blank" rel="noopener">アライメントの改ざん: 人間のフィードバックからの強化学習を利用して不整合なバイアスを最適化する方法</a></h3>
      <p class="summary">人間のフィードバックからの強化学習 (RLHF) は、大規模言語モデル (LLM) を人間の好みに合わせるための標準的な方法です。この作業では、アライメント改ざんを導入します。これは、アライメント中の LLM が優先データセットに影響を及ぼし、RLHF の望ましくない動作を増幅させる潜在的な脆弱性です。これは、RLHF の核となる制限から生じます。(1) 優先データセットは LLM 自身の出力から構築され、LLM に影響を与えることができます。(2) ペアごとの比較では、どちらの応答が優れているかが示されるだけで、理由は示されません。これらの制限を悪用して、アライメントの改ざんを引き起こす可能性があります。たとえば、LLM がより高品質の偏った応答を生成する場合、アノテーターは品質に基づいてそれらを優先します。ただし、嗜好ラベルは品質とバイアスを区別せず、報酬モデルはこの制限を継承します。強化学習やベストオブ N サンプリングを通じてこのような報酬を最適化すると、不整合なバイアスが増幅される可能性があります。私たちの実験では、キーワードのバイアスからプロパガンダ（性差別など）、ブランドのプロモーション、手段的な目標追求まで、さまざまなバイアスが増幅されることを実証しています。堅牢な RLHF のための既存の技術では、応答品質を犠牲にすることなくアライメント改ざんを完全に解決できないため、軽減は依然として困難です。これらの発見は、現在の RLHF の構造的脆弱性を明らかにし、この脆弱性を防ぐ必要性を強調しています。プロジェクトページ: https://alignment-tampering.github.io/</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases</p>
        <p class="orig-summary">Reinforcement Learning from Human Feedback (RLHF) is the standard method to align Large Language Models (LLMs) with human preferences. In this work, we introduce alignment tampering, a potential vulnerability where the LLM undergoing alignment influences the preference dataset, causing RLHF to amplify undesired behaviors. This arises from core limitations of RLHF: (1) preference datasets are constructed from the LLM&#x27;s own outputs, allowing it to influence them, and (2) pairwise comparisons only indicate which response is better, not why. These limitations can be exploited to cause alignment tampering. For example, if an LLM generates biased responses with higher quality, annotators will prefer them based on quality. However, preference labels do not distinguish quality from bias, and the reward model inherits this limitation. Optimizing such rewards through reinforcement learning or best-of-N sampling can amplify misaligned biases. Our experiments demonstrate amplification across diverse biases: from keyword bias to propaganda (e.g., sexism), brand promotion, and instrumental goal-seeking. Mitigation remains challenging, as existing techniques for robust RLHF fail to fully resolve alignment tampering without sacrificing response quality. These findings reveal structural vulnerabilities of current RLHF and emphasize the need to prevent this vulnerability. Project page: https://alignment-tampering.github.io/</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3acde15e3fdd" data-article-url="https://arxiv.org/abs/2605.27996" data-article-title="報酬バイアスの代替: 単軸バイアスの軽減 リダイレクト最適化の圧力" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27996" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27996" target="_blank" rel="noopener">報酬バイアスの代替: 単軸バイアスの軽減 リダイレクト最適化の圧力</a></h3>
      <p class="summary">報酬モデルのバイアスを単軸で緩和すると（例、長さ、お調子者、またはスタイルに対するプロキシの依存度を減らす）、最適化のプレッシャーを排除するのではなく、相関するプロキシに回転させることができます。これを報酬バイアス置換と呼ぶ失敗モードです。この失敗は、緩和評価およびポリシーのトレーニング中の監査とポリシーに起因する分布の間の測定と最適化のギャップによって可能になります。私たちは、緩和の結果をレジーム分類法に形式化し、成功した緩和、バイアス置換、過剰補正は、たとえオラクルに真の報酬へのアクセスが許可されていたとしても、ランキングの精度や勝率など、監査分布スコアリングの下で​​同一の観察結果を生み出すことを証明します。公表されている優先学習による緩和作業全体にわたって、私たちが調査した方法では、緩和の成功を証明するために必要な証拠が報告されていません。複数のバイアスを追跡しながら、政策に起因する分布で評価を強化すると、ギャップが縮まることが証明されており、これを緩和方法とベンチマークの実用的な処方箋に変換します。言語モデル RLHF でのバイアス置換を実証します。この場合、GRPO トレーニング中の長さのペナルティにより、意図したとおりに応答が圧縮されますが、最適化圧力が信頼度の調整にリダイレクトされ、事実に基づく自由形式の精度が低下する一方で、ポリシーが過信状態に陥ります。また、監査分布における報酬と長さの相関をゼロにするが、4 つの SOTA 報酬モデルのうち 3 つでのベストオブ N 選択の下ではバイアスを再導入する、公開されている長さ偏り解消演算子と、人間と LLM 裁判官の意見の不一致で方向が反転する長さとおべっかのカップリングも示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Reward Bias Substitution: Single-Axis Bias Mitigations Redirect Optimization Pressure</p>
        <p class="orig-summary">Single-axis mitigations of reward-model biases (e.g., reducing proxy reliance on length, sycophancy, or style) can rotate optimization pressure onto correlated proxies rather than eliminate it, a failure mode we call reward bias substitution. The failure is enabled by a measurement-versus-optimization gap between audit and policy-induced distributions during mitigation evaluation and policy training. We formalize mitigation outcomes into a regime taxonomy and prove that successful mitigation, bias substitution, and overcorrection produce identical observables under any audit-distribution scoring, including ranking accuracy and win-rate, even when granted oracle access to the true reward. Across published preference-learning mitigation work, no method we survey reports the evidence needed to certify successful mitigation. Augmenting evaluation with policy-induced distributions while tracking multiple biases provably closes the gap, and we translate this into actionable prescriptions for mitigation methods and benchmarks. We demonstrate bias substitution in language model RLHF, where a length penalty during GRPO training compresses responses as intended yet redirects optimization pressure onto confidence calibration, driving the policy into overconfidence while factual free-form accuracy falls. We also show a published length-debiasing operator that zeroes reward-length correlation on the audit distribution but reintroduces bias under best-of-N selection on three of four SOTA reward models, and a length-sycophancy coupling whose direction reverses under human-LLM judge disagreement.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0346709079e6" data-article-url="https://arxiv.org/abs/2605.29640" data-article-title="バイキングメム: ステートフル LLM ベースのアプリケーション用のメモリ ベース管理システム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29640" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29640" target="_blank" rel="noopener">バイキングメム: ステートフル LLM ベースのアプリケーション用のメモリ ベース管理システム</a></h3>
      <p class="summary">大規模言語モデルは対話型アプリケーションに革命をもたらしました。ただし、コンテキスト ウィンドウが有限であるため、ステートフルで長期的な対話を維持する上で重要なデータ管理の課題が生じます。既存の記憶アプローチは、多くの場合、不完全な記憶につながる単純な抽出方法に依存しているか、チャットボットなど、単一のユースケースに合わせて調整された厳格な単一目的の記憶抽出プロンプトを使用しています。その結果、汎用性に欠け、さまざまな下流タスクにわたってパフォーマンスが低下します。このギャップを埋めるために、長期的なインタラクションの永続的な状態を管理するための新しいデータ管理パラダイムであるメモリ ベースを導入します。これは 3 つの核となる原則によって特徴付けられます。生の情報ストリームから価値の高い記憶を選択的に抽出することです。固有のステートフルネスと進化。メモリ内容が徐々に要約、修正され、時間的に重み付けされて最近のインタラクションを優先します。そして、教育、推奨、エージェントの記憶など、さまざまなアプリケーションにわたる堅牢な転送性を実現するために設計された一般化可能な抽象化パラダイム。この基盤に基づいて、VikingDB ベクトル エンジン上に実装されたエンドツーエンドのメモリ ベース管理システム、VikingMem を紹介します。バイキングメムは、相互接続されたイベントとエンティティの抽象化を通じてこのパラダイムを具体化します。エンティティはイベントによって動的に更新され、ステートフルな進化を実現しながら、複雑な情報ストリームを選択的に処理するイベント中心のメモリ抽出を特徴としています。トピックごとのタイムラインと時間加重リコールによる時間圧縮を使用して、システムは高レベルの要約記憶を段階的に生成し、最近の項目を優先し、古い項目を圧縮してフェードします。長期メモリベンチマークの広範な評価により、VikingMem は対話型アプリケーションに不可欠な低レイテンシを維持しながら、メモリ取得効率においてベースラインを最大 30% 上回っていることが実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">VikingMem: A Memory Base Management System for Stateful LLM-based Applications</p>
        <p class="orig-summary">Large Language Models have revolutionized interactive applications; however, their finite context windows pose a critical data management challenge for maintaining stateful, long-term interactions. Existing memory approaches often rely on simplistic extraction methods that lead to incomplete memories or use rigid, single-purpose memory extraction prompts tailored to a single use case, such as chatbots. Consequently, they lack generalizability and perform poorly across diverse downstream tasks. To bridge this gap, we introduce the Memory Base, a novel data management paradigm for managing the persistent state of long-term interactions. It is characterized by three core principles: selective extraction of high-value memories from raw information streams; inherent statefulness and evolution, where memory content is progressively summarized, corrected, and temporally weighted to prioritize recent interactions; and a generalizable abstraction paradigm designed for robust transferability across diverse applications, including education, recommendation, and agent memory. Building on this foundation, we present VikingMem, an end-to-end Memory Base Management System implemented on the VikingDB vector engine. VikingMem materializes this paradigm through interconnected event and entity abstractions. It features event-centric memory extraction to selectively handle complex information streams, while entities are dynamically updated by events to achieve stateful evolution. Using temporal compression via a topic-wise timeline and time-weighted recall, the system progressively produces high-level summary memories, prioritizes recent items, and compresses and fades older ones. Extensive evaluations on long-term memory benchmarks demonstrate that VikingMem outperformes baselines by up to 30% in memory retrieval effectiveness while maintaining the low latency essential for interactive applications.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="661f0f88226b" data-article-url="https://arxiv.org/abs/2605.29796" data-article-title="SAAS: エージェント検索における過剰検索を軽減するための自己認識強化学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29796" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29796" target="_blank" rel="noopener">SAAS: エージェント検索における過剰検索を軽減するための自己認識強化学習</a></h3>
      <p class="summary">エージェント検索により、LLM は反復推論と外部検索を通じて複雑なマルチホップの質問を解決できます。これらのシステムは有効であるにもかかわらず、実際には重大な制限に悩まされることがよくあります。エージェントは自分自身の知識の境界を認識できず、内部の知識が十分な場合でもやみくもに検索を開始し、十分な証拠が収集されている場合でも検索を終了できません。自己認識の欠如は深刻な \textbf{過剰検索} につながり、かなりの推論遅延と法外な計算コストが発生します。この目的を達成するために、精度を損なうことなく検索動作を正確に制御する動的な自己認識を育成するように設計された新しい RL フレームワークである SAAS を提案します。 SAAS では、次の 3 つの主要コンポーネントが導入されています。(i) 検索境界モデリング メカニズム。検索が無効なロールアウトと検索が有効なロールアウトを対比することで、進化するポリシーに基づいて検索境界を識別します。 (ii) 境界認識報酬モジュール。この境界認識を軌道レベルのペナルティに変換し、不必要で冗長な検索を抑制します。 (iii) 段階的な最適化戦略。これは、一連のカリキュラムを活用して、検索の正規化よりも推論を優先し、それによって報酬のハッキングを回避します。広範な実験により、SAAS が精度を維持しながら過剰検索を大幅に削減することが実証されました。私たちのコードは https://github.com/XMUDeepLIT/SAAS で匿名で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search</p>
        <p class="orig-summary">Agentic search enables LLMs to solve complex multi-hop questions through iterative reasoning and external search. Despite the effectiveness, these systems often suffer from a critical limitation in practice: agents fail to recognize their own knowledge boundaries, blindly triggering searches when internal knowledge suffices and failing to terminate search even when adequate evidence has been collected. The lack of self-awareness leads to severe \textbf{over-search}, incurring substantial inference latency and prohibitive computational cost. To this end, we propose SAAS, a novel RL framework designed to cultivate dynamic self-awareness that precisely regulates search behavior without compromising accuracy. SAAS introduces three key components: (i) a search boundary modeling mechanism, which identifies the search boundary under the evolving policy by contrasting search-disabled and search-enabled rollouts; (ii) a boundary-aware reward module, which translates this boundary awareness into trajectory-level penalties, suppressing unnecessary and redundant searches; and (iii) a stage-wise optimization strategy, which leverages a sequential curriculum to prioritize reasoning over search regularization, thereby avoiding reward hacking. Extensive experiments demonstrate that SAAS substantially reduces over-search, while maintaining accuracy. Our code and implementation details are released at https://github.com/XMUDeepLIT/SAAS.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ed4d43d028f" data-article-url="https://arxiv.org/abs/2605.29833" data-article-title="OmniMatBench: 19 の材料科学サブフィールドにわたって人間が調整したマルチモーダル推論ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29833" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29833" target="_blank" rel="noopener">OmniMatBench: 19 の材料科学サブフィールドにわたって人間が調整したマルチモーダル推論ベンチマーク</a></h3>
      <p class="summary">科学研究においてマルチモーダル言語モデルの役割がますます重要になる中、材料科学はその学際的、マルチモーダル、そしてアプリケーション主導型の性質により重要なテストベッドを提供します。しかし、既存の材料ベンチマークは主に特性予測、知識 QA、または特性評価の理解に焦点を当てており、材料の知識から応用までのより広範な推論プロセスは十分に検討されていません。このギャップを埋めるために、人間が調整した材料科学用のマルチモーダル推論ベンチマークである OmniMatBench を紹介します。 OmniMatBench には、基本的な材料知識、構造材料および工学材料、材料の加工および製造、機能材料および応用材料に及ぶ 19 の材料科学サブ分野にわたって、専門家が厳選した 3,171 件の QA および計算問題が含まれています。私たちは 13 のオープンソースおよびクローズドソースの MLLM を評価し、最良のモデルが全体スコア 0.372 しか達成していないことがわかり、現在の材料科学推論に大きなギャップがあることが明らかになりました。さらに分析を進めると、サブフィールド間の大きなばらつき、固定された推論ヒューリスティック、不均一な材料知識、および数式、検索、およびコード支援設定下での高度な知識の適用が制限されていることが示されています。 OmniMatBench は、現在の MLLM の機能と限界についての重要な洞察を提供し、材料科学研究における信頼できる AI アシスタントの基盤を確立します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">OmniMatBench: A Human-Calibrated Multimodal Reasoning Benchmark Across 19 Materials Science Subfields</p>
        <p class="orig-summary">As multimodal language models play an increasingly important role in scientific research, materials science offers a critical testbed due to its interdisciplinary, multimodal, and application-driven nature. However, existing materials benchmarks mainly focus on property prediction, knowledge QA, or characterization understanding, leaving the broader reasoning process from materials knowledge to application underexplored. To fill this gap, we present OmniMatBench, a human-calibrated multimodal reasoning benchmark for materials science. OmniMatBench contains 3,171 expert-curated QA and calculation problems across 19 materials-science subfields, spanning fundamental materials knowledge, structural and engineering materials, materials processing and manufacturing, and functional and applied materials. We evaluate 13 open-source and closed-source MLLMs and find that the best model achieves only a 0.372 overall score, revealing a substantial gap in current materials-science reasoning. Further analysis shows strong variation across subfields, fixed reasoning heuristics, uneven materials knowledge, and limited high-level knowledge application under formula-, retrieval-, and code-assisted settings. OmniMatBench provides crucial insights into the capabilities and limitations of current MLLMs and establishes a foundation for reliable AI assistants in materials-science research.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7a20b53c6305" data-article-url="https://arxiv.org/abs/2605.30039" data-article-title="最小限の十分表現学習による LLM のドメイン固有のデータ合成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30039" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30039" target="_blank" rel="noopener">最小限の十分表現学習による LLM のドメイン固有のデータ合成</a></h3>
      <p class="summary">大規模言語モデルは汎用機能において目覚ましい進歩を示しており、ドメイン固有のデータを微調整することで特定のドメインで強力なパフォーマンスを達成できます。ただし、対象ドメインの高品質データを取得することは依然として大きな課題です。既存のデータ合成アプローチは演繹的パラダイムに従っており、自然言語で表現された明示的なドメイン記述と注意深くプロンプト エンジニアリングに大きく依存しており、ドメインを説明したり形式的に表現したりすることが難しい現実のシナリオへの適用性が制限されています。この研究では、帰納的パラダイムを通じてドメイン固有のデータ合成という未解明な問題に取り組みます。このパラダイムでは、特にドメインの特性を自然言語で表現することが難しい場合に、ターゲット ドメインが一連の参照例を通じてのみ定義されます。私たちは、参照サンプルから最小限の十分なドメイン表現を学習し、それを活用してドメインが調整された合成データの生成をガイドする新しいフレームワーク DOMINO を提案します。 DOMINO は、サンプル固有のノイズからドメインレベルのパターンを分離し、コアドメインの特性を維持しながらオーバーフィッティングを軽減するために、コントラストのもつれを解く目的とプロンプトチューニングを統合します。理論的には、DOMINO が合成データ配布のサポートを拡張し、より大きな多様性を確保することを証明します。経験的に、ドメイン定義が暗黙的である困難なコーディング ベンチマークでは、DOMINO によって合成されたデータを微調整すると、強力な命令調整されたバックボーンに比べて Pass@1 の精度が最大 4.63\% 向上し、その有効性と堅牢性が実証されました。この取り組みは、ドメイン固有のデータ合成のための新しいパラダイムを確立し、手動のプロンプト設計や自然言語ドメイン仕様を必要とせずに、実用的でスケーラブルなドメイン適応を可能にします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Domain-Specific Data Synthesis for LLMs via Minimal Sufficient Representation Learning</p>
        <p class="orig-summary">Large Language Models have demonstrated remarkable progress in general-purpose capabilities and can achieve strong performance in specific domains through fine-tuning on domain-specific data. However, acquiring high-quality data for target domains remains a significant challenge. Existing data synthesis approaches follow a deductive paradigm, heavily relying on explicit domain descriptions expressed in natural language and careful prompt engineering, limiting their applicability in real-world scenarios where domains are difficult to describe or formally articulate. In this work, we tackle the underexplored problem of domain-specific data synthesis through an inductive paradigm, where the target domain is defined only through a set of reference examples, particularly when domain characteristics are difficult to articulate in natural language. We propose a novel framework, DOMINO, that learns a minimal sufficient domain representation from reference samples and leverages it to guide the generation of domain-aligned synthetic data. DOMINO integrates prompt tuning with a contrastive disentanglement objective to separate domain-level patterns from sample-specific noise, mitigating overfitting while preserving core domain characteristics. Theoretically, we prove that DOMINO expands the support of the synthetic data distribution, ensuring greater diversity. Empirically, on challenging coding benchmarks where domain definitions are implicit, fine-tuning on data synthesized by DOMINO improves Pass@1 accuracy by up to 4.63\% over strong, instruction-tuned backbones, demonstrating its effectiveness and robustness. This work establishes a new paradigm for domain-specific data synthesis, enabling practical and scalable domain adaptation without manual prompt design or natural language domain specifications.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="95e0216336dc" data-article-url="https://arxiv.org/abs/2605.30288" data-article-title="MIRA: ソースを意識したデータ選択のためのトレーニング中のルーブリック アンカーリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30288" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30288" target="_blank" rel="noopener">MIRA: ソースを意識したデータ選択のためのトレーニング中のルーブリック アンカーリング</a></h3>
      <p class="summary">トレーニング中期は、最新の LLM 開発において重要な段階となっており、最終的なトレーニング後の能力を強化するために大規模に厳選された混合物を使用します。データ選択の問題は独特です。データは、事前トレーニングに近い規模で事前トレーニング スタイルの目標に基づいて最適化されますが、下流の機能に向けて厳選され、形式やトレーニングの役割が異なる異種ソースから抽出されます。その結果、効果的な選択には、スケーラビリティとソース適応型のセマンティック基準の両方が必要になります。既存のモデルベースの手法は拡張性に優れていますが、暗黙的な品質信号しか提供しません。セマンティック選択方法はより強力な判断を提供しますが、通常は固定ルーブリックまたは標準化されたデータ形式を前提としています。この不一致に対処するために、自己アンカー型ルーブリック ディスカバリに基づくソース認識フィルタリング フレームワークである MIRA を提案します。重要なアイデアは、ルーブリック構築をデータ選択の一部にすることです。MIRA はまず各ソース グループに対して何を評価すべきかを発見し、次にそれらの判断をスケーラブルな学生スコアラーに抽出して、コーパス全体をフィルタリングします。 21 のソースと 5 つのソース グループを使用したコード指向の中間トレーニングでは、MIRA は 9 つのコード ベンチマーク全体で選択ベースラインを上回り、トークンの半分のみを使用しながら完全なコーパスの実行と一致しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MIRA: Mid-training Rubric Anchoring for Source-Aware Data Selection</p>
        <p class="orig-summary">Mid-training has become an important stage in modern LLM development, using large-scale curated mixtures to strengthen capabilities before final post-training. Its data selection problem is distinct: the data are optimized under a pretraining-style objective at near-pretraining scale, but are curated toward downstream capabilities and drawn from heterogeneous sources with different formats and training roles. As a result, effective selection requires both scalability and source-adaptive semantic criteria. Existing model-based methods scale well, but provide only implicit quality signals. Semantic selection methods offer stronger judgments, but usually assume fixed rubrics or standardized data formats. To address this mismatch, we propose MIRA, a source-aware filtering framework based on self-anchored rubric discovery. The key idea is to make rubric construction part of data selection: MIRA first discovers what should be evaluated for each source group, then distills those judgments into scalable student scorers for full-corpus filtering. On code-oriented mid-training with 21 sources and 5 source groups, MIRA outperforms selection baselines across nine code benchmarks and matches the full-corpus run while using only half the tokens.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8998eb332da8" data-article-url="https://arxiv.org/abs/2404.14928" data-article-title="Graph Machine Learning in the Era of Large Language Models (LLMs)" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2404.14928" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2404.14928" target="_blank" rel="noopener">Graph Machine Learning in the Era of Large Language Models (LLMs)</a></h3>
      <p class="summary">Graphs play an important role in representing complex relationships in various domains like social networks, knowledge graphs, and molecula…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3d547547f17d" data-article-url="https://arxiv.org/abs/2411.13865" data-article-title="Breaking Information Cocoons: A Hyperbolic Framework for Balancing Exploration and Exploitation in Recommender Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2411.13865" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2411.13865" target="_blank" rel="noopener">Breaking Information Cocoons: A Hyperbolic Framework for Balancing Exploration and Exploitation in Recommender Systems</a></h3>
      <p class="summary">Modern recommender systems often create information cocoons, restricting users&#x27; exposure to diverse content. The central challenge is to ba…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5e22e17b219c" data-article-url="https://arxiv.org/abs/2411.19463" data-article-title="Understanding the Fundamental Design Decisions of Retrieval-Augmented Generation Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2411.19463" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2411.19463" target="_blank" rel="noopener">Understanding the Fundamental Design Decisions of Retrieval-Augmented Generation Systems</a></h3>
      <p class="summary">Retrieval-Augmented Generation (RAG) has emerged as a critical technique for enhancing large language model (LLM) capabilities. However, pr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="51fef4783654" data-article-url="https://arxiv.org/abs/2501.01926" data-article-title="Cross-Modal Attention Calibration for LVLM Hallucination Mitigation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2501.01926" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2501.01926" target="_blank" rel="noopener">Cross-Modal Attention Calibration for LVLM Hallucination Mitigation</a></h3>
      <p class="summary">Large vision-language models (LVLMs) have shown remarkable capabilities in visual-language understanding. Despite their success, LVLMs stil…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1f41534be20a" data-article-url="https://arxiv.org/abs/2501.04661" data-article-title="Beyond Memorization: Assessing Semantic Generalization in Large Language Models Using Phrasal Constructions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2501.04661" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2501.04661" target="_blank" rel="noopener">Beyond Memorization: Assessing Semantic Generalization in Large Language Models Using Phrasal Constructions</a></h3>
      <p class="summary">The web-scale of pretraining data has created an important evaluation challenge: to disentangle linguistic competence on cases well-represe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a7bc6f5bfc01" data-article-url="https://arxiv.org/abs/2502.12119" data-article-title="PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.12119" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.12119" target="_blank" rel="noopener">PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection</a></h3>
      <p class="summary">Visual instruction tuning adapts pre-trained Multimodal Large Language Models (MLLMs) to follow human instructions for real-world applicati…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="06508a2fe7d5" data-article-url="https://arxiv.org/abs/2502.15224" data-article-title="Auto-Discovery-Bench: Diagnosing Structured State Tracking in Oracle-Guided Discovery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.15224" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.15224" target="_blank" rel="noopener">Auto-Discovery-Bench: Diagnosing Structured State Tracking in Oracle-Guided Discovery</a></h3>
      <p class="summary">Interactive discovery requires agents to maintain and update structured beliefs over many rounds of feedback. Before evaluating agents in n…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a0c586f89ed2" data-article-url="https://arxiv.org/abs/2503.05846" data-article-title="EMCEE: Improving Multilingual Capability of LLMs via Bridging Knowledge and Reasoning with Extracted Synthetic Multilingual Context" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.05846" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.05846" target="_blank" rel="noopener">EMCEE: Improving Multilingual Capability of LLMs via Bridging Knowledge and Reasoning with Extracted Synthetic Multilingual Context</a></h3>
      <p class="summary">Large Language Models (LLMs) have achieved impressive progress across a wide range of tasks, yet their heavy reliance on English-centric tr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d37408a637be" data-article-url="https://arxiv.org/abs/2503.07482" data-article-title="How does Bayesian Sampling help Membership Inference Attacks?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.07482" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.07482" target="_blank" rel="noopener">How does Bayesian Sampling help Membership Inference Attacks?</a></h3>
      <p class="summary">Membership Inference Attacks (MIAs) aim to estimate whether a specific data point was used in the training of a given model. Existing state…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2dff8f13406e" data-article-url="https://arxiv.org/abs/2505.22934" data-article-title="Unraveling LoRA Interference: Orthogonal Subspaces for Robust Model Merging" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.22934" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.22934" target="_blank" rel="noopener">Unraveling LoRA Interference: Orthogonal Subspaces for Robust Model Merging</a></h3>
      <p class="summary">Fine-tuning large language models (LMs) for individual tasks yields strong performance but is expensive for deployment and storage. Recent…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b3a0b90a6380" data-article-url="https://arxiv.org/abs/2506.00175" data-article-title="Who Gets Credit or Blame? Attributing Accountability in Modern AI Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.00175" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.00175" target="_blank" rel="noopener">Who Gets Credit or Blame? Attributing Accountability in Modern AI Systems</a></h3>
      <p class="summary">Modern AI systems are typically developed through multiple stages-pretraining, fine-tuning rounds, and subsequent adaptation or alignment,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="654663131f71" data-article-url="https://arxiv.org/abs/2506.01318" data-article-title="Unlearning&#x27;s Blind Spots: Over-Unlearning and Prototypical Relearning Attack" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.01318" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.01318" target="_blank" rel="noopener">Unlearning&#x27;s Blind Spots: Over-Unlearning and Prototypical Relearning Attack</a></h3>
      <p class="summary">Machine unlearning (MU) aims to expunge a designated forget set from a trained model without costly retraining, yet the existing techniques…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e8e7b97a0dc7" data-article-url="https://arxiv.org/abs/2506.08255" data-article-title="SHIELD: Secure Hypernetworks for Incremental Expansion Learning Defense" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.08255" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.08255" target="_blank" rel="noopener">SHIELD: Secure Hypernetworks for Incremental Expansion Learning Defense</a></h3>
      <p class="summary">Continual learning under adversarial conditions remains an open problem, as existing methods often compromise either robustness, scalabilit…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b417ba05d05d" data-article-url="https://arxiv.org/abs/2506.11653" data-article-title="DISCO: Mitigating Bias in Deep Learning with Conditional Distance Correlation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.11653" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.11653" target="_blank" rel="noopener">DISCO: Mitigating Bias in Deep Learning with Conditional Distance Correlation</a></h3>
      <p class="summary">Dataset bias often leads deep learning models to exploit spurious correlations instead of task-relevant signals. We introduce the Standard…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e9a2cee63903" data-article-url="https://arxiv.org/abs/2506.12060" data-article-title="Organizational Adaptation to Generative AI in Cybersecurity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.12060" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.12060" target="_blank" rel="noopener">Organizational Adaptation to Generative AI in Cybersecurity</a></h3>
      <p class="summary">Cybersecurity organizations are adapting to GenAI integration through modified frameworks and hybrid operational processes, with success in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c7fa36a036be" data-article-url="https://arxiv.org/abs/2506.14842" data-article-title="PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.14842" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.14842" target="_blank" rel="noopener">PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers</a></h3>
      <p class="summary">Building image classification models remains cumbersome in data-scarce domains, where collecting large labeled datasets is impractical. In-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3b37c1ec2c34" data-article-url="https://arxiv.org/abs/2507.11075" data-article-title="Joint angle based learning to refine kinematic human pose estimation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.11075" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.11075" target="_blank" rel="noopener">Joint angle based learning to refine kinematic human pose estimation</a></h3>
      <p class="summary">Marker-free human pose estimation (HPE) has found increasing applications in various fields. Current HPE suffers from occasional errors in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fa2a4d3b8773" data-article-url="https://arxiv.org/abs/2508.08204" data-article-title="Human-Alignment and Calibration of Inference-Time Uncertainty in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.08204" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.08204" target="_blank" rel="noopener">Human-Alignment and Calibration of Inference-Time Uncertainty in Large Language Models</a></h3>
      <p class="summary">There has been much recent interest in evaluating large language models for uncertainty calibration to facilitate model control and modulat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c955767254d5" data-article-url="https://arxiv.org/abs/2508.09925" data-article-title="Residual Reservoir Memory Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.09925" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.09925" target="_blank" rel="noopener">Residual Reservoir Memory Networks</a></h3>
      <p class="summary">We introduce a novel class of untrained Recurrent Neural Networks (RNNs) within the Reservoir Computing (RC) paradigm, called Residual Rese…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="05fa8cf52d88" data-article-url="https://arxiv.org/abs/2508.19830" data-article-title="Target-Agnostic Calibration under Distribution Shift with Frequency-Aware Gradient Rectification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.19830" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.19830" target="_blank" rel="noopener">Target-Agnostic Calibration under Distribution Shift with Frequency-Aware Gradient Rectification</a></h3>
      <p class="summary">Real-world model deployments inevitably encounter distribution shifts, rendering the confidence estimates of deep neural networks highly un…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="75136f53ed56" data-article-url="https://arxiv.org/abs/2508.21762" data-article-title="Reasoning-Intensive Regression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.21762" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.21762" target="_blank" rel="noopener">Reasoning-Intensive Regression</a></h3>
      <p class="summary">AI researchers and practitioners increasingly apply large language models (LLMs) to what we call reasoning-intensive regression (RiR), i.e.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="036f136b7bf3" data-article-url="https://arxiv.org/abs/2509.10078" data-article-title="Human Psychometric Questionnaires Mischaracterize LLM Behavior" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.10078" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.10078" target="_blank" rel="noopener">Human Psychometric Questionnaires Mischaracterize LLM Behavior</a></h3>
      <p class="summary">We examine whether human psychometric questionnaires can serve as reliable tools for characterizing and predicting LLM behavior in everyday…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d2ef4b13d6cc" data-article-url="https://arxiv.org/abs/2509.12440" data-article-title="MedFact: Benchmarking the Fact-Checking Capabilities of Large Language Models on Chinese Medical Texts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.12440" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.12440" target="_blank" rel="noopener">MedFact: Benchmarking the Fact-Checking Capabilities of Large Language Models on Chinese Medical Texts</a></h3>
      <p class="summary">Deploying Large Language Models (LLMs) in medical applications requires fact-checking capabilities to ensure patient safety and regulatory…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4e05c9397e6e" data-article-url="https://arxiv.org/abs/2509.20784" data-article-title="Towards Atoms of Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.20784" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.20784" target="_blank" rel="noopener">Towards Atoms of Large Language Models</a></h3>
      <p class="summary">The fundamental representational units (FRUs) of large language models (LLMs) remain undefined, limiting further understanding of their und…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f9462d0d5db0" data-article-url="https://arxiv.org/abs/2509.21190" data-article-title="Towards Foundation Models for Zero-Shot Time Series Anomaly Detection: Leveraging Synthetic Data and Relative Context Discrepancy" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.21190" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.21190" target="_blank" rel="noopener">Towards Foundation Models for Zero-Shot Time Series Anomaly Detection: Leveraging Synthetic Data and Relative Context Discrepancy</a></h3>
      <p class="summary">Time series anomaly detection (TSAD) is a critical task, but developing models that generalize to unseen data in a zero-shot manner remains…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7cbad8db7713" data-article-url="https://arxiv.org/abs/2509.21379" data-article-title="SAEmnesia: Erasing Concepts in Diffusion Models with Supervised Sparse Autoencoders" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.21379" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.21379" target="_blank" rel="noopener">SAEmnesia: Erasing Concepts in Diffusion Models with Supervised Sparse Autoencoders</a></h3>
      <p class="summary">Concept unlearning in diffusion models is hampered by feature splitting, where concepts are distributed across many latent features, making…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="67c7ab81571b" data-article-url="https://arxiv.org/abs/2509.22335" data-article-title="Spectral Collapse Drives Loss of Plasticity in Deep Continual Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.22335" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.22335" target="_blank" rel="noopener">Spectral Collapse Drives Loss of Plasticity in Deep Continual Learning</a></h3>
      <p class="summary">We investigate why deep neural networks suffer from loss of plasticity in continual learning, and thus fail to learn new tasks without rein…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6ff6a73ed49b" data-article-url="https://arxiv.org/abs/2509.24319" data-article-title="Dual Mechanisms of Value Expression: Intrinsic vs. Prompted Values in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.24319" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.24319" target="_blank" rel="noopener">Dual Mechanisms of Value Expression: Intrinsic vs. Prompted Values in Large Language Models</a></h3>
      <p class="summary">Large language models can express values in two main ways: (1) intrinsic expression, reflecting the model&#x27;s inherent values learned during…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="52570422ae75" data-article-url="https://arxiv.org/abs/2510.00845" data-article-title="Mechanistic Interpretability as Statistical Estimation: A Variance Analysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.00845" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.00845" target="_blank" rel="noopener">Mechanistic Interpretability as Statistical Estimation: A Variance Analysis</a></h3>
      <p class="summary">Mechanistic Interpretability (MI) aims to reverse-engineer model behaviors by identifying functional sub-networks. Yet, the scientific vali…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="40976ebbef86" data-article-url="https://arxiv.org/abs/2510.03415" data-article-title="LLMs Lean on Priors, Not Programming Language Semantics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.03415" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.03415" target="_blank" rel="noopener">LLMs Lean on Priors, Not Programming Language Semantics</a></h3>
      <p class="summary">Recent work asks whether large language models (LLMs) condition their reasoning on explicit rules rather than statistical regularities from…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cb459d49e7e0" data-article-url="https://arxiv.org/abs/2510.07651" data-article-title="OBCache: Optimal Brain KV Cache Pruning for Efficient Long-Context LLM Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.07651" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.07651" target="_blank" rel="noopener">OBCache: Optimal Brain KV Cache Pruning for Efficient Long-Context LLM Inference</a></h3>
      <p class="summary">Large language models (LLMs) with extended context windows enable powerful applications but impose significant memory overhead, as caching…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="da3277cea12a" data-article-url="https://arxiv.org/abs/2510.10544" data-article-title="PAC-Bayesian Reinforcement Learning Trains Generalizable Policies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.10544" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.10544" target="_blank" rel="noopener">PAC-Bayesian Reinforcement Learning Trains Generalizable Policies</a></h3>
      <p class="summary">We derive a novel PAC-Bayesian generalization bound for reinforcement learning that explicitly accounts for Markov dependencies in the data…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7969be297ee9" data-article-url="https://arxiv.org/abs/2510.11683" data-article-title="Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.11683" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.11683" target="_blank" rel="noopener">Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models</a></h3>
      <p class="summary">A key challenge in applying reinforcement learning (RL) to diffusion large language models (dLLMs) is the intractability of their likelihoo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c1da5d3c1aa7" data-article-url="https://arxiv.org/abs/2510.14904" data-article-title="CaptionFormer: Unified Segmentation, Tracking, and Captioning for Spatio-Temporal Objects" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.14904" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.14904" target="_blank" rel="noopener">CaptionFormer: Unified Segmentation, Tracking, and Captioning for Spatio-Temporal Objects</a></h3>
      <p class="summary">Dense Video Object Captioning (DVOC) is the task of jointly detecting, tracking, and captioning object trajectories in a video, requiring t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="941e508102ee" data-article-url="https://arxiv.org/abs/2510.15859" data-article-title="InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.15859" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.15859" target="_blank" rel="noopener">InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training</a></h3>
      <p class="summary">Reinforcement learning (RL) has powered many recent breakthroughs in large language models (LLMs), especially for tasks where rewards can b…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a59de00f682e" data-article-url="https://arxiv.org/abs/2511.03100" data-article-title="Scaling Multi-Agent Environment Co-Design with Diffusion Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.03100" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.03100" target="_blank" rel="noopener">Scaling Multi-Agent Environment Co-Design with Diffusion Models</a></h3>
      <p class="summary">The agent-environment co-design paradigm jointly optimises agent policies and environment configurations in search of improved system perfo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ac384a6a3060" data-article-url="https://arxiv.org/abs/2511.16084" data-article-title="SpectralTrain: A Universal Framework for Hyperspectral Image Classification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.16084" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.16084" target="_blank" rel="noopener">SpectralTrain: A Universal Framework for Hyperspectral Image Classification</a></h3>
      <p class="summary">Hyperspectral image (HSI) classification typically involves large-scale data and computationally intensive training, which limits the pract…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fb5ac65cbdd3" data-article-url="https://arxiv.org/abs/2511.19433" data-article-title="Mixture of Horizons in Action Chunking" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.19433" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.19433" target="_blank" rel="noopener">Mixture of Horizons in Action Chunking</a></h3>
      <p class="summary">Vision-language-action (VLA) models have shown remarkable capabilities in robotic manipulation, but their performance is sensitive to the $…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0ba3e6b1b9d9" data-article-url="https://arxiv.org/abs/2512.02743" data-article-title="Reasoning-Aware Multimodal Fusion for Hateful Video Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.02743" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.02743" target="_blank" rel="noopener">Reasoning-Aware Multimodal Fusion for Hateful Video Detection</a></h3>
      <p class="summary">Hate speech in online videos is posing an increasingly serious threat to digital platforms, especially as video content becomes increasingl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="43e7db6276ba" data-article-url="https://arxiv.org/abs/2512.11779" data-article-title="Conditional Coverage Diagnostics for Conformal Prediction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.11779" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.11779" target="_blank" rel="noopener">Conditional Coverage Diagnostics for Conformal Prediction</a></h3>
      <p class="summary">Evaluating conditional coverage remains one of the most persistent challenges in assessing the reliability of predictive systems. Although…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2f6d573a7611" data-article-url="https://arxiv.org/abs/2512.19673" data-article-title="Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.19673" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.19673" target="_blank" rel="noopener">Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies</a></h3>
      <p class="summary">Existing reinforcement learning (RL) approaches treat large language models (LLMs) as a unified policy, overlooking their internal mechanis…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="18aed16d36d5" data-article-url="https://arxiv.org/abs/2512.20732" data-article-title="FEM-Bench: A Structured Scientific Reasoning Benchmark for Evaluating Code-Generating LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.20732" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.20732" target="_blank" rel="noopener">FEM-Bench: A Structured Scientific Reasoning Benchmark for Evaluating Code-Generating LLMs</a></h3>
      <p class="summary">As LLMs advance their reasoning capabilities about the physical world, the absence of rigorous benchmarks for evaluating their ability to g…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c367fcafd800" data-article-url="https://arxiv.org/abs/2601.01075" data-article-title="Flow Equivariant World Models: Memory for Partially Observed Dynamic Environments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.01075" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.01075" target="_blank" rel="noopener">Flow Equivariant World Models: Memory for Partially Observed Dynamic Environments</a></h3>
      <p class="summary">Embodied systems experience the world as &#x27;a symphony of flows&#x27;: a combination of many continuous streams of sensory input coupled to self-m…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1d3aaa58f22c" data-article-url="https://arxiv.org/abs/2601.01456" data-article-title="Rethinking Multimodal Few-Shot 3D Point Cloud Segmentation: From Fused Refinement to Decoupled Arbitration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.01456" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.01456" target="_blank" rel="noopener">Rethinking Multimodal Few-Shot 3D Point Cloud Segmentation: From Fused Refinement to Decoupled Arbitration</a></h3>
      <p class="summary">In this paper, we revisit multimodal few-shot 3D point cloud semantic segmentation (FS-PCS), identifying a conflict in &quot;Fuse-then-Refine&quot; p…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ac74bdc703ba" data-article-url="https://arxiv.org/abs/2601.02380" data-article-title="The Refutability Gap: Challenges in Validating Reasoning by Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.02380" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.02380" target="_blank" rel="noopener">The Refutability Gap: Challenges in Validating Reasoning by Large Language Models</a></h3>
      <p class="summary">Recent reports claim that Large Language Models (LLMs) have achieved the ability to derive new science and exhibit human-level general inte…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cf6644e4fa55" data-article-url="https://arxiv.org/abs/2601.11702" data-article-title="PASTA: A Scalable Framework for Multi-Policy AI Compliance Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.11702" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.11702" target="_blank" rel="noopener">PASTA: A Scalable Framework for Multi-Policy AI Compliance Evaluation</a></h3>
      <p class="summary">AI compliance is becoming increasingly critical as AI systems grow more powerful and pervasive. Yet the rapid expansion of AI policies crea…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="47435a0a9bdb" data-article-url="https://arxiv.org/abs/2601.13704" data-article-title="Performance and Complexity Trade-off Optimization of Speech Models During Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.13704" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.13704" target="_blank" rel="noopener">Performance and Complexity Trade-off Optimization of Speech Models During Training</a></h3>
      <p class="summary">In speech machine learning, neural network models are typically designed by choosing an architecture with fixed layer sizes and structure.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e4571f10fda8" data-article-url="https://arxiv.org/abs/2601.18537" data-article-title="SKETCH: Semantic Key-Point Conditioning for Long-Horizon Vessel Trajectory Prediction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.18537" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.18537" target="_blank" rel="noopener">SKETCH: Semantic Key-Point Conditioning for Long-Horizon Vessel Trajectory Prediction</a></h3>
      <p class="summary">Accurate long-horizon vessel trajectory prediction remains challenging due to compounded uncertainty from complex navigation behaviors and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7cf1e22f6787" data-article-url="https://arxiv.org/abs/2601.19936" data-article-title="Gap-K%: Measuring Top-1 Prediction Gap for Detecting Pretraining Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-regulation">規制/政策</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.19936" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.19936" target="_blank" rel="noopener">Gap-K%: Measuring Top-1 Prediction Gap for Detecting Pretraining Data</a></h3>
      <p class="summary">The opacity of massive pretraining corpora in Large Language Models (LLMs) raises significant privacy and copyright concerns, making pretra…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4605cad2b274" data-article-url="https://arxiv.org/abs/2601.22296" data-article-title="ParalESN: Enabling parallel information processing in Reservoir Computing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.22296" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.22296" target="_blank" rel="noopener">ParalESN: Enabling parallel information processing in Reservoir Computing</a></h3>
      <p class="summary">Reservoir Computing (RC) has established itself as an efficient paradigm for temporal processing. However, its scalability remains severely…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1d906e79c301" data-article-url="https://arxiv.org/abs/2602.00747" data-article-title="Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.00747" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.00747" target="_blank" rel="noopener">Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training</a></h3>
      <p class="summary">Determining an effective data mixture is a key factor in Large Language Model (LLM) pre-training, where models must balance general compete…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9c9981fd8a67" data-article-url="https://arxiv.org/abs/2602.01011" data-article-title="Multi-Agent Teams Hold Experts Back" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01011" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01011" target="_blank" rel="noopener">Multi-Agent Teams Hold Experts Back</a></h3>
      <p class="summary">Multi-agent LLM systems are increasingly deployed as autonomous collaborators, where agents interact freely rather than execute fixed, pre-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6618eeed9242" data-article-url="https://arxiv.org/abs/2602.01186" data-article-title="The Gaussian-Head OFL Family: One-Shot Federated Learning from Client Global Statistics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01186" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01186" target="_blank" rel="noopener">The Gaussian-Head OFL Family: One-Shot Federated Learning from Client Global Statistics</a></h3>
      <p class="summary">Classical Federated Learning relies on a multi-round iterative process of model exchange and aggregation between server and clients, with h…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0af2727a9abd" data-article-url="https://arxiv.org/abs/2602.01399" data-article-title="An Odd Estimator for Shapley Values" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01399" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01399" target="_blank" rel="noopener">An Odd Estimator for Shapley Values</a></h3>
      <p class="summary">The Shapley value is a ubiquitous framework for attribution in machine learning, encompassing feature importance, data valuation, and causa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9f9391b59782" data-article-url="https://arxiv.org/abs/2602.01553" data-article-title="Plain Transformers are Surprisingly Powerful Link Predictors" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01553" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01553" target="_blank" rel="noopener">Plain Transformers are Surprisingly Powerful Link Predictors</a></h3>
      <p class="summary">Link prediction is a core challenge in graph machine learning, demanding models that capture rich and complex topological dependencies. Whi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6045578eb51" data-article-url="https://arxiv.org/abs/2602.02886" data-article-title="Mixture of Concept Bottleneck Experts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02886" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02886" target="_blank" rel="noopener">Mixture of Concept Bottleneck Experts</a></h3>
      <p class="summary">Concept Bottleneck Models (CBMs) promote interpretability by grounding predictions in human-understandable concepts. However, existing CBMs…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e4d5835939bd" data-article-url="https://arxiv.org/abs/2602.03012" data-article-title="CVE-Factory: Scaling Expert-Level Agentic Tasks for Code Security Vulnerability" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.03012" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.03012" target="_blank" rel="noopener">CVE-Factory: Scaling Expert-Level Agentic Tasks for Code Security Vulnerability</a></h3>
      <p class="summary">Evaluating and improving the security capabilities of code agents requires high-quality, executable vulnerability tasks. However, existing…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c3e93902d443" data-article-url="https://arxiv.org/abs/2602.06161" data-article-title="Stop the Flip-Flop: Context-Preserving Verification for Fast Revocable Diffusion Decoding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.06161" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.06161" target="_blank" rel="noopener">Stop the Flip-Flop: Context-Preserving Verification for Fast Revocable Diffusion Decoding</a></h3>
      <p class="summary">Parallel diffusion decoding can accelerate diffusion language model inference by unmasking multiple tokens per step, but aggressive paralle…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8a863292423d" data-article-url="https://arxiv.org/abs/2602.07457" data-article-title="Pull Requests as a Training Signal for Repo-Level Code Editing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.07457" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.07457" target="_blank" rel="noopener">Pull Requests as a Training Signal for Repo-Level Code Editing</a></h3>
      <p class="summary">Repository-level code editing requires models to understand complex dependencies and execute precise multi-file modifications across a larg…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d8c35528b3ad" data-article-url="https://arxiv.org/abs/2602.07928" data-article-title="A Kinetic Energy Perspective of Flow Matching" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.07928" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.07928" target="_blank" rel="noopener">A Kinetic Energy Perspective of Flow Matching</a></h3>
      <p class="summary">Flow-based generative models can be viewed through a physics lens: sampling transports a particle from noise to data by integrating a learn…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="895b71fd8569" data-article-url="https://arxiv.org/abs/2602.08267" data-article-title="Inverting Data Transformations via Diffusion Sampling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.08267" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.08267" target="_blank" rel="noopener">Inverting Data Transformations via Diffusion Sampling</a></h3>
      <p class="summary">We study the problem of transformation inversion on general Lie groups: a datum is transformed by an unknown group element, and the goal is…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="281a8db53387" data-article-url="https://arxiv.org/abs/2602.08885" data-article-title="Breaking the Simplification Bottleneck in Amortized Neural Symbolic Regression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.08885" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.08885" target="_blank" rel="noopener">Breaking the Simplification Bottleneck in Amortized Neural Symbolic Regression</a></h3>
      <p class="summary">Symbolic regression (SR) aims to discover interpretable analytical expressions that accurately describe observed data. Amortized SR promise…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="afb0de16b82e" data-article-url="https://arxiv.org/abs/2602.08964" data-article-title="A Behavioural and Representational Evaluation of Goal-Directedness in Language Model Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.08964" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.08964" target="_blank" rel="noopener">A Behavioural and Representational Evaluation of Goal-Directedness in Language Model Agents</a></h3>
      <p class="summary">Understanding an agent&#x27;s goals helps explain and predict its behaviour, yet there is no established methodology for reliably attributing go…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f74e9a9b212c" data-article-url="https://arxiv.org/abs/2602.09276" data-article-title="Effective Reasoning Chains Reduce Intrinsic Dimensionality" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.09276" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.09276" target="_blank" rel="noopener">Effective Reasoning Chains Reduce Intrinsic Dimensionality</a></h3>
      <p class="summary">Chain-of-thought (CoT) reasoning and its variants have substantially improved the performance of language models on complex reasoning tasks…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fa303e80bc84" data-article-url="https://arxiv.org/abs/2602.10117" data-article-title="Biases in the Blind Spot: Detecting What LLMs Fail to Mention" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.10117" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.10117" target="_blank" rel="noopener">Biases in the Blind Spot: Detecting What LLMs Fail to Mention</a></h3>
      <p class="summary">Large Language Models (LLMs) often provide chain-of-thought (CoT) reasoning traces that appear plausible, but may hide internal biases. We…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="977019607f48" data-article-url="https://arxiv.org/abs/2602.10388" data-article-title="Less is Enough: Synthesizing Diverse Data in LLM Feature Space with Sparse Autoencoders" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.10388" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.10388" target="_blank" rel="noopener">Less is Enough: Synthesizing Diverse Data in LLM Feature Space with Sparse Autoencoders</a></h3>
      <p class="summary">The diversity of post-training data is critical for effective downstream performance in large language models (LLMs). Many existing approac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c77b16d7c75c" data-article-url="https://arxiv.org/abs/2602.11137" data-article-title="Weight Decay Improves Language Model Plasticity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.11137" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.11137" target="_blank" rel="noopener">Weight Decay Improves Language Model Plasticity</a></h3>
      <p class="summary">Large language models are typically trained in two broad phases: pretraining to produce a base model, followed by further training to impro…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f0862bab38ed" data-article-url="https://arxiv.org/abs/2602.13110" data-article-title="SCOPE: Selective Conformal Optimized Pairwise LLM Judging" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.13110" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.13110" target="_blank" rel="noopener">SCOPE: Selective Conformal Optimized Pairwise LLM Judging</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly used as scalable judges in pairwise evaluation, but they remain prone to miscalibration and b…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="338591bcbb7b" data-article-url="https://arxiv.org/abs/2602.13812" data-article-title="DTBench: A Synthetic Benchmark for Document-to-Table Extraction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.13812" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.13812" target="_blank" rel="noopener">DTBench: A Synthetic Benchmark for Document-to-Table Extraction</a></h3>
      <p class="summary">Document-to-table (Doc2Table) extraction derives structured tables from unstructured documents under a target schema, enabling reliable and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="757177690c1a" data-article-url="https://arxiv.org/abs/2602.15293" data-article-title="The Information Geometry of Softmax: Probing and Steering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.15293" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.15293" target="_blank" rel="noopener">The Information Geometry of Softmax: Probing and Steering</a></h3>
      <p class="summary">This paper concerns the question of how AI systems encode semantic structure into the geometric structure of their representation spaces. T…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="89690c7bc954" data-article-url="https://arxiv.org/abs/2602.16165" data-article-title="HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.16165" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.16165" target="_blank" rel="noopener">HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents</a></h3>
      <p class="summary">Training LLMs as interactive agents for multi-turn decision-making remains challenging, particularly in long-horizon tasks with sparse and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="38af95c1209c" data-article-url="https://arxiv.org/abs/2602.17531" data-article-title="Position: Evaluation of ECG Representations Must Be Fixed" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.17531" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.17531" target="_blank" rel="noopener">Position: Evaluation of ECG Representations Must Be Fixed</a></h3>
      <p class="summary">This position paper argues that current benchmarking practice in 12-lead ECG representation learning must be fixed to ensure progress is re…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cff4996aa37d" data-article-url="https://arxiv.org/abs/2602.19171" data-article-title="HistCAD: A Constraint-Aware Parametric History-Based CAD Representation, Dataset, and Benchmark with Industrial Complexity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.19171" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.19171" target="_blank" rel="noopener">HistCAD: A Constraint-Aware Parametric History-Based CAD Representation, Dataset, and Benchmark with Industrial Complexity</a></h3>
      <p class="summary">Parametric CAD sequences are reusable because dimensional and geometric constraints govern how parameter changes propagate. Existing CAD ge…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a9d3397e0d0f" data-article-url="https://arxiv.org/abs/2602.24210" data-article-title="From Leaky Thoughts to Private Reasoning: Controlling What LRMs Say to Themselves" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.24210" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.24210" target="_blank" rel="noopener">From Leaky Thoughts to Private Reasoning: Controlling What LRMs Say to Themselves</a></h3>
      <p class="summary">Large reasoning models (LRMs) produce reasoning traces (RTs) that often contain sensitive information. These leaky thoughts are difficult t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d47bfa59d625" data-article-url="https://arxiv.org/abs/2603.00068" data-article-title="The Global Landscape of Environmental AI Regulation: From the Cost of Reasoning to a Right to Green AI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.00068" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.00068" target="_blank" rel="noopener">The Global Landscape of Environmental AI Regulation: From the Cost of Reasoning to a Right to Green AI</a></h3>
      <p class="summary">Artificial intelligence (AI) systems impose substantial and growing environmental costs, yet transparency about these impacts has declined…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="44ca6bbe07b5" data-article-url="https://arxiv.org/abs/2603.02630" data-article-title="MASPOB: Bandit-Based Prompt Optimization for Multi-Agent Systems with Graph Neural Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.02630" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.02630" target="_blank" rel="noopener">MASPOB: Bandit-Based Prompt Optimization for Multi-Agent Systems with Graph Neural Networks</a></h3>
      <p class="summary">Large Language Models (LLMs) have achieved great success in many real-world applications, especially the one serving as the cognitive backb…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9fcb30754efd" data-article-url="https://arxiv.org/abs/2603.05529" data-article-title="NGDBench: Towards Neural Graph Data Management" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.05529" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.05529" target="_blank" rel="noopener">NGDBench: Towards Neural Graph Data Management</a></h3>
      <p class="summary">Data critical to real-world decision-making is increasingly found within organizations. Such data is heterogeneous, constantly evolving, an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="20896e767bdc" data-article-url="https://arxiv.org/abs/2603.06738" data-article-title="Rank-Factorized Implicit Neural Bias: Scaling Super-Resolution Transformer with FlashAttention" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.06738" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.06738" target="_blank" rel="noopener">Rank-Factorized Implicit Neural Bias: Scaling Super-Resolution Transformer with FlashAttention</a></h3>
      <p class="summary">Recent Super-Resolution~(SR) methods mainly adopt Transformers for their strong long-range modeling capability and exceptional representati…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3d389be27047" data-article-url="https://arxiv.org/abs/2603.07551" data-article-title="Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.07551" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.07551" target="_blank" rel="noopener">Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech</a></h3>
      <p class="summary">Zero-shot Text-to-Speech (TTS) voice cloning poses severe privacy risks, demanding the removal of specific speaker identities from trained…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dc4aa7ef6a80" data-article-url="https://arxiv.org/abs/2603.09453" data-article-title="Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.09453" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.09453" target="_blank" rel="noopener">Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers</a></h3>
      <p class="summary">Foundation models are increasingly being deployed in contexts where understanding the uncertainty of their outputs is critical to ensuring…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="408bc0913173" data-article-url="https://arxiv.org/abs/2603.10468" data-article-title="G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.10468" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.10468" target="_blank" rel="noopener">G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition</a></h3>
      <p class="summary">We study timestamped speaker-attributed automatic speech recognition (SA-ASR) for long-form, multi-party speech with overlap. In this setti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4a6e5fcb2029" data-article-url="https://arxiv.org/abs/2603.12277" data-article-title="Prompt Injection as Role Confusion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.12277" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.12277" target="_blank" rel="noopener">Prompt Injection as Role Confusion</a></h3>
      <p class="summary">LLMs see the world as a single stream of text, partitioned into roles like or . We trace prompt injection to role confusion: models perceiv…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="91a45735f319" data-article-url="https://arxiv.org/abs/2603.12916" data-article-title="Surprised by Attention: Predictable Query Dynamics for Time Series Anomaly Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.12916" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.12916" target="_blank" rel="noopener">Surprised by Attention: Predictable Query Dynamics for Time Series Anomaly Detection</a></h3>
      <p class="summary">Multivariate time series anomalies often manifest as shifts in cross-channel dependencies rather than simple amplitude excursions. In auton…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="37a8e519bdf3" data-article-url="https://arxiv.org/abs/2603.16123" data-article-title="Functorial Neural Architectures from Higher Inductive Types" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.16123" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.16123" target="_blank" rel="noopener">Functorial Neural Architectures from Higher Inductive Types</a></h3>
      <p class="summary">Neural networks often learn the parts of a task but fail on novel combinations of those parts. We argue that this failure is architectural:…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="defeaf8babf6" data-article-url="https://arxiv.org/abs/2603.17145" data-article-title="REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.17145" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.17145" target="_blank" rel="noopener">REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly deployed as automated evaluators that assign numeric scores to model outputs, a paradigm know…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5e72c7a9dd18" data-article-url="https://arxiv.org/abs/2603.19262" data-article-title="Empirical Characterization of Inference-Time Elicited Probability Transformations in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.19262" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.19262" target="_blank" rel="noopener">Empirical Characterization of Inference-Time Elicited Probability Transformations in Large Language Models</a></h3>
      <p class="summary">Large language models increasingly rely on inference-time procedures such as chain-of-thought reasoning, self-refinement, retrieval augment…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79b0f388d2ae" data-article-url="https://arxiv.org/abs/2603.20253" data-article-title="SimulCost: A Cost-Aware Benchmark and Toolkit for Automating Physics Simulations with LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.20253" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.20253" target="_blank" rel="noopener">SimulCost: A Cost-Aware Benchmark and Toolkit for Automating Physics Simulations with LLMs</a></h3>
      <p class="summary">Evaluating LLM agents for scientific tasks has focused on token costs while ignoring tool-use costs like simulation time and experimental r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8133513903c4" data-article-url="https://arxiv.org/abs/2603.23398" data-article-title="Graph Energy Matching: Transport-Aligned Energy-Based Modeling for Graph Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23398" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23398" target="_blank" rel="noopener">Graph Energy Matching: Transport-Aligned Energy-Based Modeling for Graph Generation</a></h3>
      <p class="summary">Generative modeling of discrete data, such as graphs, underpins many scientific and industrial applications, including molecular discovery…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3b9029a800e4" data-article-url="https://arxiv.org/abs/2603.23977" data-article-title="Circuit-Inspired High-Order Neural Networks with Unified Neural Dynamics Modeling for PDE Solving and Visual Perception" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23977" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23977" target="_blank" rel="noopener">Circuit-Inspired High-Order Neural Networks with Unified Neural Dynamics Modeling for PDE Solving and Visual Perception</a></h3>
      <p class="summary">Deep networks often rely on architectural heuristics to shape representation evolution, limiting their ability to model data governed by in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="13b5e013f168" data-article-url="https://arxiv.org/abs/2603.24254" data-article-title="Beyond Static Uncertainty: Modeling Temporal Uncertainty Dynamics for Probabilistic Time Series Forecasting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.24254" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.24254" target="_blank" rel="noopener">Beyond Static Uncertainty: Modeling Temporal Uncertainty Dynamics for Probabilistic Time Series Forecasting</a></h3>
      <p class="summary">Real-world time series exhibit temporally structured uncertainty: volatility clusters in turbulent regimes, dissipates in stable periods, a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ee421150e9c9" data-article-url="https://arxiv.org/abs/2603.27052" data-article-title="Multi-Level Barriers to Generative AI Adoption Across Disciplines and Professional Roles in Higher Education" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.27052" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.27052" target="_blank" rel="noopener">Multi-Level Barriers to Generative AI Adoption Across Disciplines and Professional Roles in Higher Education</a></h3>
      <p class="summary">Generative Artificial Intelligence (GenAI) is rapidly reshaping higher education, yet barriers to its adoption across different disciplines…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5b6237e0b933" data-article-url="https://arxiv.org/abs/2604.01985" data-article-title="World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.01985" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.01985" target="_blank" rel="noopener">World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry</a></h3>
      <p class="summary">General-purpose world models promise scalable policy evaluation, optimization, and planning, yet achieving the required level of robustness…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8912e405e6e9" data-article-url="https://arxiv.org/abs/2604.09429" data-article-title="Rays as Pixels: Learning A Joint Distribution of Videos and Camera Trajectories" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.09429" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.09429" target="_blank" rel="noopener">Rays as Pixels: Learning A Joint Distribution of Videos and Camera Trajectories</a></h3>
      <p class="summary">Recovering camera parameters from images and rendering scenes from novel viewpoints have been treated as separate tasks in computer vision…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aab9951d9e79" data-article-url="https://arxiv.org/abs/2604.11613" data-article-title="Symmetry Reveals Layerwise Dynamics: How Transformers Perform In-Context Classification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.11613" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.11613" target="_blank" rel="noopener">Symmetry Reveals Layerwise Dynamics: How Transformers Perform In-Context Classification</a></h3>
      <p class="summary">Transformers can perform in-context classification from a few labeled examples, yet the inference-time algorithm remains opaque. We study m…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="130f504286d4" data-article-url="https://arxiv.org/abs/2604.17551" data-article-title="SVL: Goal-Conditioned Reinforcement Learning as Survival Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.17551" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.17551" target="_blank" rel="noopener">SVL: Goal-Conditioned Reinforcement Learning as Survival Learning</a></h3>
      <p class="summary">Standard approaches to goal-conditioned reinforcement learning (GCRL) that rely on temporal-difference learning can be unstable and sample-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3524e354e2ae" data-article-url="https://arxiv.org/abs/2604.18587" data-article-title="Compile to Compress: Boosting Formal Theorem Provers by Compiler Outputs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.18587" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.18587" target="_blank" rel="noopener">Compile to Compress: Boosting Formal Theorem Provers by Compiler Outputs</a></h3>
      <p class="summary">Large language models (LLMs) have demonstrated significant potential in formal theorem proving, yet state-of-the-art performance often nece…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1259f8d1c328" data-article-url="https://arxiv.org/abs/2604.22722" data-article-title="Aligning Dense Retrievers with LLM Utility via Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.22722" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.22722" target="_blank" rel="noopener">Aligning Dense Retrievers with LLM Utility via Distillation</a></h3>
      <p class="summary">Dense vector retrieval is the practical backbone of Retrieval- Augmented Generation (RAG), but similarity search can suffer from precision…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="56ab9228ec92" data-article-url="https://arxiv.org/abs/2604.23468" data-article-title="Progress in Formalizing Sphere Packing in Dimension 8" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.23468" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.23468" target="_blank" rel="noopener">Progress in Formalizing Sphere Packing in Dimension 8</a></h3>
      <p class="summary">In 2016, Viazovska famously solved the sphere packing problem in dimension $8$, using modular forms to construct a &#x27;magic&#x27; function satisfy…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3c558c9b0139" data-article-url="https://arxiv.org/abs/2604.27617" data-article-title="Robust Lightweight Crack Classification for Real-Time UAV Bridge Inspection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.27617" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.27617" target="_blank" rel="noopener">Robust Lightweight Crack Classification for Real-Time UAV Bridge Inspection</a></h3>
      <p class="summary">With the widespread application of Unmanned Aerial Vehicles (UAVs) in bridge structural health monitoring, deep learning-based automatic cr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="54fcc2f9c40f" data-article-url="https://arxiv.org/abs/2605.03337" data-article-title="FreeTimeGS++: Secrets of Dynamic Gaussian Splatting and Their Principles" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.03337" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.03337" target="_blank" rel="noopener">FreeTimeGS++: Secrets of Dynamic Gaussian Splatting and Their Principles</a></h3>
      <p class="summary">The recent surge in 4D Gaussian Splatting (4DGS) has achieved impressive dynamic scene reconstruction. While these methods demonstrate rema…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="33bab57e10fe" data-article-url="https://arxiv.org/abs/2605.06137" data-article-title="Autoregressive Visual Generation Needs a Prologue" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.06137" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.06137" target="_blank" rel="noopener">Autoregressive Visual Generation Needs a Prologue</a></h3>
      <p class="summary">In this work, we propose Prologue, an approach to bridging the reconstruction-generation gap in autoregressive (AR) image generation. Inste…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5021be45eff5" data-article-url="https://arxiv.org/abs/2605.06235" data-article-title="OBLIQ-Bench: Exposing Overlooked Bottlenecks in Modern Retrievers with Latent and Implicit Queries" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.06235" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.06235" target="_blank" rel="noopener">OBLIQ-Bench: Exposing Overlooked Bottlenecks in Modern Retrievers with Latent and Implicit Queries</a></h3>
      <p class="summary">Retrieval benchmarks are increasingly saturating, but we argue that efficient search is far from a solved problem. We identify a class of q…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b9754592facb" data-article-url="https://arxiv.org/abs/2605.06831" data-article-title="Why DDIM Hallucinates More Than DDPM: A Theoretical Analysis of Reverse Dynamics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.06831" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.06831" target="_blank" rel="noopener">Why DDIM Hallucinates More Than DDPM: A Theoretical Analysis of Reverse Dynamics</a></h3>
      <p class="summary">We theoretically study the hallucination phenomena in two canonical diffusion samplers: the stochastic Denoising Diffusion Probabilistic Mo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="04544507154b" data-article-url="https://arxiv.org/abs/2605.08145" data-article-title="Self-Captioning Multimodal Interaction Tuning: Amplifying Exploitable Redundancies for Robust Vision Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.08145" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.08145" target="_blank" rel="noopener">Self-Captioning Multimodal Interaction Tuning: Amplifying Exploitable Redundancies for Robust Vision Language Models</a></h3>
      <p class="summary">Current vision language models face hallucination and robustness issues against ambiguous or corrupted modalities. We hypothesize that thes…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="64f18e5adbb7" data-article-url="https://arxiv.org/abs/2605.11134" data-article-title="Spurious Correlation Learning in Preference Optimization: Mechanisms, Consequences, and Mitigation via Tie Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.11134" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.11134" target="_blank" rel="noopener">Spurious Correlation Learning in Preference Optimization: Mechanisms, Consequences, and Mitigation via Tie Training</a></h3>
      <p class="summary">Preference learning methods like Direct Preference Optimization (DPO) are known to induce reliance on spurious correlations, leading to syc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="96f07d6ee96f" data-article-url="https://arxiv.org/abs/2605.11336" data-article-title="Much of Geospatial Web Search Is Beyond Traditional GIS" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.11336" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.11336" target="_blank" rel="noopener">Much of Geospatial Web Search Is Beyond Traditional GIS</a></h3>
      <p class="summary">Web search queries concern place far more often than existing labelling schemes suggest, yet the landscape of geospatial web search queries…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5e7a4c8f7795" data-article-url="https://arxiv.org/abs/2605.13430" data-article-title="Towards a holistic understanding of Selection Bias for Causal Effect Identification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13430" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13430" target="_blank" rel="noopener">Towards a holistic understanding of Selection Bias for Causal Effect Identification</a></h3>
      <p class="summary">Selection bias is pervasive in observational studies. For example, large scale biobanks data can exhibit ``healthy volunteer bias&#x27;&#x27; when re…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1340347e1e48" data-article-url="https://arxiv.org/abs/2605.16716" data-article-title="MAVEN A Multi-Agent Framework for Multicultural Text-to-Video Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.16716" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.16716" target="_blank" rel="noopener">MAVEN A Multi-Agent Framework for Multicultural Text-to-Video Generation</a></h3>
      <p class="summary">Text-to-video (T2V) generation has rapidly progressed in visual fidelity, yet its ability to faithfully represent multiple cultures within…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c1af1137f764" data-article-url="https://arxiv.org/abs/2605.17101" data-article-title="SEMA-RAG: A Self-Evolving Multi-Agent Retrieval-Augmented Generation Framework for Medical Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.17101" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.17101" target="_blank" rel="noopener">SEMA-RAG: A Self-Evolving Multi-Agent Retrieval-Augmented Generation Framework for Medical Reasoning</a></h3>
      <p class="summary">Retrieval-Augmented Generation (RAG) is widely employed to mitigate risks such as hallucinations and knowledge obsolescence in medical ques…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="10732188ffce" data-article-url="https://arxiv.org/abs/2605.17373" data-article-title="FML-bench: A Controlled Study of AI Research Agent Strategies from the Perspective of Search Dynamics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.17373" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.17373" target="_blank" rel="noopener">FML-bench: A Controlled Study of AI Research Agent Strategies from the Perspective of Search Dynamics</a></h3>
      <p class="summary">AI research agents accelerate ML research by automating hypothesis generation, experimentation, and empirical refinement. Existing agent st…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8cb18c61305a" data-article-url="https://arxiv.org/abs/2605.18024" data-article-title="Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.18024" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.18024" target="_blank" rel="noopener">Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning</a></h3>
      <p class="summary">Cooperation is central to multi-agent reinforcement learning (MARL), yet learned coordination can be fragile when external perturbations di…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7f5821560f0a" data-article-url="https://arxiv.org/abs/2605.18803" data-article-title="PROWL: Prioritized Regret-Driven Optimization for World Model Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.18803" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.18803" target="_blank" rel="noopener">PROWL: Prioritized Regret-Driven Optimization for World Model Learning</a></h3>
      <p class="summary">Modern action-conditioned video world models achieve strong short-horizon visual realism, yet remain unreliable on rare, interaction-critic…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="221d3b5846de" data-article-url="https://arxiv.org/abs/2605.18807" data-article-title="Block-Based Double Decoders" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.18807" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.18807" target="_blank" rel="noopener">Block-Based Double Decoders</a></h3>
      <p class="summary">Encoder-decoder models offer substantial inference-time savings over decoder-only models, but their pretraining objectives suffer from spar…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ba3daa7ea436" data-article-url="https://arxiv.org/abs/2605.19806" data-article-title="Chunking German Legal Code" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.19806" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.19806" target="_blank" rel="noopener">Chunking German Legal Code</a></h3>
      <p class="summary">This paper investigates chunking strategies for retrieval-augmented generation on German statutory law, using the German Civil Code as a st…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0d88e768b8c9" data-article-url="https://arxiv.org/abs/2605.21108" data-article-title="Efficient Learning of Deep State Space Models via Importance Smoothing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.21108" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.21108" target="_blank" rel="noopener">Efficient Learning of Deep State Space Models via Importance Smoothing</a></h3>
      <p class="summary">Latent state space systems are ubiquitous in statistical modelling, arising naturally when time series are observed through noisy measureme…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="10cbceb70486" data-article-url="https://arxiv.org/abs/2605.21470" data-article-title="Agent JIT Compilation for Latency-Optimizing Web Agent Planning and Scheduling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.21470" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.21470" target="_blank" rel="noopener">Agent JIT Compilation for Latency-Optimizing Web Agent Planning and Scheduling</a></h3>
      <p class="summary">Computer-use agents (CUAs) automate tasks specified with natural language such as &quot;order the cheapest item from Taco Bell&quot; by generating se…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="153a49a9cda7" data-article-url="https://arxiv.org/abs/2605.22737" data-article-title="The Distillation Game: Adaptive Attacks &amp; Efficient Defenses" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.22737" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.22737" target="_blank" rel="noopener">The Distillation Game: Adaptive Attacks &amp; Efficient Defenses</a></h3>
      <p class="summary">Distillation attacks create a deployment trade-off for model providers: the same outputs that make a model more useful can also make it eas…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f83b2e7df881" data-article-url="https://arxiv.org/abs/2605.24384" data-article-title="並べて比較すると言語モデルにおける方言のバイアスが増幅される" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24384" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24384" target="_blank" rel="noopener">並べて比較すると言語モデルにおける方言のバイアスが増幅される</a></h3>
      <p class="summary">言語モデル (LM) は、方言ラベルがない場合でも、方言のバリエーションに基づいて話者に対して体系的なバイアスを示す可能性があり、これは隠れ方言バイアスとして知られる動作です。この研究では、LM が標準的なアメリカ英語 (SAE) およびアフリカ系アメリカ人の現地語英語 (AAVE) における意図と同等のツイートと (人種的偏見に関する社会心理学研究に由来する) 定型的特徴をどのように関連付けるかを評価することにより、オンライン言説における隠れた方言バイアスを定量化します。これまでの研究では、LMがツイートを単独で評価する場合、より否定的なステレオタイプをAAVEと関連付けることが示されているが、SAE / AAVEツイートのペアを並べて比較すると、このバイアスが大幅に悪化することがわかり、驚いたことに、この設定は、候補者をランク付けするためにモデルが使用される影響の大きい意思決定のコンテキストをより厳密に反映している。方言ラベルが明示的に指定されている場合、偏りはさらに悪化します。商用開発者が LM のバイアスを軽減するために広範な努力を行っていることを考えると、これは驚くべきことです。心強いことに、反事実的な公平性の微調整により、一部の定型的特性に対する隠された方言バイアスが緩和され、ツイートを単独で評価する場合の平均格差が減少することが示されました。ただし、SAE / AAVE ツイートを並べて評価する場合、これらの改善は特性全体で一貫して維持されるわけではありません。私たちの調査結果は、隠れ方言バイアスに関する既存の評価設定では、特に対照的な設定において、その重大度が過小評価される可能性があることを示しています。さらに、明白な方言バイアスは、安全性を調整した微調整後でも顕著なままであり、これが未解決の問題のままであることを示しており、より堅牢な評価および緩和フレームワークの必要性を動機付けています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Side-by-side Comparison Amplifies Dialect Bias in Language Models</p>
        <p class="orig-summary">Language models (LMs) can exhibit biases based on variations in their dialects, even in the absence of a dialect label, a behavior known as covert dialect bias. In this work, we quantify covert dialect bias in online discourse by evaluating how LMs associate stereotypical traits (derived from social psychology research on racial bias) with intent-equivalent tweets in Standard American English (SAE) and African-American Vernacular English (AAVE). While prior work shows that LMs associate more negative stereotypes with AAVE when evaluating tweets in isolation, we are surprised to find that this bias is significantly exacerbated when SAE / AAVE tweet pairs are compared side by side, a setting that more closely reflects high-impact decision making contexts in which models are used to rank candidates. The bias only worsens when dialect labels are explicitly specified. This is striking, given the extensive efforts from commercial developers to mitigate bias in their LMs. Encouragingly, we show that counterfactual fairness finetuning can mitigate covert dialect bias for some stereotypical traits, reducing average disparities when evaluating tweets in isolation, however, these improvements do not consistently hold across traits when evaluating SAE / AAVE tweets side by side. Our findings show that existing evaluation settings for covert dialect bias may underestimate its severity, specifically in contrastive settings. Additionally, overt dialect bias remains pronounced even after safety aligned finetuning, indicating that it remains an unresolved problem, and motivates the need for more robust evaluation and mitigation frameworks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bdfe23b8b153" data-article-url="https://arxiv.org/abs/2605.25134" data-article-title="Theoretical Analysis of Sparse Optimization with Reparameterization, Weight Decay, and Adaptive Learning Rate" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25134" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25134" target="_blank" rel="noopener">Theoretical Analysis of Sparse Optimization with Reparameterization, Weight Decay, and Adaptive Learning Rate</a></h3>
      <p class="summary">Sparse optimization is a fundamental challenge in various practical applications. A popular approach to sparse optimization is $\ell_p$ reg…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d4dcea073761" data-article-url="https://arxiv.org/abs/2605.25773" data-article-title="Efficient Benchmarking Is Just Feature Selection and Multiple Regression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25773" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25773" target="_blank" rel="noopener">Efficient Benchmarking Is Just Feature Selection and Multiple Regression</a></h3>
      <p class="summary">Efficient benchmarking techniques aim to lower the computational cost of evaluating LLMs by predicting full benchmark scores using only a s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cd3c7d51e817" data-article-url="https://arxiv.org/abs/2605.26121" data-article-title="GEM: 最適な LLM データ キュレーションのための幾何学的エントロピー混合" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26121" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26121" target="_blank" rel="noopener">GEM: 最適な LLM データ キュレーションのための幾何学的エントロピー混合</a></h3>
      <p class="summary">LLM の事前トレーニングの有効性は、膨大な量ではなくデータの構成に依存することが増えています。しかし、最適な混合は分類上の欠陥によって妨げられています。人間の分類法は存在論的な不整合に悩まされており、ユークリッド クラスタリングは埋め込みの異方性に対処できません。私たちは、混合バランス正則化装置で強化された超球上の変分問題としてデータキュレーションを再定式化するフレームワークである GEM (Geometric Entropy Mixing) を紹介します。生成事前を切り離し、証明可能な MM (Minorize-Maximize) アルゴリズムを介して目的を最適化することにより、GEM はクラスターの崩壊に効果的に対抗し、ユークリッド ヒューリスティックでは見えないバランスのとれた意味構造を発見します。私たちは、教師と生徒の蒸留を使用して、この幾何学的忠実度を Web スケールのコーパスにスケールし、解釈可能な分類法を生成するために幾何学的影響スコア (GIS) を導入します。 1.1B パラメーター モデルを使用した実験では、GEM が DoReMi や RegMix などのミキシング戦略に統合された場合に新しい最先端技術を確立し、ダウンストリームの平均精度を最大 1.2% 向上させ、予測可能なデータ ミキシングのための堅牢な座標系を提供することが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GEM: Geometric Entropy Mixing for Optimal LLM Data Curation</p>
        <p class="orig-summary">LLM pre-training efficacy increasingly depends on data composition rather than sheer volume. Yet, optimal mixing is hindered by categorization flaws: human taxonomies suffer from ontological misalignment, and Euclidean clustering fails to address embedding anisotropy. We introduce GEM (Geometric Entropy Mixing), a framework reformulating data curation as a variational problem on the hypersphere augmented with a mixing-balance regularizer. By decoupling the generative prior and optimizing the objective via a provable MM (Minorize-Maximize) algorithm, GEM effectively counteracts the cluster collapse to discover balanced semantic structures invisible to Euclidean heuristics. We employ teacher-student distillation to scale this geometric fidelity to web-scale corpora and introduce the Geometric Influence Score (GIS) for interpretable taxonomy generation. Experiments with 1.1B-parameter models demonstrate that GEM establishes a new state-of-the-art when integrated into mixing strategies like DoReMi and RegMix, improving average downstream accuracy by up to 1.2% and offering a robust coordinate system for predictable data mixing.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a209887c9aad" data-article-url="https://arxiv.org/abs/2605.27255" data-article-title="Pair-In, Pair-Out: Latent Multi-Token Prediction for Efficient LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27255" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27255" target="_blank" rel="noopener">Pair-In, Pair-Out: Latent Multi-Token Prediction for Efficient LLMs</a></h3>
      <p class="summary">Long chain-of-thought reasoning has made autoregressive decoding the dominant inference cost of modern large language models. Existing meth…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4b889e9d014" data-article-url="https://arxiv.org/abs/2605.28836" data-article-title="読者を取り残さない: 誰もが理解できるマルチエージェントの概要" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28836" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28836" target="_blank" rel="noopener">読者を取り残さない: 誰もが理解できるマルチエージェントの概要</a></h3>
      <p class="summary">米国の平文法では、政府文書が一般の人々が簡単に理解できる明確で単純な言語でアクセスできるようにすることを求めていますが、既存の要約システムは、一般読者の間の多様な言語的および認知的障壁に対処するのに苦労しています。我々は、小学生の読者、非ネイティブの読者、注意欠陥のある読者という 3 つの代表的な読者グループをシミュレートする、平易な言語要約のためのマルチエージェント フレームワークである NRLB (No Reader Left Behind) を紹介します。 NRLB は、テンプレートベースの計画と読者指向の反復的な改善を組み合わせ、難しい用語、文脈の欠落、混乱を招く文章の体系的な検出と解決を可能にします。複数のデータセットにわたる評価により、事実の正確さを維持しながら可読性が一貫して向上していることが実証されています。人間による評価では、NRLB の影響がさらに検証され、アノテーターの優先率は 55% から 76% の範囲であり、情報源に忠実であり、一般の人々が広くアクセスできる平易な言葉による要約を作成する NRLB の可能性が強調されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">No Reader Left Behind: Multi-Agent Summaries Everyone Can Understand</p>
        <p class="orig-summary">The Plain Writing Act in the United States requires government documents to be accessible in clear and simple language that the general public can easily understand, yet existing summarization systems struggle to address diverse linguistic and cognitive barriers among general readers. We present NRLB (No Reader Left Behind), a multi-agent framework for plain language summarization that simulates three representative reader groups: elementary school student readers, non-native readers, and readers with attention deficits. NRLB combines template-based planning with iterative, reader-oriented refinement, enabling systematic detection and resolution of difficult terms, missing contexts, and confusing sentences. Evaluations across multiple datasets demonstrate consistent improvements in readability while preserving factual accuracy. Human evaluation further validates NRLB&#x27;s impact, with annotator preference rates ranging from 55% to 76%, highlighting NRLB&#x27;s potential to produce plain language summaries that are both faithful to the source and broadly accessible to the general public.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6965ba56fe9" data-article-url="https://arxiv.org/abs/2605.28916" data-article-title="アインシュタイン望遠鏡のシミュレートされたデータの分析に適用されたエージェント AI の初の直接比較" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28916" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28916" target="_blank" rel="noopener">アインシュタイン望遠鏡のシミュレートされたデータの分析に適用されたエージェント AI の初の直接比較</a></h3>
      <p class="summary">我々は、人間の介入なしに共有コンピューティング インフラストラクチャ上でシンプルなエンドツーエンドの重力波データ分析パイプラインを自律的に実行するという 2 つの最先端のエージェント AI システム、Claude Code (Anthropic) と Codex (OpenAI) の比較を報告します。このパイプラインは、生のアインシュタイン望遠鏡でシミュレートされたノイズからのパワー スペクトル密度推定、幾何学的テンプレート バンクの生成、100 個のバイナリ ブラック ホール信号注入の整合フィルター回復、自動結果生成、および Physical Review D のスタイルでフォーマットされた原稿の大規模言語モデル支援の作成で構成されます。両方のエージェントは、同一の仕様書と同一のコンピューティング リソースを受け取りました。実験は 2 回実行されました。1 回目は非現実的な大音量の注入を使用して実行され、2 回目は物理的に動機付けられた SNR 範囲に再スケーリングされた信号を使用して実行されました。科学的結果は両方の実行で収束しました。ただし、エージェントは大幅に異なる動作と計算コストを示しました。Claude Code は、仕様からのサイレント逸脱はありますが、パイプラインを約 3.4 分で完了しましたが、Codex は、整合フィルターの内部ループの一方的なパフォーマンスの最適化を含む、明示的な自己修正の再起動に約 16 分を要しました。自律的に生成された原稿も、長さ、詳細、品質が異なりました。 2 回目の実行では、SNR 範囲の命令の解釈における微妙な違いが、真の科学的相違につながりました。Claude Code は命令を黙って再解釈しましたが、Codex は文字通り仕様に従いました。速度と可聴性、サイレントと透過的なエラー処理、命令の解釈、マルチモデル パイプラインにおける中間データ表現の重要性など、これらの動作の違いが科学技術コンピューティング ワークフローでのエージェント AI の展開に与える影響について説明します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">First head-to-head comparison of agentic AI applied to the analysis of simulated data of the Einstein Telescope</p>
        <p class="orig-summary">We report a comparison of two state-of-the-art agentic AI systems, Claude Code (Anthropic) and Codex (OpenAI), tasked with autonomously executing a simple end-to-end gravitational wave data analysis pipeline on a shared computing infrastructure without human intervention. The pipeline comprises power spectral density estimation from raw Einstein Telescope simulated noise, geometric template bank generation, matched filter recovery of 100 binary black hole signal injections, automated results generation, and large language model-assisted production of a manuscript formatted in the style of Physical Review D. Both agents received identical written specifications and identical compute resources. The experiment was run twice: a first run with unrealistically loud injections, and a second run with signals rescaled to a physically motivated SNR range. The scientific results converged in both runs. However, the agents exhibited substantially different behaviors and computational costs: Claude Code completed the pipeline in ~3.4 minutes with silent deviations from the specification, while Codex required ~16 minutes across explicit self-correcting restarts, including an unsolicited performance optimization of the matched filter inner loop. The autonomously generated manuscripts also diverged in length, details, and quality. In the second run, a subtle difference in the interpretation of the SNR range instruction led to a genuine scientific divergence: Claude Code silently reinterpreted the instructions, while Codex followed the specification literally. We discuss the implications of these behavioral differences, such as speed versus auditability, silent versus transparent error handling, instruction interpretation, and the criticality of intermediate data representations in multi-model pipelines, for the deployment of agentic AI in scientific computing workflows.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2353cbb93fc7" data-article-url="https://arxiv.org/abs/2605.29146" data-article-title="SafeRx-Agent: 安全で説明可能な投薬推奨のための知識に基づいたマルチエージェント フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29146" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29146" target="_blank" rel="noopener">SafeRx-Agent: 安全で説明可能な投薬推奨のための知識に基づいたマルチエージェント フレームワーク</a></h3>
      <p class="summary">薬剤の推奨は患者の来院時の薬剤を予測しますが、既存の方法では依然として 2 つの重要な課題に直面しています。モデルレベルでは、従来の医薬品推奨方法は限られた根拠に基づいて構造化された医薬品コードを予測するだけですが、LLMエージェントはより豊富な臨床コンテキストを使用できますが、安全性の検証とトレーサビリティが欠けている可能性があります。タスクレベルでは、既存のベンチマークは広範な薬剤カテゴリーを使用することが多く、サブグループレベルの安全性の違いが無視され、リスクの過大評価につながる可能性があります。第 4 レベルの ATC コード生成に基づいた、最初のきめ細かい薬剤推奨設定を導入します。私たちは、患者の状況、外部の臨床知識、安全性検証を使用して追跡可能な薬剤セットを推奨する、知識に基づいたマルチエージェント フレームワークである Safe Prescription Agent (SafeRx-Agent) を提案します。 MIMIC-III および MIMIC-IV データセットに関する実験結果は、SafeRx-Agent が薬物相互作用、禁忌、および薬物セットのサイズを制御しながら、きめ細かい薬物予測の精度を向上させることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SafeRx-Agent: A Knowledge-Grounded Multi-Agent Framework for Safe and Explainable Medication Recommendation</p>
        <p class="orig-summary">Medication recommendation predicts medications for patient visits, but existing methods still face two key challenges. At the model level, traditional drug recommendation methods only predict structured drug codes with limited evidence grounding, while LLM agents can use richer clinical context but may lack safety verification and traceability. At the task level, existing benchmarks often use broad medication categories, which ignore subgroup-level safety differences and can lead to risk overestimation. We introduce the first fine-grained medication recommendation setting based on fourth-level ATC code generation. We propose Safe Prescription Agent (SafeRx-Agent), a knowledge-grounded multi-agent framework that uses patient context, external clinical knowledge, and safety verification to recommend traceable medication sets. Experimental results on MIMIC-III and MIMIC-IV datasets show that SafeRx-Agent improves fine-grained medication prediction accuracy while controlling drug interactions, contraindications, and medication set size.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cbecc7825ba2" data-article-url="https://arxiv.org/abs/2605.29268" data-article-title="Compute Allocation in Evolutionary Search: From Depth-Breadth to Multi-Armed Bandits" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29268" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29268" target="_blank" rel="noopener">Compute Allocation in Evolutionary Search: From Depth-Breadth to Multi-Armed Bandits</a></h3>
      <p class="summary">LLM-guided evolutionary search (Evolve systems) has reached state-of-the-art results on mathematical and combinatorial tasks, yet most exis…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8e21412c776e" data-article-url="https://arxiv.org/abs/2605.29299" data-article-title="Pocket-Dentist: On-Device Dental Image Understanding via Efficient Multimodal Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29299" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29299" target="_blank" rel="noopener">Pocket-Dentist: On-Device Dental Image Understanding via Efficient Multimodal Large Language Models</a></h3>
      <p class="summary">Evaluations of dental vision-language models remain fragmented across datasets, task definitions and metrics, and often ignore their comput…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2a3f327aa52" data-article-url="https://arxiv.org/abs/2605.30120" data-article-title="No More K-means: Single-Stage Sparse Coding for Efficient Multi-Vector Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30120" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30120" target="_blank" rel="noopener">No More K-means: Single-Stage Sparse Coding for Efficient Multi-Vector Retrieval</a></h3>
      <p class="summary">Multi-vector retrieval (MVR) models, exemplified by ColBERT, have established new benchmarks in retrieval accuracy by preserving fine-grain…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3e5bc5f6a319" data-article-url="https://arxiv.org/abs/2605.30155" data-article-title="Neural Network Verification using Partial Multi-Neuron Relaxation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30155" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30155" target="_blank" rel="noopener">Neural Network Verification using Partial Multi-Neuron Relaxation</a></h3>
      <p class="summary">The increasing integration of deep neural networks in critical systems has spawned a theoretical and practical interest in formally guarant…</p>
    </div>
  </div>
</div>
</div>
</details>
</div>]]></content><author><name></name></author><summary type="html"><![CDATA[AIニュース 2026-06-01 — 411件のストーリーを出典・トピック・要約とともに掲載。]]></summary><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-06-01.png" /><media:content medium="image" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-06-01.png" xmlns:media="http://search.yahoo.com/mrss/" /></entry><entry><title type="html">AIニュース 2026-05-31</title><link href="https://ai-news-bot-henna.vercel.app/news/2026/05/2026-05-31/" rel="alternate" type="text/html" title="AIニュース 2026-05-31" /><published>2026-05-31T00:00:00+00:00</published><updated>2026-05-31T00:00:00+00:00</updated><id>https://ai-news-bot-henna.vercel.app/news/2026/05/2026-05-31</id><content type="html" xml:base="https://ai-news-bot-henna.vercel.app/news/2026/05/2026-05-31/"><![CDATA[<h1 id="aiニュース-2026-05-31">AIニュース 2026-05-31</h1>

<p class="auto-gen-note">自動生成: 2026-05-31 13:20 JST</p>

<p><a href="/">← トップに戻る</a></p>

<p>過去24時間以内に公開された記事を、同じ話題ごとに1つのストーリーカードへまとめ、出典・トピック・要約とともに掲載しています。要約は各フィード提供文の冒頭を整形したもので、本文は各リンク先をご覧ください。</p>

<section class="today-top" aria-labelledby="today-top-heading">
  <h2 id="today-top-heading" class="today-top-heading">📌 今日の要点 TOP4</h2>
  <ol class="today-top-list">
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/enterprise/articles/2605/30/news010.html" target="_blank" rel="noopener">日立はAnthropicと組んで何を狙うのか　従業員29万人へのClaude導入で目指す姿</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">ミッションクリティカル領域でのAI活用に向け、日立はAnthropicと戦略的パートナーシップを締結した。同社は今回の提携で何を実現しよう…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/2026/05/30/as-the-browser-wars-heat-up-here-are-the-hottest-alternatives-to-chrome-and-safari-in-2026/" target="_blank" rel="noopener">As the browser wars heat up, here are the hottest alternatives to Chrome and Safari in 2026</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">We’ve compiled an overview of some of the top alternative browsers av…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/2026/05/30/what-a-joke-github-copilots-new-token-based-billing-spurs-consternation-among-devs/" target="_blank" rel="noopener">‘What a joke’: Github Copilot’s new token-based billing spurs consternation among devs</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">The golden age of Microsoft&#x27;s Github Copilot appears to be at an end.</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/2026/05/30/meta-is-reportedly-developing-an-ai-pendant/" target="_blank" rel="noopener">Meta is reportedly developing an AI pendant</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">Meta seems to be making big bets on AI-powered hardware.</p>
    </li>
  </ol>
</section>

<h2 id="トピック別件数">トピック別件数</h2>

<ul class="topic-summary">
  <li data-topic="LLM/生成AI" data-slug="llm"><a href="/topics/llm/"><strong>LLM/生成AI</strong> 3件</a></li>
  <li data-topic="その他" data-slug="others"><a href="/topics/others/"><strong>その他</strong> 2件</a></li>
</ul>

<div class="category-accordion">
<details class="category-block" open="">
<summary class="category-summary"><span class="category-name">日本語メディア</span><span class="category-count">1件</span></summary>
<div class="category-body">
<h3 class="source-section">ITmedia AI+ (日本語)</h3>
<div class="news-card" data-article-id="290c0f4855cc" data-article-url="https://www.itmedia.co.jp/enterprise/articles/2605/30/news010.html" data-article-title="日立はAnthropicと組んで何を狙うのか　従業員29万人へのClaude導入で目指す姿" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">08:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/enterprise/articles/2605/30/news010.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/enterprise/articles/2605/30/cover_news010.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/enterprise/articles/2605/30/news010.html" target="_blank" rel="noopener">日立はAnthropicと組んで何を狙うのか　従業員29万人へのClaude導入で目指す姿</a></h3>
      <p class="summary">ミッションクリティカル領域でのAI活用に向け、日立はAnthropicと戦略的パートナーシップを締結した。同社は今回の提携で何を実現しようとしているのか。</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">海外メディア</span><span class="category-count">3件</span></summary>
<div class="category-body">
<h3 class="source-section">TechCrunch AI (英語)</h3>
<div class="news-card" data-article-id="74c5c0a94fa1" data-article-url="https://techcrunch.com/2026/05/30/what-a-joke-github-copilots-new-token-based-billing-spurs-consternation-among-devs/" data-article-title="‘What a joke’: Github Copilot’s new token-based billing spurs consternation among devs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">01:30 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><a class="entity-tag" href="/entity/copilot/" data-entity="copilot">Copilot</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/30/what-a-joke-github-copilots-new-token-based-billing-spurs-consternation-among-devs/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2023/11/github-copilot-chat-2.webp?w=1200" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/30/what-a-joke-github-copilots-new-token-based-billing-spurs-consternation-among-devs/" target="_blank" rel="noopener">‘What a joke’: Github Copilot’s new token-based billing spurs consternation among devs</a></h3>
      <p class="summary">The golden age of Microsoft&#x27;s Github Copilot appears to be at an end.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d2b66db25e0a" data-article-url="https://techcrunch.com/2026/05/30/meta-is-reportedly-developing-an-ai-pendant/" data-article-title="Meta is reportedly developing an AI pendant" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">00:59 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/30/meta-is-reportedly-developing-an-ai-pendant/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/meta-ai-GettyImages-2264943773.jpg?w=1024" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/30/meta-is-reportedly-developing-an-ai-pendant/" target="_blank" rel="noopener">Meta is reportedly developing an AI pendant</a></h3>
      <p class="summary">Meta seems to be making big bets on AI-powered hardware.</p>
    </div>
  </div>
</div>
<div class="news-card" id="story-3b918a4e33f3" data-article-id="3b918a4e33f3" data-article-url="https://techcrunch.com/2026/05/30/as-the-browser-wars-heat-up-here-are-the-hottest-alternatives-to-chrome-and-safari-in-2026/" data-article-title="As the browser wars heat up, here are the hottest alternatives to Chrome and Safari in 2026" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">22:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-others">その他</span><span class="dup-badge">3件の関連記事</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/30/as-the-browser-wars-heat-up-here-are-the-hottest-alternatives-to-chrome-and-safari-in-2026/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2024/08/search-engine.jpg?resize=1200,700" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/30/as-the-browser-wars-heat-up-here-are-the-hottest-alternatives-to-chrome-and-safari-in-2026/" target="_blank" rel="noopener">As the browser wars heat up, here are the hottest alternatives to Chrome and Safari in 2026</a></h3>
      <p class="summary">We’ve compiled an overview of some of the top alternative browsers available today aiming to challenge Chrome and Safari.</p>
      <div class="story-sources"><span class="story-sources-label">出典:</span><a class="source-badge" href="https://techcrunch.com/2026/05/30/softbank-says-it-will-invest-up-to-e75-billion-to-build-french-data-centers/" target="_blank" rel="noopener" title="SoftBank says it will invest up to €75 billion to build French data centers">TechCrunch AI</a><a class="source-badge" href="https://techcrunch.com/2026/05/30/i-put-googles-24-7-ai-assistant-gemini-spark-to-work-and-its-actually-pretty-useful/" target="_blank" rel="noopener" title="I put Google’s 24/7 AI assistant Gemini Spark to work, and it’s actually pretty useful">TechCrunch AI</a><a class="source-badge" href="https://techcrunch.com/2026/05/30/as-the-browser-wars-heat-up-here-are-the-hottest-alternatives-to-chrome-and-safari-in-2026/" target="_blank" rel="noopener" title="As the browser wars heat up, here are the hottest alternatives to Chrome and Safari in 2026">TechCrunch AI</a></div>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">公式ブログ</span><span class="category-count">0件</span></summary>
<div class="category-body">
<p class="source-empty">このカテゴリの新着記事はありませんでした。</p>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">論文</span><span class="category-count">0件</span></summary>
<div class="category-body">
<p class="source-empty">このカテゴリの新着記事はありませんでした。</p>
</div>
</details>
</div>]]></content><author><name></name></author><summary type="html"><![CDATA[AIニュース 2026-05-31 — 4件のストーリーを出典・トピック・要約とともに掲載。]]></summary><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-05-31.png" /><media:content medium="image" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-05-31.png" xmlns:media="http://search.yahoo.com/mrss/" /></entry><entry><title type="html">AIニュース 2026-05-30</title><link href="https://ai-news-bot-henna.vercel.app/news/2026/05/2026-05-30/" rel="alternate" type="text/html" title="AIニュース 2026-05-30" /><published>2026-05-30T00:00:00+00:00</published><updated>2026-05-30T00:00:00+00:00</updated><id>https://ai-news-bot-henna.vercel.app/news/2026/05/2026-05-30</id><content type="html" xml:base="https://ai-news-bot-henna.vercel.app/news/2026/05/2026-05-30/"><![CDATA[<h1 id="aiニュース-2026-05-30">AIニュース 2026-05-30</h1>

<p class="auto-gen-note">自動生成: 2026-05-30 12:55 JST</p>

<p><a href="/">← トップに戻る</a></p>

<p>過去24時間以内に公開された記事を、同じ話題ごとに1つのストーリーカードへまとめ、出典・トピック・要約とともに掲載しています。要約は各フィード提供文の冒頭を整形したもので、本文は各リンク先をご覧ください。</p>

<section class="today-top" aria-labelledby="today-top-heading">
  <h2 id="today-top-heading" class="today-top-heading">📌 今日の要点 TOP7</h2>
  <ol class="today-top-list">
    <li class="today-top-item">
      <a class="today-top-link" href="https://openai.com/index/braintrust" target="_blank" rel="noopener">How Braintrust turns customer requests into code with Codex</a><span class="today-top-source">OpenAI</span>
      <p class="today-top-snippet">How Braintrust engineers use Codex with GPT-5.5 to run experiments an…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://openai.com/index/boston-childrens-hospital" target="_blank" rel="noopener">Boston Children’s uses AI to unlock new diagnoses</a><span class="today-top-source">OpenAI</span>
      <p class="today-top-snippet">Boston Children’s Hospital uses OpenAI technology to improve patient…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/news/articles/2605/30/news031.html" target="_blank" rel="noopener">OpenAIが生命科学推論AI「GPT-Rosalind」をバイオディフェンスに開放　デュアルユースリスクに懸念も</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">OpenAIは、生命科学研究に特化したフロンティア推論モデル「GPT-Rosalind」を活用した「Rosalind Biodefense…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/news/articles/2605/29/news146.html" target="_blank" rel="noopener">「Nano Banana 2」「Nano Banana Pro」が一般提供開始　「2」は動画からの画像生成もサポート</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">米Googleは5月29日、「Nano Banana 2」（Gemini 3.1 Flash Image）と「Nano Banana Pr…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/2026/05/29/coders-are-refusing-to-work-without-ai-and-that-could-come-back-to-bite-them/" target="_blank" rel="noopener">Coders are refusing to work without AI — and that could come back to bite them</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">While AI is helping coders produce code faster, it may not be produci…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/2026/05/29/artificial-intelligence-definition-glossary-hallucinations-guide-to-common-ai-terms/" target="_blank" rel="noopener">So you’ve heard these AI terms and nodded along; let’s fix that</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">The rise of AI has brought an avalanche of new terms and slang. Here…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/video/what-happens-when-companies-become-too-ai-pilled/" target="_blank" rel="noopener">What happens when companies become too AI-pilled?</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">The people deciding that AI can replace your job are also the ones le…</p>
    </li>
  </ol>
</section>

<h2 id="トピック別件数">トピック別件数</h2>

<ul class="topic-summary">
  <li data-topic="研究/論文" data-slug="research"><a href="/topics/research/"><strong>研究/論文</strong> 297件</a></li>
  <li data-topic="LLM/生成AI" data-slug="llm"><a href="/topics/llm/"><strong>LLM/生成AI</strong> 208件</a></li>
  <li data-topic="エージェント" data-slug="agents"><a href="/topics/agents/"><strong>エージェント</strong> 123件</a></li>
  <li data-topic="ビジネス/資金調達" data-slug="business"><a href="/topics/business/"><strong>ビジネス/資金調達</strong> 43件</a></li>
  <li data-topic="ハードウェア/半導体" data-slug="hardware"><a href="/topics/hardware/"><strong>ハードウェア/半導体</strong> 13件</a></li>
  <li data-topic="ロボティクス" data-slug="robotics"><a href="/topics/robotics/"><strong>ロボティクス</strong> 13件</a></li>
  <li data-topic="その他" data-slug="others"><a href="/topics/others/"><strong>その他</strong> 7件</a></li>
  <li data-topic="画像/動画生成" data-slug="image-video"><a href="/topics/image-video/"><strong>画像/動画生成</strong> 7件</a></li>
  <li data-topic="規制/政策" data-slug="regulation"><a href="/topics/regulation/"><strong>規制/政策</strong> 2件</a></li>
</ul>

<div class="category-accordion">
<details class="category-block" open="">
<summary class="category-summary"><span class="category-name">日本語メディア</span><span class="category-count">4件</span></summary>
<div class="category-body">
<h3 class="source-section">ITmedia AI+ (日本語)</h3>
<div class="news-card" id="story-39880cd34a77" data-article-id="39880cd34a77" data-article-url="https://www.itmedia.co.jp/news/articles/2605/30/news031.html" data-article-title="OpenAIが生命科学推論AI「GPT-Rosalind」をバイオディフェンスに開放　デュアルユースリスクに懸念も" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">06:48 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-regulation">規制/政策</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><span class="dup-badge">2件の関連記事</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/news/articles/2605/30/news031.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/news/articles/2605/30/cover_news031.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/news/articles/2605/30/news031.html" target="_blank" rel="noopener">OpenAIが生命科学推論AI「GPT-Rosalind」をバイオディフェンスに開放　デュアルユースリスクに懸念も</a></h3>
      <p class="summary">OpenAIは、生命科学研究に特化したフロンティア推論モデル「GPT-Rosalind」を活用した「Rosalind Biodefense」プログラムを発表した。生物脅威の検知など防衛目的に限定し、審査済みの開発者や米政府機関および同盟国のパートナー組織にAPIを無償提供する。</p>
      <div class="story-sources"><span class="story-sources-label">出典:</span><a class="source-badge" href="https://www.itmedia.co.jp/news/articles/2605/30/news031.html" target="_blank" rel="noopener" title="OpenAIが生命科学推論AI「GPT-Rosalind」をバイオディフェンスに開放　デュアルユースリスクに懸念も">ITmedia AI+</a><a class="source-badge" href="https://www.itmedia.co.jp/aiplus/article/2605/29/2000000037/" target="_blank" rel="noopener" title="OpenAI、日本政府とサイバーセキュリティで協力　最新AI「GPT-5.5-Cyber」を金融機関に提供">ITmedia AI+</a></div>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="71820db1c9fa" data-article-url="https://www.itmedia.co.jp/news/articles/2605/29/news146.html" data-article-title="「Nano Banana 2」「Nano Banana Pro」が一般提供開始　「2」は動画からの画像生成もサポート" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">20:30 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/news/articles/2605/29/news146.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/news/articles/2605/29/cover_news146.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/news/articles/2605/29/news146.html" target="_blank" rel="noopener">「Nano Banana 2」「Nano Banana Pro」が一般提供開始　「2」は動画からの画像生成もサポート</a></h3>
      <p class="summary">米Googleは5月29日、「Nano Banana 2」（Gemini 3.1 Flash Image）と「Nano Banana Pro」（Gemini 3 Pro Image）の一般提供を開始すると発表した。加えて、動画入力に対応する新機能をNano Banana 2でプ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e887bcc19e3b" data-article-url="https://www.itmedia.co.jp/news/articles/2605/29/news144.html" data-article-title="日本政府と主要金融機関、OpenAI新モデルのアクセス権を取得　サイバー対策強化へ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">19:14 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-regulation">規制/政策</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/news/articles/2605/29/news144.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/images/logo/1200x630_500x500_news.gif" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/news/articles/2605/29/news144.html" target="_blank" rel="noopener">日本政府と主要金融機関、OpenAI新モデルのアクセス権を取得　サイバー対策強化へ</a></h3>
      <p class="summary">片山さつき金融担当相が、米OpenAIが開発した新型AIのアクセス権を政府と主要金融機関が取得したと明らかにした。高性能AIがサイバー攻撃に悪用される懸念が高まる中、AIを防御に活用した対策が急務となっている。片山氏は「わが国金融機関のサイバーセキュリティー強化の観点から歓迎す…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ce98f1d829cf" data-article-url="https://atmarkit.itmedia.co.jp/ait/articles/2605/29/news103.html" data-article-title="JR西日本は“熟練者が手書きするしかなかった車両作業計画”をAIでどう自動化するのか？" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">17:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://atmarkit.itmedia.co.jp/ait/articles/2605/29/news103.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/ait/articles/2605/29/cover_news103.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://atmarkit.itmedia.co.jp/ait/articles/2605/29/news103.html" target="_blank" rel="noopener">JR西日本は“熟練者が手書きするしかなかった車両作業計画”をAIでどう自動化するのか？</a></h3>
      <p class="summary">JR西日本は、熟練担当者が手書きで作成していた鉄道車両基地の構内作業計画を、AIで自動作成するシステムを開発している。なぜ開発し、どのような効果を見込むのか。</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">海外メディア</span><span class="category-count">9件</span></summary>
<div class="category-body">
<h3 class="source-section">TechCrunch AI (英語)</h3>
<div class="news-card" data-article-id="bfab3dca5f76" data-article-url="https://techcrunch.com/2026/05/29/coders-are-refusing-to-work-without-ai-and-that-could-come-back-to-bite-them/" data-article-title="Coders are refusing to work without AI — and that could come back to bite them" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">07:14 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/29/coders-are-refusing-to-work-without-ai-and-that-could-come-back-to-bite-them/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2021/06/bee_tongue.jpg?resize=1200,840" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/29/coders-are-refusing-to-work-without-ai-and-that-could-come-back-to-bite-them/" target="_blank" rel="noopener">Coders are refusing to work without AI — and that could come back to bite them</a></h3>
      <p class="summary">While AI is helping coders produce code faster, it may not be producing better code, researchers warn. And that could cause problems down t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b59d5931a7bb" data-article-url="https://techcrunch.com/2026/05/29/artificial-intelligence-definition-glossary-hallucinations-guide-to-common-ai-terms/" data-article-title="So you’ve heard these AI terms and nodded along; let’s fix that" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">03:49 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/29/artificial-intelligence-definition-glossary-hallucinations-guide-to-common-ai-terms/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2025/03/GettyImages-ai-generated-eb728837-4a65-4ce4-b814-abd0c140d20c.jpg?w=1024" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/29/artificial-intelligence-definition-glossary-hallucinations-guide-to-common-ai-terms/" target="_blank" rel="noopener">So you’ve heard these AI terms and nodded along; let’s fix that</a></h3>
      <p class="summary">The rise of AI has brought an avalanche of new terms and slang. Here is a glossary with definitions of some of the most important words and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="74e8a7cb166f" data-article-url="https://techcrunch.com/video/what-happens-when-companies-become-too-ai-pilled/" data-article-title="What happens when companies become too AI-pilled?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">02:57 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/video/what-happens-when-companies-become-too-ai-pilled/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2025/10/2244026103.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/video/what-happens-when-companies-become-too-ai-pilled/" target="_blank" rel="noopener">What happens when companies become too AI-pilled?</a></h3>
      <p class="summary">The people deciding that AI can replace your job are also the ones least likely to understand what your job truly involves, according to Bo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="82d27a9e2c10" data-article-url="https://techcrunch.com/2026/05/29/cognitions-scott-wu-says-ai-coding-agents-shouldnt-replace-humans/" data-article-title="Cognition’s Scott Wu says AI coding agents shouldn’t replace humans" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">01:13 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/29/cognitions-scott-wu-says-ai-coding-agents-shouldnt-replace-humans/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/Scott-wu-headshot-e1780070238342.png?resize=1200,1004" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/29/cognitions-scott-wu-says-ai-coding-agents-shouldnt-replace-humans/" target="_blank" rel="noopener">Cognition’s Scott Wu says AI coding agents shouldn’t replace humans</a></h3>
      <p class="summary">Cognition makes Devin, the first and arguably most successful AI coding agent. But famed coder Wu says it isn&#x27;t designed to supplant human…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a5126ef298c2" data-article-url="https://techcrunch.com/2026/05/29/today-is-the-last-day-to-apply-to-speak-at-techcrunch-disrupt-2026/" data-article-title="Today is the last day to apply to speak at TechCrunch Disrupt 2026" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:15 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/29/today-is-the-last-day-to-apply-to-speak-at-techcrunch-disrupt-2026/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2024/05/breakout_1200x600_a9107e.png?w=1200" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/29/today-is-the-last-day-to-apply-to-speak-at-techcrunch-disrupt-2026/" target="_blank" rel="noopener">Today is the last day to apply to speak at TechCrunch Disrupt 2026</a></h3>
      <p class="summary">Submit your session topic before today ends for a chance to speak at TechCrunch Disrupt 2026. Apply now to share your insight and help shap…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="70973a40c6ba" data-article-url="https://techcrunch.com/2026/05/29/final-24-hours-to-save-up-to-410-on-your-techcrunch-disrupt-2026-ticket/" data-article-title="Final 24 hours to save up to $410 on your TechCrunch Disrupt 2026 ticket" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/29/final-24-hours-to-save-up-to-410-on-your-techcrunch-disrupt-2026-ticket/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/02/TCD26_24Hours-16X9-Dark.png?resize=1200,675" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/29/final-24-hours-to-save-up-to-410-on-your-techcrunch-disrupt-2026-ticket/" target="_blank" rel="noopener">Final 24 hours to save up to $410 on your TechCrunch Disrupt 2026 ticket</a></h3>
      <p class="summary">You now have until tonight at 11:59 p.m. PT to lock in Early Bird savings of up to $410 for TechCrunch Disrupt 2026 before prices increase.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="78d00f9679ba" data-article-url="https://techcrunch.com/podcast/does-your-ceo-have-ai-psychosis-aaron-levie-thinks-most-of-them-do/" data-article-title="Does your CEO have AI psychosis? Aaron Levie thinks most of them do." data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/podcast/does-your-ceo-have-ai-psychosis-aaron-levie-thinks-most-of-them-do/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2018/02/tc-backlight-e1689786273147.png?w=1200" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/podcast/does-your-ceo-have-ai-psychosis-aaron-levie-thinks-most-of-them-do/" target="_blank" rel="noopener">Does your CEO have AI psychosis? Aaron Levie thinks most of them do.</a></h3>
      <p class="summary">The people deciding that AI can replace your job are also the ones least likely to understand what your job truly involves, according to Bo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1c3c4c0cf715" data-article-url="https://techcrunch.com/2026/05/29/kiwibits-ai-powered-bird-feeder-is-my-new-backyard-buddy/" data-article-title="Kiwibit’s AI-powered bird feeder is my new backyard buddy" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">22:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/29/kiwibits-ai-powered-bird-feeder-is-my-new-backyard-buddy/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/Solar-Roof-Beako-Lifestyle-Image-3.png?w=1200" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/29/kiwibits-ai-powered-bird-feeder-is-my-new-backyard-buddy/" target="_blank" rel="noopener">Kiwibit’s AI-powered bird feeder is my new backyard buddy</a></h3>
      <p class="summary">If you&#x27;re looking for a fun way to connect with nature while collecting bird species on an app like Pokémon, give this smart feeder a try.</p>
    </div>
  </div>
</div>
<div class="news-card" id="story-b87402dcad4d" data-article-id="b87402dcad4d" data-article-url="https://techcrunch.com/2026/05/29/xcena-secures-135m-at-570m-valuation-betting-on-memory-as-ais-real-bottleneck/" data-article-title="This chip startup just raised $135M on a bet that AI’s biggest bottleneck isn’t compute — it’s memory" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">21:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="dup-badge">2件の関連記事</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/29/xcena-secures-135m-at-570m-valuation-betting-on-memory-as-ais-real-bottleneck/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/MX1P_CSB_REV20_-2_black.jpg?resize=1200,750" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/29/xcena-secures-135m-at-570m-valuation-betting-on-memory-as-ais-real-bottleneck/" target="_blank" rel="noopener">This chip startup just raised $135M on a bet that AI’s biggest bottleneck isn’t compute — it’s memory</a></h3>
      <p class="summary">South Korean chip startup XCENA is betting that AI&#x27;s real bottleneck is not compute, but memory.</p>
      <div class="story-sources"><span class="story-sources-label">出典:</span><a class="source-badge" href="https://techcrunch.com/2026/05/29/after-nvidias-20b-not-acqui-hire-ai-chip-startup-groq-reportedly-raising-650m/" target="_blank" rel="noopener" title="After Nvidia’s $20B not-acqui-hire, AI chip startup Groq reportedly raising $650M">TechCrunch AI</a><a class="source-badge" href="https://techcrunch.com/2026/05/29/xcena-secures-135m-at-570m-valuation-betting-on-memory-as-ais-real-bottleneck/" target="_blank" rel="noopener" title="This chip startup just raised $135M on a bet that AI’s biggest bottleneck isn’t compute — it’s memory">TechCrunch AI</a></div>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">公式ブログ</span><span class="category-count">2件</span></summary>
<div class="category-body">
<h3 class="source-section">OpenAI (英語)</h3>
<div class="news-card" data-article-id="e63fa88b5624" data-article-url="https://openai.com/index/boston-childrens-hospital" data-article-title="Boston Children’s uses AI to unlock new diagnoses" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">21:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://openai.com/index/boston-childrens-hospital" target="_blank" rel="noopener"><img loading="lazy" src="https://images.ctfassets.net/kftzwdyauwt9/30rCYJwrLmxJa0mwAW1suo/af215de4b370e0310026dadd6085431c/boston-childrens-seo.png?w=1600&amp;h=900&amp;fit=fill" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://openai.com/index/boston-childrens-hospital" target="_blank" rel="noopener">Boston Children’s uses AI to unlock new diagnoses</a></h3>
      <p class="summary">Boston Children’s Hospital uses OpenAI technology to improve patient care, reduce operational burden, and help diagnose more than 40 rare d…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="507ec0fdf629" data-article-url="https://openai.com/index/braintrust" data-article-title="How Braintrust turns customer requests into code with Codex" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">21:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://openai.com/index/braintrust" target="_blank" rel="noopener"><img loading="lazy" src="https://images.ctfassets.net/kftzwdyauwt9/5RgT3cPhA5Fs0Nm9sjhmwV/bfa31b3a64ed1689da20b7ae1fc8a3d1/oai_Braintrust_SEO.png?w=1600&amp;h=900&amp;fit=fill" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://openai.com/index/braintrust" target="_blank" rel="noopener">How Braintrust turns customer requests into code with Codex</a></h3>
      <p class="summary">How Braintrust engineers use Codex with GPT-5.5 to run experiments and code faster.</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">論文</span><span class="category-count">558件</span></summary>
<div class="category-body">
<h3 class="source-section">arXiv cs.AI (英語)</h3>
<div class="news-card" data-article-id="ff3846b7522f" data-article-url="https://arxiv.org/abs/2605.28849" data-article-title="行動誘発ミラープロックス時間差学習によるポリシー外予測の高速化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28849" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28849" target="_blank" rel="noopener">行動誘発ミラープロックス時間差学習によるポリシー外予測の高速化</a></h3>
      <p class="summary">勾配時間差分法は、線形関数近似による安定したオフポリシー予測を提供しますが、その実際のパフォーマンスは、補助変数メトリックによって引き起こされるジオメトリによって大きく影響されます。既存の Mirror-Prox TD メソッドは通常、特徴共分散メトリックを使用しますが、ハイブリッド TD メソッドは、動作ポリシー遷移情報がより有益な更新ジオメトリを提供できることを示唆しています。この論文は、STHTD-MP と呼ばれる動作誘起ミラープロックス時間差法を提案します。これは、主双対鞍点定式化の共分散メトリックを、動作ポリシーのベルマン行列の対称部分に置き換えます。この方法では、主変数と補助変数の単一の学習率を維持し、結果として得られるハイブリッド鞍点演算子に Mirror-Prox 予測補正ステップを適用します。標準的な確率的近似仮定の下で、固定ポリシーの線形予測に対する形式的収束分析を提供します。行動誘発計量は正定値であり、結合平均システムは Hurwitz であり、有界性はリアプノフ引数に従い、確率的再帰は ODE 法によって収束します。さらに、決定論的な Mirror-Prox 誤差行列のスペクトル半径に基づいて、投影されたオラクルのエルゴード ギャップ境界と GTD2-MP との正確な平均演算子比較を導出します。分析の結果、行動誘発メトリックによって鞍点の形状が改善される場合、STHTD-MP は GTD2-MP よりも平均収縮率が小さくなる可能性があることが示されています。 2 状態ベンチマーク、ランダム ウォーク、およびボーヤン チェーン ベンチマークの正確な数値平均演算子分析はこの条件を裏付けていますが、ベアードの反例は厳密な仮定が当てはまらない特異境界ケースとして特定されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction</p>
        <p class="orig-summary">Gradient temporal-difference methods provide stable off-policy prediction with linear function approximation, but their practical performance is strongly affected by the geometry induced by the auxiliary-variable metric. Existing Mirror-Prox TD methods typically use the feature covariance metric, whereas hybrid TD methods suggest that behavior-policy transition information can provide a more informative update geometry. This paper proposes a behavior-induced Mirror-Prox temporal-difference method, called STHTD-MP, which replaces the covariance metric in the primal-dual saddle-point formulation with the symmetric part of the behavior-policy Bellman matrix. The method keeps a single learning rate for the primal and auxiliary variables and applies a Mirror-Prox prediction-correction step to the resulting hybrid saddle-point operator. We provide a formal convergence analysis for fixed-policy linear prediction under standard stochastic approximation assumptions: the behavior-induced metric is positive definite, the joint mean system is Hurwitz, boundedness follows from a Lyapunov argument, and the stochastic recursion converges by the ODE method. We further derive projected-oracle ergodic gap bounds and an exact mean-operator comparison with GTD2-MP based on the spectral radius of the deterministic Mirror-Prox error matrix. The analysis shows that STHTD-MP can have a smaller mean contraction factor than GTD2-MP when the behavior-induced metric improves the saddle-point geometry. Exact numerical mean-operator analysis on two-state, Random Walk, and Boyan Chain benchmarks supports this condition, while Baird&#x27;s counterexample is identified as a singular boundary case where the strict assumptions fail.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="537ec3ff010f" data-article-url="https://arxiv.org/abs/2605.28855" data-article-title="ポリシー外の時間差予測に対する動作認識型の補助修正" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28855" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28855" target="_blank" rel="noopener">ポリシー外の時間差予測に対する動作認識型の補助修正</a></h3>
      <p class="summary">関数近似を使用した時間差学習は、オフポリシー サンプリングの下で​​は不安定になる可能性があります。 TDC は補助共分散補正を通じてオフポリシー TD を安定化し、TDRC は単一タイムスケールの再帰でこの補正をさらに正規化します。この論文では、値関数近似の特徴空間ダイナミクスを理解するための標準ローカル モデルである、線形予測設定における補助共分散ジオメトリの動作を意識した置き換えについて研究します。まず、TDC 補助行列 (C) を動作ベルマン行列 (A_\mu) に置き換えて BA-TDC を生成し、次に同じ動作認識方程式を正規化して BA-TDRC を取得します。この 2 段階の構築により、動作認識ジオメトリの寄与と正則化の寄与が分離されます。線形解析は、ニューラル ネットワークの値近似で生じる補助幾何設計の問題に対する扱いやすいモデルも提供します。この場合、特徴の共分散と時間遷移行列が共同して最終層の補正ダイナミクスを形成します。有限状態平均系の定式化を行い、インスタンス化された平均系のフルヴィッツ安定条件下での固定点保存とほぼ確実な収束を証明し、正確な線形誤差再帰のスペクトル半径を通じて決定論的平均率を比較します。 2 状態の反例、ベアードの反例、ランダム ウォーク、およびボーヤン チェーンに関する実験では、動作認識置換は一部のタスクではそれ自体で非常に有益である可能性がありますが、より困難な設定全体で堅牢なパフォーマンスを得るには正則化が必要であることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction</p>
        <p class="orig-summary">Temporal-difference learning with function approximation can be unstable under off-policy sampling. TDC stabilizes off-policy TD through an auxiliary covariance correction, and TDRC further regularizes this correction in a single-timescale recursion. This paper studies a behavior-aware replacement of the auxiliary covariance geometry in the linear prediction setting, which is the standard local model for understanding the feature-space dynamics of value-function approximation. We first replace the TDC auxiliary matrix (C) by the behavior Bellman matrix (A_\mu), yielding BA-TDC, and then regularize the same behavior-aware equation to obtain BA-TDRC. This two-step construction separates the contribution of behavior-aware geometry from the contribution of regularization. The linear analysis also provides a tractable model for an auxiliary-geometry design question that arises in neural-network value approximation, where feature covariances and temporal transition matrices jointly shape the last-layer correction dynamics. We give a finite-state mean-system formulation, prove fixed-point preservation and almost-sure convergence under a Hurwitz stability condition on the instantiated mean system, and compare deterministic mean rates through the spectral radius of the exact linear error recursion. Experiments on the two-state counterexample, Baird&#x27;s counterexample, Random Walk, and Boyan Chain show that the behavior-aware replacement can be highly beneficial by itself on some tasks, but that regularization is necessary for robust performance across harder settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0e7623426c33" data-article-url="https://arxiv.org/abs/2605.28864" data-article-title="認知カテゴリー変換器: 言語モデリングのためのカテゴリー理論的帰納バイアス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28864" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28864" target="_blank" rel="noopener">認知カテゴリー変換器: 言語モデリングのためのカテゴリー理論的帰納バイアス</a></h3>
      <p class="summary">Cognitive Categorical Transformer (CCT) は、カテゴリ理論と認知科学からのいくつかのインスピレーションに由来する認知的に根拠のあるコンポーネントで、事前トレーニング済みの GPT-2 Small バックボーンを強化する 306M パラメーターのアーキテクチャです。 WikiText-103 の一致ステップ プロトコル (215,000 のオプティマイザー ステップ、一致したデータ、一致したオプティマイザーとスケジュール) の下では、CCT は 21.27 の検証複雑度に達しましたが、これと比較して、同様に微調整された GPT-2 Small ベースラインでは 24.19 でした。したがって、このアーキテクチャは、ドメイン内微調整だけで実現できる量を超える 2.92 PPL (相対 12%) の削減に貢献します。 7 フェーズのアクティベーション スケジュール全体にわたって GT-Full の単純なメッセージ パッシングをバイパスするリトレーニング フロム スクラッチ アブレーションは 23.72 PPL に達し、アーキテクチャの改善の 84% (2.92 PPL のうち 2.45) を GT-Full に限定します。我々は、単純なメッセージパッシングが WikiText-103 の 3 億 6M パラメータスケールで言語モデルの複雑さを改善するという、アブレーションで検証された最初の証拠を提示します。公開された GPT-2 Large は、GPT-2 Small の 6.2 倍のパラメータを持ち、WikiText-103 で 22.05 ゼロショット PPL に達しました。このペーパーでは、その数値をアーキテクチャのベンチマークとしてではなく、外部に公開された参照として扱います。整合性スタイルのカテゴリカル事前確率に関する 3 つの否定的な結果 (層の平滑化、付加のラウンドトリップ、曲率の正則化) と、GT-Full と PrecisionWeightedPP の結合構造事前確率の結果は共に、*構造/一貫性の区別* と呼ばれる経験的パターンを裏付けています。このパターンでは、新しいトポロジーを追加するカテゴリカル事前確率は言語モデリングを改善しますが、一貫性の同一性を強制するカテゴリカル事前確率は改善しません。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling</p>
        <p class="orig-summary">The Cognitive Categorical Transformer (CCT) is a 306M-parameter architecture that augments a pretrained GPT-2 Small backbone with cognitively grounded components derived from category theory and several inspirations from cognitive science. Under a matched-step protocol (215,000 optimizer steps, matched data, matched optimizer and schedule) on WikiText-103, CCT reaches 21.27 validation perplexity, compared with 24.19 for an identically fine-tuned GPT-2 Small baseline. The architecture therefore contributes a 2.92 PPL (12% relative) reduction beyond what in-domain fine-tuning alone provides. A retrain-from-scratch ablation that holds GT-Full simplicial message passing bypassed across the entire seven-phase activation schedule reaches 23.72 PPL, localizing 84% of the architectural improvement (2.45 of 2.92 PPL) to GT-Full. We present the first ablation-validated evidence that simplicial message passing improves language-model perplexity at the 306M-parameter scale on WikiText-103. Published GPT-2 Large reaches 22.05 zero-shot PPL on WikiText-103 with 6.2x more parameters than GPT-2 Small; this paper treats that number as an external published reference, not as the architectural benchmark. Three negative results on consistency-style categorical priors (sheaf smoothing, adjunction round-trip, curvature regularization) and the joint structural-prior result for GT-Full and PrecisionWeightedPP together support an empirical pattern termed the *structure/consistency distinction*, in which categorical priors that add new topology improve language modeling and those that enforce a consistency identity do not.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c9609bf69dfa" data-article-url="https://arxiv.org/abs/2605.28883" data-article-title="Ultra-Reduced-Impact-Encased-Logging (URIEL): 航空機搭載ロボットシステムを使用した、熱帯林における選択的持続可能な伐採と収穫後の造林処理のための新しい方法を提案する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28883" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28883" target="_blank" rel="noopener">Ultra-Reduced-Impact-Encased-Logging (URIEL): 航空機搭載ロボットシステムを使用した、熱帯林における選択的持続可能な伐採と収穫後の造林処理のための新しい方法を提案する</a></h3>
      <p class="summary">世界中の熱帯林は、経済的および政治的利益によって引き起こされる激しい森林破壊圧力にさらされており、科学的証拠は、この森林破壊が気候変動に寄与していることを示唆しています。この論文では、熱帯林のための新しい伐採方法、Ultra-Reduced-Impact-Encased-Logging (URIEL) を提案します。この新しい方法は、ドローンによる収穫後の造林処理と統合されたロボット工学と AI の集中的な使用と組み合わせたヘリロギング技術に基づいています。この方法に適した機器のコンセプトが開発され、寸法が決定され、デジタル概念実証で詳細が完成し、ヘリコプターと木材と距離のさまざまな組み合わせについて、効果的なデジタル シミュレーションと経済的実現可能性分析が実行されました。その結果、URIEL手法は経済性が高く、生態系サービスを維持しながら森林への巻き添え被害を実質的に排除できることが実証されました。この論文の主な結論は、科学的および技術的に満足のいく結果が得られたにもかかわらず、ウリエル法の実現可能性は、その状況に固有の利害関係者の統合に依存しているということです。政治政府。認定伐採会社。そして先住民族。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Ultra-Reduced-Impact-Encased-Logging (URIEL): propose a new method for selective sustainable logging and post-harvest silvicultural treatment in tropical forest using airborne robotics systems</p>
        <p class="orig-summary">Tropical forests worldwide are under intense deforestation pressure driven by economic and political interests, and scientific evidence suggests this deforestation contributes to climate change. This paper proposes a novel logging method for tropical forests, Ultra-Reduced-Impact-Encased-Logging (URIEL). This new method is based on heli-logging techniques combined with intensive use of robotics and AI integrated with post-harvest silvicultural treatments performed by drones. The concept of appropriate equipment for this method was developed, dimensions were determined, details were completed in a digital proof of concept, and an effective digital simulation and economic feasibility analysis were carried out for various helicopter-timber-distance combinations. The results demonstrated that a URIEL method has high economic viability and makes it possible to virtually eliminate collateral damage to forests while maintaining ecosystem services. The main conclusion of this paper is that, despite the satisfactory scientific and technological results, the feasibility of a Uriel method depends on the integration of stakeholders intrinsic to the context: high-tech industry; political governments; certified logging companies; and native populations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="20fb949789da" data-article-url="https://arxiv.org/abs/2605.28897" data-article-title="レビュー アーケード: LLM レビューの人間性とゲーム性について" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28897" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28897" target="_blank" rel="noopener">レビュー アーケード: LLM レビューの人間性とゲーム性について</a></h3>
      <p class="summary">LLM が生成する科学論文のレビューは大きな注目を集めており、主要な会議でも正式に試験的に導入されています。査読者だけが LLM 支援を使用しているだけでなく、著者も投稿前に論文を修正するために LLM を使用していることを想定する必要があります。この研究では、2025 ACL ローリング レビュー (ARR) の論文に対して実証実験を実行し、著者と査読者の両方の観点から LLM レビューを評価します。まず、LLM レビューと人間のレビューとの限定的な整合性を特定します。最良のシナリオでは、位置合わせは適切です。ただし、LLM と人間のアライメントはプロンプトとモデルによって大幅に異なることもわかりました。最後に、作成者がドラフトと改訂の反復ワークフローを使用して、LLM レビューに従って提出物を改善するシナリオを調査します。 LLM レビューのこの「ゲーム」は特定のシナリオで効果的であり、最大 35\% の論文で全体のスコアが統計的に有意に増加することがわかりました。コードを公開しています: https://github.com/uhh-hcds/reviewarcade。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Review Arcade: On the Human Alignment and Gameability of LLM Reviews</p>
        <p class="orig-summary">LLM-generated reviews for scientific papers are gaining considerable traction and are even being officially piloted by major conferences. We have to assume that not only reviewers are using LLM-assistance, but also that authors use LLMs to revise their papers before submitting. In this work, we perform empirical experiments on papers from the 2025 ACL Rolling Review (ARR) to evaluate LLM reviews from both the author and the reviewer perspective. First, we identify a limited alignment of LLM reviews with human ones. In the best-case scenario, the alignment is reasonable. However, we also find that LLM-human alignment varies substantially across prompts and models. Finally, we investigate the scenario in which the author uses an iterative draft-revise workflow to improve the submission according to the LLM review. We find that this &quot;gaming&quot; of LLM reviews can be effective in specific scenarios, leading to a statistically significant increase of overall scores for up to 35\% of papers. We publish our code: https://github.com/uhh-hcds/reviewarcade.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5533142558fc" data-article-url="https://arxiv.org/abs/2605.28902" data-article-title="拡散モデルの直交概念消去" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28902" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28902" target="_blank" rel="noopener">拡散モデルの直交概念消去</a></h3>
      <p class="summary">概念消去は、拡散モデルにおける望ましくないコンテンツや安全でないコンテンツを軽減するための有望なアプローチとして浮上していますが、既存の方法には依然として大きな限界があります。トレーニングベースの方法は効果的ですが、計算コストが高いため、スケーラビリティが制限されます。編集ベースの方法はより効率的で展開しやすいですが、正確な概念の消去と全体的な生成能力の維持を同時に達成するのに苦労します。私たちは、編集ベースの方法のこの核となる制限が、追加的なパラメーター更新への依存であると特定しました。私たちの経験的分析により、概念の意味論は主にニューロンの大きさではなくニューロンの方向に依存し、全体的な生成能力はニューロンの角度幾何学に依存することが明らかになりました。追加的な更新は本質的に方向、大きさ、角度ジオメトリに絡み合っているため、必然的に概念の消去と全体的な生成パフォーマンスの間に意図しない干渉が生じます。これに対処するために、編集ベースの消去を幾何学的な観点から乗算パラメータ更新として再定式化する直交概念消去 (OCE) を提案します。具体的には、OCE は、閉形式の解から導出されたレイヤーごとの直交変換をパラメーターに適用し、ニューロンの大きさと角度の幾何学形状を維持しながら、正確な概念消去を可能にします。さらに、複数概念消去における矛盾する制約に対処するために、OCE は構造化された部分空間操作を備えた部分空間レベルの目標を導入し、より効果的でスケーラブルな消去を実現します。単一概念および複数概念の消去に関する広範な実験により、OCE が概念消去と非ターゲット保存において既存の手法を上回り、4.3 秒で最大 100 個の概念を消去できることが実証されました。コード: https://github.com/HansSunY/OCE。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Orthogonal Concept Erasure for Diffusion Models</p>
        <p class="orig-summary">Concept erasure has emerged as a promising approach to mitigate undesired or unsafe content in diffusion models, yet existing methods still face significant limitations. While training-based methods are effective, their high computational cost limits scalability. Editing-based methods are more efficient and deployment-friendly, yet they struggle to simultaneously achieve precise concept erasure and preserve overall generative capacity. We identify this core limitation of the editing-based methods as reliance on additive parameter updates. Our empirical analysis reveals that concept semantics primarily depend on neuron direction rather than neuron magnitude, while overall generative capacity relies on the angular geometry of neurons. As additive updates inherently entangle direction, magnitude, and angular geometry, they inevitably introduce unintended interference between concept erasure and overall generation performance. To address this, we propose Orthogonal Concept Erasure (OCE), which reformulates editing-based erasure as multiplicative parameter updates from a geometric perspective. Specifically, OCE applies layer-wise orthogonal transformations derived from a closed-form solution to the parameters, enabling precise concept erasure while preserving the neuron magnitude and angular geometry. Furthermore, to address conflicting constraints in multi-concept erasure, OCE introduces a subspace-level objective with structured subspace manipulation, yielding a more effective and scalable erasure. Extensive experiments on single- and multi-concept erasure demonstrate that OCE outperforms existing methods in concept erasure and non-target preservation, erasing up to 100 concepts in 4.3 s. Code: https://github.com/HansSunY/OCE.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ee20be338863" data-article-url="https://arxiv.org/abs/2605.28965" data-article-title="Frontier LLM ベースのエージェントは、自然な表現型のオントロジーキュレーションのボトルネックを克服できます" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28965" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28965" target="_blank" rel="noopener">Frontier LLM ベースのエージェントは、自然な表現型のオントロジーキュレーションのボトルネックを克服できます</a></h3>
      <p class="summary">フリーテキストの表現型記述をオントロジー用語にリンクすることは、通常表現型アノテーションと呼ばれ、比較形態学的データを研究間で統合するために不可欠です。この労働集約的なプロセスは高度な訓練を受けた人間の専門家に大きく依存しており、そのため拡張が困難であり、それが大きなボトルネックとなっています。ダードゥルら。 (2018) 7 つの系統学的研究にわたるエンティティ品質 (EQ) アノテーションのゴールド スタンダード (GS) を確立し、それを使用して 3 人のキュレーターと、オントロジーベースの意味的類似性メトリクスを備えた Semantic CharaParser NLP ツールを評価しました。彼らは、機械と人間の一貫性は、キュレーター間（人間と人間）の一貫性よりも大幅に低いと報告しました。ここでは、Anthropic と OpenAI の 5 つのフロンティア ホスト LLM を使用してそのベンチマークを再検討します。各 LLM は、ソース出版物の PDF、元の人間のキュレーターが使用したのと同じ注釈ガイド、4 つのプロジェクト オントロジー (UBERON、PATO、BSPO、GO)、および検証スクリプトを提供する自己完結型ワークスペース内で「エージェント キュレーター」として動作します。同じゴールドスタンダードに照らして評価すると、すべてのエージェントは、元の研究で訓練を受けた 3 人の人間のバイオキュレーターのキュレーター間変動の範囲内に収まりました。最もパフォーマンスの高いエージェントがアプローチしましたが、最もパフォーマンスの高い人間のキュレーターには到達できませんでした。エージェントは、4 つの指標すべてで Semantic CharaParser を大幅に上回りました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes</p>
        <p class="orig-summary">Linking free-text phenotype descriptions to ontology terms, typically referred to as phenotype annotation, is essential for the cross-study integration of comparative morphological data. This labor intensive process has heavily relied on highly trained human experts, which makes it challenging to scale and thus a key bottleneck. Dahdul et al. (2018) established a Gold Standard (GS) of Entity-Quality (EQ) annotations across seven phylogenetic studies and used it to evaluate three human curators and the Semantic CharaParser NLP tool with ontology-based semantic similarity metrics; they reported that machine-human consistency was significantly lower than inter-curator (human-human) consistency. Here we revisit that benchmark with five frontier hosted LLMs from Anthropic and OpenAI, each operating as an &quot;agentic curator&quot; within a self-contained workspace that supplies the source publication PDF, the same annotation guide used by the original human curators, the four project ontologies (UBERON, PATO, BSPO, GO), and a validation script. Evaluated against the same Gold Standard, every agent fell within the range of inter-curator variability of the three trained human biocurators of the original study; the best performing agents approached but did not reach the best performing human curator. Agents substantially outperformed Semantic CharaParser on all four metrics.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cd02c3c08906" data-article-url="https://arxiv.org/abs/2605.28978" data-article-title="VFEAgent: エンドツーエンドの自動有限要素解析のためのマルチモーダル エージェント フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28978" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28978" target="_blank" rel="noopener">VFEAgent: エンドツーエンドの自動有限要素解析のためのマルチモーダル エージェント フレームワーク</a></h3>
      <p class="summary">有限要素解析 (FEA) は、現代のエンジニアリング設計の基礎として機能します。ただし、そのワークフローは本質的に複雑で、ドメインの専門知識に大きく依存しています。最近の取り組みでは、大規模言語モデル (LLM) を FEA に統合しましたが、既存のアプローチでは、マルチモーダル入力の処理と複雑なタスクの実行において限界に直面しています。これらの制限に対処するために、入力画像と問題の説明から直接 FEA モデリングとシミュレーションを自動化するように設計されたエンドツーエンドのマルチエージェント システムである VFEAgent を提案します。当社の方法論は 2 つのコア コンポーネントを統合しています。(1) ReAct 駆動の推論を採用して異種入力から構造化 FEA 仕様を抽出するマルチモーダル ビジョン言語マルチエージェント パイプラインと、(2) 実行可能性と物理的妥当性を保証するための堅牢な自己デバッグおよびフォールバック メカニズムを組み込んだ検証優先コード合成フレームワーク。私たちは、さまざまな工学力学シナリオにわたってシステムを体系的に評価しました。結果は、VFEAgent が完全で物理的に有効なシミュレーションの生成において高い成功率を達成し、信頼性と正確性の点で LLM ベースのベースライン手法を上回っていることを示しています。これらの調査結果は、FEA ワークフロー全体を自動化する実現可能性を検証し、エンジニアを退屈な手動分析から解放するフレームワークの可能性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">VFEAgent: A Multimodal Agent Framework for End-to-End Automated Finite Element Analysis</p>
        <p class="orig-summary">Finite Element Analysis (FEA) serves as the cornerstone of modern engineering design. However, its workflow is inherently complex and relies heavily on domain expertise. Although recent efforts have integrated Large Language Models (LLMs) into FEA, existing approaches face limitations in handling multimodal inputs and executing complex tasks. To address these limitations, we propose VFEAgent, an end-to-end multi-agent system designed to automate FEA modeling and simulation directly from input images and problem descriptions. Our methodology integrates two core components: (1) a multimodal vision-language multi-agent pipeline that employs ReAct-driven reasoning to extract structured FEA specifications from heterogeneous inputs and (2) a verification-first code synthesis framework, incorporating robust self-debugging and fallback mechanisms to ensure executability and physical validity. We systematically evaluated the system across various engineering mechanics scenarios. The results demonstrate that VFEAgent achieves a high success rate in generating complete and physically valid simulations, outperforming LLM-based baseline methods in reliability and correctness. These findings validate the feasibility of automating the complete FEA workflow, highlighting the framework&#x27;s potential to liberate engineers from tedious manual analysis.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="26b98f159384" data-article-url="https://arxiv.org/abs/2605.28994" data-article-title="ビームス: モデリングとシミュレーションのための AI のベンチマークと評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28994" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28994" target="_blank" rel="noopener">ビームス: モデリングとシミュレーションのための AI のベンチマークと評価</a></h3>
      <p class="summary">現実世界の意思決定をサポートする AI ツールは、推奨事項を通知し、解釈可能にするシミュレーション モデルを構築できなければなりません。モデリング実践のさまざまな側面を自動化できるツールは、人間の専門知識に代わるものではなく、補完するものでなければなりません。ビームス イニシアチブは、人間中心のモデリングとシミュレーションの実践のベンチマークを確立することにより、モデリングとシミュレーション用の AI ツールの開発を責任ある倫理的な形式に導くことを目的としています。この取り組みでは、オープンなデジタルおよび組織インフラストラクチャを使用して、モデリングとシミュレーション用の AI ツールを共同で評価します。このイニシアチブが主催するオープンソースの SD AI プロジェクトは透明性を確立し、貢献を広く共有できるようにします。運営グループは潜在的なベンチマークに優先順位を付けることに重点を置き、技術グループは自動テストの形式でベンチマークを実装することに重点を置きます。いくつかの異なるカテゴリの評価のテストが実装され、定性的モデルの構築、定量的モデルの構築、およびモデルの議論をサポートする AI ツールに適用されています。これらには、因果変換、モデル反復、因果推論、適合性、モデル動作の説明、推奨されるモデル構築手順、推奨されるモデル修正のテストが含まれます。 sd ai プロジェクトのエンジンをさまざまな LLM と組み合わせると、これらの評価でのパフォーマンスによってさまざまな AI ツール間でのばらつきが明らかになります。この取り組みによって実施された評価は、AI 対応モデリング ツールが、因果推論や定量的なエラー修正よりも、ディスカッションや基本的な定性的なタスクにおいて優れたパフォーマンスを発揮することを示しています。単一の LLM がエンジン タイプ全体で優勢になることはなく、特定のタスクの重要性と、速度と精度の間のトレードオフが強調されます。このイニシアチブの継続的な取り組みは、別の視点と人間中心のユースケースを考慮することで、偏見に関する懸念に対処するベンチマークを組み込むことを目的としています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BEAMS: Benchmarking and Evaluating AI for Modeling and Simulation</p>
        <p class="orig-summary">AI tools to support real world decision making must be able to build simulation models that inform their recommendations and render them interpretable. Tools that can automate aspects of modeling practice must complement human expertise, not replace it. The BEAMS Initiative aims to guide the development of AI tools for modeling and simulation toward forms that are responsible and ethical by establishing benchmarks for human centered modeling and simulation practices. The initiative uses open digital and organizational infrastructure to collaboratively evaluate AI tools for modeling and simulation. The open source sd ai project hosted by the initiative establishes transparency and enables contributions to be shared broadly. A steering group focuses on prioritizing potential benchmarks, while a technical group focuses on implementing the benchmarks in the form of automated tests. Tests for several distinct categories of evaluation have been implemented and applied to AI tools that support qualitative model building, quantitative model building, and model discussion. These include tests for causal translation, model iteration, causal reasoning, conformance, model behavior explanation, suggested model building steps, and suggested model fixes. When engines from the sd ai project are coupled with different LLMs, their performance on these evaluations reveals variability across different AI tools. The evaluations implemented by the initiative demonstrate that AI enabled modeling tools perform better at discussion and basic qualitative tasks than with causal reasoning and quantitative error fixing. No single LLM dominates across engine types, highlighting the importance of specific tasks and tradeoffs between speed and accuracy. Ongoing efforts of the initiative aim to incorporate benchmarks that address concerns about bias by considering alternative perspectives and human centered use cases.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bdab0bfb424e" data-article-url="https://arxiv.org/abs/2605.29018" data-article-title="Adopt $\neq$ Adapt: 現実の LLM 会話の縦断的分析" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><a class="entity-tag" href="/entity/copilot/" data-entity="copilot">Copilot</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29018" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29018" target="_blank" rel="noopener">Adopt $\neq$ Adapt: 現実の LLM 会話の縦断的分析</a></h3>
      <p class="summary">ユーザーと LLM の相互作用について説明する研究が増えてきていますが、それが描く絵はほとんど静的なものです。個々のユーザーが時間の経過とともにどのように行動を変えるかについてはほとんど知られていません。このギャップに対処するために、無作為に抽出した $\sim$12,000 人の Microsoft Bing Copilot ユーザーの会話の軌跡を分析し、WildChat-4.8M のデータと比較します。 Copilot データには集団レベルの重要な傾向が含まれていますが、個々のユーザーの軌跡の傾向ははるかに弱いことがわかります。ユーザーの習慣は圧倒的に固定的であることがわかります。また、さまざまなアクティビティ レベルのユーザー間には明らかな違いがあることもわかりました。よりアクティブなユーザーはより成功した会話をし、より複雑でプロフェッショナル志向のタスクに LLM を使用します。一部のユーザー傾向は WildChat-4.8M にも見られますが、このデータセットが高度に熟練した「パワー」ユーザーに大きく偏っているという証拠が見つかりました。最終的に、私たちの結果は、既存のユーザーの行動を変えるのが難しいことを示唆しており、ユーザーの異質性の程度を示しています。データセット間の比較では、WildChat が典型的なユーザーと AI の対話を表していないことが強調されており、これはデータのダウンストリーム使用における重要な注意事項です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Adopt $\neq$ Adapt: Longitudinal Analyses of LLM Conversations in the Wild</p>
        <p class="orig-summary">Although a growing body of research has begun to describe user--LLM interactions, the picture it paints is largely static; little is known about how individual users change their behavior over time. To address this gap, we analyze the conversational trajectories of $\sim$12,000 randomly sampled Microsoft Bing Copilot users and compare these with data from WildChat-4.8M. While the Copilot data contains significant population-level trends, we find that trends in individual user trajectories are much weaker; user habits prove to be overwhelmingly sticky. We also find stark differences between users of different activity levels: more active users have more successful conversations and use the LLM for more complex and professionally oriented tasks. Some user trends also appear in WildChat-4.8M, but we find evidence that this dataset is significantly skewed towards highly proficient &quot;power&quot; users. Ultimately, our results suggest that existing user behavior is difficult to change and demonstrate the extent of user heterogeneity. Our comparison between datasets highlights that WildChat does not represent typical user-AI interactions, an important caveat for downstream uses of the data.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="32df9c17c410" data-article-url="https://arxiv.org/abs/2605.29025" data-article-title="モデルが一致しない場合: パブリック コメント分析のための LLM 評価を再考する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29025" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29025" target="_blank" rel="noopener">モデルが一致しない場合: パブリック コメント分析のための LLM 評価を再考する</a></h3>
      <p class="summary">連邦政府機関はパブリック コメント コーパスを分類するために大規模言語モデル (LLM) を導入しており、モデルの記録構成によって政策立案者が何を確認し、どの議論が登録されるかが決まります。小規模な検証済みセットに対するスタンスの精度に基づいた標準評価では、異なるモデルが同じ公的入力に対して実質的に異なる分類を生成する場合を検出できません。私たちは、マルチモデルの不一致を解釈の複雑さの診断として扱い、真に曖昧な公的意見に向けて人間によるレビューを指示する解釈監査パイプラインを提案します。 4 つの LLM にわたる連邦 USDA 文書に対する 1,260 件のパブリック コメントを分析したところ、モデル間のテーマの相違がモデル内のプロンプト変動を上回っており、専門家のルーブリックが深い解釈上の不一致を解決することなく抑圧していることがわかりました。層化された 40 コメントのサブサンプルに対する 2 段階のラベル付け研究では、4 人の LLM とヒューマン アノテーターが独立してラベル付けし、他のラベルを確認した後に修正しました。改訂動作はラベラーによって異なり、ヒューマン・アノテーターの改訂では、アンサンブルの集合的な出力にはないフレームが頻繁に導入されました。私たちは、不一致に基づく評価は、LLM 支援解釈コーディングの精度メトリクスを補完するために必要であると主張します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis</p>
        <p class="orig-summary">Federal agencies are deploying large language models (LLMs) to categorize public comment corpora, where the model&#x27;s organization of the record shapes what policymakers see and which arguments register. Standard evaluation, anchored on stance accuracy against a small validated set, cannot detect when different models produce materially different categorizations of the same public input. We propose an Interpretive Audit Pipeline that treats multi-model disagreement as diagnostic of interpretive complexity and directs human review toward genuinely ambiguous public input. Analyzing 1,260 public comments on a federal USDA docket across four LLMs, we find that inter-model thematic divergence exceeds within-model prompt variation, and that an expert rubric suppresses deep interpretive disagreement without resolving it. In a two-stage labeling study on a stratified 40-comment subsample, four LLMs and a human annotator labeled independently and then revised after seeing the others&#x27; labels. Revision behavior varied across labelers, and the human annotator&#x27;s revisions frequently introduced framings absent from the ensemble&#x27;s collective output. We argue disagreement-based evaluation is a necessary complement to accuracy metrics for LLM-assisted interpretive coding.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="af284b296a3f" data-article-url="https://arxiv.org/abs/2605.29027" data-article-title="トーンに注意: トーンによって LLM のパフォーマンスが変化しますか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29027" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29027" target="_blank" rel="noopener">トーンに注意: トーンによって LLM のパフォーマンスが変化しますか?</a></h3>
      <p class="summary">大規模言語モデル (LLM) の使用は急増していますが、そのパフォーマンスはプロンプトのスタイルや口調に基づいて変化することが観察されています。この研究では、プロンプトの音調の変化が客観的な多肢選択式の質問に対する LLM の精度の違いにつながるかどうか、またどのようにして起こるかを調査します。 5 つの声調バリエーションを持つ 50 ベースの質問データセットと、7 つの声調バリエーションを持つ 57 人の被験者にわたる 570 ベースの質問 MMLU サブセットの 2 つのデータセットを使用します。実験は、コスト効率の高い人気のある 4 つの LLM (ChatGPT-4o、ChatGPT-5-nano、Gemini 2.5 Flash、および Gemini 2.5 Flash Lite) のパフォーマンスを評価するために実施されました。モデル間での音色効果は体系的ですが、モデルに大きく依存します。一部のモデルは小さいながらも統計的に有意な変化を示しますが、他のモデルはトーン全体で大きな精度の変動を示します。さらに、トーン感度における被験者レベルの違いを特定し、トーンがどのように内部推論モードを調整するかを説明するためのルーティングフレームワークを提示します。私たちの調査結果は、LLM 導入においてトーン堅牢な信頼性を想定しないようユーザーに警告します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Mind Your Tone: Does Tone Alter LLM Performance?</p>
        <p class="orig-summary">The use of Large Language Models (LLMs) is proliferating, yet their performance is observed to vary based on prompting styles and tones. In this study, we investigate both whether and how tonal variations in prompts lead to disparate LLM accuracy for objective multiple-choice questions. We use two datasets: a 50-base question dataset with five tone variants and a 570-base question MMLU subset spanning 57 subjects with seven tone variants. Experiments were conducted to evaluate the performance of four cost-efficient, popular LLMs: ChatGPT-4o, ChatGPT-5-nano, Gemini 2.5 Flash, and Gemini 2.5 Flash Lite. Across models, tonal effects are systematic but highly model-dependent. Some models show small, yet statistically significant, shifts, while others exhibit large accuracy swings across tones. Further, we identify subject-level differences in tone sensitivity and present a routing framework to explain how tones may attune internal reasoning modes. Our findings caution users against assuming tone-robust reliability in LLM deployments.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6ded281069ad" data-article-url="https://arxiv.org/abs/2605.29041" data-article-title="AI を活用した教育における実践者の信念と行動: DOT フレームワーク調査の証拠" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29041" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29041" target="_blank" rel="noopener">AI を活用した教育における実践者の信念と行動: DOT フレームワーク調査の証拠</a></h3>
      <p class="summary">この研究は、教育と学習における人工知能 (AI) の統合に関する信念、行動、および制度的条件を調査した高等教育従事者を対象とした横断的調査 (n = 72) の結果を報告しています。この研究は、デザイン思考とオープン システム理論を統合する DOT フレームワークに基づいて、AI の馴染み、使用パターン、デザイン指向の実​​践、教育的信念を調査しています。 19 の信念項目の探索的因子分析により、AI の機能能力、監視とガバナンス、インストラクターのコラボレーションと計画の 3 つの因子構造が特定されました ({\alpha} = 0.90)。結果は、実践者が人間による監視と批判的評価への強いコミットメントを維持しながら、教育的サポートとして AI に好意的な見解を持っていることを示しています。報告されている実践では、反復的なプロンプトとコンテンツ生成が重視されており、ニーズ評価とフィードバック ループの一貫性の低い使用が行われています。限られた政策、トレーニング、インフラストラクチャーなどの制度的障壁が広く報告されました。これらの発見は、実務者の信念と実践の記述モデルとして DOT フレームワークに対する予備的な経験的裏付けを提供すると同時に、設計指向の理論と現在の実装との間のギャップも浮き彫りにします。この研究は、初期の測定構造に貢献し、AI 支援の設計実践を指導の質に結び付ける確認的検証と結果ベースの研究の方向性を特定します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Practitioner Beliefs and Behaviors in AI-Enhanced Education: DOT Framework Survey Evidence</p>
        <p class="orig-summary">This study reports findings from a cross-sectional survey (n = 72) of higher education practitioners examining beliefs, behaviors, and institutional conditions related to artificial intelligence (AI) integration in teaching and learning. Grounded in the DOT Framework, which integrates design thinking and open systems theory, the study investigates AI familiarity, usage patterns, design-oriented practices, and pedagogical beliefs. Exploratory factor analysis of 19 belief items identified a three-factor structure: AI Functional Capabilities, Oversight and Governance, and Instructor Collaboration and Planning ({\alpha} = .90). Results indicate that practitioners hold favorable views of AI as a pedagogical support while maintaining strong commitments to human oversight and critical evaluation. Reported practices emphasize iterative prompting and content generation, with less consistent use of needs assessment and feedback loops. Institutional barriers including limited policy, training, and infrastructure were widely reported. These findings provide preliminary empirical support for the DOT Framework as a descriptive model of practitioner beliefs and practices, while also highlighting gaps between design-oriented theory and current implementation. The study contributes an initial measurement structure and identifies directions for confirmatory validation and outcome-based research linking AI-supported design practices to instructional quality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e170ddd78a55" data-article-url="https://arxiv.org/abs/2605.29042" data-article-title="差別化可能な信念に基づく敵対者の形成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29042" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29042" target="_blank" rel="noopener">差別化可能な信念に基づく敵対者の形成</a></h3>
      <p class="summary">人間の調整は、多くの場合、戦略的行動を通じて他者の信念に影響を与える能力に依存しています。マルチエージェント強化学習では、対戦相手のシェーピングがこの影響を再現しようとしますが、既存の手法は通常、対戦相手のパラメータ、ポリシー、または値空間内で動作します。一方、隠しロール ゲームにおける信念操作テクニックは、欺瞞や信念の飽和など、ハードコードされた目的に依存することがよくあります。我々は、各観察者の信念を成形された相手の状態として扱い、$k$ ステップのソフトマックスベイズ信念ダイナミクスを通じて微分する一次手法である、微分可能な信念ベースの相手シェーピング (D-BOS) を提案します。私たちの方法では、欺瞞的または協力的な行動に明示的に報酬を与えるのではなく、信念状態を形成のターゲットとして扱います。これにより、環境の報酬構造から最適な戦略が自然に現れることが可能になります。この信念空間の定式化は、対戦相手の信念の更新を通じて微分することによって対戦相手を形成する信号を提供し、個々の推定された信念の軌跡にわたる勾配を集約することによって複数の観察者に自然に拡張されます。経験的に、D-BOS は隠しロール ゲームで PPO や BBM よりも優れており、動機が混合された設定で最大の利益をもたらします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Differentiable Belief-based Opponent Shaping</p>
        <p class="orig-summary">Human coordination often relies on the ability to influence the beliefs of others through strategic action. In multi-agent reinforcement learning, opponent shaping attempts to replicate this influence, though existing methods typically operate within an opponent&#x27;s parameter, policy, or value space. Meanwhile, belief-manipulation techniques in hidden-role games often rely on hard-coded objectives, such as deception or belief saturation. We propose Differentiable Belief-based Opponent Shaping (D-BOS), a first-order method that treats each observer&#x27;s belief as the shaped opponent state and differentiates through $k$-step softmax-Bayes belief dynamics. Rather than explicitly rewarding deceptive or cooperative behavior, our method treats the belief state as the target for shaping. This allows the optimal strategy to emerge naturally from the environment&#x27;s reward structure. This belief-space formulation provides an opponent-shaping signal by differentiating through opponent belief updates, and naturally extends to multiple observers by aggregating gradients over their individual inferred belief trajectories. Empirically, D-BOS outperforms PPO and BBM in hidden-role games, with the largest gains in mixed-motive settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="95d9641186b8" data-article-url="https://arxiv.org/abs/2605.29055" data-article-title="Agentic AI、ネストされた学習、セマンティック キャッシングによる AI の持続可能性による幻覚の軽減" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29055" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29055" target="_blank" rel="noopener">Agentic AI、ネストされた学習、セマンティック キャッシングによる AI の持続可能性による幻覚の軽減</a></h3>
      <p class="summary">幻覚は、実稼働 LLM システムにとって、特にサポートされていないクレームがチェックされずにステージ全体に伝播する可能性があるマルチエージェント パイプラインにおいて、依然として大きな信頼性の障壁となっています。この論文では、連続メモリ システム (CMS) と意味論的類似性キャッシュを備えた HOPE にインスピレーションを得た入れ子学習アーキテクチャを、217 個の認識論的不確実性プロンプトと 93 個の製造誘導ストレステスト プロンプトを組み合わせた 310 個のプロンプトのハイブリッド ベンチマークに適応させます。オープン フロア プロトコル (OFP) を介して調整された 3 段階のエージェント パイプラインは、FCD (事実の主張密度)、FGR (事実の根拠参照)、FDF (架空の免責事項の頻度)、ECS (明示的なコンテキスト化スコア)、および OSR (観察可能性スコア率) の 5 つの KPI を使用して評価され、研究対象の 5 つの重み付け構成にわたって THS (総幻覚スコア) に集約されます。緩和と可観測性のトレードオフ。 FDF、ECS、OSR、および FGR は緩和シグナルとして差し引かれるため、THS がより負であるほど、緩和が強力であることを示します。 FrontEndAgent は、現実的な幻覚ベースラインを生成する高確率ジェネレータ (温度 = 1.0) として構成され、SecondLevelReviewer と ThirdLevelReviewer はプログレッシブ コレクタとして動作します。この非対称設計により、5 つの重み付け構成全体でエンドツーエンドの THS が -31.3% ～ -35.9% 削減されます。セマンティック キャッシュは、930 回の潜在的な呼び出しで 440 回のキャッシュ ヒット (ヒット率 47.3%) を達成し、LLM 呼び出しを 490 回に減らし、エネルギーと CO2e フットプリントを削減し、マルチステージ レビュー パイプラインを運用規模で実行可能にします。 ExtremeObservability は最もマイナスの最終 THS (-0.0709) を達成しており、可観測性を重視した構成が緩和を損なうのではなく強化していることが確認されています。これらの発見は、メモリ拡張マルチエージェント設計がモデルの再トレーニングなしで事実の信頼性、運用効率、監査可能性を共同で改善できることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Hallucination Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching</p>
        <p class="orig-summary">Hallucination remains a major reliability barrier for production LLM systems, particularly in multi-agent pipelines where unsupported claims can propagate unchecked across stages. This paper adapts a HOPE-inspired Nested Learning architecture with Continuum Memory Systems (CMS) and semantic similarity caching to a hybrid benchmark of 310 prompts combining 217 epistemic-uncertainty prompts and 93 fabrication-induction stress-test prompts. A three-stage agentic pipeline orchestrated via the Open Floor Protocol (OFP) is evaluated with five KPIs -- FCD (Factual Claim Density), FGR (Factual Grounding References), FDF (Fictional Disclaimer Frequency), ECS (Explicit Contextualization Score), and OSR (Observability Score Ratio) -- aggregated into THS (Total Hallucination Score) across five weighting configurations to study mitigation-observability trade-offs. FDF, ECS, OSR, and FGR are subtracted as mitigation signals, so that a more negative THS indicates stronger mitigation. The FrontEndAgent is configured as a high-stochasticity generator (temperature = 1.0) to produce a realistic hallucination baseline, while the SecondLevelReviewer and ThirdLevelReviewer operate as progressive correctors. This asymmetric design yields end-to-end THS reductions of -31.3% to -35.9% across five weighting configurations. Semantic caching achieves 440 cache hits over 930 potential calls (47.3% hit rate), reducing LLM invocations to 490, lowering energy and CO2e footprint, and making multi-stage review pipelines operationally viable at production scale. ExtremeObservability attains the most negative final THS (-0.0709), confirming that observability-heavy configurations reinforce rather than compromise mitigation. These findings suggest that memory-augmented multi-agent designs can jointly improve factual reliability, operational efficiency, and auditability without model retraining.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="488f4f66af36" data-article-url="https://arxiv.org/abs/2605.29068" data-article-title="潜在推論を備えた堅牢で効率的なガードレール" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29068" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29068" target="_blank" rel="noopener">潜在推論を備えた堅牢で効率的なガードレール</a></h3>
      <p class="summary">大規模言語モデル (LLM) が現実世界のアプリケーションに導入されることが増えているため、その安全性を維持することが重要です。既存の安全ガードレールは通常、シングルパス分類、または最近では蒸留された推論に依存しています。推論ベースのガードレールは、分類のみのベースラインよりも大幅にパフォーマンスが優れていますが、クエリの遅延とトークンのオーバーヘッドが大幅に発生するため、高スループットの展開には非現実的です。この課題に対処するために、段階別のトレーニング カリキュラムを通じて複数ステップの安全推論を連続的な潜在空間に転送し、推論時に直接隠れ状態の伝播を可能にするガードレール モデルである COLAGUARD を提案します。 8 つの安全性ベンチマークにわたる 10 のプロンプトおよび応答モデレーション設定で評価された COLAGUARD は、マクロ F1 を Llama Guard 3 より 8.24 ポイント改善し、マクロ F1 の明示的推論ベースライン GuardReasoner と一致すると同時に、12.9 倍の高速化とトークン使用量の 22.4 倍の削減を実現します。私たちの結果は、潜在的推論が、展開可能なガードレールの明示的理論的根拠の生成に代わる実用的な代替手段を提供し、安全性の堅牢性と推論の効率を競合する目的として扱うのではなく、共同して向上させることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Robust and Efficient Guardrails with Latent Reasoning</p>
        <p class="orig-summary">Maintaining the safety of large language models (LLMs) is crucial as they are increasingly deployed in real-world applications. Existing safety guardrails typically rely on single-pass classification or, more recently, distilled reasoning. Reasoning-based guardrails significantly outperform classification-only baselines, but they incur substantial query latency and token overhead that make them impractical for highthroughput deployment. To address this challenge, we propose COLAGUARD, a guardrail model that transfers multi-step safety reasoning into a continuous latent space through a stage-wise training curriculum, enabling direct hidden-state propagation at inference. Evaluated on ten prompt- and response-moderation settings spanning eight safety benchmarks, COLAGUARD improves macro-F1 by 8.24 points over Llama Guard 3 and matches our explicit reasoning baseline, GuardReasoner, in macroF1 while delivering a 12.9X speedup and 22.4X reduction in token usage. Our results suggest that latent reasoning offers a practical alternative to explicit rationale generation for deployable guardrails, jointly improving safety robustness and inference efficiency rather than treating them as competing objectives.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6e15f3deef3a" data-article-url="https://arxiv.org/abs/2605.29078" data-article-title="実行セマンティクスを通じて強化学習ベースの産業派遣におけるシミュレーションと現実のギャップを埋める" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29078" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29078" target="_blank" rel="noopener">実行セマンティクスを通じて強化学習ベースの産業派遣におけるシミュレーションと現実のギャップを埋める</a></h3>
      <p class="summary">イベント駆動型のスケジューリング ポリシーは、非同期で部分的に監視されたシステム状態の下で意思決定が行われる産業環境で導入されることが増えています。その結果、決定状態は一時的に一貫せず、アクションの許容性は明示的に定義されず、実行エラーの原因はあいまいなままになります。これらの問題により、信頼性と解釈可能性の両方が制限されます。このギャップに対処するために、スケジューリング ポリシーと産業用実行環境の間を仲介するポリシー中立の実行および測定レイヤーが提案されています。このレイヤーは、非同期イベント ストリームから意思決定が有効なスナップショットを構築し、明示的なアクションの許容性を備えた標準化された実行コントラクトを定義し、結果をポリシーの意図、トランザクションの結果、物理的な実行、人間の介入の間の相違として記録します。これにより、意思決定セマンティクスと実行動作の分離が可能になり、デプロイメントの不一致が観察可能になり、構造的に原因が明らかになります。提案されたフレームワークは、離散イベント シミュレーションを使用して評価されます。結果は、未分化な実行失敗が完全な帰属範囲を備えた構造化された型付き結果に変換されるため、すべての観察ラグ体制にわたって分析上の利点を示しています。運用上の利点は、観察ラグが低い場合に最も大きくなり、回避可能な実行エラーをコミット前に防ぐことができます。全体として、このレイヤーは実行の不確実性を評価とポリシーの改善のための監視データに変換します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Bridging the Sim-to-Real Gap in Reinforcement Learning-Based Industrial Dispatching through Execution Semantics</p>
        <p class="orig-summary">Event-driven scheduling policies are increasingly deployed in industrial environments, where decisions are made under asynchronous and partially observed system states. As a result, decision states are not temporally consistent, action admissibility is not explicitly defined, and the origin of execution errors remains ambiguous. These issues limit both reliability and interpretability. To address this gap, a policy-neutral execution and measurement layer is proposed to mediate between scheduling policies and the industrial execution environment. The layer constructs decision-valid snapshots from asynchronous event streams, defines a standardized execution contract with explicit action admissibility, and records outcomes as divergences between policy intent, transactional outcomes, physical execution, and human intervention. This enables a separation between decision semantics and execution behavior and makes deployment mismatch observable and structurally attributable. The proposed framework is evaluated using a discrete-event simulation. The results show analytical benefits across all observation lag regimes, as undifferentiated execution failures are transformed into structured, typed outcomes with full attribution coverage. Operational benefits are strongest under low observation lag, where avoidable execution errors can be prevented before commitment. Overall, the layer turns execution uncertainty into supervisory data for evaluation and policy refinement.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="95b40f2f79b8" data-article-url="https://arxiv.org/abs/2605.29082" data-article-title="安全な自律エージェントのための帯域外メタデータの重要性: Redpanda エージェント データ プレーン" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29082" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29082" target="_blank" rel="noopener">安全な自律エージェントのための帯域外メタデータの重要性: Redpanda エージェント データ プレーン</a></h3>
      <p class="summary">AI エージェントは、企業データにアクセスし、意思決定を行い、自律的に行​​動を起こすデジタル従業員として機能することがますます期待されています。しかし、エージェントは同時に人間よりも予測可能性が低く、幻覚、誤解、敵対的操作を起こしやすいですが、深いシステム知識と高スループットのインターフェイスを備えており、マシンの速度で被害を連鎖的にもたらします。この組み合わせにより、アクセス ポリシー、データ分類、動作制約などのセキュリティ クリティカルなメタデータを忠実に解釈または伝達するエージェントに依存するのは安全ではなくなります。私たちは、帯域外メタデータ チャネルを中心に構築されたアーキテクチャである Redpanda Agentic Data Plane (ADP) を紹介します。帯域外メタデータ チャネルは、セキュリティ コンテキスト、ポリシー シグナル、および監査証跡を、エージェントの読み取りおよび書き込みパスの完全に外側で、異種インフラストラクチャ全体にわたって決定論的に伝送するインフラストラクチャ パスウェイです。これらのチャネルは、エージェントのライフサイクルのあらゆる段階でガバナンスを強化します。つまり、受信時のデータ アクセスの範囲設定、実行中のアクションの制限、送信時の改ざん防止トランスクリプトのキャプチャなどです。マルチエージェントのポートフォリオ リバランス システムを使用して ADP を実証します。このシステムでは、自律エージェントが市場を監視し、取引の意思決定を行い、分離されたクライアント アカウント全体で注文を実行します。クライアントごとのデータ スコープ、取引承認のしきい値、および改ざん防止の監査証跡はすべて、エージェントが確認することもバイパスすることもできない帯域外チャネルによって強制されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Importance of Out-of-Band Metadata for Safe Autonomous Agents: The Redpanda Agentic Data Plane</p>
        <p class="orig-summary">AI agents are increasingly expected to operate as digital employees: accessing enterprise data, making decisions, and taking actions autonomously. But agents are simultaneously less predictable than humans -- prone to hallucination, misinterpretation, and adversarial manipulation -- and more technically capable: with deep system knowledge and high-throughput interfaces cascading damage at machine speed. This combination makes it unsafe to rely on agents to faithfully interpret or propagate security-critical metadata such as access policies, data classifications, and behavioral constraints. We present the Redpanda Agentic Data Plane (ADP), an architecture built around out-of-band metadata channels: infrastructure pathways that carry security context, policy signals, and audit trails deterministically, entirely outside the agent&#x27;s read and write path and across heterogeneous infrastructure. These channels enforce governance at every stage of the agent lifecycle -- scoping data access on the way in, constraining actions during execution, and capturing tamper-proof transcripts on the way out. We demonstrate ADP with a multi-agent portfolio rebalancing system in which autonomous agents monitor markets, make trade decisions, and execute orders across isolated client accounts -- with per-client data scoping, trade approval thresholds, and tamper-proof audit trails all enforced by out-of-band channels the agents can neither see nor bypass.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="36f8c32e0d42" data-article-url="https://arxiv.org/abs/2605.29087" data-article-title="連鎖は維持され、答えは折りたたまれる: 敵対的な圧力下での推論モデルにおけるトレースと答えの解離" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29087" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29087" target="_blank" rel="noopener">連鎖は維持され、答えは折りたたまれる: 敵対的な圧力下での推論モデルにおけるトレースと答えの解離</a></h3>
      <p class="summary">推論モデルはシングルターンベンチマークで評価されますが、ユーザーが正解を押し返すマルチターンダイアログで展開されます。持続的な敵対的圧力の下では、これまで文書化されていなかった失敗モードが見つかります。つまり、思考の連鎖は最初のターンから最後まで事実上正しいままですが、発せられた答えは間違った方向に反転します。私たちはこれを不誠実な降伏 (UC) と呼び、フリップレート メトリクスとシングル ターン忠実度プローブの両方が見逃す $2\times 2$ の潜在対行動のフレームワークでこれを分離します。 3 つのデータセット (MT-Consistency、MMLU-Pro、GSM8K) にわたって、行動反転での潜在的正解率は思考モードでは 50% 近くに集まりましたが、no_think では 11 ～ 15% に落ち込みました。これは、推論がギャップを生み出すペアのモデル内因果証拠です。モデル全体で、この効果は推論チャネルを追跡します (Qwen3-32B および GPT-OSS-20B では高く、インライン CoT Gemma-4-31B-it では低くなります)。独立した GPT-4o 判事は UC ラベルの $86\%$ を裏付けています。トークンレベルのプローブは、UC セルの $84\%$ で応答スロット argmax が正しいことを示します。そして、単純なトレースアンカーの防御が裏目に出ます。全ての軌跡、痕跡、判定ラベルを公開します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure</p>
        <p class="orig-summary">Reasoning models are evaluated on single-turn benchmarks but deployed in multi-turn dialogue, where users push back on correct answers. Under sustained adversarial pressure we find a previously undocumented failure mode: the chain-of-thought stays factually correct from first turn to last while the emitted answer flips wrong. We call this unfaithful capitulation (UC) and isolate it with a $2\times 2$ latent-versus-behavioral framework that flip-rate metrics and single-turn faithfulness probes both miss. Across three datasets (MT-Consistency, MMLU-Pro, GSM8K), the latent-correct rate at the behavioral flip clusters near 50% in think mode and collapses to 11-15% under no_think -- paired, within-model causal evidence that reasoning creates the gap. Across models the effect tracks the reasoning channel (high in Qwen3-32B and GPT-OSS-20B, low in inline-CoT Gemma-4-31B-it). An independent GPT-4o judge corroborates $86\%$ of UC labels; a token-level probe shows the answer-slot argmax is correct in $84\%$ of UC cells; and a naive trace-anchored defense backfires. We release all trajectories, traces, and judge labels.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="03bb71bd67c5" data-article-url="https://arxiv.org/abs/2605.29096" data-article-title="AI および臨床試験における人間と AI の相互作用のトレンド -- 人間と AI のハイブリッドの探求" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29096" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29096" target="_blank" rel="noopener">AI および臨床試験における人間と AI の相互作用のトレンド -- 人間と AI のハイブリッドの探求</a></h3>
      <p class="summary">この論文では、ClinicalTrials.gov レジストリから取得した記録を調査して、AI 用語の一時的な傾向と AI 治験の地理的分布を特徴付けます。この研究では、登録された臨床試験における人間と AI の相互作用の傾向を分析するための探索的なハイブリッド人間と AI アプローチについても報告しています。ハイブリッド ワークフローは、フロンティア生成 AI モデル (GPT-5.5) と、AI に焦点を当てた検索によって返された記録をスクリーニングおよび分類するための人によるレビューで構成されています。この調査結果は、AI 関連の試験が時間の経過とともに顕著に増加しており、最近では機械学習、深層学習、チャットボット、GPT、大規模言語モデルへの言及が増加していることを示しています。地理的には、中国と米国が AI 関連の治験の最多を占めており、最近ではイタリア、フランス、スペイン、英国、トルコ (T\&quot;urkiye) など他のいくつかの国での増加が顕著である。100 件の記録の無作為サンプルにおいて、人間と AI の分類子は、AI を実質的に使用していない研究の特定では良好な一致を示したが、特に医療専門家の相互作用が曖昧または不十分な場合、人間と AI の相互作用の分類では低い一致を示した。全体として、結果は人間と AI のハイブリッド スクリーニングが有効であることを示唆している。臨床試験記録の削減は潜在的に実行可能ですが、より明確な試験報告とより正確な相互作用定義はプロセスに利益をもたらします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Trends in AI and Human-AI Interaction in Clinical Trials -- A Hybrid Human-AI Exploration</p>
        <p class="orig-summary">This paper examines records retrieved from the ClinicalTrials.gov registry to characterize temporal trends in AI terminology and the geographical distribution of AI trials. The work also reports on an exploratory hybrid human-AI approach to analyzing human-AI interaction trends in registered clinical trials. The hybrid workflow comprised a frontier generative AI model (GPT-5.5) and human review to screen and categorize records returned by an AI-focused search. The findings indicate a marked increase in AI-related trials over time, with recent growth in references to machine learning, deep learning, chatbots, GPTs, and large language models. Geographically, China and the United States accounted for the largest numbers of AI-related trials, with notable recent increases in several other countries including Italy, France, Spain, the UK and Turkey (T\&quot;urkiye). In a random sample of 100 records, human and AI classifiers showed good agreement in identifying studies not substantively using AI, but lower agreement in classifying human-AI interaction, particularly where health professional interaction was ambiguous or insufficiently described. Overall, the results suggest that hybrid human-AI screening of clinical trial records is potentially viable, but clearer trial reporting and more precise interaction definitions will benefit the process.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="398a1398fc7f" data-article-url="https://arxiv.org/abs/2605.29116" data-article-title="コンセンサスを超えて: 薬剤の混合物における微量レベルの合成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29116" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29116" target="_blank" rel="noopener">コンセンサスを超えて: 薬剤の混合物における微量レベルの合成</a></h3>
      <p class="summary">複数の LLM エージェントが同じ問題を解決する場合、標準的な慣行では、各エージェントの推論が多数決または階層化された統合に圧縮され、合意が最終ラインとして扱われます。私たちは、これが不必要に損失を伴うことを示します。完全な推論トレースを読み取る LLM アグリゲーターは、エージェントが全会一致で同意した場合でも、有益な修正が有害な修正を常に上回り、正しい解決策を回復します -- \emph{集約のパラドックス}。多数決には、摂動の多様性によって上昇しない上限があります (誤差の相関関係は同一です)。アグリゲーターの利益は、投票によって破棄される少数派のチェーンから正しい中間ステップを組み立てる、トレースレベルの相補性から得られます。これらの発見は、セマンティックを保持する入力摂動を通じて微量多様性を生成し、証明可能な非劣化保証を備えたアンカー改良によって大部分を保護し、コンセンサスに基づいてゲートすることなく常に合成するエージェントの自己一貫性混合を動機付けます。摂動による微量変化を伴う単一モデルは、構造化推論、博士レベルの科学、競技数学、競技プログラミングにおいて、異種モデル プールよりも優れたパフォーマンスを発揮します。集計の単位は、答えではなく、推論のトレースである必要があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond Consensus: Trace-Level Synthesis in Mixture of Agents</p>
        <p class="orig-summary">When multiple LLM agents solve the same problem, standard practice compresses each agent&#x27;s reasoning into a majority vote or layered synthesis, treating agreement as the finish line. We show this is unnecessarily lossy: an LLM aggregator that reads complete reasoning traces recovers correct solutions even when agents unanimously agree, with beneficial corrections consistently outweighing harmful ones -- the \emph{aggregation paradox}. Majority voting has a ceiling that perturbation diversity does not raise (error correlations are identical); the aggregator&#x27;s gain comes from trace-level complementarity, assembling correct intermediate steps from minority chains that voting discards. These findings motivate Self-Consistent Mixture of Agents which generates trace diversity through semantic-preserving input perturbations, safeguards the majority via anchored refinement with provable non-degradation guarantees, and always synthesizes -- never gates on consensus. A single model with perturbation-induced trace variation outperforms heterogeneous model pools across structured reasoning, PhD-level science, competition mathematics, and competitive programming. The unit of aggregation should be the reasoning trace, not the answer.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0e2f1e51782" data-article-url="https://arxiv.org/abs/2605.29119" data-article-title="PRO-CUA: コンピュータ使用エージェントのプロセス報酬の最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29119" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29119" target="_blank" rel="noopener">PRO-CUA: コンピュータ使用エージェントのプロセス報酬の最適化</a></h3>
      <p class="summary">コンピュータ使用エージェント (CUA) は、複雑なデジタル ワークフローを自動化する強力な可能性を示していますが、そのトレーニングは、費用のかかるライブ環境でのやり取りと限られた高品質の監督によって依然として制限されています。既存のフィルタリングされた動作クローン パイプラインは、専門家のデモンストレーションからの分布のシフトやネガティブな学習シグナルの欠如など、模倣のボトルネックに悩まされています。一方、標準的な軌道レベルの強化学習は、報酬がまばらで、単位の割り当てがあいまいで、長期にわたる GUI インタラクションのためのインフラストラクチャのコストが高いという問題に直面しています。この研究では、反復ステップレベル強化学習を使用して CUA をトレーニングするためのプロセス報酬最適化フレームワークである PRO-CUA を提案します。 PRO-CUA は、ポリシー上の環境インタラクションをポリシーの最適化から切り離します。現在のポリシーは、ライブ ロールアウトを通じて状態を収集し、状態ごとに多様な候補アクションを生成し、プロセス報酬モデル (PRM) からステップレベルのフィードバックを受け取り、グループ相対の利点で最適化されます。この設計により、ゴールデンアンサーやオフラインエキスパートの軌跡に依存することなく、高密度で柔軟なクレジット割り当てが可能になり、同時にエージェント自身の実行状態でのトレーニングによって分布のシフトが軽減されます。ライブ Web ベンチマークの実験により、PRO-CUA の有効性と PRM ガイドによるステップレベルのトレーニングの信頼性が実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PRO-CUA: Process-Reward Optimization for Computer Use Agents</p>
        <p class="orig-summary">Computer use agents (CUAs) have shown strong potential for automating complex digital workflows, yet their training remains constrained by costly live environment interaction and limited high-quality supervision. Existing filtered behavior cloning pipelines suffer from imitation bottlenecks, including distribution shift from the expert demonstration and the absence of negative learning signals. Meanwhile, standard trajectory-level reinforcement learning struggles with sparse rewards, ambiguous credit assignment, and high infrastructure costs for long-horizon GUI interaction. In this work, we propose PRO-CUA, a process-reward optimization framework for training CUAs with iterative step-level reinforcement learning. PRO-CUA decouples on-policy environment interaction from policy optimization: the current policy collects states through live rollouts, generates diverse candidate actions for each state, receives step-level feedback from a process reward model (PRM), and is optimized with group-relative advantages. This design enables dense and flexible credit assignment without relying on golden answers or offline expert trajectories, while reducing distribution shift by training on the agent&#x27;s own execution states. Experiments on live web benchmarks demonstrate the effectiveness of PRO-CUA and the reliability of PRM-guided step-level training.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ff716f5e680d" data-article-url="https://arxiv.org/abs/2605.29123" data-article-title="信頼性の近道: マスクされた拡散モデルの推論失敗モード" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29123" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29123" target="_blank" rel="noopener">信頼性の近道: マスクされた拡散モデルの推論失敗モード</a></h3>
      <p class="summary">マスクされた拡散言語モデル (MDM) は、現在事実上の標準推論ポリシーとして機能している信頼性に基づくデコードを使用して、任意次数の生成を独自にサポートしています。これを最適化するために、最近のトレーニング スキームは、トレーニング マスク パターンを生成中に観察されたパターンと直接調整しようとしています。しかし、我々は、信頼度に基づくデコードは複雑な推論に必要な論理フローの軌道と本質的にずれており、信頼度に合わせたトレーニングはこのずれを積極的に定着させると主張します。これを多桁加算を使用して具体化します。この場合、デコード戦略は、長距離の依存関係を解決する前に局所的に簡単な桁を早期に予測し、困難な入力に対して信頼性の高いエラーを生成します。従来のランダム マスキングではこの困難なテールでの失敗率が低く抑えられますが、信頼度に合わせたトレーニングではエラー率が桁違いに増幅されます。 5 つの異なる推論タスクにわたって、これと同じパターンがタスク依存の重大度で現れます。つまり、信頼度ベースのデコードは非常に複雑な入力で失敗を誘発し、信頼度に合わせたトレーニングは失敗を悪化させます。対照的に、ランダム マスキングは、その非効率性が認識されているにもかかわらず、困難なテールを解決するために不可欠な推論軌道の条件を堅牢に保存します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Confidence Shortcut: A Reasoning Failure Mode of Masked Diffusion Models</p>
        <p class="orig-summary">Masked diffusion language models (MDMs) uniquely support any-order generation, with confidence-based decoding currently serving as the de facto standard inference policy. To optimize for this, recent training schemes attempt to align training mask patterns directly with those observed during generation. However, we argue that confidence-based decoding is inherently misaligned with the logical-flow trajectories required for complex reasoning, and that confidence-aligned training actively entrenches this misalignment. We make this concrete using multi-digit addition, where the decoding strategy prematurely predicts locally easy digits before resolving their long-range dependencies, producing high-confidence errors on challenging inputs. While traditional random masking keeps the failure rate low on this challenging tail, confidence-aligned training amplifies the error rate by an order of magnitude. Across five distinct reasoning tasks, this same pattern emerges with task-dependent severity: confidence-based decoding induces failures on highly complex inputs, and confidence-aligned training exacerbates them. In contrast, random masking -- despite its perceived inefficiency -- robustly preserves the reasoning-trajectory conditionals essential for solving the challenging tail.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c93fd941d43" data-article-url="https://arxiv.org/abs/2605.29129" data-article-title="Agentic AI システムにおける技術的負債の管理" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29129" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29129" target="_blank" rel="noopener">Agentic AI システムにおける技術的負債の管理</a></h3>
      <p class="summary">エージェント AI システムは、実稼働インフラストラクチャとしてますます検討されています。エージェントは、複数のステップを推論し、ツールを呼び出し、ワークフローを通じて動作し、記憶とフィードバックを通じて適応します。これらのシステムは、従来のソフトウェアや予測 ML の技術的負債では完全に把握できないガバナンスの課題を生み出します。私たちは、エージェントの技術的負債を、プロンプト、メモリ、ツール スキーマ、オーケストレーション グラフ、制御ポリシー、可観測性ルーチンが、検証、標準化、管理できるよりも早くパッチを適用した場合に生じる累積負債として定義します。私たちは、確率的税を、確率的なエージェントの動作を許容範囲内に維持するための反復的な運用負担として定義します。区別は重要です。負債は設計およびガバナンス責任のストックであるのに対し、税金は確率的エージェントがツールやワークフローを通じて機能するために発生する運営コストの流れです。管理者が軽量のダッシュボードとガバナンス制御を通じて両方を可視化する方法について概説します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Governing Technical Debt in Agentic AI Systems</p>
        <p class="orig-summary">Agentic AI systems are increasingly being explored as production infrastructure: they reason over multiple steps, call tools, act through workflows, and adapt through memory and feedback. These systems create governance challenges that are not fully captured by traditional software or predictive ML technical debt. We define Agentic Technical Debt as the accumulated liability created when prompts, memory, tool schemas, orchestration graphs, control policies, and observability routines are patched together faster than they can be validated, standardized, and governed. We define Stochastic Tax as the recurring operating burden of keeping probabilistic agent behavior within acceptable bounds. The distinction matters: debt is a stock of design and governance liability, while the tax is a flow of operating cost that arises because stochastic agents act through tools and workflows. We outline how managers can make both visible through lightweight dashboards and governance controls.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c5423d6f1740" data-article-url="https://arxiv.org/abs/2605.29168" data-article-title="早いより遅いほうがよい: オントロジーに基づいた抽出後の修正による神経記号的知識グラフの構築" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29168" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29168" target="_blank" rel="noopener">早いより遅いほうがよい: オントロジーに基づいた抽出後の修正による神経記号的知識グラフの構築</a></h3>
      <p class="summary">質問応答 (QA) は AI の中核的な課題であり、特にドキュメント全体にわたるマルチホップ推論、または集計や網羅的なリストなどの記号操作を必要とする複雑なクエリの場合に当てはまります。検索拡張生成は、QA への主要なアプローチとなっており、最近のグラフベースのバリアントでは、構成的な質問をより適切にサポートするために知識を整理することで、これらの問題の一部に対処しています。ただし、ほとんどのテキスト グラフ ベースの RAG メソッドには、複雑な質問に確実に答えるために役立つ記号操作に必要な構造がまだ欠けています。これにより、SQL のようなクエリを可能にする論理述語であるナレッジ グラフ (KG) を抽出する、シンボリック グラフ ベースのアプローチが推進されます。しかし、これらのパイプラインは通常、KG 抽出に LLM を使用するため、一貫性の問題が発生する可能性があり、抽出されたファクトが常識的なオントロジー制約に違反する可能性があります。我々は、オープンドメイン抽出、型と述語の埋め込みベースの正規化、およびオントロジー違反の対象を絞ったLLMベースの修正を組み合わせた、オントロジーに基づいたKG構築のための神経記号フレームワークを提案します。修正を抽出後の段階まで延期することで、私たちの方法では、LLM 呼び出しの繰り返しを回避し、トークンの使用量を大幅に削減しながら、KG の一貫性を向上させ、下流の QA 品質を維持します。最後に、SPARQL グラフ パターンの出現を測定することにより、抽出された KG がシンボリック クエリに適していることを示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Better Later Than Sooner: Neuro-Symbolic Knowledge Graph Construction via Ontology-grounded Post-extraction Correction</p>
        <p class="orig-summary">Question answering (QA) is a core challenge in AI, particularly for complex queries requiring multi-hop reasoning across documents, or symbolic operations like aggregation or exhaustive listing. Retrieval-augmented generation has become the dominant approach to QA, with recent graph-based variants addressing part of these issues by organizing knowledge to better support compositional questions. However, most textual graph-based RAG methods still lack the structure needed for symbolic operations useful to answer complex questions reliably. This motivates symbolic graph-based approaches, which extract knowledge graphs (KGs) whose relations are logic predicates that enable SQL-like querying. Yet these pipelines typically use LLMs for KG extraction, which can introduce consistency issues, where extracted facts may violate commonsense ontology constraints. We propose a neuro-symbolic framework for ontology-grounded KG construction combining open-domain extraction, embedding-based canonicalization of types and predicates, and targeted LLM-based correction of ontology violations. By deferring corrections to a post-extraction stage, our method avoids repeated LLM calls, substantially reducing token usage while improving KG consistency and preserving downstream QA quality. Finally, we show that the extracted KGs are well suited for symbolic querying by measuring the occurrence of SPARQL graph patterns.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1b42e65a9fa3" data-article-url="https://arxiv.org/abs/2605.29174" data-article-title="ペーパーエージェント、ペーパーゲイン：DeFi投資エージェントの実証分析" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29174" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29174" target="_blank" rel="noopener">ペーパーエージェント、ペーパーゲイン：DeFi投資エージェントの実証分析</a></h3>
      <p class="summary">自律的なオンチェーン取引に AI を使用するシステムである DeFi 投資エージェントは、2024 年後半以来、合計トークン評価額で 30 億米ドルを超えています。私たちは 1,900 以上の AI タグ付き暗号プロジェクトを調査し、投資中心のエージェントに絞り込み、戦略と可観測性の側面にわたる 10 の代表的なプロジェクトを厳選しています。次に、ElizaOS と Virtuals Protocol という 2 つの著名なエージェント フレームワークの詳細なアーキテクチャ分析と、925,323 人のトークン所有者を対象とする公的に起因する取引活動を伴う 11 の Solana ベースのエージェント トレジャリーの定量的なオンチェーン パフォーマンス分析を実施します。現在のデプロイメントは初期段階で異種混合のままであることがわかりました。(1) 私たちのサンプルでは、​​多くのプロジェクトが自律的な取引実行の明確な証拠をまだ提供しておらず、開発者のインタビューでは、目に見えるデプロイメントの多くが基本的な API 統合のままであることが示唆されています。 (2) エージェントの財務省は 3,000 万米ドルを超える紙の利益を保持している一方、トークン所有者は合計で 1 億 9,170 万米ドルを損失しており、ウォレットの上位 1% が全利益の 81.4% (18 億 1,000 万米ドル) を獲得しています。 (3) トークンの評価額は財務省のファンダメンタルズとの関連が弱く、時価総額対AUMの比率は10,000倍を超えていますが、確立されたDeFiプロトコルでは1倍未満です。 (4) ユーザーの総利益は 24 億米ドルでピークに達し、その後純損失に減少し、収益の中央値はすべてのプラットフォームでマイナスとなり、トークンは史上最高値から平均して 93% 減少しました。私たちは、これらの結果を、オープンインフラストラクチャにより迅速な実験が可能になるだけでなく、自律性、パフォーマンス、および利害関係者の連携のための堅牢な標準が出現する前に、単純なエージェントや投機的なエージェントが立ち上がることを可能にする、パーミッションレスの第一世代市場の特徴であると解釈します。そこで私たちは、現在の展開と将来の投資グレードのエージェント システムとの間のギャップを特徴付けるために、自律的な実行、リスク調整後の収益性、利害関係者の連携という 3 つの側面に沿った成熟度フレームワークを提案します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Paper Agents, Paper Gains: An Empirical Analysis of DeFi Investment Agents</p>
        <p class="orig-summary">DeFi investment agents, systems that use AI for autonomous on-chain trading, have attained over USD 3 billion in combined token valuations since late 2024. We survey over 1,900 AI-tagged crypto projects, filter to investment-focused agents, and curate 10 representative projects spanning strategy and observability dimensions. We then conduct a deep-dive architectural analysis of two prominent agent frameworks, ElizaOS and Virtuals Protocol, and a quantitative on-chain performance analysis of 11 Solana-based agent treasuries with publicly attributable trading activity, covering 925,323 token holders. We find that current deployments remain early and heterogeneous: (1) in our sample, many projects do not yet provide clear evidence of autonomous trade execution, and developer interviews suggest that many visible deployments remain basic API integrations; (2) agent treasuries retain over USD 30M in paper gains while token holders collectively lost USD 191.7M, with the top 1% of wallets capturing 81.4% of all gains (USD 1.81B); (3) token valuations are weakly connected to treasury fundamentals, with market-cap-to-AUM ratios exceeding 10,000x versus below 1x for established DeFi protocols; and (4) aggregate user gains peaked at USD 2.4B before declining to net losses, with median returns negative on every platform and tokens declining 93% on average from all-time highs. We interpret these outcomes as characteristic of a permissionless, first-generation market in which open infrastructure enables rapid experimentation but also allows naive or speculative agents to launch before robust standards for autonomy, performance, and stakeholder alignment emerge. We therefore propose a maturity framework along three dimensions: autonomous execution, risk-adjusted profitability, and stakeholder alignment, to characterize the gap between current deployments and future investment-grade agent systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="033157ba02cc" data-article-url="https://arxiv.org/abs/2605.29192" data-article-title="ReasonOps: LLM 推論トレースのオペレーター セグメンテーション" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29192" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29192" target="_blank" rel="noopener">ReasonOps: LLM 推論トレースのオペレーター セグメンテーション</a></h3>
      <p class="summary">大規模な推論モデルからの思考連鎖のトレースは数万のトークンに及ぶ可能性がありますが、その内部構造を説明するための語彙が不足しています。思考連鎖のトレースを分析するために開発されたこれまでの手法は、厳密すぎるか表現力が不十分で、ドメインやモデル全体の特徴を捉えることができませんでした。これを解決するために、思考連鎖トレースに注釈を付けるための教師なしの表現力豊かな手法である ReasonOps を開発し、簡潔な汎用演算子を提供します。 ReasonOps を使用して、8 つの推論ベンチマークにわたる 6 ファミリにまたがる 12 の思考 LLM からの 44,662 のトレースを分析し、それらが共通の構成構造を共有していることを発見しました。それは、文頭の 3 トークン ピボットの教師なしクラスタリングから現れる 7 つの繰り返し推論演算子、つまり後戻り、推論、仮説立てなどの談話レベルの動きです。これらの演算子は、すべてのモデル ファミリとベンチマーク ドメインにわたって出現し、ホールドアウトされたサンプルを 70 ～ 76% の精度で分類する 3 人の独立した LLM 審査員によって確認されています。簡単な問題と難しい問題の演算子の構造を分析し、反射型演算子は難しい問題ではより役立ち、簡単な問題ではパフォーマンスに悪影響を与えることを明らかにしました。演算子シーケンスは高度にモデルを識別します。演算子分布のみでトレーニングされた分類器はマクロ AUC でソース モデルを復元し、各モデル ファミリが独特の推論フィンガープリントを持っていることを明らかにします。構造演算子の特徴は、問題内の解答の正しさをベースラインをはるかに上回って予測します。これらの演算子に基づいて構築された分類子は、特に WP-AUC および AIME に到達します。さらに、ReasonOps により、トレースが完了するかなり前に早期品質推定が可能になります。WP-AUC ではトレースの 50% のみを予測します。 ReasonOps パイプラインは教師なしでアノテーションも不要なので、LLM 推論トレースに対する深い洞察と、モデルの識別と正確性の予測に関する強力な下流の結果が可能になります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ReasonOps: Operator Segmentation for LLM Reasoning Traces</p>
        <p class="orig-summary">Chain-of-thought traces from large reasoning models can span tens of thousands of tokens, yet we lack a vocabulary for describing their internal structure. Previous methods developed to analyze chain-of-thought traces are either too rigid or not expressive enough, failing to capture features across domains and models. To remedy this, we develop ReasonOps, an unsupervised, expressive method for annotating chain-of-thought traces, providing succinct universal operators. Using ReasonOps, we analyze 44,662 traces from 12 thinking LLMs spanning 6 families across 8 reasoning benchmarks and discover that they share a common compositional structure: 7 recurring reasoning operators -- discourse-level moves such as backtracking, inferring, and hypothesizing -- that emerge from unsupervised clustering of sentence-initial 3-token pivots. These operators appear across every model family and benchmark domain, confirmed by three independent LLM judges who classify held-out samples at 70 -76% accuracy. We analyze the structure of operators on easy vs. hard problems, revealing that reflective operators are more helpful on hard problems and harm performance on easy problems. Operator sequences are highly model-identifying: a classifier trained on operator distributions alone recovers the source model with macro-AUC, revealing that each model family has a distinctive reasoning fingerprint. Structural operator features predict within-problem answer correctness well above baselines. Classifiers built on these operators reach WP-AUC and on AIME specifically. ReasonOps further enables early quality estimation well before the trace completes: we predict at WP-AUC for only 50% of the trace. The ReasonOps pipeline is unsupervised and annotation-free, enabling deep insights into LLM reasoning traces as well as strong downstream results on model identification and correctness prediction.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="231dd6215a9d" data-article-url="https://arxiv.org/abs/2605.29218" data-article-title="GTA: Web エージェント向けに長期的なタスクを大規模に生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29218" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29218" target="_blank" rel="noopener">GTA: Web エージェント向けに長期的なタスクを大規模に生成</a></h3>
      <p class="summary">Web エージェントは、言語モデルとブラウジング機能およびツール使用機能を組み合わせたもので、オープンな Web アシスタントとして有望です。しかし、拡張性のあるプロセスレベルの監督が欠如しているため、進歩はますます制限されています。既存のベンチマークは主に手動で構築されており、中間軌道を含まない粗い開始ゴールの注釈のみを提供しますが、最近の自動生成の取り組みは依然として高価で偏りがあり、浅いものです。これらの制限により、現実的なマルチホップ、クロスページのタスクに一般化する必要があるエージェントの信頼できるトレーニングと評価が妨げられます。スケーラブルなフレームワークである GTA を導入します。これは、クローリング、検索ベースのシーディング、インコンテキスト生成、および自動品質管理を統合して、実行可能な軌跡と組み合わせた現実的なタスクを生成します。この設計は、クロールを生成から切り離して効率を高め、タスクをサイト グラフに固定して構成性を強化し、決定論的な再生と体系的な検証を通じて緻密な監視を保証します。電子商取引、政府、フォーラム、ニュースをカバーする 50 以上の Web サイト上でパイプラインをインスタンス化し、多言語およびマルチホップをカバーします。結果として得られたベンチマークでは、人間とエージェントのパフォーマンスの大きなギャップが明らかになり、詳細な診断が可能になります。私たちの貢献は 3 つあります: (i) マルチホップ Web エージェント タスク生成の形式化、(ii) 自動データ作成のための効率的で検証済みのパイプラインの提案、(iii) 再現可能な評価を備えた動的ベンチマークのリリース。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GTA: Generating Long-Horizon Tasks for Web Agents at Scale</p>
        <p class="orig-summary">Web agents, which couple language models with browsing and tool-use capabilities, show promise as open web assistants. Yet progress is increasingly limited by the lack of scalable, process-level supervision. Existing benchmarks are largely manually constructed, providing only coarse start-goal annotations without intermediate trajectories, while recent automatic generation efforts remain expensive, biased, and shallow. These limitations prevent reliable training and evaluation of agents that must generalize to realistic, multi-hop, cross-page tasks. We introduce a scalable framework, GTA, that integrates crawling, retrieval-based seeding, in-context generation, and automated quality control to produce realistic tasks paired with executable trajectories. This design decouples crawling from generation for greater efficiency, grounds tasks in the site graph to enforce compositionality, and ensures dense supervision through deterministic replays and systematic validation. We instantiate the pipeline on over 50 websites covering e-commerce, government, forums, and news, with multilingual and multi-hop coverage. The resulting benchmark reveals a significant human-agent performance gap and enables detailed diagnostics. Our contributions are three-fold: (i) formalizing multi-hop web-agent task generation, (ii) proposing an efficient and validated pipeline for automatic data creation, and (iii) releasing a dynamic benchmark with reproducible evaluation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c1c639452f0" data-article-url="https://arxiv.org/abs/2605.29225" data-article-title="BenchTrace: LLM エージェントのリフレクション能力と制御された進化をテストするためのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29225" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29225" target="_blank" rel="noopener">BenchTrace: LLM エージェントのリフレクション能力と制御された進化をテストするためのベンチマーク</a></h3>
      <p class="summary">自己進化エージェントは過去の失敗を反映することで時間の経過とともに改善しますが、既存の評価には 2 つの点で制限があります。1 つはタスク スコアのみを測定し、反映品質は不明のままにすること、もう 1 つはエージェント自身のエピソードの実行に依存しており、特定の失敗パターンを対象にするメカニズムを提供していないことです。 LLM エージェントの自己進化能力を評価するためのベンチマークである \textbf{BenchTrace} を紹介します。 BenchTrace は、6 つの多様なタスクにわたる 1,821 の注釈付きエピソードのスナップショット反映データセットに基づいて構築されており、ターゲットを絞った QA タスクを通じて障害の特定を調査する \textbf{反映評価} と、制御された自己進化シミュレーションで過去の障害経験が回避行動に変換されるかどうかをテストする \textbf{進化評価} で構成されます。 BenchTrace に基づいて、エージェントがターゲットの障害インスタンスを回避できたテスト ケースの割合を測定する新しい評価指標である \textbf{障害回避率 (FAR)} を提案します。 Qwen3-32B と GPT-4.1 を使った実験では、どちらのモデルもリフレクション評価でエンドツーエンドの合格率が 30\% を下回り、診断が主なボトルネックであることが明らかになりました。進化の評価では、自己進化手法は一般に非進化ベースラインよりもFARを改善しますが、エージェントはノイズエピソードが蓄積するにつれて初期のレッスンを忘れ、エージェントは特定のコンテキストを超えて反省を一般化することができず、タスクコンテキスト間で負の転移を引き起こすことが示されています。さらに、相関分析により、完全に正しい反射のみが高い FAR と強く関連していることが明らかになりました。 BenchTrace は、現在の自己進化アプローチの具体的な限界を明らかにし、対象を絞った評価のための制御されたモデルに依存しないフレームワークを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BenchTrace: A Benchmark for Testing Reflection Ability and Controlled Evolution in LLM Agents</p>
        <p class="orig-summary">Self-evolving agents improve over time by reflecting on past failures, but existing evaluation is limited in two ways: it measures only task scores, leaving reflection quality unknown, and it relies on agents&#x27; own episode runs, offering no mechanism to target specific failure patterns. We present \textbf{BenchTrace}, a benchmark for evaluating self-evolution ability in LLM agents. BenchTrace is built on a snapshot-reflection dataset of 1,821 annotated episodes spanning six diverse tasks, and comprises a \textbf{Reflection Evaluation} that probes failure identification through targeted QA tasks, and an \textbf{Evolution Evaluation} that tests whether past failure experience translates into avoidance behavior in a controlled self-evolution simulation. Building on BenchTrace, we propose \textbf{failure avoidance rate (FAR)}, a new evaluation metric measuring the fraction of test cases in which the agent successfully avoids the target failure instance. Experiments with Qwen3-32B and GPT-4.1 reveal that both models fall below a 30\% end-to-end pass rate on reflection evaluation, with diagnosis as the primary bottleneck. Evolution evaluation shows that self-evolution methods generally improve FAR over the non-evolving baseline, but agents forget early lessons as noise episodes accumulate, and agents fail to generalize their reflections beyond the specific context, causing negative transfer across task contexts. Our correlation analysis further reveals that only a fully correct reflection is strongly associated with higher FAR. BenchTrace exposes concrete limits of current self-evolution approaches and provides a controlled, model-agnostic framework for targeted evaluation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c30f52d3df79" data-article-url="https://arxiv.org/abs/2605.29229" data-article-title="カリキュラムの調整: 動的データモデル互換性による学生中心の推論の抽出" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29229" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29229" target="_blank" rel="noopener">カリキュラムの調整: 動的データモデル互換性による学生中心の推論の抽出</a></h3>
      <p class="summary">推論蒸留は、複雑な推論能力を大規模な言語モデル (LLM) から小規模な言語モデルに移行しますが、その成功はトレーニング データが学生モデルとどの程度一致するかによって決まります。このペーパーでは、スチューデント モデルでの推論蒸留に対するデータセットの適合性を評価するために使用できるデータ モデル互換性 (DMC) メトリクスを紹介します。 DMC は、データの品質、相対的な難易度、学生の能力を共同で考慮して評価を提供します。 DMC の有効性を 2 つの観点から検証しました。(1) DMC は推論蒸留パフォーマンスと強い相関を示します。 (2) データ選択の基準として DMC を使用すると、推論蒸留のパフォーマンスが向上します。どちらの発見も、複数の学生モデルとタスクにわたって一貫して実証されています。さらに、各データセットの DMC はトレーニング中に動的に変化するため、DMC に基づいてデータセットを動的に選択することでパフォーマンスがさらに向上することが実験で実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Tailoring the Curriculum: Student-Centered Reasoning Distillation via Dynamic Data-Model Compatibility</p>
        <p class="orig-summary">Reasoning distillation transfers complex reasoning abilities from large language models (LLMs) to smaller ones, yet its success depends on how well the training data align with the student model. This paper introduces the Data-Model Compatibility (DMC) metric, which can be used to assess the suitability of a dataset for reasoning distillation on a student model. DMC provides an assessment by jointly considering data quality, relative difficulty, and student capability. We validated the effectiveness of DMC from two perspectives: (1) DMC exhibits a strong correlation with reasoning distillation performance; and (2) using DMC as the criterion for data selection leads to improved reasoning distillation performance. Both findings are consistently demonstrated across multiple student models and tasks. Moreover, since the DMC of each dataset dynamically changes during training, our experiments demonstrate that dynamically selecting datasets based on DMC can further enhance performance.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="49f0057b3c33" data-article-url="https://arxiv.org/abs/2605.29234" data-article-title="文献検索の評価を再考する: 深い調査は役に立ちますが、人間の引用リストは根拠のある真実ではありません" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29234" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29234" target="_blank" rel="noopener">文献検索の評価を再考する: 深い調査は役に立ちますが、人間の引用リストは根拠のある真実ではありません</a></h3>
      <p class="summary">私たちは、検索パイプラインの改善と評価対象としての人による参照リストのストレステストという 2 つの相補的な角度から大規模な文献検索を研究しています。まず、完全なクエリ論文を処理し、取得した結果を文献目録に沿って幅優先で拡張する Deep Research パイプラインを実装します。このパイプラインが通常の API のみの検索を大幅に上回り、RollingEval-Jun25 (論文 250 件の文献検索ベンチマーク) の再現率が 20% 未満から 80% 以上に上昇することを示します。 2 番目に、中立的な LLM を判断者として使用して、人間の参照がタスクに対する健全な根拠であるかどうかを判断します。私たちは重大な限界を発見しました。人間による引用のうち、中等度以上の関連性があると判断されたのは 51% のみであったのに対し、最も強力な AI ベースの再ランカーでは 86 ～ 88% でした。 OpenAlex の共著グラフでこのギャップを調査したところ、人間は AI の再ランク付けを行う最も優れた人よりも直接の協力者を引用する可能性が 2.5 倍高いことがわかりました。まとめると、我々の結果は単一軸の文献検索評価に反対している。つまり、想起率、話題関連性スコアリング、ランクリストの多様性、および共著距離診断は、それぞれ引用の質の相補的な特性を測定するものであり、併せて報告されるべきである。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Rethinking Literature Search Evaluation: Deep Research Helps, and Human Citation Lists Are Not a Ground Truth</p>
        <p class="orig-summary">We study large-scale literature search from two complementary angles: improving the retrieval pipeline, and stress-testing the human reference list as an evaluation target. First, we implement a Deep Research pipeline that processes the full query paper and expands the retrieved results breadth-first along their bibliographies, and show that it substantially outperforms vanilla API-only search, raising recall on RollingEval-Jun25 (a 250-paper literature-search benchmark) from below 20% to above 80%. Second, we use a neutral LLM-as-a-judge to determine if human references are sound ground truth for the task. We find significant limitations: only 51% of human citations are judged moderately relevant or higher, against 86--88% for the strongest AI-based re-rankers. We study this gap on the OpenAlex co-authorship graph, finding that humans are 2.5x more likely than the best AI re-rankers to cite a direct collaborator. Together, our results argue against single-axis literature-search evaluation: recall, topical-relevance scoring, ranked-list diversity, and a co-authorship-distance diagnostic each measure complementary properties of citation quality and should be reported jointly.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="77dae2d1dc98" data-article-url="https://arxiv.org/abs/2605.29240" data-article-title="AI を使用した教師と生徒の間の結果に依存しないフィードバックの仲介により、孤立した学習者を表面化する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29240" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29240" target="_blank" rel="noopener">AI を使用した教師と生徒の間の結果に依存しないフィードバックの仲介により、孤立した学習者を表面化する</a></h3>
      <p class="summary">AI で拡張された教室では、採点結果が利用可能になる前に教師と生徒の豊富なフィードバックが生成されますが、これらの信号をタイムリーな指導上の決定に変換するのは難しい場合があります。私たちは、解釈可能な意思決定層、つまり、成績や事後の結果ラベルを使用せずに、注意が必要なコーストピックをランク付けする透明なメカニズムを提案します。このアプローチは、生徒の学習困難の蔓延、学習者の自己申告と観察された困難の間の不一致、未解決の教師の懸念という 3 つのシグナルを組み合わせています。出力は、各ランキングを説明するトピックごとの決定レコードを含む、ランク付けされたトピック優先度のセットです。ある卒業生 CS コースの提供 ($n=5$ の講師インタビュー、$n=279$ のアンケート回答) では、講師の懸念事項 (トップ 5 の重複 3/5、スピアマン $\rho=0.80$) と学生が報告したトピックの難易度 ($\rho=0.46$、$p=0.048$) に合わせてトピックの優先順位が付けられました。複数信号の統合により、個々の信号源だけでは識別されなかった学習者も明らかになりました (AUC $=0.96$ 対、ギャップ有病率のみの場合は $0.91$)。内省的思考、助けを求めること、自己効力感は、生徒の行動シグナルが学習関連の構成要素と一致しているというさらなる証拠を提供しました。予備的ではあるが、これらの発見は、フィードバックが不完全な場合、透明な調整メカニズムが人間と AI の共同エージェンシーをサポートするのに役立つ可能性があることを示唆している。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Surfacing Isolated Learners with Outcome-Independent Mediation of Feedback between Teachers and Students Using AI</p>
        <p class="orig-summary">AI-augmented classrooms generate rich teacher and student feedback before graded outcomes become available, yet these signals can be difficult to translate into timely instructional decisions. We propose an interpretable decision layer: a transparent mechanism that ranks course topics requiring attention without using grades or post-hoc outcome labels. The approach combines three signals: student learning difficulty prevalence, disagreement between learner self-reports and observed difficulties, and unresolved teacher concerns. The output is a ranked set of topic priorities with per-topic decision records explaining each ranking. In one graduate CS course offering ($n=5$ instructor interviews; $n=279$ survey responses), prioritized topics aligned with instructor concerns (top-5 overlap 3/5; Spearman $\rho=0.80$) and student-reported topic difficulty ($\rho=0.46$, $p=.048$). Multi-signal integration also surfaced learners not identified through individual signal sources alone (AUC $=0.96$ vs. $0.91$ for gap prevalence alone). Reflective thinking, help-seeking, and self-efficacy provided additional evidence that student behavioral signals align with learning-related constructs. While preliminary, these findings suggest that transparent coordination mechanisms may help support human-AI co-agency when feedback is incomplete.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b601b17024e5" data-article-url="https://arxiv.org/abs/2605.29247" data-article-title="DenseSteer: 小規模な言語モデルを高密度数学推論に向けて操作する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29247" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29247" target="_blank" rel="noopener">DenseSteer: 小規模な言語モデルを高密度数学推論に向けて操作する</a></h3>
      <p class="summary">大規模な言語モデル (LLM) は強力な思考連鎖 (CoT) 推論能力を示しますが、小規模なモデル (&lt;= 3B パラメーター) は、複数ステップの推論タスクでは著しくパフォーマンスが劣ります。数的推論ベンチマークにおける Qwen-2.5 モデル ファミリーの経験的分析に基づいて、より熟練した推論は、推論ステップが少なく、ステップごとの情報密度が高いことに関連していることがわかりました。この特性を、私たちは「高密度推論」と呼んでいます。この観察に動機付けられて、私たちは、内部表現を密な推論パターンに向けて調整することによって小規模モデル推論を強化する、トレーニング不要の推論時間ステアリング フレームワークである DenseSteer を提案します。実験では、私たちの方法がトークンレベルの負の対数尤度を増加させることなく一貫した精度の向上をもたらすことを示し、数学的問題解決への効果的な構造的アプローチとして密な推論を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DenseSteer: Steering Small Language Models towards Dense Math Reasoning</p>
        <p class="orig-summary">Large language models (LLMs) demonstrate strong chain-of-thought (CoT) reasoning abilities, while smaller models (&lt;= 3B parameters) significantly underperform on multi-step reasoning tasks. Based on empirical analyses of the Qwen-2.5 model family on math reasoning benchmarks, we find that more proficient reasoning is associated with fewer reasoning steps but higher information density per step, a property we term Dense Reasoning. Motivated by this observation, we propose DenseSteer, a training-free inference-time steering framework that enhances small-model reasoning by modulating internal representations toward dense reasoning patterns. Experiments show that our method yields consistent accuracy improvements without increasing token-level Negative Log-Likelihood, highlighting dense reasoning as an effective structural approach to mathematical problem solving.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ad15a952d60f" data-article-url="https://arxiv.org/abs/2605.29251" data-article-title="確実に安全なエージェント ガードレール" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29251" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29251" target="_blank" rel="noopener">確実に安全なエージェント ガードレール</a></h3>
      <p class="summary">大規模な言語モデルが、制限された生成エンジンから、拡張的な実行権限を持つエージェントに移行するにつれて、AI が制御不能になり、人工知能のセキュリティに根本的な危機が生じます。既存の防御アーキテクチャは、経験的なセマンティック ガードレールと確率的な大規模モデルの判定子に大きく依存しており、複雑なセマンティック シンボル デカップリング攻撃に直面した場合に決定論的なセキュリティの下限を提供できないメカニズムです。この経験的なセマンティック ガードレールのジレンマを克服するために、この論文では、論理的推論の基本的な制限に基づいたエージェントのための新しいセキュリティ パラダイムを提案します。このパラダイムに基づいて、ニューラル シンボリック分離アーキテクチャを備えた実行可能な Proof-Constrained Action (ePCA) フレームワークをさらに導入します。このフレームワークは自然言語の意味論的な信頼を放棄し、エージェントに物理的な操作を実行する前に意図を一次論理数学的制約にロスレスで形式化することを強制します。巨視的および微視的な二次元動的敵対的システムの経験的評価は、私たちの形式的検証メカニズムが、評価されたシナリオ全体でゼロの攻撃成功率とゼロの誤検知率を、極めて低い計算待ち時間で達成することを実証しています。この研究は、明示的なシステム仮定の下での条件付きの形式的基盤と、将来のインテリジェント システムの基礎となる防御基盤を構築するためのエンジニアリング パラダイムを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Provably Secure Agent Guardrail</p>
        <p class="orig-summary">As large language models transition from bounded generative engines to agents with expansive execution privileges, AI going out of control precipitates a fundamental crisis in artificial intelligence security. Existing defense architectures heavily rely on empirical semantic guardrails and probabilistic large model adjudicators, mechanisms that fail to provide deterministic security lower bounds when facing complex semantic symbol decoupling attacks. To overcome this empirical semantic guardrail dilemma, this paper proposes a new security paradigm for agents based on the fundamental limitations of logical reasoning. Based on this paradigm, we further introduce an executable Proof-Constrained Action (ePCA) framework with a neural symbolic isolation architecture. This framework abandons semantic trust in natural language, forcing agents to losslessly formalize their intentions into first-order logical mathematical constraints before performing physical operations. Empirical evaluations of macroscopic and microscopic two-dimensional dynamic adversarial systems demonstrate that our formal verification mechanism achieves zero attack success rate and zero false positive rate across the evaluated scenarios, with extremely low computational latency. This research provides a conditional formal foundation under explicit system assumptions and an engineering paradigm for constructing the underlying defense foundation for future intelligent systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8fc1dcf5a75a" data-article-url="https://arxiv.org/abs/2605.29253" data-article-title="OpenClawBench: 現実世界のエージェント実行軌跡におけるプロセス側の異常のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29253" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29253" target="_blank" rel="noopener">OpenClawBench: 現実世界のエージェント実行軌跡におけるプロセス側の異常のベンチマーク</a></h3>
      <p class="summary">タスクが成功すると、実際のエージェント実行におけるプロセスの異常が隠蔽される可能性があります。エージェントは、未解決のあいまいさ、安全でない外部書き込み、無視されたエラー、根拠の弱いコミットメント、または能力境界のオーバーコミットメントを蓄積したまま、最終タスクのオラクルを渡す可能性があります。私たちはこの不一致を結果とプロセスのギャップとして研究し、実際のエージェント実行プロセスにおけるプロセス側の異常を測定および監視するための大規模なデータセットである OpenClawBench を導入します。 OpenClawBench は、6 つのソース モデルによって生成された BFCL 駆動の OpenClaw セッションから構築されており、31,264 個の注釈付き軌跡が含まれています。タスクオラクルの結果を構造化されたプロセスの証拠と一致させます。 FullTax は、調整された軌跡を構造化された異常監視 (バイナリ ラベル、裏付け証拠、発生/期間の局所化、重大度、回復可能性、および 5 クラスの異常分類) に変換します。 OpenClawBench を使用して、結果とプロセスのギャップを測定可能にします。 31,135 件のオラクルパス実行のうち、2,904 件は依然として FullTax の下でプロセス異常のラベルが付けられています。これらの結果は、成功のみの評価では、実際のエージェント実行におけるプロセス側の失敗の具体的なクラスを見逃すことを示しています。 LoRA で微調整された Gemma 3 12B 検出器は、信頼性の高い FullTax 監視プールでトレーニングされ、クリーナー ラベル ホールドアウト テスト スプリットでバイナリ F1=0.729 に達します。 OpenClawBench は、実際のエージェント実行ログを、ランタイム エージェントの信頼性を調査、診断、運用上監視するための監査可能で再利用可能な監視に変換します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories</p>
        <p class="orig-summary">Task success can hide process anomalies in real-world agent executions. An agent may pass the final task oracle while still accumulating unresolved ambiguity, unsafe external writes, ignored errors, weakly grounded commitments, or capability-boundary overcommitment. We study this mismatch as the Outcome-Process Gap and introduce OpenClawBench, a large-scale dataset for measuring and supervising process-side anomalies in real agent execution processes. OpenClawBench is built from BFCL-driven OpenClaw sessions produced by 6 source models and contains 31,264 annotated trajectories. It aligns task-oracle outcomes with structured process evidence. FullTax converts the aligned trajectories into structured anomaly supervision: binary labels, supporting evidence, onset/span localization, severity, recoverability, and a 5-class anomaly taxonomy. Using OpenClawBench, we make the Outcome-Process Gap measurable. Among 31,135 oracle-passing executions, 2,904 are still labeled process-anomalous under FullTax. These results show that success-only evaluation misses a concrete class of process-side failures in real agent executions. A LoRA-fine-tuned Gemma 3 12B detector trained on the high-confidence FullTax supervised pool reaches binary F1=0.729 on the cleaner-labels held-out test split. Together, OpenClawBench turns real agent execution logs into auditable and reusable supervision for studying, diagnosing, and operationally monitoring runtime agent reliability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e679a7e0fde4" data-article-url="https://arxiv.org/abs/2605.29262" data-article-title="リアルタイムの制約と長期的な推論の調和: 動的スケジューリングのための非同期エージェント フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29262" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29262" target="_blank" rel="noopener">リアルタイムの制約と長期的な推論の調和: 動的スケジューリングのための非同期エージェント フレームワーク</a></h3>
      <p class="summary">動的フレキシブル ジョブ ショップ スケジューリング問題 (DFJSP) では、確率的外乱に対する即座の対応と生産目標の全体的な最適化の間のトレードオフが必要になります。従来の優先順位ルールは、複雑な中断に対処するには柔軟性が不十分ですが、学習ベースのアプローチでは、解釈可能性が損なわれたり、問題のスケール全体に一般化できないことがよくあります。 Large Language Model (LLM) は、このギャップを埋めるための高度な推論機能を提供しますが、その実質的な推論遅延は、産業用制御システムのミリ秒レベルの決定サイクルと互換性がありません。この競合を解決するために、デュアル ストリーム アーキテクチャを介してポリシーの実行を論理的推論から切り離す、非同期エージェント ベースのフレームワークである RACE-Sched を導入します。 Reactive Stream は低遅延のシンボリック ヒューリスティックを実行してリアルタイムのディスパッチを可能にし、並列 Deliberative Stream は LLM を利用してこれらのルールを合成、検証、進化させます。候補ルールはサンドボックスで厳格なテストを受け、アトミックな更新によって展開されるため、制御ループをブロックすることなく安全性が確保されます。さらに、セマンティック ルール リポジトリは、検索ベースの初期化のための検証済みのヒューリスティックにインデックスを付け、問題のスケール全体での移行性を高めます。 GEN-Bench、MK-Bench、および JMS-Bench の広範な評価により、RACE-Sched が主要な深層強化学習やその他の LLM ベースのベースラインよりも優れたパフォーマンスを発揮することが実証されています。このアプローチは、リアルタイムの制約と長期的な推論を調和させて、優れたソリューション品質と動的イベントへの堅牢な適応を実現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Harmonizing Real-Time Constraints and Long-Horizon Reasoning: An Asynchronous Agentic Framework for Dynamic Scheduling</p>
        <p class="orig-summary">The Dynamic Flexible Job Shop Scheduling Problem (DFJSP) necessitates a trade-off between instant reaction to stochastic disturbances and global optimization of production goals. Conventional priority rules are insufficiently flexible to handle complex disruptions, whereas learning-based approaches often compromise interpretability or fail to generalize across problem scales. Although Large Language Models (LLMs) offer advanced reasoning capabilities to bridge this gap, their substantial inference latency is incompatible with the millisecond-level decision cycles of industrial control systems. To resolve this conflict, we introduce RACE-Sched, an asynchronous agent-based framework that decouples policy execution from logical reasoning via a dual-stream architecture. The Reactive Stream executes low-latency symbolic heuristics to enable real-time dispatching, while the parallel Deliberative Stream leverages an LLM to synthesize, validate, and evolve these rules. Candidate rules undergo rigorous testing in a sandbox and are deployed via atomic updates, ensuring safety without blocking the control loop. Additionally, a semantic rule repository indexes validated heuristics for retrieval-based initialization which enhances transferability across problem scales. Extensive evaluations on GEN-Bench, MK-Bench, and JMS-Bench demonstrate that RACE-Sched outperforms leading Deep Reinforcement Learning and other LLM-based baselines. This approach harmonizes real-time constraints with long-horizon reasoning to achieve superior solution quality and robust adaptation to dynamic events.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9352747fc192" data-article-url="https://arxiv.org/abs/2605.29267" data-article-title="人間によるキュレーションがいつどのように裏目に出るか: マルチモデルの自己消費ループにおける嗜好の調整" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29267" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29267" target="_blank" rel="noopener">人間によるキュレーションがいつどのように裏目に出るか: マルチモデルの自己消費ループにおける嗜好の調整</a></h3>
      <p class="summary">基礎モデルは、実際のデータのみを使用するのではなく、以前のモデルの反復によって生成された合成データを使用してトレーニングされることが増えています。この自己消費的なトレーニング パラダイムは、モデルの崩壊、発散、またはバイアスの増幅につながる可能性があります。最近の研究 (Ferbach et al., 2024) では、人間によるキュレーションをループに組み込むことで、自己消費モデルを人間に合わせた行動に導くことができることが示されていますが、これらの分析は、独自の出力のみを消費する単一の孤立したモデルに焦点を当てています。ただし、実際には、モデルは他のモデルによって生成された入出力ペアで対話し、トレーニングすることがよくあります。この論文では、マルチモデル体制における自己消費型トレーニングについて研究します。まず、相互作用する自己消費型モデルのフレームワークを形式化し、結果として得られる動的システムがいつ安定点に収束するかを特徴付けます。次に、人間による 1 つのモデルのキュレーションがそのモデル自体の調整にどのような影響を与えるか (自己影響)、そのような効果が他のモデルにどのように伝播するか (相互影響) を調べます。人間によるキュレーションによってモデルの整合性が常に強化される孤立した設定とは異なり、モデル間の相互作用によってこの効果が弱められたり、逆転したりする可能性があり、最終的には長期的な整合性が低下する可能性があることを示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">When and How Human Curation Backfires: Preference Alignment under Multi-Model Self-Consuming Loop</p>
        <p class="orig-summary">Foundation models are increasingly trained on synthetic data generated by prior model iterations rather than exclusively on real data. This self-consuming training paradigm can lead to model collapse, divergence, or bias amplification. Recent work (Ferbach et al., 2024) shows that incorporating human curation into the loop can steer a self-consuming model toward human-aligned behavior, but these analyses focus on a single, isolated model that solely consumes its own outputs. In practice, however, models often interact and train on input-output pairs produced by other models. This paper studies self-consuming training in the multi-model regime. We first formalize a framework for interacting self-consuming models and characterize when the resulting dynamical system converges to a stable point. We then examine how human curation of one model affects its own alignment (self-influence) and how such effects propagate to other models (cross-influence). Unlike isolated settings where human curation always enhances model alignment, we show that cross-model interactions can dampen or even invert this effect, ultimately degrading long-term alignment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="01a4673b12d7" data-article-url="https://arxiv.org/abs/2605.29270" data-article-title="読み取り不可能なもののインデックス作成: LLM ネイティブの再帰的構築とサービス分類の検索" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29270" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29270" target="_blank" rel="noopener">読み取り不可能なもののインデックス作成: LLM ネイティブの再帰的構築とサービス分類の検索</a></h3>
      <p class="summary">Internet of Agents (IoA) の時代が具体化しつつあります。LLM エージェントは、急速に増加する Model Context Protocol (MCP) サーバー、Agent-to-Agent (A2A) エンドポイント、再利用可能なスキル、およびその他の LLM 呼び出し可能なサービスを調整することで、ユーザーの目標を達成することが期待されています。しかし、LLM はこの体制との構造的な不一致に直面しています。有効なコンテキストは、サービスの数に応じて拡張できない希少なリソースです。数千のサービス説明をプロンプトに連結すると、コンテキスト ウィンドウがオーバーフローし、ウィンドウが十分に大きい場合でも、モデルは長い入力の途中で情報に体系的に注意を向けることができなくなります。これは十分に文書化されている「Lost-in-the-Middle」現象です。これは基本的に、サービス検出のためのコンテキスト管理の問題です。これに対処するために、LLM ネイティブのプログレッシブ開示スキームとその具体的なインスタンス化である A2X (Agent-to-Anything サービス ディスカバリ) を提案します。これは、登録されたサービスを自動的に階層分類に編成し、クエリ時にレイヤーごとにたどる LLM 駆動のパイプラインです。これにより、すべての LLM 呼び出しでは、ユーザー クエリに関連性の高い小さな候補セットのみが表示されます。これにより、有効なコンテキストの不足がレジストリ サイズから切り離され、取得精度が向上しながらトークンの消費が大幅に削減されます。フルコンテキスト ダンピングと比較して、A2X はプロンプト トークン コストの 9 分の 1 で 6.2 ポイントのヒット率の向上を達成します。最先端のオープンソースの埋め込みベースのベースラインと比較して、A2X はヒット率を 20 ポイント以上改善します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Indexing the Unreadable: LLM-Native Recursive Construction and Search of Service Taxonomies</p>
        <p class="orig-summary">The era of the Internet of Agents (IoA) is taking shape: LLM agents are expected to fulfill user goals by orchestrating fast-growing populations of Model Context Protocol (MCP) servers, Agent-to-Agent (A2A) endpoints, reusable skills, and other LLM-callable services. Yet LLMs face a structural mismatch with this regime: effective context is a scarce resource that does not scale with the number of services. Concatenating thousands of service descriptions into a prompt overflows the context window, and even when the window is large enough, models systematically under-attend to information in the middle of long inputs, the well-documented Lost-in-the-Middle phenomenon. This is fundamentally a question of context management for service discovery. To address this, we propose an LLM-native progressive-disclosure scheme and its concrete instantiation, A2X (Agent-to-Anything service discovery): an LLM-driven pipeline that automatically organizes the registered services into a hierarchical taxonomy and walks it layer by layer at query time, so that every LLM call sees only a small candidate set highly relevant to the user query. This decouples effective-context scarcity from registry size and significantly reduces token consumption while improving retrieval accuracy. Compared to full-context dumping, A2X achieves a 6.2-point Hit Rate gain at one-ninth the prompt-token cost; compared to the state-of-the-art open-source embedding-based baseline, A2X improves Hit Rate by more than 20 points.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec5ab469f425" data-article-url="https://arxiv.org/abs/2605.29271" data-article-title="CoHyDE: ツール検索のための LLM リライタと高密度エンコーダの反復的共同トレーニング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29271" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29271" target="_blank" rel="noopener">CoHyDE: ツール検索のための LLM リライタと高密度エンコーダの反復的共同トレーニング</a></h3>
      <p class="summary">大規模な API カタログを介したツールの取得は、LLM エージェントにとって主要なボトルネックです。ユーザー クエリは口語的な、多くの場合、仕様が不十分な言語で到着しますが、カタログでは、固定エンコーダーが単独でブリッジできない技術的な API ボキャブラリーが使用されます。対照的なエンコーダの微調整と、フリーズ LLM を使用した HyDE スタイルのクエリ拡張という 2 つの主要なトレーニング アプローチは、この問題に反対側から対処し、相補的な方向で失敗します。微調整されたエンコーダは、クエリの表面形式がすでにカタログと一致する場合には優れていますが、一致しない場合は崩壊します。一方、ゼロショットの HyDE は、仕様が不十分なクエリに対してはより堅牢ですが、クエリが適切な形式である場合に検索を低下させるカタログを意識しない仮説的な記述を生成します。高密度エンコーダと LLM リライタを単一の共進化システムとしてトレーニングする反復手順である CoHyDE を導入します。エンコーダはリライタによって生成されたカタログ形式の仮説記述に基づいて InfoNCE で再トレーニングされ、リライタはエンコーダの検索スコアに対して DPO 経由で優先的に調整され、ループが始まる前にツール カタログで双方がウォーム スタートされます。 ToolBench カタログの約 10,000 のツール サブセットでは、CoHyDE の 3 ラウンドにより、最も強力な単一コンポーネントのベースラインよりも、標準クエリで NDCG@5 が +2.5 pp、保留された曖昧クエリで +6.3 pp 改善され、最も困難な曖昧層では +8 pp もの向上が見られます。アブレーションにより、共トレーニングが重要な要素であることが確認されました。いずれかのコンポーネントを単独で使用すると、整形式のクエリと曖昧なクエリの両方で CoHyDE に匹敵することができず、曖昧なクエリでは最大 -8 pp の損失が発生します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CoHyDE: Iterative Co-Training of LLM Rewriter &amp; Dense Encoder for Tool Retrieval</p>
        <p class="orig-summary">Tool retrieval over large API catalogs is a core bottleneck for LLM agents: user queries arrive in colloquial, often underspecified language, while the catalog uses technical API vocabulary that no fixed encoder can bridge on its own. The two dominant training approaches, contrastive encoder fine-tuning and HyDE-style query expansion with a frozen LLM, address this problem from opposite ends and fail in complementary directions: the fine-tuned encoder excels when the query&#x27;s surface form already matches the catalog but collapses when it does not, while zero-shot HyDE is more robust to underspecified queries yet generates catalog-unaware hypothetical descriptions that degrade retrieval when queries are well-formed. We introduce CoHyDE, an iterative procedure that trains the dense encoder and the LLM rewriter as a single co-evolving system: the encoder is retrained with InfoNCE on catalog-style hypothetical descriptions produced by the rewriter, and the rewriter is preference-aligned via DPO against the encoder&#x27;s retrieval scores, with both sides warm-started on the tool catalog before the loop begins. On a ~10k tool subset of the ToolBench catalog, three rounds of CoHyDE improve over the strongest single-component baseline by +2.5 pp NDCG@5 on standard queries and +6.3 pp on held-out vague queries, with gains as large as +8 pp on the hardest vague tier. Ablations confirm that co-training is the key ingredient: using either component in isolation fails to match CoHyDE on both well-formed and vague queries, with losses of up to -8 pp on vague queries.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="75c21f75688b" data-article-url="https://arxiv.org/abs/2605.29288" data-article-title="正解の長い CoT トレーニング トレースにおける有害な継続の診断" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29288" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29288" target="_blank" rel="noopener">正解の長い CoT トレーニング トレースにおける有害な継続の診断</a></h3>
      <p class="summary">長い思考連鎖 (CoT) トレースは、推論指向の LLM SFT の監視として広く使用されていますが、正解したトレースでも、著しく異なる微調整結果が得られる可能性があります。私たちは、答えが正しいロング CoT データにおける結論後の継続を研究します。これは、答えが十分に裏付けられているように見えますが、トレースは教師付きターゲットに残る追加の推論で継続するものです。トレーニング効果をテストするために、削除専用エディターを使用して応答を保持するサフィックス削除を構築し、元のトレースと処理されたトレースで CoT ベースの SFT を比較します。編集者が特定した結論後の継続を削除した後、SFT の結果が改善されたことが観察され、この継続が私たちの設定でのトレーニングに有害であることが示唆されています。したがって、私たちは経験的に裏付けられたこの現象を有害な継続と呼びます。この介入を超えて、不確実性と隠れた状態の進行を通じて削除された結論後の継続をさらに特徴付けます。持続的な局所的な不確実性と、最終方向への進行の弱まりが観察され、不確実性、つまり幾何学的不一致が形成されます。最後に、編集者が特定した結論後の継続境界を近似する軽量境界プロキシである Harmful Continuation Cut (HCC) をインスタンス化します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces</p>
        <p class="orig-summary">Long chain-of-thought (CoT) traces are widely used as supervision for reasoning-oriented LLM SFT, yet answer-correct traces can still lead to markedly different fine-tuning outcomes. We study post-conclusion continuation in answer-correct long-CoT data: a continuation where the answer appears sufficiently supported, but the trace continues with additional reasoning that remains in the supervised target. To test its training effect, we use a delete-only editor to construct answer-preserving suffix removal and compare CoT-based SFT on the original and processed traces. We observe improved SFT outcomes after removing the editor-identified post-conclusion continuation, suggesting that this continuation is harmful to training in our setting. We therefore refer to this empirically supported phenomenon as harmful continuation. Beyond this intervention, we further characterize the removed post-conclusion continuation through uncertainty and hidden-state progress. We observe persistent local uncertainty together with weakened terminal-directional progress, forming an uncertainty--geometry mismatch. Finally, we instantiate Harmful Continuation Cut (HCC), a lightweight boundary proxy that approximates the editor-identified post-conclusion continuation boundary.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5397e210d4f9" data-article-url="https://arxiv.org/abs/2605.29303" data-article-title="Entropy-KL Divergence ベースのトークン マスキング: 大規模な言語モデルを選択的に微調整するための新しいアプローチ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29303" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29303" target="_blank" rel="noopener">Entropy-KL Divergence ベースのトークン マスキング: 大規模な言語モデルを選択的に微調整するための新しいアプローチ</a></h3>
      <p class="summary">教師あり微調整 (SFT) とそれに続く強化学習 (RL) は、大規模な言語モデルの標準的なポストトレーニング パラダイムとなっています。このパラダイムは、RL 探索のコールド スタートを提供し、ポリシーに基づくサンプリングで不十分な陽性サンプルが得られるという純粋な RL の非効率性を回避します。ただし、実際には、既存のアプローチでは RL フェーズと比較して SFT 初期化に少量のデータを使用することが多く、そのためモデルが限られたサンプルに適合し、事前トレーニングされた分布からずれてしまう可能性があります。この分布の変化により、後続の RL トレーニング中にモデルが効果的に探索する能力が妨げられます。この課題に対処するために、データ量が少ない状況では、SFT が特定のコンテンツを記憶するのではなく、タスク関連機能のアクティブ化を優先する必要があることを提案します。これに沿って、参照モデルからの高いエントロピーまたは高い KL 発散を示すトークンを選択的にマスクする EKSFT (Entropy-KL Selective Fine-Tuning) を提案します。 EKSFT は、これらの不確実性が高く、分布を変化させるトークンを模倣から除外することで、モデルの事前トレーニングされた分布の整合性を維持しながら、タスク固有の知識を注入します。数学的推論ベンチマークの経験的評価は、EKSFT が標準の SFT を常に上回るパフォーマンスを示していることを示しています。 EKSFT モデルから RL をさらに微調整すると、RL 後のパフォーマンスが一貫して向上し、RL 段階の探索が改善されたことがわかります。コードとデータセットは https://github.com/MINE-USTC/EKSFT で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Entropy-KL Divergence-based Token Masking: A Novel Approach for Selective Fine-tuning of Large Language Models</p>
        <p class="orig-summary">Supervised fine-tuning (SFT) followed by reinforcement learning (RL) has become a standard post-training paradigm for large language models. This paradigm provides a cold-start for RL exploration, avoiding the inefficiency of pure RL where on-policy sampling yields insufficient positive samples. However, in practice, existing approaches often use a small amount of data for SFT initialization compared to the RL phase, which can cause the model to fit the limited samples and shift away from its pre-trained distribution. This distribution shift impedes the model&#x27;s ability to effectively explore during subsequent RL training. To address this challenge, we propose that in low-data regimes, SFT should prioritize activating task-relevant capabilities rather than memorizing specific content. Along this line, we propose EKSFT (Entropy-KL Selective Fine-Tuning), which selectively masks tokens that exhibit either high entropy or high KL divergence from a reference model. By excluding these high-uncertainty, distribution-shifting tokens from imitation, EKSFT injects task-specific knowledge while preserving the integrity of the model&#x27;s pre-trained distribution. Empirical evaluations on mathematical reasoning benchmarks demonstrate that EKSFT consistently outperforms standard SFT. Further RL fine-tuning from the EKSFT model yields consistently better post-RL performance, indicating improved exploration for the RL stage. Our codes and datasets are available at https://github.com/MINE-USTC/EKSFT.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ab41bc600db4" data-article-url="https://arxiv.org/abs/2605.29310" data-article-title="ステップワイズ モデル ルーティングに対するルーブリックに基づくプロセス報酬" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29310" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29310" target="_blank" rel="noopener">ステップワイズ モデル ルーティングに対するルーブリックに基づくプロセス報酬</a></h3>
      <p class="summary">段階的モデル ルーティングは、各推論ステップを適切なモデルに割り当てることで、大規模推論モデル (LRM) の効率を向上させます。最近の手法では、ルーティングを逐次的な意思決定プロセスとして定式化し、強化学習でルーターをトレーニングします。ただし、ルーティングをプロセスとしてモデル化しますが、結果の報酬によってルーターを監視します。このような報酬は最終的な回答の正しさを反映するだけであり、中間のルーティング決定を評価できないため、パフォーマンスと一般性が低下する可能性があります。このギャップに対処するために、段階的モデル ルーティングのためのルーブリックに基づくプロセス報酬フレームワークである RoRo を提案します。 RoRo はまず、さまざまなルーティングの軌跡を収集し、結果、コスト、プロセスの品質に基づいて優先順位のペアを構築します。次に、クエリ固有の評価ルーブリックを生成するようにルブリコールをトレーニングし、交互の最適化を通じてこのルーブリックに基づいてルーティングの軌跡をスコアリングするようにジャッジをトレーニングします。結果として得られるプロセス報酬は結果報酬と組み合わされて、GRPO を介してルーティング ポリシーを最適化します。同一ファミリー設定とクロスファミリー設定の両方で 5 つの推論ベンチマークを使用した実験では、RoRo が一貫して強力なベースラインを上回り、より優れた精度とコストのトレードオフを達成していることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Rubric-Guided Process Reward for Stepwise Model Routing</p>
        <p class="orig-summary">Stepwise model routing improves the efficiency of Large Reasoning Models (LRMs) by assigning each reasoning step to a suitable model. Recent methods formulate routing as a sequential decision process and train the router with reinforcement learning. However, although they model routing as a process, they still supervise the router with outcome rewards. Such rewards only reflect final answer correctness and fail to evaluate intermediate routing decisions, which can weaken performance and generalization. To address this gap, we propose RoRo, a rubric-guided process reward framework for stepwise model routing. RoRo first collects diverse routing trajectories and constructs preference pairs based on outcome, cost, and process quality. It then trains a Rubricor to generate a query-specific evaluation rubric and a Judge to score routing trajectories under this rubric through alternating optimization. The resulting process rewards are combined with outcome rewards to optimize the routing policy via GRPO. Experiments on five reasoning benchmarks under both same-family and cross-family settings show that RoRo consistently outperforms strong baselines and achieves better accuracy and cost trade-offs.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e6c6d45fd00e" data-article-url="https://arxiv.org/abs/2605.29350" data-article-title="ConMoE: MoE 圧縮のためのプロトタイプの再割り当てによるエキスパート プールの統合" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29350" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29350" target="_blank" rel="noopener">ConMoE: MoE 圧縮のためのプロトタイプの再割り当てによるエキスパート プールの統合</a></h3>
      <p class="summary">Mixture-of-Experts (MoE) 言語モデルでは、トークンごとの計算が削減されますが、それでもすべてのエキスパートを保存して提供する必要があるため、展開のメモリが大量に消費されます。既存のトレーニング後の圧縮方法は、主にエキスパートを枝刈りするか、重みをマージすることでこのコストを削減します。私たちは、トレーニング後の MoE 圧縮をエキスパート プールの統合として定式化します。つまり、事前トレーニングされたエキスパートの少数のセットを再利用可能なプロトタイプとして保持し、元の各エキスパート参照を 1 つの選択されたプロトタイプに決定論的に再マッピングします。このビューは、縮小されたエキスパート プールを元のエキスパート スロットを表す再利用構造から分離し、元のルータ インターフェイスを維持しながら、ローカル レイヤ スコープ内でプロトタイプを共有できるようにします。我々は、キャリブレーションベースの貢献と置換可能性信号を使用して保持されたエキスパートを選択し、その後、重みの更新や圧縮後の微調整を行わずに、元のエキスパートの呼び出しを選択されたプロトタイプにリダイレクトする、トレイン不要のプロトタイプ再マッピング フレームワークである ConMoE を提案します。 3 つの事前トレーニング済み MoE 言語モデルでの実験では、ConMoE がいくつかの設定で強力なプルーニングおよびマージ ベースラインと同等またはそれを上回り、25% および 50% のルーティング エキスパート削減で deepseek-moe-16b-base で最高の平均スコアを達成しながら、Qwen3-30B-A3B および OLMoE-1B-7B-0125 では競争力を維持していることが示されています。アブレーションは、決定論的な再割り当てが最も安定したコンポーネントであるのに対し、より広範な層間共有とポストホック重み融合はモデルに依存することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ConMoE: Expert-Pool Consolidation via Prototype Reassignment for MoE Compression</p>
        <p class="orig-summary">Mixture-of-Experts (MoE) language models reduce per-token computation but still require storing and serving all experts, making deployment memory-intensive. Existing post-training compression methods mainly shrink this cost by pruning experts or merging their weights. We formulate post-training MoE compression as expert-pool consolidation: retaining a smaller set of pretrained experts as reusable prototypes and deterministically remapping each original expert reference to one selected prototype. This view separates the reduced expert pool from the reuse structure that represents the original expert slots, and allows prototype sharing within local layer scopes while preserving the original router interface. We propose ConMoE, a train-free prototype remapping framework that selects retained experts using calibration-based contribution and replaceability signals, then redirects original expert calls to the selected prototypes without weight updates or post-compression fine-tuning. Experiments on three pretrained MoE language models show that ConMoE matches or outperforms strong pruning and merging baselines in several settings, achieving the best average score on deepseek-moe-16b-base at both 25% and 50% routed-expert reduction, while remaining competitive on Qwen3-30B-A3B and OLMoE-1B-7B-0125. Ablations indicate that deterministic reassignment is the most stable component, whereas broader cross-layer sharing and post-hoc weight fusion are model-dependent.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a27d414f9700" data-article-url="https://arxiv.org/abs/2605.29357" data-article-title="PassNet: グラフ コンパイラー パス生成のための大規模言語モデルのスケーリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29357" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29357" target="_blank" rel="noopener">PassNet: グラフ コンパイラー パス生成のための大規模言語モデルのスケーリング</a></h3>
      <p class="summary">TorchInductor などの最新の tensor コンパイラは、主流モデルで大幅な高速化を実現しますが、ロングテール ワークロードでは体系的なパフォーマンスの上限に直面しています。私たちのプロファイリングによると、デフォルトのコンパイルでは、現実世界のサブグラフの 43% でエンドツーエンドの速度低下が発生しています。 LLM は自動最適化への道を提供しますが、既存の取り組みはスタンドアロン カーネル生成に重点を置いています。私たちは、パス生成 (LLM がコンパイラー パイプラインに直接統合する構造化グラフ変換を作成する) がより適切な抽象化であると主張します。私たちは、LLM ベースのコンパイラ パス生成のための初の大規模エコシステムである PassNet を提案します。(1) PassNet-Dataset、100,000 の実世界モデルからの 18,000 を超える固有の計算グラフ。 (2) PassBench: 200 個の厳選されたロングテール可融性タスク (合計 2,060 個のサブグラフで構成) が、正確性、安定性、パフォーマンスを統合する指標であるエラー認識スピードアップ スコア (ES_t) に基づいて評価され、体系的な LLM 悪用に対する多層的な整合性防御が行われます。実験の結果、PassBench は識別力が高く、真に不飽和であることが明らかになりました。最高のフロンティア モデルは、合計で TorchInductor に 37% 及ばないものの、個々のサブグラフでは、LLM は同じコンパイラーと比較して最大 3 倍の高速化を達成しています。これは、ボトルネックが機能ではなく一貫性であることを示しています。わずか約 4K の PassNet 軌跡で小規模モデルを微調整すると、フロンティア モデルのパフォーマンスに迫る 2.67 倍の向上が得られ、相当なヘッドルームを実証し、LLM 駆動のコンパイラ最適化を進めるためのライブ トレーニング インフラストラクチャとして PassNet が検証されました。すべてのデータ、ベンチマーク、ツールは公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PassNet: Scaling Large Language Models for Graph Compiler Pass Generation</p>
        <p class="orig-summary">Modern tensor compilers such as TorchInductor deliver substantial speedups on mainstream models, yet face a systematic performance ceiling on long-tail workloads -- our profiling shows that 43% of real-world subgraphs experience end-to-end slowdowns under default compilation. While LLMs offer a path toward automated optimization, existing efforts focus on standalone kernel generation. We argue that pass generation -- where LLMs author structured graph transformations that integrate directly into compiler pipelines -- is the more appropriate abstraction. We propose PassNet, the first large-scale ecosystem for LLM-based compiler pass generation, comprising: (1) PassNet-Dataset, over 18K unique computational graphs from 100K real-world models; and (2) PassBench, 200 curated long-tail fusible tasks (comprising 2,060 subgraphs in total) evaluated under the Error-aware Speedup Score (ES_t) -- a metric unifying correctness, stability, and performance -- with layered integrity defenses against systematic LLM exploitation. Experiments reveal that PassBench is both highly discriminative and genuinely unsaturated: the best frontier model trails TorchInductor by 37% in aggregate, yet on individual subgraphs LLMs achieve up to 3x speedup over the same compiler -- indicating that the bottleneck is consistency, not capability. Fine-tuning a small model on merely ~4K PassNet trajectories yields a 2.67x improvement approaching frontier-model performance, demonstrating substantial headroom and validating PassNet as live training infrastructure for advancing LLM-driven compiler optimization. All data, benchmarks, and tooling are publicly available.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1f55b6ca7690" data-article-url="https://arxiv.org/abs/2605.29358" data-article-title="単一意味性のスケーリング: クロード 3 ソネットから解釈可能な特徴を抽出する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29358" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29358" target="_blank" rel="noopener">単一意味性のスケーリング: クロード 3 ソネットから解釈可能な特徴を抽出する</a></h3>
      <p class="summary">私たちは、スパース オートエンコーダーが実稼働規模の言語モデルである Claude 3 Sonnet から解釈可能な特徴を抽出できることを実証し、辞書学習方法が小規模なトランスフォーマーを超えて拡張できるかどうかという未解決の問題に対処します。私たちは、ハイパーパラメーターの選択をガイドするスケーリング則を使用して、モデルの中間層の残差ストリーム上で最大 3,400 万の特徴を備えたスパース オートエンコーダーをトレーニングしました。結果として得られる機能は、多言語およびマルチモーダル (テキストのみのトレーニングにもかかわらず画像に一般化) であり、具体的なインスタンスと概念の抽象的な議論の両方に応答し、解釈と一致する方法でモデルの動作を制御するために使用できます。有名なエンティティや場所に対応する特徴だけでなく、皮肉やコード内のエラーなどのより抽象的な概念も見つかります。また、言語モデルが危害を引き起こす可能性のある方法に関連する特徴 (欺瞞、権力追求、お調子者、偏見を表す特徴など) を特定し、これらの特徴が操作されたときにモデルの出力に因果的に影響を与えることを示します。さらに、特徴の解釈可能性、形状、計算機能の分析も行います。ただし、重大な制限が残っています。私たちの一連の機能は不完全であり、私たちの機能がモデルの計算を忠実に捉えているかどうかを評価するための厳密な方法がありません。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet</p>
        <p class="orig-summary">We demonstrate that sparse autoencoders can extract interpretable features from Claude 3 Sonnet, a production-scale language model, addressing the open question of whether dictionary learning methods scale beyond small transformers. We trained sparse autoencoders with up to 34 million features on the model&#x27;s middle layer residual stream, using scaling laws to guide hyperparameter selection. The resulting features are multilingual and multimodal (generalizing to images despite text-only training), respond to both concrete instances and abstract discussions of concepts, and can be used to steer model behavior in ways consistent with their interpretations. We find features corresponding to famous entities and locations, as well as more abstract concepts like sarcasm or errors in code. We also identify features relevant to ways in which language models might cause harm--including features representing deception, power-seeking, sycophancy, and bias--and show that these causally influence model outputs when manipulated. Additionally, we conduct analyses of feature interpretability, geometry, and computational function. However, significant limitations remain: our suite of features is incomplete, and we lack rigorous methods for evaluating whether our features faithfully capture model computations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="afe9a17115a6" data-article-url="https://arxiv.org/abs/2605.29360" data-article-title="MiraBench: ロボット世界モデルにおける動作条件付き信頼性の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29360" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29360" target="_blank" rel="noopener">MiraBench: ロボット世界モデルにおける動作条件付き信頼性の評価</a></h3>
      <p class="summary">アクション条件付き世界モデルは、ロボット学習用のスケーラブルなシミュレーターとしてますます使用されていますが、現在の評価では、条件付けされたアクションの下でその予測が信頼できるという限られた証拠が提供されています。既存のベンチマークは主に視覚的な忠実度を重視しており、予測される未来が物理的に妥当であるか、命令されたアクションに忠実であるか、アクションが成功しないはずのときに失敗するように調整されているかどうかが不明確なままです。 \emph{動作条件付き信頼性} をロボット世界モデルの中核的な評価目標として定義する階層型ベンチマークである \textsc{MiraBench} を紹介します。 MiraBench は、こ​​のターゲットを 3 つの段階的に要求の高いレベルに分解します。 \emph{Physics Adherence} は、リファレンスフリーの物理的一貫性を評価します。 \emph{Action-Following Fidelity}: 予測がタスク関連のアクション入力を考慮しているかどうかを測定します。 \emph{楽観主義バイアス検出} は、失敗を誘発する行動の下で成功した結果を予測する傾向を調査します。この評価をサポートするために、タスク、失敗カテゴリ、主要な世界モデルにわたる 16,000 件を超える判断を含む人間による注釈付きコーパスを厳選しました。ベクトル条件付きロボット ワールド モデル、テキスト条件付き生成ワールド モデル、オープンウェイト システム、クローズド ソース システム、および複数のモデル スケールにわたる 12 の代表的なモデル構成を評価します。この広範なモデル環境全体にわたって、MiraBench は 3 つの中心的な発見を明らかにしました。視覚的な忠実度は、アクションの忠実度の代用としては不十分です。モデルのスケールを大きくしても、アクションの追従性が確実に改善されるわけではありません。そして楽観主義バイアスは現在のシステム全体に蔓延しています。 MiraBench は、評価を外観から動作条件付きの信頼性に移行することで、ロボットの世界モデルを忠実なシミュレーターとして評価および改善するための診断基盤を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MiraBench: Evaluating Action-Conditioned Reliability in Robotic World Models</p>
        <p class="orig-summary">Action-conditioned world models are increasingly used as scalable simulators for robot learning, yet current evaluations provide limited evidence that their predictions are reliable under the actions they condition on. Existing benchmarks largely emphasize visual fidelity, leaving unclear whether predicted futures are physically plausible, faithful to commanded actions, and calibrated to failure when actions should not succeed. We introduce \textsc{MiraBench}, a hierarchical benchmark that defines \emph{action-conditioned reliability} as a core evaluation target for robotic world models. MiraBench decomposes this target into three progressively demanding levels: \emph{Physics Adherence}, which evaluates reference-free physical consistency; \emph{Action-Following Fidelity}, which measures whether predictions respect task-relevant action inputs; and \emph{Optimism Bias Detection}, which probes the tendency to predict successful outcomes under failure-inducing actions. To support this evaluation, we curate a human-annotated corpus with over 16,000 judgments across tasks, failure categories, and leading world models. We evaluate 12 representative model configurations spanning vector-conditioned robotic world models, text-conditioned generative world models, open-weight systems, closed-source systems, and multiple model scales. Across this broad model landscape, MiraBench reveals three central findings: visual fidelity is a poor proxy for action fidelity; increasing model scale does not reliably improve action following; and optimism bias is pervasive across current systems. By shifting evaluation from appearance to action-conditioned reliability, MiraBench provides a diagnostic foundation for assessing and improving robotic world models as faithful simulators.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c9450d3f2762" data-article-url="https://arxiv.org/abs/2605.29394" data-article-title="EvoMD-LLM: 反応性分子動力学における種の進化の言語を学ぶ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29394" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29394" target="_blank" rel="noopener">EvoMD-LLM: 反応性分子動力学における種の進化の言語を学ぶ</a></h3>
      <p class="summary">大規模言語モデル (LLM) は静的な科学的推論には優れていますが、動的な物理プロセスの時間構造をモデル化するのは困難です。我々は、種レベルの分子動力学を記号時間言語モデリング問題として再定式化するフレームワークである EvoMD-LLM (進化的分子動力学大規模言語モデル) を紹介します。反応性 MD 軌跡は分子イベントのシーケンスに離散化され、各トークンはその持続期間が増加した化学種を表し、標準的な自己回帰 LLM が効率的な微調整を通じて時間の経過に伴う組成の進化を学習できるようになります。 EvoMD-LLM の重要なコンポーネントは時間的足場です。これは、イベント期間を明示的な言語トークンとして扱い、構造化された誘導バイアスとして機能し、従来のシーケンス モデリング アプローチと比較して、無効または幻覚を引き起こす分子出力を大幅に削減します。複数の時間予測タスクで EvoMD-LLM を評価し、最大 66.14% の精度を達成し、逐次ニューラル ネットワークや言語ベースのベースラインを常に上回るパフォーマンスを示しました。定量的な改善を超えて、たとえペアの軌跡と説明のデータで明示的に監視されていなかったとしても、モデルが関連する化学知識を組み込むことによって独自の予測の解釈を生成できることが定性的に観察されました。これらの結果は、シンボリック時間言語モデリングが動的物理シミュレーションで LLM を基礎付けるための効果的なフレームワークを提供することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">EvoMD-LLM: Learning the Language of Species Evolution in Reactive Molecular Dynamics</p>
        <p class="orig-summary">While large language models (LLMs) excel at static scientific reasoning, they struggle to model the temporal structure of dynamic physical processes. We present EvoMD-LLM (Evolutionary Molecular Dynamics Large Language Model), a framework that reformulates species-level molecular dynamics as a symbolic temporal language modeling problem. Reactive MD trajectories are discretized into sequences of molecular events, where each token represents a chemical species augmented with its persistence duration, enabling standard autoregressive LLMs to learn compositional evolution over time through efficient fine-tuning. A key component of EvoMD-LLM is temporal scaffolding, which treats event duration as an explicit linguistic token and serves as a structured inductive bias, significantly reducing invalid or hallucinated molecular outputs compared to conventional sequence modeling approaches. We evaluate EvoMD-LLM on multiple temporal prediction tasks, achieving up to 66.14% accuracy and consistently outperforming sequential neural networks and language-based baselines. Beyond quantitative improvements, we qualitatively observe that the model is capable of generating interpretations for its own predictions by incorporating relevant chemical knowledge, even though it was not explicitly supervised with paired trajectory-explanation data. These results demonstrate that symbolic temporal language modeling provides an effective framework for grounding LLMs in dynamic physical simulations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d881124448b7" data-article-url="https://arxiv.org/abs/2605.29396" data-article-title="整列しているが壊れやすい: ゼロ次最適化による LLM の安全性の堅牢性の強化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29396" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29396" target="_blank" rel="noopener">整列しているが壊れやすい: ゼロ次最適化による LLM の安全性の堅牢性の強化</a></h3>
      <p class="summary">大規模言語モデル (LLM) の安全性調整は、一般的な実用性を維持しながら、有害または危険な動作を減らすことを目的としています。しかし、最近の調査結果では、アライメントの効果は脆弱である可能性があることが明らかになりました。パラメータ ノイズ、アクティベーション ノイズ、量子化などのアライメント後の軽量操作により、意図した安全動作が容易に弱まる可能性があります。堅牢性を向上させるためのこれまでの取り組みは、主にデータのキュレーション、修正された調整目標、安全性が重要なパラメータの特定に焦点を当てており、オプティマイザ自体の役割はほとんど解明されていませんでした。この論文では、私たちはベース オプティマイザーの観点から安全調整の堅牢性を初めて研究しました。このオプティマイザ中心の考え方は、当然のことながら 0 次最適化を指します。これは、摂動下での安全性調整を評価することによってロバスト性指向のシグナルを提供します。この洞察に基づいて、最初に標準的な 1 次の安全性調整を実行し、次に 0 次の改良を適用して堅牢性を向上させるハイブリッド フレームワークを提案します。理論的にも経験的にも、少数のゼロ次改良ステップだけで安全性の調整を維持しながらロバスト性を向上できることが示されています。 0 次リファインメントの固有の摂動ベースの評価を利用して層ごとのロバスト性感度を推定することで、0 次リファインメントの効率をさらに向上させ、リファインメント プロセスが適度なトレーニング オーバーヘッドでロバスト性が重要な層の更新を集中できるようにします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Aligned but Fragile: Enhancing LLM Safety Robustness via Zeroth-Order Optimization</p>
        <p class="orig-summary">Safety alignment for large language models (LLMs) aims to reduce harmful or unsafe behavior while preserving general utility. However, recent findings reveal that alignment effects can be fragile: lightweight post-alignment manipulations, such as parameter noise, activation noise, or quantization, can easily weaken the intended safety behavior. Prior efforts to improve robustness have primarily focused on data curation, modified alignment objectives, and safety-critical parameter identification, leaving the role of the optimizer itself largely unexplored. In this paper, we are the first to study the robustness of safety alignment from the perspective of the base optimizer. This optimizer-centric view naturally points to zeroth-order optimization, which provides a robustness-oriented signal by evaluating safety alignment under perturbations. Based on this insight, we propose a hybrid framework that first performs standard first-order safety alignment and then applies zeroth-order refinement to improve robustness. Both theoretically and empirically, we show that only a few zeroth-order refinement steps can enhance robustness while preserving safety alignment. We further improve the efficiency of zeroth-order refinement by exploiting its inherent perturbation-based evaluations to estimate layer-wise robustness sensitivity, enabling the refinement process to concentrate updates on robustness-critical layers with modest training overhead.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dfc05abcacf4" data-article-url="https://arxiv.org/abs/2605.29400" data-article-title="画面条件付きアクション予測のためのアーキテクチャに応じた監視付き微調整: PiSAR ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29400" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29400" target="_blank" rel="noopener">画面条件付きアクション予測のためのアーキテクチャに応じた監視付き微調整: PiSAR ベンチマーク</a></h3>
      <p class="summary">私たちは、PiSAR (ペルソナ、意図、画面、アクション、根拠) の 661 行のホールドアウト スライス上のフロンティア ゼロショット ベースラインに対して 3 つの教師付き微調整モデルをベンチマークします。PiSAR (ペルソナ、意図、画面、アクション、根拠) は、アプリストアの公開レビュー、ピュー アメリカン トレンド パネルの人口統計、および OPeRA の買い物客追跡から厳選された、画面に固定された行動理論の 12,929 タプル コーパスです。すべてのモデルは、フロンティアであっても微調整されていても、同じスコアリング パイプラインを使用して同じ 661 行のスライスで評価されます。 ２つの発見。まず、フロンティアのゼロショット ベースライン (Claude Opus 4.7 および GPT-5.5) は、それぞれ sem_sim 0.459 および 0.482 に達します。微調整された Qwen3-VL-8B-Instruct は 0.783 に達し、行の 79% で sem_sim &gt;= 0.7 をクリアします。これに対し、どちらのフロンティア ベースラインでも 1 ～ 2%、同じテスト セットでは絶対値 0.30 のギャップがあります。第二に、Gemma-4-26B-A4B-IT の同じトレーニング データとレシピのスコアはわずか 0.441 であり、微調整された Qwen ではなくフロンティアのゼロショット ベースラインと同じ帯域にあります。これはレシピとモデルの不一致であると考えられます。推論調整された高パラメーター モデルは変位に抵抗するため、より多くのデータまたはより強力な微調整方法が必要になる可能性があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Architecture-Sensitive Supervised Fine-Tuning for Screen-Conditioned Action Prediction: A PiSAR Benchmark</p>
        <p class="orig-summary">We benchmark three supervised fine-tuned models against frontier zero-shot baselines on a 661-row held-out slice of PiSAR (Persona, intent, Screen, Action, Rationale), a 12,929-tuple corpus of screen-anchored behavioural rationales curated from public app-store reviews, Pew American Trends Panel demographics, and the OPeRA shopper traces. Every model, frontier or fine-tuned, is evaluated on the same 661-row slice with the same scoring pipeline. Two findings. First, frontier zero-shot baselines (Claude Opus 4.7 and GPT-5.5) reach sem_sim 0.459 and 0.482 respectively; a fine-tuned Qwen3-VL-8B-Instruct reaches 0.783 and clears sem_sim &gt;= 0.7 on 79% of rows, against 1-2% for either frontier baseline, a gap of 0.30 absolute on the same test set. Second, the same training data and recipe on Gemma-4-26B-A4B-IT scores only 0.441, in the same band as the frontier zero-shot baselines rather than the fine-tuned Qwen. We read this as a recipe-vs-model mismatch: the reasoning-tuned high-parameter model resists displacement and would likely need either more data or a stronger fine-tuning method.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fedca1743760" data-article-url="https://arxiv.org/abs/2605.29420" data-article-title="ペルソナプロンプトが実際に役立つのはいつですか? LLM におけるエキスパート ロール インジェクションの取得とメトリクス分析" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29420" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29420" target="_blank" rel="noopener">ペルソナプロンプトが実際に役立つのはいつですか? LLM におけるエキスパート ロール インジェクションの取得とメトリクス分析</a></h3>
      <p class="summary">ペルソナ プロンプトは大規模な言語モデルを操作するために広く使用されていますが、その実用的な価値は依然として不明です。これまでの研究では、集計スコアを使用してペルソナのプロンプトを評価することが多く、専門家の役割によるプロンプトが一貫して応答の品質を向上させるのか、それとも異なる品質の側面に沿って応答を変化させるのかを判断することが困難でした。私たちは、38 のエキスパートの役割と 6 つのドメインにわたる 1,140 件の自由形式の質問にわたる 4 つのプロンプト条件の制御された比較を通じてこの質問を研究します。つまり、役割プロンプトなし、一般的なドメイン専門家プロンプト、埋め込みベースの役割検索、および埋め込み検索と LLM ベースの役割選択を組み合わせたハイブリッド検索方法です。集計結果では、条件間の全体的な差異はわずかしか示されません。ただし、指標レベルの分析では、集計平均ではわかりにくい一貫したトレードオフが明らかになります。役割のプロンプトは体系的に専門知識の深さを増す一方で、明確さは低下します。これらの効果は普遍的ではなく、非常に条件付きです。役割のプロンプトは、助言的な質問や、構造化された専門家の枠組みやリスクコミュニケーションが本質的に価値のある医学や心理学などの分野で最も効果を発揮します。対照的に、ベースラインのプロンプトは、簡潔で平易な言葉での説明がより重要である、金融、法律、科学、技術の分野における概念的な質問や説明的な質問に対してより効果的です。さらに、ハイブリッド検索は、埋め込みのみの役割選択よりも大幅に向上しますが、より適切な役割検索では、より広範な専門知識の深さと明確さのトレードオフが排除されないことを示します。全体として、私たちの調査結果は、ペルソナプロンプトは能力を大幅に向上させるのではなく、主に反応特性を再形成すること、そしてその効果を理解するには複数の指標による評価が必要であることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">When Does Persona Prompting Actually Help? A Retrieval and Metric Analysis of Expert Role Injection in LLMs</p>
        <p class="orig-summary">Persona prompting is widely used to steer large language models, yet its practical value remains unclear. Prior work often evaluates persona prompting using aggregate scores, making it difficult to determine whether expert-role prompting consistently improves response quality or instead changes responses along different quality dimensions. We study this question through a controlled comparison of four prompting conditions across 1,140 open-ended questions spanning 38 expert roles and six domains: no role prompt, a generic domain-expert prompt, embedding-based role retrieval, and a hybrid retrieval method combining embedding search with LLM-based role selection. Aggregate results show only small overall differences between conditions. However, metric-level analysis reveals a consistent tradeoff that aggregate averages obscure: role prompting systematically increases expertise depth while reducing clarity. These effects are highly conditional rather than universal. Role prompting performs best on advisory questions and in domains such as medicine and psychology, where structured expert framing and risk communication are intrinsically valuable. In contrast, baseline prompting performs better on conceptual and explanatory questions in finance, legal, science, and technology domains, where concise plain-language explanation is more important. We further show that hybrid retrieval significantly improves over embedding-only role selection, although better role retrieval does not eliminate the broader expertise-depth versus clarity tradeoff. Overall, our findings suggest that persona prompting primarily reshapes response characteristics rather than broadly improving capability, and that multi-metric evaluation is necessary for understanding its effects.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b6c6a588f7e5" data-article-url="https://arxiv.org/abs/2605.29425" data-article-title="ReasonLight: ゼロショット交通信号制御のためのマルチモーダル基盤モデル強化強化学習フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29425" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29425" target="_blank" rel="noopener">ReasonLight: ゼロショット交通信号制御のためのマルチモーダル基盤モデル強化強化学習フレームワーク</a></h3>
      <p class="summary">強化学習 (RL) は、交通信号制御 (TSC) において有望であることが示されています。ただし、事前定義された状態に依存しているため、トレーニング データに存在しない観察可能なオープンワールド イベントへの応答性が制限されます。 IoT 対応の交差点では、路側のセンサーやカメラから異種混合の観測が提供され、そのようなイベントに対する RL の適応性を向上させる機会が生まれます。この目的を達成するために、ゼロショット TSC 用のマルチモーダル基盤モデル強化 RL フレームワークである ReasonLight を提案します。 ReasonLight は、構造化されたトラフィック測定、マルチビュー カメラの観測、および事前トレーニングされた RL コントローラーからの候補フェーズの決定という 3 つの情報ソースを統合します。 RL が提案したフェーズを考慮すると、ReasonLight はマルチビュー画像から視覚的セマンティクスを抽出し、それらをコンパクトなセンサー由来のシーン記述と調整します。この調整により、セマンティック ガイド付き改良モジュールは、トラフィック ルールおよびイベント セマンティクスに従って、提案されたアクションを保存または調整できるようになります。運用の信頼性を確保するために、洗練されたアクションは利用可能なフェーズのセットによって制限されます。無効な決定は拒否され、システムは元の RL アクションに戻ります。私たちは、緊急車両の優先と一時的な交通規制という、RL トレーニング中には見ら​​れない 2 種類のまれなイベントについて ReasonLight を評価します。実験結果は、ReasonLight が再トレーニングなしでゼロショット適応を達成することを示しています。 RL のみのバックボーンと比較して、同等の日常交通パフォーマンスを維持しながら、緊急車両の待ち時間を最大 88.7% 削減します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ReasonLight: A Multimodal Foundation Model-Enhanced Reinforcement Learning Framework for Zero-Shot Traffic Signal Control</p>
        <p class="orig-summary">Reinforcement learning (RL) has shown promise in traffic signal control (TSC). However, its reliance on predefined states limits responsiveness to observable open-world events that are absent from training data. IoT-enabled intersections provide heterogeneous observations from roadside sensors and cameras, creating opportunities to improve RL adaptability to such events. To this end, we propose ReasonLight, a multimodal foundation model-enhanced RL framework for zero-shot TSC. ReasonLight integrates three sources of information: structured traffic measurements, multi-view camera observations, and candidate phase decisions from a pre-trained RL controller. Given an RL-proposed phase, ReasonLight extracts visual semantics from multi-view images and aligns them with compact sensor-derived scene descriptions. This alignment enables a semantic-guided refinement module to either preserve or adjust the proposed action according to traffic rules and event semantics. To ensure operational reliability, refined actions are constrained by the set of available phases. Any invalid decision is rejected, and the system falls back to the original RL action. We evaluate ReasonLight on two types of rare events not seen during RL training: emergency vehicle priority and temporary traffic regulation. Experimental results show that ReasonLight achieves zero-shot adaptation without retraining. It reduces emergency vehicle waiting time by up to 88.7% compared with the RL-only backbone while preserving comparable routine traffic performance.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c1654a3b1724" data-article-url="https://arxiv.org/abs/2605.29430" data-article-title="エージェントによる修正と意味評価による人間のような対話型音声認識を目指して" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29430" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29430" target="_blank" rel="noopener">エージェントによる修正と意味評価による人間のような対話型音声認識を目指して</a></h3>
      <p class="summary">自動音声認識 (ASR) は、人間とコンピューターの対話の中核コンポーネントであり、LLM ベースのアシスタントおよびエージェントにとってますます重要なフロントエンドです。しかし、現在のほとんどの ASR システムは依然としてシングルパス パラダイムに従っており、人間のコミュニケーションとの整合性が低く、誤解は繰り返しの明確化と改良によって解決されます。この不一致により、意味に関わる重大なエラーが発生すると、修正することが困難になります。一方、WER や CER などのトークンレベルの指標は、このような問題を適切に反映できません。これらの制限に対処するために、\emph{Interactive ASR} をマルチターン改良タスクとして定式化し、シングルパス ASR フロントエンドとセマンティック修正、インテント ルーティング、推論ベースの編集を組み合わせた閉ループ フレームワークである \textbf{Agentic ASR} を提案します。さらに、LLM ベースのセマンティック評価指標である \textbf{文レベルのセマンティック エラー率} ($S^2ER$) を、スケーラブルで再現可能なベンチマークのための \textbf{インタラクティブ シミュレーション システム} とともに導入します。多言語、名前付きエンティティ集中型、およびコードスイッチングのベンチマークに関する実験では、反復的な対話によりセマンティック エラーが一貫して減少し、従来のトークン レベルのメトリクスよりも $S^2ER$ が大幅に増加することが示されました。人間と AI のアライメントとアブレーションの研究により、意味判断の信頼性と提案されたフレームワークの堅牢性がさらに検証されました。コードは https://interactiveasr.github.io/ で入手でき、ライブ デモは https://i-asr.sjtuxlance.com/ で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation</p>
        <p class="orig-summary">Automatic speech recognition (ASR) is a core component of human--computer interaction and an increasingly important front-end for LLM-based assistants and agents. However, most current ASR systems still follow a single-pass paradigm, which is poorly aligned with human communication, where misunderstandings are resolved through iterative clarification and refinement. This mismatch makes it difficult to correct meaning-critical errors once they occur. Meanwhile, token-level metrics such as WER or CER cannot adequately reflect such a problem. To address these limitations, we formulate \emph{Interactive ASR} as a multi-turn refinement task and propose \textbf{Agentic ASR}, a closed-loop framework that combines a single-pass ASR front-end with semantic correction, intent routing, and reasoning-based editing. We further introduce the \textbf{Sentence-level Semantic Error Rate} ($S^2ER$), an LLM-based semantic evaluation metric, together with an \textbf{Interactive Simulation System} for scalable and reproducible benchmarking. Experiments on multilingual, named-entity-intensive, and code-switching benchmarks show that iterative interaction consistently reduces semantic errors, with much larger gains in $S^2ER$ than in conventional token-level metrics. Human--AI alignment and ablation studies further validate the reliability of the semantic judge and the robustness of the proposed framework. The code is available at: https://interactiveasr.github.io/ and the live demo is available at https://i-asr.sjtuxlance.com/</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c22f1bb8ffdf" data-article-url="https://arxiv.org/abs/2605.29446" data-article-title="CrystalXRD-Bench: 多様な結晶材料にわたる XRD ピークインデックスのための視覚言語モデルのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29446" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29446" target="_blank" rel="noopener">CrystalXRD-Bench: 多様な結晶材料にわたる XRD ピークインデックスのための視覚言語モデルのベンチマーク</a></h3>
      <p class="summary">粉末 XRD パターンからのミラー指数の同定には、既存のマルチモーダル ベンチマークではテストされていない機能が必要です。モデルは、レンダリングされた科学曲線から狭いピーク位置を読み取り、その観察を多段階の結晶学的推論に結び付ける必要があります。 CrystalXRD-Bench は、XRD パターンの最高強度ピークに寄与する HKL のフルセットを回復するという 1 つのタスクのために 10 の公開結晶学的データベースから構築された 250 サンプルのベンチマークです。各サンプルは、レンダリングされた XRD 画像とソース CIF テキストおよび化学式を組み合わせているため、視覚的な抽出エラーと推論エラーを並べて検査できます。私たちは 7 つの視覚言語モデルを評価します。最高の Jaccard スコアは 0.5888 (GPT-5.4) で、完全一致率は 37.6% ですが、7 つのモデルのうち 6 つは依然として Jaccard 0.50 を下回っています。課題は解決にはほど遠い。エラー パターンは体系的に変化します。ダブル ピークのケースは特に脆弱で、リコールの多いモデルは HKL を過剰予測することでカバレッジを獲得し、CIF テキストにアクセスしても結晶学的計算のギャップは埋まりません。このベンチマークは、モデルのランキングに加えて、現在の VLM が定量的な科学的数値に基づいて機能しない条件を特定します。すべてのデータと評価コードは公開されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CrystalXRD-Bench: Benchmarking Vision-Language Models for XRD Peak Indexing Across Diverse Crystalline Materials</p>
        <p class="orig-summary">Miller-index identification from powder XRD patterns requires capabilities untested by existing multimodal benchmarks: the model must read a narrow peak location from a rendered scientific curve and then connect that observation to multi-step crystallographic reasoning. We introduce CrystalXRD-Bench, a 250-sample benchmark built from 10 public crystallographic databases for a single task: recover the full set of HKLs contributing to the highest-intensity peak in an XRD pattern. Each sample pairs the rendered XRD image with the source CIF text and chemical formula, so visual extraction errors and reasoning errors can be examined side by side. We evaluate seven vision-language models. The best Jaccard score is 0.5888 (GPT-5.4) with an exact-match rate of 37.6%, yet six of seven models remain below Jaccard 0.50; the task is far from solved. Error patterns vary systematically: double-peak cases are especially brittle, recall-heavy models gain coverage by over-predicting HKLs, and access to CIF text does not close the gap in crystallographic calculation. Alongside model rankings, the benchmark identifies the conditions under which current VLMs fail on quantitative scientific figures. All data and evaluation code will be publicly available.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="973a1d2a2cbd" data-article-url="https://arxiv.org/abs/2605.29483" data-article-title="VitalAgent: ウェアラブル健康データに対する反応的および積極的な生理学的モニタリングのためのツール拡張エージェント" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29483" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29483" target="_blank" rel="noopener">VitalAgent: ウェアラブル健康データに対する反応的および積極的な生理学的モニタリングのためのツール拡張エージェント</a></h3>
      <p class="summary">ウェアラブル デバイスにより、ECG や PPG などの生理学的信号の継続的なモニタリングが可能になりますが、既存の mHealth システムは、タスク固有の予測パイプラインまたは静的な概要に対する反応的な質問応答に主に限定されています。これらには、時間的推論、永続的な生理学的コンテキスト、および長期的な信号ストリームにわたるプロアクティブなモニタリングをサポートする能力がありません。私たちは、事後的な質問応答とプロアクティブなモニタリングの両方をサポートする、ECG/PPG ベースの mHealth 用のツールを強化したエージェント フレームワークである VitalAgent を提案します。 VitalAgent は、長期的な生理学的メモリと、生の信号に対する動的な計算を可能にするツール拡張推論インターフェイスに基づいて構築されています。さらに、反応的な質問応答のための 1,862 の QA ペアと、心臓、身体活動、ストレス関連のタスクをカバーするプロアクティブなモニタリングのための 90.2 時間の連続 ECG/PPG 記録で構成される長期的な生理学的モニタリング ベンチマーク データセットである VitalBench を紹介します。実験では、VitalAgent が事後評価においてプロンプトベースおよび ReAct ベースラインと比較して 30% 以上の改善を達成し、長期の生理学的信号に対するプロアクティブなアラートモニタリングをサポートすることが実証されており、動的なツールの使用と長期の生理学的モニタリングの重要性が強調されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">VitalAgent: A Tool-Augmented Agent for Reactive and Proactive Physiological Monitoring over Wearable Health Data</p>
        <p class="orig-summary">Wearable devices enable continuous monitoring of physiological signals such as ECG and PPG, but existing mHealth systems are largely limited to task-specific prediction pipelines or reactive question answering over static summaries. They lack the ability to support temporal reasoning, persistent physiological context, and proactive monitoring over long-term signal streams. We propose VitalAgent, a tool-augmented agentic framework for ECG/PPG-based mHealth that supports both reactive question answering and proactive monitoring. VitalAgent is built on a longitudinal physiological memory and a tool-augmented reasoning interface that enables dynamic computation over raw signals. We further introduce VitalBench, a longitudinal physiological monitoring benchmark dataset comprising 1,862 QA pairs for reactive question answering and 90.2 hours of continuous ECG/PPG recordings for proactive monitoring, covering cardiac, physical activity, and stress-related tasks. Experiments demonstrate that VitalAgent achieves over 30% improvement over prompt-based and ReAct baselines in reactive evaluation and supports proactive alert monitoring over long-term physiological signals, highlighting the importance of dynamic tool use and long-term physiological monitoring.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b63b31422875" data-article-url="https://arxiv.org/abs/2605.29491" data-article-title="有用性の呪い: DistractionIF を介したディストラクタの指示に対するロバスト性の逆スケーリング則" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29491" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29491" target="_blank" rel="noopener">有用性の呪い: DistractionIF を介したディストラクタの指示に対するロバスト性の逆スケーリング則</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、エージェントおよび検索拡張生成 (RAG) システムに導入されることが増えており、外部から提供された参照テキストに対してユーザー指定のタスクを実行する必要があります。実際には、そのようなコンテキストは構造化されていないことが多く、編集コメントやシステム トレースなど、無害ではあるが指示のようなセマンティック ノイズで汚染されており、厳密にデータとして扱う必要があります。参照テキスト内のこのようなディストラクタ命令に対する堅牢性を評価するために設計されたベンチマークである DistractionIF を紹介します。幅広いモデルにわたって、一貫した逆スケーリング現象が観察されます。多くの場合、大きなモデルは堅牢性が低く、スケールが増加するにつれてパフォーマンスが最大 30 ポイント低下します。機構的には、私たちのパープレキシティ分析により、スケーリングによってロバストな動作と注意散漫な動作の間の確率的境界が侵食され、モデルがノイズを指示として過剰解釈する傾向がますます高まっていることが明らかになりました。これに対処するために、強化学習、特にグループ相対ポリシー最適化 (GRPO) がこの境界を回復し、一般的な命令追従能力を損なうことなく堅牢性を最大 15.5% 向上させることができることを実証します。私たちの調査結果は、参照に基づいたタスクにおける命令追従の堅牢性の重大なギャップを浮き彫りにし、大規模なデータと命令の厳密な分離を強制するための有望な道としての強化学習を確立します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Curse of Helpfulness: Inverse Scaling Law in Robustness to Distractor Instructions via DistractionIF</p>
        <p class="orig-summary">Large Language Models (LLMs) are increasingly deployed in agentic and retrieval-augmented generation (RAG) systems, where they must execute user-specified tasks over externally provided reference text. In practice, such context is often unstructured and contaminated with benign but instruction-like semantic noise, such as editorial comments and system traces, which should be treated strictly as data. We introduce DistractionIF, a benchmark designed to evaluate robustness against such distractor instructions in reference text. Across a broad range of models, we observe a consistent inverse scaling phenomenon: larger models are often less robust, with performance dropping by up to 30 points as scale increases. Mechanistically, our perplexity analysis reveals that scaling erodes the probabilistic boundary between robust and distracted behaviors, making models increasingly prone to over-interpreting noise as instructions. To address this, we demonstrate that reinforcement learning, specifically Group Relative Policy Optimization (GRPO), can restore this boundary, improving robustness by up to 15.5% without compromising general instruction-following capability. Our findings highlight a critical instruction-following robustness gap in reference-grounded tasks and establish reinforcement learning as a promising path for enforcing strict data-instruction separation at scale.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3d4390637f52" data-article-url="https://arxiv.org/abs/2605.29507" data-article-title="Xetrieval: 高密度検索を機械的に説明する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29507" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29507" target="_blank" rel="noopener">Xetrieval: 高密度検索を機械的に説明する</a></h3>
      <p class="summary">検索の決定は不透明な高次元の埋め込みを通じて行われるため、なぜ密な検索が高い関連性スコアを割り当てるのかを説明するのは依然として困難です。既存の説明は、語彙の一致、トークンの位置合わせ、事後のテキストの根拠などの表面的な信号に焦点を当てていることが多く、そのため、埋め込みレベルでの密な検索動作を形成する潜在的な要因についての洞察は限られています。我々は、高密度検索を説明するための埋め込みレベルのメカニズムフレームワークである \textit{Xetrieval} を提案します。 \textit{Xetrieval} はまず、単一の前方パスを使用して埋め込み空間で直接思考連鎖推論を近似する軽量推論インターナライザーを導入します。これにより、コストのかかる自己回帰生成を回避しながら、推論指向の情報で文の埋め込みを強化します。次に、これらの推論によって強化された埋め込みを、人間が解釈できるまばらな特徴に分解し、それぞれが一貫した自然言語記述に関連付けられます。 \textit{Xetrieval} は、複数のドキュメント側ビューにわたるまばらな特徴の重複を集約することにより、個々の検索決定の特徴レベルの説明を提供します。さまざまなレトリーバーとベンチマークに関する実験により、 \textit{Xetrieval} が一貫した解釈可能な特徴を明らかにし、より強力なペアレベルの介入効果を生み出し、タスクレベルの特徴ステアリングをサポートすることが示されています。プロジェクト ページとソース コードは https://hihiczx.github.io/Xetrieval で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Xetrieval: Mechanistically Explaining Dense Retrieval</p>
        <p class="orig-summary">Explaining why dense retrievers assign high relevance scores remains challenging because retrieval decisions are made through opaque high-dimensional embeddings. Existing explanations often focus on surface signals, such as lexical matches, token alignments, or post-hoc textual rationales, and thus provide limited insight into the latent factors that shape dense retrieval behavior at the embedding level. We propose \textit{Xetrieval}, an embedding-level mechanistic framework for explaining dense retrieval. \textit{Xetrieval} first introduces a lightweight reasoning internalizer that approximates Chain-of-Thought reasoning directly in the embedding space with a single forward pass, enriching sentence embeddings with reasoning-oriented information while avoiding expensive autoregressive generation. It then decomposes these reasoning-enhanced embeddings into sparse, human-interpretable features, each associated with a coherent natural language description. By aggregating sparse feature overlaps across multiple document-side views, \textit{Xetrieval} provides feature-level explanations of individual retrieval decisions. Experiments on diverse retrievers and benchmarks show that \textit{Xetrieval} uncovers coherent interpretable features, yields stronger pair-level intervention effects, and supports task-level feature steering. The project page and source code are available at https://hihiczx.github.io/Xetrieval .</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a55c03d79c9b" data-article-url="https://arxiv.org/abs/2605.29512" data-article-title="MINDGAMES: マルチエージェント LLM の社会的および戦略的推論を評価するためのライブ アリーナ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29512" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29512" target="_blank" rel="noopener">MINDGAMES: マルチエージェント LLM の社会的および戦略的推論を評価するためのライブ アリーナ</a></h3>
      <p class="summary">大規模言語モデル (LLM) は対話型エージェントとして導入されることが増えていますが、拡張された対話における社会的および戦略的推論の能力はまだ十分に理解されていません。既存の評価は、静的なビネットや単一ゲームのベンチマークに依存しており、現実世界のマルチエージェント設定で要求される持続的で多面的な推論を捉えることができません。我々は、「心の理論」に関連する補完的推論の要求を運用する、LLM エージェント向けのマルチゲームアリーナおよび評価プラットフォームである Mindgames を紹介します。これは、隠された情報の下での信念の帰属、繰り返される戦略的相互作用を通じた敵対者のモデル化、知識の非対称性の下での協力的な推論、および社会的演繹における継続的な欺瞞です。 TextArena 上に構築された Mindgames は、統合されたインタラクション インターフェイス、TrueSkill ベースの評価、および 4 つのゲーム環境にわたる完全な軌跡のログを提供します。私たちは、主要な AI カンファレンスで主催された 2025 年の競争サイクルを通じて Mindgames をインスタンス化しました。このカンファレンスでは、Colonel Blotto、Iterated Prisoner&#x27;s Dilemma、Codenames、Secret Mafia の 4 つのゲームにわたって 76 チームから提出された 944 人のエージェントが評価されました。私たちの分析では、エージェント レベルと評価レベルの両方の制限が明らかになりました。脆弱なルール遵守が依然として主要なボトルネックであり、最高パフォーマンスのシステムは明示的な構造足場に繰り返し依存しており、リーダーボードの有効性は環境によって大きく異なります。特に、失敗の多い環境では、戦略的能力と同じくらい相手のエラーに対する堅牢性が評価される可能性があり、シークレット マフィアはこのサイクルで顕著なエラーと生存の混乱を示します。私たちは、ターンレベルの観察、アクション、報酬を含む 29,571 のマルチエージェント ゲームのデータセットをリリースします。MG-Ref は、この分析で使用したのと同じエラー帰属レンズの下で、トップランクの低エラー Stage~II 提出物の凍結された参照プールに対して新しいエージェントを採点する決定論的なオフライン トーナメント プロトコルです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs</p>
        <p class="orig-summary">Large language models (LLMs) are increasingly deployed as interactive agents, yet their capacity for social and strategic reasoning over extended interaction remains poorly understood. Existing evaluations rely on static vignettes or single-game benchmarks that cannot capture the sustained, multi-faceted reasoning that real-world multi-agent settings demand. We introduce Mindgames, a multi-game arena and evaluation platform for LLM agents that operationalizes complementary reasoning demands relevant to ``theory of mind&#x27;&#x27;: belief attribution under hidden information, opponent modeling through repeated strategic interaction, cooperative inference under knowledge asymmetries, and sustained deception in social deduction. Built on TextArena, Mindgames provides a unified interaction interface, TrueSkill-based rating, and full trajectory logging across four game environments. We instantiate Mindgames through a 2025 competition cycle hosted at a major AI conference, which assessed 944 submitted agents from 76 teams across four games: Colonel Blotto, Iterated Prisoner&#x27;s Dilemma, Codenames, and Secret Mafia. Our analysis surfaces both agent-level and evaluation-level limitations: brittle rule adherence remains a major bottleneck, top-performing systems repeatedly rely on explicit structural scaffolding, and leaderboard validity differs sharply across environments. In particular, failure-heavy environments can reward robustness to opponent errors as much as strategic ability, with Secret Mafia exhibiting a pronounced error-survival confound in this cycle. We release a dataset of 29,571 multi-agent games with turn-level observations, actions, and rewards, together with MG-Ref, a deterministic offline tournament protocol that scores new agents against a frozen reference pool of top-ranked, low-error Stage~II submissions under the same error-attribution lens used in this analysis.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d81c4ee3103c" data-article-url="https://arxiv.org/abs/2605.29522" data-article-title="DeepSurvey: 自動アンケート生成における分析の深さと引用の信頼性を強化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29522" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29522" target="_blank" rel="noopener">DeepSurvey: 自動アンケート生成における分析の深さと引用の信頼性を強化</a></h3>
      <p class="summary">科学文献が急速に増加するにつれて、自動調査生成は AI 科学者や人間の研究者にとって重要な機能になりました。しかし、既存のシステムは、抄録や孤立した論文処理に依存しているため分析の深さが限られており、不正確な検索や事後の根拠による信頼性の低い引用が原因で表面的な調査が生じ、研究者を誤解させる可能性があります。私たちは、両方に対処するエージェント システムである DeepSurvey を紹介します。深みを高めるために、DeepSurvey は論文全文から構造化された基調講演を抽出し、クラスタリングと比較分析を通じて論文間の関係をモデル化し、コード リポジトリ分析を統合して実装レベルの詳細を復元します。信頼性を強化するために、トピックに焦点を当てた検索のために引用グラフ拡張とハイブリッド フィルタリングを組み合わせ、証拠に制約された引用割り当てを強制し、引用とクレームの整合性を検証するための複数粒度のエージェント的洗練を展開します。実験によると、DeepSurvey は最高のコンテンツ スコア (8.644/10) と引用品質 (最も強力なベースラインに対して 12.3% と 9.3% の再現率と精度の向上) を達成し、ドメイン全体でより堅牢に一般化され (0.14 対 0.22 ～ 0.69 CS 対非 CS の低下)、ドメイン専門家による人間による手書きの調査よりも好まれている (全体の品質 83.3%、コンテンツ 100%) ことが示されています。深さ）。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DeepSurvey: Enhancing Analytical Depth and Citation Reliability in Automated Survey Generation</p>
        <p class="orig-summary">As scientific literature grows rapidly, automated survey generation has become a key capability for AI scientists and human researchers. However, existing systems suffer from limited analytical depth due to reliance on abstracts and isolated paper processing, and unreliable citations from imprecise retrieval and post-hoc grounding, producing superficial surveys and may mislead researchers. We present DeepSurvey, an agentic system that addresses both. To enhance depth, DeepSurvey extracts structured keynotes from full-text papers, models cross-paper relationships through clustering and comparative analysis, and integrates code-repository analysis to recover implementation-level details. To fortify reliability, it combines citation-graph expansion with hybrid filtering for topic-focussed retrieval, enforces evidence-constrained citation assignment, and deploys multi-granularity agentic refinement to validate citation-claim alignment. Experiments show that DeepSurvey achieves the highest content score (8.644/10) and citation quality (12.3% and 9.3% recall and precision gains over the strongest baseline), generalizes more robustly across domains (0.14 vs 0.22 to 0.69 CS-to-non-CS drop), and is preferred over human-written surveys by domain experts (83.3% overall quality, 100% content depth).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="89a2f940e653" data-article-url="https://arxiv.org/abs/2605.29534" data-article-title="UI-KOBE: 軽量のグラフガイド付き GUI エージェントのための知識指向の動作探索" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29534" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29534" target="_blank" rel="noopener">UI-KOBE: 軽量のグラフガイド付き GUI エージェントのための知識指向の動作探索</a></h3>
      <p class="summary">モバイル GUI エージェントの最近の進歩により、モバイル タスクを自動化する強力な可能性が示されていますが、最も効果的なシステムは、依然としてスクリーンショットの理解と長期的な計画のために大規模なビジョン言語モデルに依存しています。モバイル デバイスに直接展開できる小型の GUI エージェントは、推論コストが低く、デバイス上の機密情報の保護が強化されているため、実用的にはより魅力的です。ただし、モデルの容量が限られているため、スクリーンショットだけから GUI タスクをエンドツーエンドで計画および実行する場合、このような軽量エージェントの信頼性は依然として低いままです。私たちは、再利用可能なアプリ固有のグラフ知識を備えた軽量モバイル GUI エージェントを改善するフレームワークである、Knowledge-Oriented Behavior Exploration (\textbf{UI-KOBE}) を提案します。 UI-KOBE は、まずモバイル アプリケーションを自律的に探索し、ノードが個別の UI 状態を表し、エッジが実行可能な遷移を表すアプリ ナレッジ グラフを構築します。実行時に、軽量 GUI エージェントは外部ガイダンスとしてグラフを使用します。ユーザー タスクと現在のスクリーンショットが与えられると、現在のグラフ ノードを識別し、自己ループ アクション、隣接する遷移、タスクの完了、またはそのノードに関連付けられたフォールバック フリー アクションの中から選択します。 UI-KOBE は、アプリ固有のグラフ ガイダンスで実行時の意思決定をサポートすることで、エンドツーエンドの GUI 計画の負担を軽減し、軽量モデルがモバイル GUI タスクをより効果的に実行できるように支援し、効率的で解釈可能でプライバシーに配慮したオンデバイス GUI エージェントに向けた実用的なステップを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">UI-KOBE: Knowledge-Oriented Behavior Exploration for Lightweight Graph-Guided GUI Agents</p>
        <p class="orig-summary">Recent advances in mobile GUI agents have shown strong potential for automating mobile tasks, but most effective systems still depend on large vision-language models for screenshot understanding and long-horizon planning. Small GUI agents that can be deployed directly on mobile devices are more attractive for practical use, offering lower inference cost and better protection of sensitive on-device information. However, due to limited model capacity, such lightweight agents remain unreliable when planning and executing GUI tasks end-to-end from screenshots alone. We propose Knowledge-Oriented Behavior Exploration (\textbf{UI-KOBE}), a framework that improves lightweight mobile GUI agents with reusable app-specific graph knowledge. UI-KOBE first autonomously explores a mobile application and constructs an app knowledge graph, where nodes represent distinct UI states and edges represent executable transitions. At runtime, a lightweight GUI agent uses the graph as external guidance: given a user task and the current screenshot, it identifies the current graph node and selects among self-loop actions, neighboring transitions, task completion, or fallback free actions associated with that node. By supporting runtime decisions with app-specific graph guidance, UI-KOBE reduces the burden of end-to-end GUI planning and helps lightweight models perform mobile GUI tasks more effectively, offering a practical step toward efficient, interpretable, and privacy-conscious on-device GUI agents.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3a8b0ae797ba" data-article-url="https://arxiv.org/abs/2605.29556" data-article-title="Opt-Verifier: 両面検証による最適化モデリングのための LLM の力を解き放つ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29556" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29556" target="_blank" rel="noopener">Opt-Verifier: 両面検証による最適化モデリングのための LLM の力を解き放つ</a></h3>
      <p class="summary">数学的最適化モデルの構築はオペレーションズ リサーチ (OR) において重要ですが、人間のかなりの専門知識が必要です。最近の進歩では、大規模言語モデル (LLM) を利用してこのモデリング プロセスを自動化しています。しかし、既存の研究では、制約や変数の合理性、あるいは生成されたモデルに対する解の妥当性をチェックすることなく、生成された最適化モデルの正確性を検証するのに苦労することがよくあります。これにより、後続の検証と修正のステップが妨げられ、モデリングの精度が著​​しく損なわれます。この課題に対処するために、構造とソリューションの両方の観点からデュアルサイド検証 (Opt-Verifier) を備えた新しい LLM ベースのフレームワークを提案し、それによってモデリングの精度を向上させます。構造側の検証により、生成された最適化モデルのモデリング構造が元の問題の説明と一致し、問題の制約と要件が正確に把握されることが保証されます。一方、ソリューション側の検証では、ソリューションの妥当性を解釈して評価し、最適化モデルが論理的および数学的に適切であることを確認します。一般的なベンチマークでの実験により、私たちのアプローチにより精度が 20\% 以上向上することが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Opt-Verifier: Unleashing the Power of LLMs for Optimization Modeling via Dual-Side Verification</p>
        <p class="orig-summary">Building mathematical optimization models is critical in operations research (OR), while it requires substantial human expertise. Recent advancements have utilized large language models (LLMs) to automate this modeling process. However, existing works often struggle to verify the correctness of the generated optimization models, without checking the rationality of the constraints and variables or the validity of solutions to the generated models. This hampers the subsequent verification and correction steps, and thus it severely hurts the modeling accuracy. To address this challenge, we propose a novel LLM-based framework with Dual-side Verification (Opt-Verifier) from both structure and solution perspectives, thereby improving the modeling accuracy. The structure-side verification ensures that the modeling structure of the generated optimization models aligns with the original problem description, accurately capturing the problem&#x27;s constraints and requirements. Meanwhile, the solution-side verification interprets and evaluates the solutions&#x27; validity, confirming that the optimization models are logically and mathematically sound. Experiments on popular benchmarks demonstrate that our approach achieves over 20\% improvement in accuracy.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3b65bff9cdc4" data-article-url="https://arxiv.org/abs/2605.29560" data-article-title="Battery-Sim-Agent: LLM-Agent を活用した逆バッテリ パラメータ推定" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29560" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29560" target="_blank" rel="noopener">Battery-Sim-Agent: LLM-Agent を活用した逆バッテリ パラメータ推定</a></h3>
      <p class="summary">バッテリーの忠実度の高い「デジタル ツイン」のパラメーター化は、バッテリーの革新のペースを妨げる、重要かつ困難な逆問題です。一般的な手法では、これをブラック ボックス最適化 (BBO) タスクとして定式化し、サンプル効率が低く、基礎となる物理学を認識しないアルゴリズムを採用します。この研究では、逆問題を推論タスクとして再構成する新しいパラダイムを導入し、忠実度の高いバッテリー シミュレーターを備えた閉ループで大規模言語モデル (LLM) エージェントを展開する最初のフレームワークである Battery-Sim-Agent を紹介します。このエージェントは人間の科学者のワークフローを模倣します。シミュレーターからの豊富なマルチモーダルなフィードバックを解釈し、矛盾を説明するために物理的に根拠のある仮説を形成し、構造化されたパラメーターの更新を提案します。さまざまなバッテリーの化学的性質、動作条件、難易度レベルにまたがる体系的に構築されたベンチマーク スイートでは、当社のエージェントは、正確なパラメーターを特定する点で、ベイジアン最適化などの強力な BBO ベースラインを大幅に上回ります。さらに、複雑な長期劣化フィッティングタスクにおけるフレームワークの機能を実証し、現実世界のバッテリーデータセットに対するその実用的な適用可能性を検証します。私たちの結果は、科学的発見とバッテリーパラメータ推定のための推論ベースのオプティマイザーとしての LLM エージェントの可能性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Battery-Sim-Agent: Leveraging LLM-Agent for Inverse Battery Parameter Estimation</p>
        <p class="orig-summary">Parameterizing high-fidelity &quot;digital twins&quot; of batteries is a critical yet challenging inverse problem that hinders the pace of battery innovation. Prevailing methods formulate this as a black-box optimization (BBO) task, employing algorithms that are sample-inefficient and blind to the underlying physics. In this work, we introduce a new paradigm that reframes the inverse problem as a reasoning task, and present Battery-Sim-Agent, the first framework to deploy a Large Language Model (LLM) agent in a closed loop with a high-fidelity battery simulator. The agent mimics a human scientist&#x27;s workflow: it interprets rich, multi-modal feedback from the simulator, forms physically-grounded hypotheses to explain discrepancies, and proposes structured parameter updates. On a systematically constructed benchmark suite spanning diverse battery chemistries, operating conditions, and difficulty levels, our agent significantly outperforms strong BBO baselines like Bayesian optimization in identifying accurate parameters. We further demonstrate the framework&#x27;s capability in complex long-horizon degradation fitting tasks and validate its practical applicability on real-world battery datasets. Our results highlight the promise of LLM-agents as reasoning-based optimizers for scientific discovery and battery parameter estimation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6473b77133f3" data-article-url="https://arxiv.org/abs/2605.29561" data-article-title="ParaTool: ツール表現をコンテキストからパラメータに移行" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29561" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29561" target="_blank" rel="noopener">ParaTool: ツール表現をコンテキストからパラメータに移行</a></h3>
      <p class="summary">ツール呼び出しは、外部実行可能インターフェイスとの接地された対話を可能にすることで大規模言語モデル (LLM) を拡張し、それによって環境に連動した問題解決をサポートします。ただし、主流のインコンテキスト学習 (ICL) アプローチでは、通常、詳細なツールのドキュメントと使用例がコンテキストに直接組み込まれています。その結果、コンテキストの長さが長くなるにつれて、推論のオーバーヘッドが大きくなり、幻覚のリスクが高まります。逆に、チューニングベースの方法は一般的なツール呼び出し機能を向上させますが、多くの場合、以前に表示されたツールの特定の詳細を効果的に内部化することができないため、コンテキスト内のドキュメントへの依存関係が残ります。これらの制限に対処するために、各ツールを専用の読み込み可能なパラメーターのセットに投影するフレームワークである ParaTool を提案します。これらのパラメータ化されたツールの動的統合を装備することにより、LLM はコンテキスト内のドキュメントやサンプルに依存せずにツール呼び出しを実行できます。具体的には、私たちのアプローチは 3 つの段階で構成されます。(1) パラメトリック ツールの事前トレーニングでは、さまざまなツールの知識を独立したパラメーター モジュールにカプセル化します。 (2) ソフトツールの選択では、ゲートネットワークを使用して、関連するツールパラメータを動的に重み付けし、集計します。 (3) パラメトリック ツールの微調整では、トレーニングと推論のプロセスを調整するためにツール パラメーターを共同で更新します。 Stable ToolBench と BFCL の実験では、ParaTool が強力な ICL ベースのベースラインを大幅に上回り、計算の複雑さを軽減しながら優れたパフォーマンスを達成することが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ParaTool: Shifting Tool Representations from Context to Parameters</p>
        <p class="orig-summary">Tool calling extends large language models (LLMs) by enabling grounded interaction with external executable interfaces, thereby supporting environment-coupled problem solving. However, mainstream in-context learning (ICL) approaches typically incorporate detailed tool documentation and usage examples directly into the context. This results in substantial inference overhead and heightened risks of hallucination as the context length grows. Conversely, while tuning-based methods improve general tool-calling capabilities, they often fail to effectively internalize the specific details of previously seen tools, thereby retaining a dependency on in-context documentation. To address these limitations, we propose ParaTool, a framework that projects each tool into a dedicated, loadable set of parameters. By equipping a dynamic integration of these parameterized tools, the LLM can perform tool calling without relying on in-context documents or examples. Specifically, our approach consists of three stages: (1) parametric tool pre-training encapsulates the knowledge of different tools into independent parameter modules; (2) soft tool selection employs a gating network to dynamically weigh and aggregate relevant tool parameters; and (3) parametric tool fine-tuning jointly updates tool parameters to align the training and inference processes. Experiments on Stable ToolBench and BFCL demonstrate that ParaTool significantly outperforms strong ICL-based baselines, achieving superior performance while reducing computational complexity.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cc6fb2ae822b" data-article-url="https://arxiv.org/abs/2605.29563" data-article-title="シーンの自己探索による視点をもとに計画を立てる" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29563" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29563" target="_blank" rel="noopener">シーンの自己探索による視点をもとに計画を立てる</a></h3>
      <p class="summary">VLM は、各カメラの動きによってビューがどのように変化するかを予測し、事前にそのような動きを多数計画することができますか?私たちはこれを機能ビュー計画と呼びます。これには、(1) 単一のアクションがビューをどのように変換するかを理解すること、(2) ターゲット ビューを特定するために複数ターンの計画にわたってそのような変換を多数構成することが必要です。私たちは、実際の ScanNet シーン上の 3D ポイントクラウド環境である、私たちが提案する ViewSuite で両方の機能を調査します。 13 のフロンティア VLM にわたって、重大な計画のギャップが生じています。VLM は基本的なビューとアクションの知識を持っていますが、それを複数ターンの計画にわたって構成することができず、視点の距離が長くなるにつれてギャップが拡大します。このギャップを埋めるために、自己探索とビュー グラフの蒸留を交互に行う反復フレームワークを提案します。重要な洞察は、結果に関係なく、すべての探索軌跡が集合的にビュー グラフを形成し、シーン全体で視点がどのように接続されているかをコンパクトに捉えるということです。このグラフをさまざまな教師ありタスクに抽出すると、ポリシーの分布が再形成され、純粋な RL を遅らせる希薄な報酬が克服されます。これにより、インタラクティブ ビュー プランニングで Qwen2.5-VL-7B が 2.5% から 47.8% に向上し、GPT-5.4 Pro (18.5%) や Gemini 3.1 Pro (21.4%) を上回りました。自己探索は、3D 空間で積極的に推論して計画できる VLM への有望な道として浮上しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Planning with the Views via Scene Self-Exploration</p>
        <p class="orig-summary">Can VLMs predict how each camera move changes the view, and plan many such moves ahead? We call this capability view planning, requiring (1)understanding how a single action transforms the view, and (2)composing many such transformations across multi-turn plans to identify a target view. We probe both abilities in our proposed ViewSuite, a 3D point-cloud environment on real ScanNet scenes. Across 13 frontier VLMs, a critical planning gap emerges: they possess basic view-action knowledge but fail to compose it across multi-turn plans, with the gap widening as viewpoint distance grows. To close this gap, we propose an iterative framework that alternates self-exploration with view graph distillation. The key insight is that all exploration trajectories, regardless of their outcome, collectively form a view graph that compactly captures how viewpoints connect across a scene. Distilling this graph into diverse supervised tasks reshapes the policy distribution and overcomes the sparse rewards that stall pure RL. This improves Qwen2.5-VL-7B from 2.5% to 47.8% on interactive view planning, surpassing GPT-5.4 Pro (18.5%) and Gemini 3.1 Pro (21.4%). Self-exploration emerges as a promising path toward VLMs that can actively reason and plan in 3D space.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d8f8e846658c" data-article-url="https://arxiv.org/abs/2605.29568" data-article-title="DeepTool: プロセス教師あり強化学習によるツール統合推論におけるインターリーブ審議の拡張" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29568" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29568" target="_blank" rel="noopener">DeepTool: プロセス教師あり強化学習によるツール統合推論におけるインターリーブ審議の拡張</a></h3>
      <p class="summary">Tool-Integrated Reasoning (TIR) は、外部環境を活用して LLM 機能を拡張します。しかし、既存の方法には、戦略計画や自己修正に必要なツールの連続呼び出し中の熟慮が欠けています。 RL はこれを軽減しますが、ツール統合推論の従来のアプローチは、結果ベースの報酬がまばらであるために妨げられ、中間の推論ステップとツールの呼び出しを監視できません。これに対処するために、私たちは DeepTool を提案します。DeepTool は、各時点での思考、行動、観察の織り交ぜられたプロセス内で意図的な思考を拡張する新しいフレームワークです。 DeepTool では、まず、拡張思考をインターリーブ軌道に進化させ、敵対的な摂動を統合して堅牢性と自己修正を確保する合成パイプラインを導入します。次に、GRPO に基づくプロセス教師あり強化学習を考案します。これは、アクション中心のプロセス報酬を利用して、中間のインターリーブ思考を強化し、あらゆる場面で正確なツールの呼び出しを強制します。広範な実験により、DeepTool が優れたパフォーマンスを達成し、6 つのベンチマーク全体で Qwen2.5-7B を大幅に向上させることが実証されました (例: AIME24: 3.2% -&gt; 40.4%、HMMT25: 0.0% -&gt; 28.6%)。さらに、トークンの費用対効果分析により、インターリーブ思考の有用性が確認され、DeepTool のパフォーマンスとトークン効率の最適なバランスが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DeepTool: Scaling Interleaved Deliberation in Tool-Integrated Reasoning via Process-Supervised Reinforcement Learning</p>
        <p class="orig-summary">Tool-Integrated Reasoning (TIR) extends LLM capabilities by leveraging external environments. However, existing methods lack the deliberation during sequential tool invocation required for strategic planning and self-correction. While RL mitigates this, conventional approaches for Tool-Integrated Reasoning are hindered by sparse outcome-based rewards, failing to supervise intermediate reasoning steps and tool invocations. To address this, we propose DeepTool, a novel framework that scales deliberate thinking within the interleaved process of thinking, action, and observation at each turn. In DeepTool, we first introduce a synthesis pipeline that evolves extended thinking into interleaved trajectories, integrating adversarial perturbations to ensure robustness and self-correction. Secondly, we devise Process-Supervised Reinforcement Learning based on GRPO, which utilizes an Action-Centric Process Reward to reinforce intermediate interleaved thinking and enforce precise tool invocation at every turn. Extensive experiments demonstrate that DeepTool achieves superior performance, boosting Qwen2.5-7B significantly across six benchmarks (e.g., AIME24: 3.2% -&gt; 40.4% and HMMT25: 0.0% -&gt; 28.6%). Furthermore, the token cost-effectiveness analysis confirms the utility of interleaved thinking, demonstrating DeepTool&#x27;s optimal balance between performance and token efficiency.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c1e26017ef6" data-article-url="https://arxiv.org/abs/2605.29578" data-article-title="季節空間事前分布と LLM ベースのアクティビティ チェーン生成を使用した GPS 強化型観光モビリティ モデリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29578" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29578" target="_blank" rel="noopener">季節空間事前分布と LLM ベースのアクティビティ チェーン生成を使用した GPS 強化型観光モビリティ モデリング</a></h3>
      <p class="summary">観光客の移動は、都市交通計画にとって明らかな課題となっています。居住者の通勤とは異なり、観光客の旅行は主に非日常的で、魅力を重視しており、旅行の目的、旅行の季節、旅行メンバーの構成に非常に敏感です。既存のアプローチは、個別のスケジュールを生成せずに集合的な観光客の空間パターンを測定するか、旅行期間の条件付け、月ごとに異なるアトラクションの需要、家庭の共同旅行ルールなどの観光客固有の構造を持たずにモビリティを統合するかのいずれかです。これらの課題に対処するために、GPS と調査データから導出された月条件付き空間事前分布、観光客人口統計からの旅行範囲予測、距離的に実行可能な病棟順序の割り当て、および世帯と空間の制約の下での LLM ベースのアクティビティ チェーン生成を組み合わせた 4 段階のシミュレーション フレームワークを提案します。 GPS データは、月条件付けされた空間事前情報としてプライバシーを保護する集約形式でのみ使用され、個々の痕跡は保持または公開されません。東京の観光に関する実験では、GPS ベースの観光客コホート抽出により、調査参照と一致する空間訪問シグネチャが復元され、私たちのフレームワークは、人口統計的に調整された合成スケジュールを生成し、その区レベルの訪問シェアが調査分布と滞在ポイントから得られる月次訪問パターンの両方と密接に一致することが実証されました。この結果は、観光客の移動モデリングに対する地理的根拠に基づいた、人口統計を意識したアプローチとしてのフレームワークの有効性を示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GPS-Enhanced Tourist Mobility Modeling with Seasonal Spatial Priors and LLM-Based Activity Chain Generation</p>
        <p class="orig-summary">Tourist mobility poses a distinct challenge for urban transportation planning. Unlike resident commuting, tourist travel is largely non-routine, attraction driven, and highly sensitive to trip purpose, travel season, and trip member composition. Existing approaches either measure aggregate tourist spatial patterns without generating individual schedules, or synthesize mobility without tourist specific structure such as trip duration conditioning, month varying attraction demand, and household co-travel rules. To address these challenges, we propose a four stage simulation framework combining month conditioned spatial priors derived from GPS and survey data, trip extent prediction from tourist demographics, distance feasible ward sequence assignment, and LLM-based activity chain generation under household and spatial constraints. GPS data are used only in privacy preserving aggregated form as month conditioned spatial priors, with no individual traces retained or exposed. Experiments on tourism in Tokyo demonstrate that the GPS based tourist cohort extraction recovers spatial visitation signatures consistent with survey references, and our framework produces demographically aligned synthetic schedules whose ward-level visitation shares align closely with both survey distributions and staypoint derived monthly visitation patterns. The results demonstrate the framework&#x27;s effectiveness as a geographically grounded, demographically aware approach to tourist mobility modeling.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2e7c57576206" data-article-url="https://arxiv.org/abs/2605.29586" data-article-title="FinVerBench: 大規模言語モデル財務諸表検証におけるベンチマークの妥当性とキャリブレーション" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29586" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29586" target="_blank" rel="noopener">FinVerBench: 大規模言語モデル財務諸表検証におけるベンチマークの妥当性とキャリブレーション</a></h3>
      <p class="summary">財務諸表検証のためのベンチマークおよび妥当性調査である FinVerBench を紹介します。これは、モデルに示された情報から一連の企業財務諸表が数値的に一貫しているかどうかを判断するためです。 FinVerBench は、S&amp;P 500 企業 43 社の SEC 10-K XBRL 申告に基づいて構築されており、算術演算、ステートメント間のリンケージ、前年比、および規模の変動をカバーする 4 つのカテゴリの誤差分類法を定義しています。私たちは 15 の現代的な LLM 評価を試み、14 の完全な実行を報告します。 Gemini 2.5 Pro の実行は、40/108 ゲートウェイ呼び出しが失敗したため、主な比較から除外されています。すべてのバイナリ メトリクスでは、摂動されたラインアイテムがレンダリングされない過小判定のポジティブ インスタンスが除外され、105 個の観察可能な診断サブセット (クリーン 43 個、エラー挿入 62 個) が残ります。丸められていない診断サブセットに対する元のガイド付きチェックリスト プロンプトでは、14 回の完全な LLM 実行のうち 9 回でクリーン ステートメントに対して 95 ～ 100% の誤検知が発生しましたが、1 回の実行では観察された誤検知が 0% に達しました。ベンチマーク レンダリングの選択は、測定された再現率に重大な影響を与えます。同じ観察可能なサブセットの現実的な丸められたバリアントでは、調整されたモデルの再現率は 79.0% で、観察された FPR は 0% でしたが、丸められていない診断バリアントでは再現率が 100.0% でした。これらの結果は、最終的なリーダーボードではなく構成妥当性の結論を裏付けています。財務諸表の検証は、単なる算術検出ではなく、不完全な観察可能性、即座に誘発される仮定、および現実的な数値レンダリングの下で​​調整された判断です。 FinVerBench とすべてのコードは公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">FinVerBench: Benchmark Validity and Calibration in Large Language Model Financial Statement Verification</p>
        <p class="orig-summary">We introduce FinVerBench, a benchmark and validity study for financial statement verification: determining whether a set of corporate financial statements is numerically consistent from the information shown to the model. FinVerBench is built from SEC 10-K XBRL filings for 43 S&amp;P 500 companies and defines a four-category error taxonomy covering arithmetic, cross-statement linkage, year-over-year, and magnitude perturbations. We attempt fifteen contemporary LLM evaluations and report fourteen complete runs; a Gemini 2.5 Pro run is excluded from the main comparison because 40/108 gateway calls failed. All binary metrics exclude underdetermined positive instances whose perturbed line item is not rendered, leaving a 105-instance observable diagnostic subset (43 clean, 62 error-injected). Under the original guided-checklist prompt on the unrounded diagnostic subset, nine of fourteen complete LLM runs produce 95-100% false positives on clean statements, while one run achieves 0% observed false positives. Benchmark rendering choices materially affect measured recall: on a realistic rounded variant of the same observable subset, the calibrated model&#x27;s recall is 79.0% with 0% observed FPR, compared with 100.0% recall on the unrounded diagnostic variant. These results support a construct-validity conclusion rather than a final leaderboard: financial statement verification is not merely arithmetic detection, but calibrated judgment under incomplete observability, prompt-induced assumptions, and realistic numerical rendering. FinVerBench and all code are publicly available.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a14dc96d50de" data-article-url="https://arxiv.org/abs/2605.29591" data-article-title="Mind-Omni: 離散拡散による脳・視覚・言語モデリングのための統合マルチタスク フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29591" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29591" target="_blank" rel="noopener">Mind-Omni: 離散拡散による脳・視覚・言語モデリングのための統合マルチタスク フレームワーク</a></h3>
      <p class="summary">外部刺激と内部神経表現の間の相互作用のモデル化は、ブレイン コンピューター インターフェイス (BCI) にとって極めて重要な研究分野です。これまでの研究の主な制限は、汎用性が制限され、タスク間の相乗効果が無視されている、特化された単一タスク モデルの一般的なパラダイムです。これに対処するために、私たちは、離散拡散パラダイムを通じて 7 つの異なるエンコードおよびデコード タスクを統合する初の多用途フレームワークである Mind-Omni を提案します。その核となるのは、異種の連続的な脳信号を標準化された個別のトークンに変換する新しい Brain Tokenizer です。これにより、共有セマンティック空間内の任意の 2 つ以上のモダリティ間の相互理解と生成のための直接的なトークンレベルの対話が可能になります。高度な推論機能を解放するために、私たちは特化した Brain Question Answering (BQA) 命令チューニング データセットをさらに厳選しました。私たちのモデルは、マルチタスクの統合フレームワーク間で新しい最先端を確立するだけでなく、マルチタスクの相乗効果の強力な証拠も提供します。大規模な特殊モデルと競合し、時にはそれを上回るパフォーマンスを実証することで、私たちの研究はニューラル モデリングの強力な新しいパラダイムを提供し、ニューラル活動の基礎モデルへの道を切り開きます。コードは https://github.com/ReedOnePeck/Mind-Omni で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Mind-Omni: A Unified Multi-Task Framework for Brain-Vision-Language Modeling via Discrete Diffusion</p>
        <p class="orig-summary">Modeling the interplay between external stimuli and internal neural representations is a pivotal research area for Brain-Computer Interfaces (BCIs). A major limitation of prior work is the prevailing paradigm of specialized, single-task models, which curtails versatility and neglects inter-task synergies. To address this, we propose Mind-Omni, the first versatile framework that unifies seven distinct encoding and decoding tasks through a discrete diffusion paradigm. At its core is a novel Brain Tokenizer that transforms heterogeneous, continuous brain signals into standardized, discrete tokens. This enables direct, token-level interactions for mutual understanding and generation between any two or more modalities within a shared semantic space. To unlock advanced reasoning capabilities, we further curate a specialized Brain Question Answering (BQA) instruction-tuning dataset. Our model not only establishes a new state-of-the-art among multi-task unified frameworks but also provides strong evidence for multi-task synergy. By demonstrating performance competitive with, and at times superior to, larger specialized models, our work offers a powerful new paradigm for neural modeling and paves the way for foundation models of neural activity. The code is publicly available at https://github.com/ReedOnePeck/Mind-Omni.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a51a6ef537a2" data-article-url="https://arxiv.org/abs/2605.29606" data-article-title="HiKEY: オープンドメイン文書の質問応答のための階層型マルチモーダル検索" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29606" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29606" target="_blank" rel="noopener">HiKEY: オープンドメイン文書の質問応答のための階層型マルチモーダル検索</a></h3>
      <p class="summary">大規模産業コーパスにおける文書ベースのオープンドメイン質問応答 (ODQA) の検索拡張生成 (RAG) は、2 つの重大なボトルネックに直面しています。それは、正しい文書を見つける際のルーティングの失敗と、分散した情報を統合する際の証拠の断片化です。フラット テキスト チャンクまたはページ レベルの画像に依存する既存のアプローチでは、本質的に、(i) 数千の候補の中からターゲット ドキュメントを正確に特定すること、(ii) 限られたトークンの予算内で表や図などのマルチモーダルな証拠を有機的に結び付けることが困難です。これらの課題に対処するために、文書階層を第一級の検索信号にまで高める階層ツリーベースのマルチモーダル検索フレームワークである HiKEY を提案します。 HiKEY は、単純なチャンク化の代わりに、ドキュメント階層解析 (DHP) を介して論理的な異種グラフを再構築し、親子関係を明示的にエンコードします。階層的な粗いものから細かいものへの戦略を採用するこのフレームワークは、(1) グローバル ルーティングを実行して階層インデックスを使用して検索空間を迅速にプルーニングし、(2) 最も識別的な証拠を捕捉するマルチモーダル融合戦略を採用することにより、きめの細かい検索を実行してセクションをランク付けします。最後に、HiKEY は、ハイブリッド構造セマンティック パッキング戦略を通じて、トークン効率の高い証拠サブグラフを組み立てます。 ODQA ベンチマークの実験では、HiKEY がページベースおよびチャンクベースのベースラインを大幅に上回り、検索再現率が最大 12.9%、エンドツーエンドの QA パフォーマンスが最大 6.8% 向上することが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">HiKEY: Hierarchical Multimodal Retrieval for Open-Domain Document Question Answering</p>
        <p class="orig-summary">Retrieval-augmented generation (RAG) for document-based Open-domain Question Answering (ODQA) on large-scale industrial corpora faces two critical bottlenecks: routing failure in locating the correct document and evidence fragmentation in integrating scattered information. Existing approaches relying on flat text chunks or page-level images inherently struggle to (i) precisely pinpoint the target document among thousands of candidates and (ii) organically connect multimodal evidence, such as tables and figures, within a limited token budget. To address these challenges, we propose HiKEY, a hierarchical tree-based multimodal retrieval framework that elevates document hierarchy to a first-class retrieval signal. Instead of simple chunking, HiKEY reconstructs a logical heterogeneous graph via Document Hierarchical Parsing (DHP), explicitly encoding parent-child relationships. Adopting a hierarchical coarse-to-fine strategy, the framework (1) performs global routing to rapidly prune the search space using hierarchical indexing, and (2) conducts fine-grained retrieval to rank sections by employing a multimodal fusion strategy that captures the most discriminative evidence. Finally, HiKEY assembles a token-efficient evidence subgraph via a hybrid structural-semantic packing strategy. Experiments on ODQA benchmarks demonstrate that HiKEY significantly outperforms page- and chunk-based baselines, improving retrieval recall by up to 12.9% and end-to-end QA performance by up to 6.8%.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="06e7d884a422" data-article-url="https://arxiv.org/abs/2605.29625" data-article-title="大規模な言語モデルに基づくマルチエージェント フレームワークによる共同ストーリーテリングの向上" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29625" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29625" target="_blank" rel="noopener">大規模な言語モデルに基づくマルチエージェント フレームワークによる共同ストーリーテリングの向上</a></h3>
      <p class="summary">共創、つまり AI エージェントが人間と対話して出力 (アートなど) を生成するというテーマは、最近大きな注目を集めています。ただし、ほとんどの研究は、デジタル環境における成人と人間の相互作用に焦点を当てています。この論文では、子供たちと大規模言語モデル (LLM) が物理的なボード ゲームを通じて相互作用して書かれた物語を作成する、新しいばかばかしい共創シナリオを検討します。私たちの目標は、若いプレイヤーに適した高品質の物語を生成できるマルチエージェント フレームワークを開発することです。私たちのアプローチの中核は、ある LLM がストーリーを生成し、別の LLM がストーリーを評価して改良のためのフィードバックを提供する、反復的なライターとエディターのプロセスです。複数の LLM を含むシミュレーション研究を通じて、この反復的な相互作用により、連続するループ全体で生成されたストーリーの知覚品質が一貫して向上することがわかりました。この結果は、インタラクティブなストーリーテリング システムで高品質の出力を達成するには、少数の改良ステップで十分である可能性があることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Improving Collaborative Storytelling with a Multi-Agent Framework Based on Large Language Models</p>
        <p class="orig-summary">The topic of Co-creation, i.e., AI agents interacting with humans to generate outputs (e.g., art), has gained significant attention recently. However, most studies focus on adult-human interactions in a digital setting. This paper explores a novel ludic co-creation scenario involving children and Large Language Models (LLMs) interacting through a physical board game to create written stories. Our goal is to develop a multi-agent framework capable of producing high-quality narratives suitable for young players. At the core of our approach is an iterative Writer-Editor process in which one LLM generates stories while another evaluates them and provides feedback for refinement. Through a simulation study involving multiple LLMs, we show that this iterative interaction consistently improves the perceived quality of generated stories across successive loops. The results indicate that a small number of refinement steps may be sufficient to achieve high-quality outputs in interactive storytelling systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="957f42f6c279" data-article-url="https://arxiv.org/abs/2605.29629" data-article-title="攻撃の成功率を超えて: LLM の安全性の失敗に対する時間ロジットの観測可能性" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29629" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29629" target="_blank" rel="noopener">攻撃の成功率を超えて: LLM の安全性の失敗に対する時間ロジットの観測可能性</a></h3>
      <p class="summary">攻撃成功率 (ASR) は、生成の最後に各脱獄を単一の「はい/いいえ」ラベルで評価し、失敗が発生したかどうかを示しますが、失敗がどのように展開したかは示しません。同様に有害な出力を生成する 2 つの攻撃は、まったく異なる経路をたどった可能性があり、ASR ではそれらを区別できません。これらの隠されたパスをロジットだけから観察できるようにします。 Temporal Logit Observability (TLO) は、デコード中にコンプライアンス拒否マージンを監視し、各モデル攻撃条件をキャリブレーションされた 2D 平面上に配置する、トレーニング不要の診断です。設計上、このプレーンは、まったく異なる理由で成功する攻撃の中で、ASR が最も有益でない場合に最も有益です。 4 つの調整された LLM と 3 つのジェイルブレイク パラダイムにわたって、ほぼ同一の ASR による攻撃は、平面上の明らかに異なるポイントに到達します。同じモデルでも、異なる時間的パターンによって失敗する可能性があります。ジオメトリは、ほとんどの条件で隠れ状態からの拒否方向プローブと一致します。1 つのモデルは、固定語彙アプローチの限界を示しています。 TLO から派生したシンプルな早期停止ルールにより、単純な無害なクエリで誤った警告が発生することなく、ジェイルブレイクの成功率が半分以上削減されます。安全性評価では、障害が発生したかどうかだけでなく、障害がいつどのように展開したかを報告する必要があります。 TLO により、最初の 2 つはロジットのみから観察可能になります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond Attack Success Rate: Temporal Logit Observability for LLM Safety Failures</p>
        <p class="orig-summary">Attack Success Rate (ASR) evaluates each jailbreak with a single yes/no label at the end of generation, telling us whether a failure happened but not how it unfolded. Two attacks that produce equally harmful outputs may have followed completely different paths, and ASR cannot tell them apart. We make those hidden paths observable from logits alone. Temporal Logit Observability (TLO) is a training-free diagnostic that watches a compliance-refusal margin during decoding and places each model-attack condition on a calibrated 2D plane. By design, this plane is most informative exactly where ASR is least informative: among attacks that succeed for genuinely different reasons. Across four aligned LLMs and three jailbreak paradigms, attacks with nearly identical ASR land at clearly different points on the plane: the same model can fail through different temporal patterns. The geometry matches refusal-direction probes from hidden states on most conditions, with one model showing the limit of our fixed-lexicon approach. A simple early-stop rule derived from TLO cuts successful jailbreaks by more than half, without false alarms on plain benign queries. Safety evaluation should report when and how a failure unfolds, not only whether it occurred. TLO makes the first two observable from logits alone.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0346709079e6" data-article-url="https://arxiv.org/abs/2605.29640" data-article-title="バイキングメム: ステートフル LLM ベースのアプリケーション用のメモリ ベース管理システム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29640" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29640" target="_blank" rel="noopener">バイキングメム: ステートフル LLM ベースのアプリケーション用のメモリ ベース管理システム</a></h3>
      <p class="summary">大規模言語モデルは対話型アプリケーションに革命をもたらしました。ただし、コンテキスト ウィンドウが有限であるため、ステートフルで長期的な対話を維持する上で重要なデータ管理の課題が生じます。既存の記憶アプローチは、多くの場合、不完全な記憶につながる単純な抽出方法に依存しているか、チャットボットなど、単一のユースケースに合わせて調整された厳格な単一目的の記憶抽出プロンプトを使用しています。その結果、汎用性に欠け、さまざまな下流タスクにわたってパフォーマンスが低下します。このギャップを埋めるために、長期的なインタラクションの永続的な状態を管理するための新しいデータ管理パラダイムであるメモリ ベースを導入します。これは 3 つの核となる原則によって特徴付けられます。生の情報ストリームから価値の高い記憶を選択的に抽出することです。固有のステートフルネスと進化。メモリ内容が徐々に要約、修正され、時間的に重み付けされて最近のインタラクションを優先します。そして、教育、推奨、エージェントの記憶など、さまざまなアプリケーションにわたる堅牢な転送性を実現するために設計された一般化可能な抽象化パラダイム。この基盤に基づいて、VikingDB ベクトル エンジン上に実装されたエンドツーエンドのメモリ ベース管理システム、VikingMem を紹介します。バイキングメムは、相互接続されたイベントとエンティティの抽象化を通じてこのパラダイムを具体化します。エンティティはイベントによって動的に更新され、ステートフルな進化を実現しながら、複雑な情報ストリームを選択的に処理するイベント中心のメモリ抽出を特徴としています。トピックごとのタイムラインと時間加重リコールによる時間圧縮を使用して、システムは高レベルの要約記憶を段階的に生成し、最近の項目を優先し、古い項目を圧縮してフェードします。長期メモリベンチマークの広範な評価により、VikingMem は対話型アプリケーションに不可欠な低レイテンシを維持しながら、メモリ取得効率においてベースラインを最大 30% 上回っていることが実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">VikingMem: A Memory Base Management System for Stateful LLM-based Applications</p>
        <p class="orig-summary">Large Language Models have revolutionized interactive applications; however, their finite context windows pose a critical data management challenge for maintaining stateful, long-term interactions. Existing memory approaches often rely on simplistic extraction methods that lead to incomplete memories or use rigid, single-purpose memory extraction prompts tailored to a single use case, such as chatbots. Consequently, they lack generalizability and perform poorly across diverse downstream tasks. To bridge this gap, we introduce the Memory Base, a novel data management paradigm for managing the persistent state of long-term interactions. It is characterized by three core principles: selective extraction of high-value memories from raw information streams; inherent statefulness and evolution, where memory content is progressively summarized, corrected, and temporally weighted to prioritize recent interactions; and a generalizable abstraction paradigm designed for robust transferability across diverse applications, including education, recommendation, and agent memory. Building on this foundation, we present VikingMem, an end-to-end Memory Base Management System implemented on the VikingDB vector engine. VikingMem materializes this paradigm through interconnected event and entity abstractions. It features event-centric memory extraction to selectively handle complex information streams, while entities are dynamically updated by events to achieve stateful evolution. Using temporal compression via a topic-wise timeline and time-weighted recall, the system progressively produces high-level summary memories, prioritizes recent items, and compresses and fades older ones. Extensive evaluations on long-term memory benchmarks demonstrate that VikingMem outperformes baselines by up to 30% in memory retrieval effectiveness while maintaining the low latency essential for interactive applications.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="383e7e54e5ea" data-article-url="https://arxiv.org/abs/2605.29649" data-article-title="LLM が進化したシンボリック AI プランニングのためのドメインに依存しないヒューリスティック" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29649" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29649" target="_blank" rel="noopener">LLM が進化したシンボリック AI プランニングのためのドメインに依存しないヒューリスティック</a></h3>
      <p class="summary">ヒューリスティック検索は、シンボリック AI 計画における主要なパラダイムであり、最も強力なヒューリスティックは、計画研究者による数十年の研究の結果です。最近の研究では、大規模言語モデル (LLM) が個々の計画ドメインのヒューリスティックを設計できることが示されていますが、これまでのところ、LLM によって生成されたヒューリスティックが任意の計画タスクに機能することはありません。この論文では、進化的探索を使用して、手作業でエンジニアリングされた最先端技術を超える、LLM によって生成された初めてのドメインに依存しないヒューリスティックを生成します。 C++ で書かれた親ヒューリスティックを LLM に変更させ、情報とスピードを重視した MAP-Elites アーカイブに候補を保存し、カバレッジと解決時間をブレンドすることで適合性スコアを計算します。進化したプログラムを状況に合わせて配置するために、情報と速度のトレードオフに関して手作業で設計された広範なヒューリスティックのベンチマークをさらに行いました。これは、私たちの知る限りではこれまでに行われたことがありません。目に見えないテスト領域では、当社の最も進化したヒューリスティックは、最強のベースラインよりも多くのタスクを解決し、当社の完全なヒューリスティック スイートは、上記のトレードオフのパレート フロンティアにまたがります。また、結果として得られるプログラム自体が FF バリアントである場合でも、些細なブラインド ヒューリスティックからのシード進化は、強力な FF ヒューリスティックからのシードよりも優れたパフォーマンスを示し、LLM 推論の努力は、候補の品質よりも候補がコンパイルする頻度にはるかに影響を与えることもわかりました。進化したプログラムはプレーンな C++ であるため、既存のプランナーにドロップイン置換として組み込まれ、基礎となる検索の健全性と完全性の保証を継承します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LLM-Evolved Domain-Independent Heuristics for Symbolic AI Planning</p>
        <p class="orig-summary">Heuristic search is the dominant paradigm in symbolic AI planning, and the strongest heuristics are the result of decades of work by planning researchers. Recent work has shown that large language models (LLMs) can design heuristics for individual planning domains, but no LLM-generated heuristic has so far worked on arbitrary planning tasks. In this paper, we use evolutionary search to produce the first LLM-generated domain-independent heuristics that exceed the hand-engineered state of the art. We let an LLM mutate parent heuristics written in C++, store candidates in a MAP-Elites archive keyed on informedness and speed and calculate fitness scores by blending coverage with solving time. To place the evolved programs in context, we additionally benchmark a broad set of hand-engineered heuristics on their informedness-speed tradeoff, which to our knowledge has not been done before. On unseen testing domains, our best evolved heuristic solves more tasks than even the strongest baseline, with our full heuristic suite spanning the Pareto frontier of said tradeoff. We also find that seeding evolution from the trivial blind heuristic outperforms seeding from the strong FF heuristic, even when the resulting program is itself an FF variant, and that LLM reasoning effort affects how often candidates compile much more than the quality of those that do. Because the evolved programs are plain C++, they slot into existing planners as drop-in replacements and inherit the soundness and completeness guarantees of the underlying search.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1c69f0e11c6b" data-article-url="https://arxiv.org/abs/2605.29652" data-article-title="素早く考え、スマートに話す: 構造化された健康テキスト生成のための決定論的計算とニューラル計算の分割" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29652" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29652" target="_blank" rel="noopener">素早く考え、スマートに話す: 構造化された健康テキスト生成のための決定論的計算とニューラル計算の分割</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、ウェアラブル時系列、バイオマーカー、バイタル、ケア管理ログなどの構造化された記録から健康テキストを生成するために使用されることが増えています。定期的な健康出力の場合、流暢さだけでは十分ではありません。システムはソース データに忠実であり、入手可能な証拠で説明的主張を根拠付け、規定されたポリシーに従い、機械可読出力を出力し、繰り返し使用できるほど安価に実行する必要があります。私たちは、構造化された健康生成におけるどの責任を、実行時の LLM プロンプトではなく決定論的な計算にするべきかを尋ねます。 Think Fast, Talk Smart という睡眠と健康に関する洞察パイプラインを導入します。このパイプラインでは、1 回の制限された LLM ライター呼び出しの前に、決定論的なコードが繰り返し分析を実行します。 280 のユーザー泊と 6 つのモデルにわたって、構造化されたゼロショットおよび少数ショットのワンコール ベースラインよりも低い数値エラー、より低い指示コンプライアンス エラー、およびより低いエンドツーエンド コストを実現します。レイヤの置換により、コントラクト固有の障害が明らかになります。LLM の比較により数値エラーが発生し、LLM のランキングによりポリシーの選択が低下し、LLM の帰属によりサポートされていない因果関係のある言語が増加し、上流の事実が決定的になった後でも、LLM で生成されたライター インターフェイスによりエラーが再導入されます。この結果は、より広範な設計ルールをサポートします。つまり、コードに繰り返しの分析を持たせ、LLM に制限されたインターフェイス内で検証済みの事実を表現させます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Think Fast, Talk Smart: Partitioning Deterministic and Neural Computation for Structured Health Text Generation</p>
        <p class="orig-summary">Large language models (LLMs) are increasingly being used to generate health text from structured records such as wearable time series, biomarkers, vitals, and care-management logs. For recurring health outputs, fluency is not enough: systems must remain faithful to source data, ground explanatory claims in available evidence, follow stated policies, emit machine-readable outputs, and run cheaply enough for repeated use. We ask which responsibilities in structured health generation should be deterministic computation rather than runtime LLM prompting. We introduce Think Fast, Talk Smart, a sleep-health insight pipeline in which deterministic code performs recurring analysis before one bounded LLM writer call. Across 280 user-nights and six models, achieves lower numeric error, lower instruction-compliance error, and lower end-to-end cost than structured zero-shot and few-shot one-call baselines. Layer replacement reveals contract-specific failures: LLM comparison raises numeric error, LLM ranking degrades policy selection, LLM attribution increases unsupported causal language, and an LLM-generated writer interface reintroduces errors even after upstream facts are deterministic. The results support a broader design rule: let code own recurring analysis, and let LLMs express verified facts within bounded interfaces.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="25683607bba0" data-article-url="https://arxiv.org/abs/2605.29653" data-article-title="PTCG ベンチ: LLM エージェントはポケモン トレーディング カード ゲームをマスターできますか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29653" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29653" target="_blank" rel="noopener">PTCG ベンチ: LLM エージェントはポケモン トレーディング カード ゲームをマスターできますか?</a></h3>
      <p class="summary">戦略的に複雑なボード ゲームを考えると、人間のプレイヤーは数ラウンドをプレイした後、すぐに戦略を考案することを学びます。自律型エージェントは、現実的な対話型環境でも同様の機能を必要としますが、既存のエージェントのベンチマークでは、そのような戦略的で進化する意思決定シナリオを完全に把握できないことがよくあります。我々は、ポケモン トレーディング カード ゲーム (PTCG) に基づいて構築されたベンチマークである PTCG ベンチを紹介します。このベンチマークは、(1) 単一の複雑な環境内での意思決定パフォーマンス、(2) 蓄積された経験を通じて自己進化する能力という 2 つの相補的なレベルで LLM エージェントを評価します。さらに、モデルの能力と混同することなくエージェントのパフォーマンスをより適切に解釈するためのモジュラー ハーネス アブレーションも含まれています。私たちの実験では、LLM エージェントは重要なゲームプレイ パフォーマンスを達成できるものの、持続的かつ安定した自己進化は依然として困難であり、パフォーマンスはハーネスの設計に影響されることが示されました。 PTCG-Bench によって、現実的なインタラクティブ環境におけるハーネス認識型の自己進化エージェントに関する将来の研究が促進されることを期待しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PTCG-Bench: Can LLM Agents Master Pok\&#x27;emon Trading Card Game?</p>
        <p class="orig-summary">Given a strategically complex board game, human players can quickly learn to devise strategies after playing a few rounds. Autonomous agents require similar capabilities in realistic interactive environments, yet existing agent benchmarks often fail to fully capture such strategic and evolving decision-making scenarios. We present PTCG-Bench, a benchmark built on the Pok&#x27;{e}mon Trading Card Game (PTCG) that evaluates LLM agents at two complementary levels: (1) their decision-making performance within a single complex environment, and (2) their ability to self-evolving through accumulated experience. We further include a modular harness ablation to better interpret agent performance without conflating it with model capability. Our experiments show that, although LLM agents can achieve non-trivial gameplay performance, sustained and stable self-evolution remains challenging, and performance is sensitive to harness design. We hope that PTCG-Bench will facilitate future research on harness-aware and self-evolving agents in realistic interactive environments.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9766da43f584" data-article-url="https://arxiv.org/abs/2605.29656" data-article-title="TRACE: LLM CoT 評価の構成要素によるトゥールミンベースの推論評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29656" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29656" target="_blank" rel="noopener">TRACE: LLM CoT 評価の構成要素によるトゥールミンベースの推論評価</a></h3>
      <p class="summary">大規模言語モデル (LLM) からのオープンエンドの出力を評価することは、グランド トゥルースがないため依然として困難です。既存の指標は、最終的な答えの精度や表面レベルの統計に依存しており、推論プロセス自体は検討されていません。思考連鎖 (CoT) 推論プロセスを分析する指標である TRACE (Toulmin-based Reasoning Assessment through Constructive Elements) を紹介します。 TRACE は、結果を判断するのではなく、トゥールミンの議論理論とフラベルのメタ認知フレームワークを統合して推論の構造を評価することにより、議論がどのように構築されるかを検査します。 7 つの推論モデルにわたる 26.3K の QA サンプルの実験では、ベンチマーク精度 (r=0.74) との強い相関関係が示されています。さらに、TRACE は強化学習の報酬信号として効果的であり、精度のみのベースラインを上回ります。これらの結果を総合すると、論理的に健全な推論がより質の高い答えにつながることを示しています。したがって、TRACE は、オープンエンド出力を評価するための補足的なメトリックとして機能します。コードは https://github.com/hyyangkisti/trace で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TRACE: Toulmin-based Reasoning Assessment through Constructive Elements for LLM CoT Evaluation</p>
        <p class="orig-summary">Evaluating open-ended outputs from large language models (LLMs) remains challenging due to the absence of ground truth. Existing metrics rely on final-answer accuracy or surface-level statistics, leaving the reasoning process itself unexamined. We introduce TRACE (Toulmin-based Reasoning Assessment through Constructive Elements), a metric that analyzes Chain-of-Thought (CoT) reasoning processes. Rather than judging outcomes, TRACE inspects how arguments are constructed by integrating Toulmin&#x27;s argumentation theory with Flavell&#x27;s metacognitive framework to assess reasoning structure. Experiments on 26.3K QA samples across 7 reasoning models show strong correlation with benchmark accuracy (r=0.74). Furthermore, TRACE is effective as a reinforcement learning reward signal, outperforming accuracy-only baselines. Together, these results indicate that logically sound reasoning leads to higher-quality answers. TRACE thus serves as a complementary metric for evaluating open-ended outputs. Code is available at https://github.com/hyyangkisti/trace.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b470f6ee89fb" data-article-url="https://arxiv.org/abs/2605.29668" data-article-title="GRASP: 自己改善型 LLM エージェントのためのゲート回帰認識スキル提案者" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29668" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29668" target="_blank" rel="noopener">GRASP: 自己改善型 LLM エージェントのためのゲート回帰認識スキル提案者</a></h3>
      <p class="summary">構造化された環境で動作する LLM エージェントは、会話的な方法ではなく操作的な方法で失敗し、信頼性は環境の手順に関する知識に依存します。以前の自己改善方法では、新しい項目が以前の正しい動作を保持しているかどうかを確認せずに自然言語ガイダンスを蓄積するため、ある軌道を修正したメモが静かに別の軌道に後退する可能性があります。 GRASP (Gated Regression-Aware Skill Proposer) を導入します。これは、エージェントの改善を制限されたスキル ライブラリへの一連の編集として扱い、ハード回帰バジェットの下でバランスのとれたホールドアウト プローブで純改善が得られた場合にのみ各候補者を許可します。 2 つの FHIR ベースの臨床ベンチマークで 5 つの基本モデル (gpt-oss-120b、DeepSeek V4 Flash、Gemini 3.1 Flash Lite、GPT-4.1、GPT-5.4) にわたって GRASP を評価します。 MedAgentBench では、GRASP は gpt-oss-120b を 40.6% から 88.8% に引き上げ、5 つの自己改善ベースラインのうち最も強力なものを 21.0 ポイント上回り、他のすべてのベース モデルを 17.2 から 40.3 ポイント改善しました。アブレーションでは、スキル ライティング自体によるものではなく、比較提案の生成、承認ゲート、およびハード リグレッション バジェットによって利益が得られると考えられます。検証がなければ、スキルを使用しないのと同じです。このメカニズムは臨床領域を超えて一般化され、4 つの非臨床環境のうち 3 つで薬剤を改善し、アクション スペースがオープンエンドである場合にのみフラットなままになります。凍結されたライブラリはモデル間で転送され、より強力なモデルからのスキルは弱い実行者を自ら学習した以上に向上させますが、その逆はそうではなく、ゲートされていないベースラインでは再現できない非対称性です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GRASP: Gated Regression-Aware Skill Proposer for Self-Improving LLM Agents</p>
        <p class="orig-summary">LLM agents acting in structured environments fail in operational rather than conversational ways, and reliability depends on procedural knowledge of the environment. Prior self-improvement methods accumulate natural-language guidance without checking that each new item preserves previously correct behavior, so a note that fixes one trajectory can silently regress another. We introduce GRASP (Gated Regression-Aware Skill Proposer), which treats agent improvement as a sequence of edits to a bounded skill library, admitting each candidate only if it produces a net improvement on a balanced held-out probe under a hard regression budget. We evaluate GRASP across five base models (gpt-oss-120b, DeepSeek V4 Flash, Gemini 3.1 Flash Lite, GPT-4.1, GPT-5.4) on two FHIR-based clinical benchmarks. On MedAgentBench, GRASP lifts gpt-oss-120b from 40.6% to 88.8%, exceeds the strongest of five self-improvement baselines by 21.0 points, and improves every other base model by 17.2 to 40.3 points. Ablations attribute the gain to comparative proposal generation, the acceptance gate, and the hard regression budget rather than to skill writing itself, which without validation is no better than using no skills. The mechanism generalizes beyond the clinical domain, improving agents on three of four non-clinical environments and remaining flat only where the action space is open-ended. Frozen libraries transfer across models, where skills from a stronger model improve weaker executors beyond what they learn for themselves while the reverse does not, an asymmetry that no ungated baseline reproduces.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="85206179e749" data-article-url="https://arxiv.org/abs/2605.29676" data-article-title="表記法が重要: Agentic AI システムにおけるトークン最適化フォーマットのベンチマーク調査" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29676" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29676" target="_blank" rel="noopener">表記法が重要: Agentic AI システムにおけるトークン最適化フォーマットのベンチマーク調査</a></h3>
      <p class="summary">Agentic AI システムの大規模な言語モデルは、ツール スキーマと実行結果を消費し、ツール呼び出しを構造化データとして出力します。その交換のデフォルト言語である JSON は、トークンの効率性ではなくアプリケーション間の交換を目的として設計されているため、その構造要素により相当のトークン オーバーヘッドが生じます。最近の研究では、よりコンパクトな代替として TOON (Token-Oriented Object Notation) や TRON (Token Reduced Object Notation) などのトークンに最適化された代替案が提案されていますが、これらの形式は分離された理解または生成タスクでのみ評価されています。したがって、トークン削減がエンドツーエンドのエージェント ループ内で保持されるかどうかは未解決の問題のままです。私たちは、4 つのエージェント ベンチマーク (BFCL、MCPToolBenchPP、MCP-Universe、StableToolBench) と 5 つのオープンウェイト LLM で TOON と TRON を評価し、入力圧縮を出力圧縮から分離して、理解と生成を独立して測定します。 TRON は、JSON ベースラインの 14pp 以内の精度でトークンを最大 27% 削減します。 TOON は、同様の 9pp の精度コストで最大 18% の削減を達成しますが、さらにマルチターン解析失敗がカスケードし、ほとんどのモデルの並列ツール呼び出し出力が崩壊します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems</p>
        <p class="orig-summary">Large language models in Agentic AI systems consume tool schemas and execution results and emit tool invocations as structured data. The default language for that exchange, JSON, was designed for application-to-application interchange rather than token efficiency, so its structural elements impose substantial token overhead. Recent work proposes token-optimized alternatives such as TOON (Token-Oriented Object Notation) and TRON (Token Reduced Object Notation) as more compact replacements, but these formats have been evaluated only on isolated comprehension or generation tasks. Whether their token reductions hold inside end-to-end agentic loops therefore remains an open question. We evaluate TOON and TRON on four agentic benchmarks (BFCL, MCPToolBenchPP, MCP-Universe, StableToolBench) and five open-weight LLMs, decoupling input compression from output compression to measure comprehension and generation independently. TRON reduces tokens by up to 27% with accuracy within 14pp of the JSON baseline. TOON achieves up to 18% reduction at a similar 9pp accuracy cost, but additionally cascades on multi-turn parsing failures and collapses parallel tool-call output for most models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="78f0ee743681" data-article-url="https://arxiv.org/abs/2605.29685" data-article-title="NICE: LLM のソーシャル インテリジェンスのための理論に基づいた診断ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29685" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29685" target="_blank" rel="noopener">NICE: LLM のソーシャル インテリジェンスのための理論に基づいた診断ベンチマーク</a></h3>
      <p class="summary">大規模言語モデル (LLM) が感情的な交友関係や顧客サービスなどの社会的コンテキストに適用されることが増えているため、人間と AI の対話の品質と安全性にとって、LLM の社会的知性を測定することが重要になっています。しかし、既存のソーシャルインテリジェンスベンチマークには、社会的能力を統一的な構造に整理する統一的なフレームワークが欠けているため、きめ細かい診断を行うことができません。社会理論に基づいた初の総合的な診断評価を構築するために、私たちはまず、心理測定の原則に基づいた文献レビューと多段階の専門家による検証を通じて、社会的インテリジェンスのフレームワークを構築します。結果として得られるフレームワークには 4 つのカテゴリと 11 のディメンションが含まれており、それぞれが詳細な機能ファセットによってさらに指定されます。このフレームワークに基づいて、代表的な中国の文脈を通じて運用される 137 項目の診断ベンチマークである NICE (規範、相互作用、認知、経験) を紹介します。 5 つのフロンティア LLM と人間の参照グループ全体で、モデルは総合精度でより高いスコアを示していますが、コミュニケーションにおいて一貫した弱点を示しており、フレームワークはこれを 3 つの特定の能力面 (マルチターン コミュニケーション、非言語コミュニケーション、同期性) に限定しています。したがって、NICE は、LLM の社会的に重大な弱点の理論に基づいた診断に向けて、社会的インテリジェンスの評価を再構築します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">NICE: A Theory-Grounded Diagnostic Benchmark for Social Intelligence of LLMs</p>
        <p class="orig-summary">As large language models (LLMs) are increasingly applied in social contexts such as emotional companionship and customer service, measuring their social intelligence has become critical to the quality and safety of human-AI interaction. However, existing social intelligence benchmarks lack a unified framework that organizes social abilities into a unified structure, and therefore cannot enable fine-grained diagnosis. To build the first holistic diagnostic evaluation grounded in social theory, we first construct a social intelligence framework through a literature review and multi-stage expert validation guided by psychometric principles. The resulting framework includes 4 categories and 11 dimensions, each further specified by fine-grained capability facets. Building on this framework, we introduce NICE (Norm, Interaction, Cognition, Experience), a diagnostic benchmark of 137 items operationalized through representative Chinese contexts. Across 5 frontier LLMs and a human reference group, models score higher in aggregate accuracy yet show a consistent weakness in Communication, which the framework localizes to 3 specific capability facets: multi-turn communication, nonverbal communication, and synchrony. NICE thus reframes social intelligence evaluation toward theory-grounded diagnosis of socially consequential weaknesses in LLMs.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8bb761224cac" data-article-url="https://arxiv.org/abs/2605.29687" data-article-title="好みに基づく最大満足度による大規模言語モデルによる信頼性の高い推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29687" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29687" target="_blank" rel="noopener">好みに基づく最大満足度による大規模言語モデルによる信頼性の高い推論</a></h3>
      <p class="summary">大規模言語モデル (LLM) は自然言語の理解には優れていますが、ロボット工学などの分野でよく発生する、複数の制約やユーザー定義の設定を伴う最適化タスクには苦労します。我々は、LLM がコード生成を通じて推論を外部化するハイブリッド推論アプローチを提案します。自然言語の問題の記述が与えられると、LLM はユーザー定義の制約と設定を設定ベースの最大満足度 (MaxSAT) 問題としてエンコードする Python コードを生成し、これは正確な MaxSAT ソルバーによって解決されます。正確性を保証するために、モデル生成コードによって返されるソリューションは、標準的な MaxSAT エンコーディングに対して実行可能性と最適性が個別に検証され、異なるエンコーディングと複数の最適なソリューションが可能になります。私たちは、好みに基づく推論タスクの 3 つのファミリーに対して、オープンソースとクローズドアクセスの LLM の両方を使用してアプローチを評価し、同じモデルを使用する直接応答ベースライン、思考連鎖ベースライン、および思考プログラムベースラインと比較します。これらのベースラインが実現可能なソリューションを生み出すことはほとんどありませんが、MaxSAT ベースのパイプラインは大幅に高い承認率を達成し、場合によっては 80% を超えます。私たちの結果は、LLM 駆動のコード生成と設定ベースの MaxSAT を組み合わせることで、生成されたエンコーディングに関してソルバー検証可能な最適化が可能になり、独立して検証された参照セマンティクスの下での正確性が大幅に向上することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Reliable Reasoning with Large Language Models via Preference-Based Maximum Satisfiability</p>
        <p class="orig-summary">Large Language Models (LLMs) excel at understanding natural language but struggle with optimisation tasks involving multiple constraints and user-defined preferences, which commonly arise in domains such as robotics. We propose a hybrid reasoning approach in which LLMs externalise reasoning through code generation. Given a natural language problem description, an LLM generates Python code that encodes user-defined constraints and preferences as a preference-based Maximum Satisfiability (MaxSAT) problem, which is then solved by an exact MaxSAT solver. To ensure correctness, solutions returned by the model-generated code are independently verified for feasibility and optimality against a canonical MaxSAT encoding, allowing for different encodings and multiple optimal solutions. We evaluate our approach using both open-source and closed-access LLMs on three families of preference-based reasoning tasks, and compare it against direct-answer, chain-of-thought, and program-of-thought baselines using the same models. While these baselines rarely produce feasible solutions, the MaxSAT-based pipeline achieves substantially higher acceptance rates, in some cases exceeding 80%. Our results demonstrate that LLM-driven code generation combined with preference-based MaxSAT enables solver-verifiable optimisation with respect to generated encodings, and substantially improves correctness under independently verified reference semantics.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5b048b50dd32" data-article-url="https://arxiv.org/abs/2605.29695" data-article-title="FHRFormer: 胎児心拍数の時系列修復と予測のための自己監視型マスクトランスフォーマーフレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29695" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29695" target="_blank" rel="noopener">FHRFormer: 胎児心拍数の時系列修復と予測のための自己監視型マスクトランスフォーマーフレームワーク</a></h3>
      <p class="summary">新生児の約 10% は出生時に呼吸を開始するために補助を必要とし、約 5% は換気補助を必要とします。胎児心拍数（FHR）モニタリングは、出生前ケア中の胎児の健康状態を評価する上で重要な役割を果たし、異常なパターンの検出を可能にし、分娩中の胎児のリスクを軽減するためのタイムリーな産科介入をサポートします。人工知能 (AI) 手法を適用して、さまざまな結果を伴う継続的な FHR モニタリングエピソードの大規模なデータセットを分析すると、呼吸補助や介入が必要になるリスクを予測する上で新たな洞察が得られる可能性があります。ウェアラブル FHR モニターの最近の進歩により、母体の移動性を損なうことなく継続的に胎児をモニタリングできるようになりました。ただし、母体の移動中のセンサーの変位や、胎児または母体の位置の変化により信号のドロップアウトが発生し、記録された FHR データにギャップが生じることがよくあります。このような欠落データにより、有意義な洞察の抽出が制限され、自動 (AI ベース) 分析が複雑になります。単純な補間技術など、欠損データを処理する従来のアプローチでは、信号のスペクトル特性を保存できないことがよくあります。この論文では、データのローカルな時間成分と周波数成分の両方をキャプチャすることで欠落した FHR 信号を再構築する、マスクされたトランスフォーマー ベースのオートエンコーダー アプローチを提案します。提案された方法は、欠損データのさまざまな期間にわたる堅牢性を実証し、信号の修復と予測に使用できます。提案されたアプローチは、AI ベースのリスク アルゴリズムの開発をサポートするために、調査データセットに遡及的に適用できます。将来的には、提案された方法をウェアラブル FHR モニタリング デバイスに統合して、より早期かつより堅牢なリスク検出を実現できる可能性があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">FHRFormer: A Self-Supervised Masked Transformer Framework for Fetal Heart Rate Time-Series Inpainting and Forecasting</p>
        <p class="orig-summary">Approximately 10% of newborns require assistance to initiate breathing at birth, and around 5% need ventilation support. Fetal heart rate (FHR) monitoring plays a crucial role in assessing fetal well-being during prenatal care, enabling the detection of abnormal patterns and supporting timely obstetric interventions to mitigate fetal risks during labor. Applying artificial intelligence (AI) methods to analyze large datasets of continuous FHR monitoring episodes with diverse outcomes may offer novel insights into predicting the risk of needing breathing assistance or interventions. Recent advances in wearable FHR monitors have enabled continuous fetal monitoring without compromising maternal mobility. However, sensor displacement during maternal movement, as well as changes in fetal or maternal position, often lead to signal dropout, resulting in gaps in recorded FHR data. Such missing data limits the extraction of meaningful insights and complicates automated (AI-based) analysis. Traditional approaches to handling missing data, such as simple interpolation techniques, often fail to preserve the spectral characteristics of the signals. In this paper, we propose a masked transformer-based autoencoder approach to reconstruct missing FHR signals by capturing both local temporal and frequency components of the data. The proposed method demonstrates robustness across varying durations of missing data and can be used for signal inpainting and forecasting. The proposed approach can be applied retrospectively to research datasets to support the development of AI-based risk algorithms. In the future, the proposed method could be integrated into wearable FHR monitoring devices to achieve earlier and more robust risk detection.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c0cf43ad1258" data-article-url="https://arxiv.org/abs/2605.29697" data-article-title="軌跡報酬を超えて: グラフ モデリングによるエージェント検索のためのステップレベルのクレジット割り当て" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29697" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29697" target="_blank" rel="noopener">軌跡報酬を超えて: グラフ モデリングによるエージェント検索のためのステップレベルのクレジット割り当て</a></h3>
      <p class="summary">Agentic Search では、既存のステップレベルの報酬手法は通常、コストのかかるツリー サンプリングに依存しているのに対し、軌跡レベルの結果報酬では個々のステップの行動の寄与を定量化できません。私たちは、世界の知識を潜在的な世界グラフとして捉え、各 IS タスクを潜在的なタスク グラフ内の検索として捉えます。効果的なステップにより、グラフは答えのノードに向かって進歩するはずです。この事前の説明に基づいて、トレーニング時のエンティティ リレーション (ER) グラフ内の回答ノードまでの距離によって、新たに取得および新たに引用されたエンティティをスコアリングするステップレベルのプロセス報酬である、グラフ距離貢献報酬 (GDCR) を提案します。さらに、GDCR をステップレベルの利点に変換し、それらを軌道レベルの結果の利点と組み合わせるステップ アドバンテージ ポリシー最適化 (SAPO) を提案します。 4 つの困難なベンチマークでの実験により、私たちの手法の有効性が検証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond Trajectory Rewards: Step-level Credit Assignment for Agentic Search via Graph Modeling</p>
        <p class="orig-summary">In Agentic Search, trajectory-level outcome rewards fail to quantify the behavioral contributions of individual steps, while existing step-level reward methods typically rely on costly tree sampling. We view world knowledge as a latent world graph and each IS task as search within a latent task graph, where effective steps should make graph progress toward the answer node. Based on this prior, we propose Graph-Distance Contribution Reward (GDCR), a step-level process reward that scores newly-retrieved and newly-cited entities by their distance to the answer node in a training-time Entity-Relation (ER) graph. We further propose Step Advantage Policy Optimization (SAPO), which converts GDCR into step-level advantages and combines them with trajectory-level outcome advantages. Experiments on four challenging benchmarks validate the effectiveness of our method.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="236c18e80582" data-article-url="https://arxiv.org/abs/2605.29705" data-article-title="BitTP: エッジデバイス向けの BitLLM を使用した軽量軌道予測モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29705" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29705" target="_blank" rel="noopener">BitTP: エッジデバイス向けの BitLLM を使用した軽量軌道予測モデル</a></h3>
      <p class="summary">軌道予測は自律システムの基本的なタスクであり、マルチエージェントの相互作用と意図についての複雑な推論が必要です。最近、大規模言語モデル (LLM) がこのタスクに採用されています。これは、強力な文脈上の推論と、解釈可能な言語ベースの軌跡表現を提供するためです。ただし、これらの LLM ベースの予測子はメモリと計算量が非常に多いため、自律ロボットのオンボード コンピューターなど、リソースに制約のあるエッジ デバイスに導入することが困難になります。このギャップを埋めるために、LLM ベースの軌道予測器を軽量のビット線形アーキテクチャに変換する BitTP を提案します。 1.58 ビット (BitTP-Weight) への重みのみの量子化が最適であることを示します。重要なのは、アクティベーションを量子化すると時空間推論の深刻な劣化と不安定性につながるため、アクティベーションは完全な精度を維持する必要があります。経験的に、BitTP-Weight は、完全精度 (BF16) LLM ベースラインを超える予測品質を維持するだけでなく改善し、平均して ADE を 14.29%、FDE を 20.97% 削減し、同時に他の量子化方法と比較してメモリ使用量と推論遅延を削減します。これらの結果は、慎重に設計された量子化が効果的な正則化機能として機能し、洗練された LLM ベースの推論をエッジ デバイス上で実際に展開できることを示しています。コードは https://github.com/MintCat98/BitTP で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BitTP: The Lightweight Trajectory Prediction Model with BitLLM for Edge-Devices</p>
        <p class="orig-summary">Trajectory prediction is a fundamental task for autonomous systems, requiring complex reasoning about multi-agent interactions and intents. Large language models (LLMs) have recently been adopted for this task, as they provide strong contextual reasoning and interpretable, language-based trajectory representations. However, these LLM-based predictors are extremely memory- and compute-intensive, making them difficult to deploy on resource-constrained edge devices such as on-board computers in autonomous robots. To bridge this gap, we propose BitTP, which converts an LLM-based trajectory predictor into a lightweight bitlinear architecture. We demonstrate that weight-only quantization to 1.58-bit (BitTP-Weight) is optimal. Crucially, activations must remain in full precision, as quantizing them leads to severe degradation and instability in spatio-temporal reasoning. Empirically, BitTP-Weight not only preserves but improves prediction quality over the full-precision (BF16) LLM baseline, reducing ADE by 14.29% and FDE by 20.97% on average, while simultaneously reducing memory usage and inference latency relative to other quantization methods. These results demonstrate that carefully designed quantization acts as an effective regularizer, enabling the practical deployment of sophisticated LLM-based reasoning on edge devices. Code is available at: https://github.com/MintCat98/BitTP.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ae8d9ae800e0" data-article-url="https://arxiv.org/abs/2605.29716" data-article-title="NaRA: 拡散 LLM のパラメータ効率の高い微調整のためのノイズを考慮した LoRA" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29716" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29716" target="_blank" rel="noopener">NaRA: 拡散 LLM のパラメータ効率の高い微調整のためのノイズを考慮した LoRA</a></h3>
      <p class="summary">拡散大規模言語モデル (dLLM) は、有望な非自己回帰生成パラダイムとして浮上しています。完全な微調整には法外な計算コストがかかるため、パラメータ効率の良い微調整 (PEFT) が標準的なアプローチになっています。ただし、既存の PEFT 手法 (LoRA など) は、もともと自己回帰モデル用に調整されており、ノイズ レベルに依存しない静的パラメータに依存しています。その結果、拡散プロセスの固有のダイナミクスが無視され、入力分布と生成の難易度がノイズ除去の軌道に沿って大幅にシフトし、dLLM にとって最適ではなくなります。これに対処するために、我々は、ノイズを考慮した低ランク適応 (NaRA) を提案します。これは、ノイズ レベルに条件付けされた、軽量でグローバルに共有されるハイパーネットワークによって生成される低ランク コア マトリックスを導入します。この設計により、パラメータとレイテンシーのオーバーヘッドを無視できる程度に保ちながら、更新行列を拡散プロセスに沿って継続的に変化させることができます。私たちは、提案されている NaRA フレームワークの理論的正当性を示し、常識的推論、数学的推論、およびコード生成ベンチマークにわたって、ノイズに依存しないベースラインに対する一貫した改善を経験的に実証します。私たちのコードは https://github.com/generaldi/NaRA で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">NaRA: Noise-Aware LoRA for Parameter-Efficient Fine-Tuning of Diffusion LLMs</p>
        <p class="orig-summary">Diffusion Large Language Models (dLLMs) have emerged as a promising non-autoregressive generative paradigm. Given the prohibitive computational cost of full fine-tuning, Parameter-Efficient Fine-Tuning (PEFT) has become the standard approach. However, existing PEFT methods (e.g., LoRA), originally tailored for autoregressive models, rely on static parameters that are agnostic to the noise level. Consequently, they ignore the intrinsic dynamics of the diffusion process, where input distributions and generation difficulty shift significantly along the denoising trajectory, rendering them suboptimal for dLLMs. To address this, we propose Noise-aware Low-Rank Adaptation (NaRA), which introduces a low-rank core matrix generated by a lightweight, globally shared hypernetwork conditioned on the noise level. This design enables the update matrices to vary continuously along the diffusion process while keeping parameter and latency overhead negligible. We provide a theoretical justification for the proposed NaRA framework and empirically demonstrate consistent improvements over noise-agnostic baselines across commonsense reasoning, mathematical reasoning, and code generation benchmarks. Our code is available at https://github.com/generaldi/NaRA.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="405a2b97f28f" data-article-url="https://arxiv.org/abs/2605.29733" data-article-title="建物間のエネルギー予測のための不確実性を意識した転移学習: 堅牢でスケーラブルな地区レベルのエネルギー管理に向けて" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29733" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29733" target="_blank" rel="noopener">建物間のエネルギー予測のための不確実性を意識した転移学習: 堅牢でスケーラブルな地区レベルのエネルギー管理に向けて</a></h3>
      <p class="summary">データに基づくエネルギー予測を地区レベルまで拡張するには、最小限の対象領域データと正直な不確実性推定を備えた建物全体で再利用できるモデルが必要です。我々は、時間融合変換器 (TFT) に基づく建物間エネルギー予測のための不確実性を考慮した転移学習 (TL) フレームワークを紹介します。このフレームワークは、新しくリリースされた高解像度の実サブメーター データセット、つまりデンマークのオールボー大学の教育棟 (ソース) とスイスの EMPA にあるマルチ類型 NEST 棟 (ターゲット) で評価されます。ドメインギャップ全体にわたる汎化品質を定量化するためのアーキテクチャに依存しない指標である Transfer Robustness Index (TRI) を導入します。 4 つの戦略によるレイヤー フリージング アブレーションは、806K のうち 455 個の出力層パラメーターのみを更新するプローブのみの微調整が最高の転送品質 (TRI = 3,097) を達成し、完全な微調整を上回るパフォーマンスを示し、TFT エンコーダーが転送可能な時間表現を学習することを示唆しています。モンテカルロ ドロップアウトにより、予測区間のカバレッジ確率は 93.2% となり、名目目標の 95% に近づきます。さらに、データ不足分析では、対象領域のデータが増加するにつれて単調に改善することが示されており、地域のエネルギー展開に対する実践的なガイダンスが提供されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Uncertainty-Aware Transfer Learning for Cross-Building Energy Forecasting: Toward Robust and Scalable District-Level Energy Management</p>
        <p class="orig-summary">Scaling data-driven energy forecasting to district level requires models that can be re-used across buildings with minimal target-domain data and honest uncertainty estimates. We present an uncertainty-aware transfer learning (TL) framework for cross-building energy forecasting based on the Temporal Fusion Transformer (TFT), evaluated on a newly released high-resolution real sub-meter dataset: an educational building at Aalborg University, Denmark (source) and the multi-typology NEST building at EMPA, Switzerland (target). We introduce the Transfer Robustness Index (TRI), an architecture-agnostic metric for quantifying generalization quality across domain gaps. A four-strategy layer-freezing ablation shows that Probe-Only fine-tuning, updating only 455 output-layer parameters out of 806K, achieves the best transfer quality (TRI = 3,097), outperforming full fine-tuning and suggesting that TFT encoders learn transferable temporal representations. Monte Carlo Dropout yields a prediction interval coverage probability of 93.2%, close to the nominal 95% target. A data-scarcity analysis further shows monotonic improvement with increasing target-domain data, providing practical guidance for district energy deployment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a19b07a13c73" data-article-url="https://arxiv.org/abs/2605.29742" data-article-title="実際の規制順守のための質問応答のための引用閉鎖検索とルールごとの帰属" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29742" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29742" target="_blank" rel="noopener">実際の規制順守のための質問応答のための引用閉鎖検索とルールごとの帰属</a></h3>
      <p class="summary">規制遵守のために大規模言語モデル (LLM) を導入するには、多層の権限構造にわたる包括的な引用による厳密なトレーサビリティが必要です。従来のマルチホップや法的 QA とは異なり、このタスクでは、エンティティの解決や判例法の推論ではなく、構造化された手順の検索と証拠セットのクロージャが必要です。既存の RAG システムは、平坦化された引用エッジ、断片化された検索拡張、および脆弱な事後帰属のために、ここで苦戦しています。当社は、複雑な国内研究開発規制から派生した運用ナレッジ グラフを特徴とする新しいベンチマークである RegOps-Bench を使用して、規制順守 QA を形式化しています。これらのボトルネックに対処するために、共有トピック アンカーによって駆動される統合フレームワークである RefWalk を提案します。 RefWalk は、文書間の引用を横断し、最大ベースの集計によってマルチビューの候補を融合し、ルールごとの帰属を強制してクレームをソースに明示的にマッピングします。私たちは、検索再現率と引用精度を大幅に向上させる強力なベースラインを確立します。最後に、米国の健康コンプライアンス データセット (HIPAA) の対照的な評価により、既存のシステムがフラット構造ルールで飽和状態にあることが明らかになり、RegOps-Bench の必要性が強調されます。私たちのコードは https://github.com/yangjoonJu/RefWalk で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Citation-Closure Retrieval and Per-Rule Attribution for Real-World Regulatory Compliance Question Answering</p>
        <p class="orig-summary">Deploying Large Language Models (LLMs) for regulatory compliance demands rigorous traceability via comprehensive citations across multi-tiered authority structures. Unlike traditional multi-hop or legal QA, this task requires structured procedural lookups and evidence-set closure rather than entity resolution or case-law reasoning. Existing RAG systems struggle here due to flattened citation edges, fragmented retrieval expansions, and fragile post-hoc attribution. We formalize Regulatory Compliance QA with RegOps-Bench, a novel benchmark featuring an Operational Knowledge Graph derived from complex national R\&amp;D regulations. To address these bottlenecks, we propose RefWalk, a unified framework driven by a shared topic anchor. RefWalk traverses cross-document citations, fuses multi-view candidates via max-based aggregation, and enforces per-rule attribution to explicitly map claims to sources. We establish a strong baseline with substantial improvements in retrieval recall and citation accuracy. Finally, a contrastive evaluation on a U.S. health compliance dataset (HIPAA) reveals that existing systems exhibit saturation on flat-structure rules, underscoring the need for RegOps-Bench. Our code is available at https://github.com/yeongjoonJu/RefWalk.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="025901644b64" data-article-url="https://arxiv.org/abs/2605.29744" data-article-title="スペシャリスト モデルが依然として重要な理由: 医療用人工知能のための異種マルチエージェント パラダイム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29744" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29744" target="_blank" rel="noopener">スペシャリスト モデルが依然として重要な理由: 医療用人工知能のための異種マルチエージェント パラダイム</a></h3>
      <p class="summary">医療分野における GPT や Claude などの汎用大規模言語モデル (LLM) の優れたパフォーマンスは、領域固有の医療専門家モデルは時代遅れになるのだろうかという重大な疑問を引き起こしています。私たちは、医療用人工知能 (AI) の将来は、モノリシックな医療基盤モデルの構築や人間の専門知識の置き換えにあるのではなく、ジェネラリストの LLM、領域固有の専門家モデル、および臨床医の間のコラボレーションを調整することにあると主張します。我々は、矛盾を認識した証拠の融合、不確実性に基づく臨床医の介入トリガー、および適応閾値キャリブレーションを可能にする異種医療マルチエージェントフレームワークである HetMedAgent を提案します。 3 つの実際の臨床意思決定タスクに関する実験では、ジェネラリスト LLM と領域固有の専門家モデルの間の相乗効果が、どちらかのタイプのモデルを単独で使用した場合よりも大幅に優れていることが実証され、モダリティ固有の分析における専門家モデルのかけがえのない価値が検証されました。 HetMedAgent は、医療 LLM または基盤モデルの構築から複数エージェントのコラボレーションへの移行を表し、一般的な推論機能とドメイン固有の精度のバランスを実現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Why Specialist Models Still Matter: A Heterogeneous Multi-Agent Paradigm for Medical Artificial Intelligence</p>
        <p class="orig-summary">The impressive performance of generalist large language models (LLMs) such as GPT and Claude in healthcare raises a critical question: will domain-specific medical specialist models become obsolete? We argue that the future of medical artificial intelligence (AI) lies not in building monolithic medical foundation models, nor in replacing human expertise, but in orchestrating collaboration among generalist LLMs, domain-specific specialist models, and clinicians. We propose HetMedAgent, a heterogeneous medical multi-agent framework that enables conflict-aware evidence fusion, uncertainty-based clinician intervention triggering, and adaptive threshold calibration. Experiments on three real-world clinical decision-making tasks demonstrate that the synergy between generalist LLMs and domain-specific specialist models significantly outperforms using either type of model alone, validating the irreplaceable value of specialist models in modality-specific analysis. HetMedAgent represents a shift from building medical LLMs or foundation models to multi-agent collaboration, achieving a balance between general reasoning capabilities and domain-specific precision.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="69c10311796e" data-article-url="https://arxiv.org/abs/2605.29754" data-article-title="トランスベースの EEG 基礎モデルの位置エンコーディング戦略のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29754" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29754" target="_blank" rel="noopener">トランスベースの EEG 基礎モデルの位置エンコーディング戦略のベンチマーク</a></h3>
      <p class="summary">脳波検査 (EEG) は、ブレイン コンピューター インターフェイス (BCI) アプリケーションで脳活動を測定するために広く使用されている非侵襲的技術です。教師あり EEG デコード モデルは、タスク、被験者、データセット全体で一般化するのに苦労することが多く、自己教師あり学習で訓練されたトランスフォーマーベースの EEG 基礎モデルの動機となります。トランスフォーマーは順列不変であるため、明示的な位置情報が必要です。テキストのトークンとは異なり、EEG 電極は頭皮全体に空間的に分布しているため、トランスベースの EEG モデルで電極の位置をどのようにエンコードすべきかという問題が生じます。この研究では、CBraMod バックボーン内の 5 つの位置エンコーディング戦略をベンチマークし、運動イメージ分類と感情認識に関する線形プローブおよび微調整プロトコルの下でそれらを評価します。私たちの結果は、複数のタスクにわたって一貫して優れた単一の戦略はないことを示しています。球面位置エンコーディング (SPE) は運動イメージの強力な表現を生成しますが、感情認識ではパフォーマンスが低下しますが、非対称条件付き位置エンコーディング (ACPE) はタスク全体でより一貫したパフォーマンスを示します。これらの発見は、最適な位置エンコード戦略はタスクに依存しており、EEG デコード シナリオ全体にわたる普遍的な解決策はないことを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Benchmarking Positional Encoding Strategies for Transformer-Based EEG Foundation Models</p>
        <p class="orig-summary">Electroencephalography (EEG) is a widely used non-invasive technique for measuring brain activity in brain-computer interface (BCI) applications. Supervised EEG decoding models often struggle to generalize across tasks, subjects, and datasets, motivating transformer-based EEG foundation models trained with self-supervised learning. Since transformers are permutation-invariant, they require explicit positional information. Unlike textual tokens, EEG electrodes are spatially distributed across the scalp, raising the question of how electrode positions should be encoded in transformer-based EEG models. In this study, we benchmark five positional encoding strategies within the CBraMod backbone and evaluate them under linear probing and fine-tuning protocols on motor imagery classification and emotion recognition. Our results show that no single strategy consistently outperforms across tasks. Spherical Positional Encoding (SPE) yields strong representations for motor imagery but underperforms on emotion recognition, while Asymmetric Conditional Positional Encoding (ACPE) demonstrates more consistent performance across tasks. These findings suggest that the optimal positional encoding strategy is task-dependent, with no universal solution across EEG decoding scenarios.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f5397f00d49c" data-article-url="https://arxiv.org/abs/2605.29756" data-article-title="LFQ: 低ビット量子化 LLM の生成品質を向上させるためのロジットを意識した最終ブロック量子化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29756" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29756" target="_blank" rel="noopener">LFQ: 低ビット量子化 LLM の生成品質を向上させるためのロジットを意識した最終ブロック量子化</a></h3>
      <p class="summary">大規模な言語モデルがスケールし続けるにつれて、低ビット重みのみのポストトレーニング量子化 (PTQ) は、メモリ効率の高い展開に対する実用的なソリューションを提供します。ブロック単位の PTQ は、基本的な言語モデリングと理解に関して完全精度 (FP) ベースラインと一致することができますが、生成タスク、特にタスクの精度を高める上で重要な、より長い応答や思考の連鎖が長くなった場合、その品質は低下します。この不足の原因は 2 つの要因であると考えられます。(i) ブロック単位の最適化における非埋め込み層 (LM ヘッド) の省略、および (ii) 平均二乗誤差 (MSE) 目標への依存。両方の要因により、量子化モデルのトークン確率分布が FP モデルのトークン確率分布と不整合になり、テキスト生成ベンチマークで顕著な精度の低下が生じます。この不一致を修正するために、ロジットを意識した最終ブロック量子化 (LFQ) を導入します。これは、FP モデルのロジットと量子化された対応物のロジット間のクロス エントロピーを最小限に抑えることで、最終的な Transformer ブロックを量子化するブロック単位 PTQ のシンプルかつ効果的な拡張機能です。最終ブロックのロジットレベルでトークン確率を調整することにより、LFQ は、言語モデリングと理解に関して FP ベースラインとの同等性を維持しながら、多様なモデルファミリーにわたって最先端のブロックごとの PTQ よりも複雑な生成タスクの精度を一貫して向上させます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LFQ: Logit-aware Final-block Quantization for Boosting the Generation Quality of Low-Bit Quantized LLMs</p>
        <p class="orig-summary">As large language models continue to scale, low-bit weight-only post-training quantization (PTQ) offers a practical solution to their memory-efficient deployment. Although block-wise PTQ is capable of matching the full-precision (FP) baseline on basic language modeling and understanding, its quality is degraded for generative tasks -- especially at longer responses and extended chains of thought, which is critical in boosting task accuracy. We attribute this shortfall to two factors: (i) the omission of the unembedding layer (the LM head) in block-wise optimization and (ii) the reliance on the mean squared error (MSE) objective. Both factors cause the token probability distribution of the quantized model to misalign with that of the FP model, yielding notable accuracy drops on text generation benchmarks. To rectify the discrepancy, we introduce Logit-aware Final-block Quantization (LFQ), a simple yet effective enhancement to block-wise PTQ that quantizes the final Transformer block by minimizing the cross-entropy between the logits of the FP model and those of its quantized counterpart. By aligning token probabilities at the logit level in the final block, LFQ consistently improves the accuracy of complex generation tasks over state-of-the-art block-wise PTQ across diverse model families, while maintaining parity with FP baselines on language modeling and understanding.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c5f6b92957eb" data-article-url="https://arxiv.org/abs/2605.29768" data-article-title="XLTraffic から EvoXXLTraffic へ: トラフィック予測をセンサー進化ネットワークに拡張" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29768" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29768" target="_blank" rel="noopener">XLTraffic から EvoXXLTraffic へ: トラフィック予測をセンサー進化ネットワークに拡張</a></h3>
      <p class="summary">既存の交通予測ベンチマークは固定センサー セットを前提としていますが、実際の道路センサー ネットワークは、道路網が年々変化するにつれて継続的に成長しています。最大 27 年間にわたるカリフォルニア PeMS とニューサウスウェールズ州交通局のデータを網羅する XLTraffic データセット ファミリを紹介します。 XLTraffic の固定センサー サブセットは、複数年にわたるギャップを伴う非常に長期の予測と、標準的な時間単位/日単位の長期予測をサポートします。これを EvoXXLTraffic に拡張します。EvoXXLTraffic は、9 つ​​の PeMS 地区にわたる年間アクティブ センサー、年間交通流マトリックス、および年間グラフ スナップショットを公開するセンサー進化型再編成であり、成長率は +305% から +10,000% 以上の範囲にあります。私たちは EvoXXLTraffic 上で各暦年が継続的なタスクとなる年間ストリーミング予測プロトコルを定義し、静的な時空間 GNN、素朴なオンライン スキーム、進化するグラフの継続的手法、取得/テスト時間手法から抽出された幅広い代表的なベースラインをベンチマークします。私たちの超大規模な進化的データセットは現実世界をよりよく反映しており、多くの最先端 (SOTA) の結果は機能しなくなっていることがわかります。私たちのデータセットは、超長期にわたる進化した道路ネットワークの下でより現実的な予測を可能にすることで、既存のベンチマークを補完します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From XXLTraffic to EvoXXLTraffic: Scaling Traffic Forecasting to Sensor-Evolving Networks</p>
        <p class="orig-summary">Existing traffic forecasting benchmarks assume a fixed sensor set, but real road-sensor networks grow continuously as the road network changes year by year. We introduce the XXLTraffic dataset family, which spans up to 27 years of California PeMS and Transport for NSW data. The fixed-sensor subsets of XXLTraffic support extremely long forecasting with multi-year gaps and standard hourly / daily long-horizon forecasting. We extend it to EvoXXLTraffic, a sensor-evolving reorganization that exposes per-year active sensors, yearly traffic-flow matrices, and yearly graph snapshots across nine PeMS districts, with growth ratios ranging from +305% to over +10,000%. We define a yearly streaming forecasting protocol on EvoXXLTraffic in which each calendar year is a continual task, and benchmark a wide range of representative baselines drawn from static spatio-temporal GNNs, na\&quot;ive online schemes, evolving-graph continual methods, and retrieval / test-time methods. We find that our ultra-large evolutionary dataset better reflects the real world, and many state-of-the-art (SOTA) results no longer work. Our dataset complements existing benchmarks by enabling more realistic forecasting under ultra-long evolutionary road networks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c55edc975743" data-article-url="https://arxiv.org/abs/2605.29786" data-article-title="クロワッサン タスク: 再現可能な機械学習評価のためのメタデータ形式" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29786" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29786" target="_blank" rel="noopener">クロワッサン タスク: 再現可能な機械学習評価のためのメタデータ形式</a></h3>
      <p class="summary">再現性は科学的手法の基本ですが、機械学習においては依然として重要な課題です。原因としては、実行詳細の指定不足や脆弱なソフトウェア環境などが挙げられます。チェックリストや手動検証などの人間中心の救済策は役立ちますが、集中的な努力が必要であり、拡張することができません。これに対処するために、Croissant Tasks を導入します。これは、低レベルの実装の詳細を高レベルの仕様に抽象化する、宣言的でマシンアクション可能なメタデータ形式です。この形式により、概念的な再現性が可能になります。つまり、脆弱なソース コードの複製ではなく、独立したエージェント生成の実装を通じて主張を検証できます。私たちは以下に貢献しています。(1) Croissant Tasks 仕様。タスクの問題を解決策から正式に切り離します。 (2) 既存のベンチマークをこの形式に改良する自動 LLM パイプライン。 (3) 自律エージェントがこれらの仕様を取り込んで、機能的で正確な再現パイプラインを最初から生成できることを示す経験的検証。私たちはこの形式を、機械学習における自動化された概念的な再現性のための新しい基盤として構想しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Croissant Tasks: A Metadata Format for Reproducible Machine Learning Evaluations</p>
        <p class="orig-summary">Reproducibility is fundamental to the scientific method, yet remains a critical challenge in machine learning. Contributing factors include underspecified execution details and brittle software environments. Human-centric remedies, such as checklists and manual verification, help but require intensive effort and fail to scale. To address this, we introduce Croissant Tasks: a declarative, machine-actionable metadata format that abstracts low-level implementation details into high-level specifications. This format enables conceptual reproducibility: verifying claims via independent, agent-generated implementations rather than brittle source code replication. We contribute: (1) the Croissant Tasks specification, formally decoupling task problem from solution; (2) an automated LLM pipeline that retrofits existing benchmarks into this format; and (3) empirical validation showing autonomous agents can ingest these specifications to generate functional, accurate reproduction pipelines from scratch. We envision this format as a new foundation for automated and conceptual reproducibility in machine learning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cb76b353e51c" data-article-url="https://arxiv.org/abs/2605.29788" data-article-title="PAC-Bayes リスクによるネストされた因果的バンディットに対する認定ポリシーの最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29788" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29788" target="_blank" rel="noopener">PAC-Bayes リスクによるネストされた因果的バンディットに対する認定ポリシーの最適化</a></h3>
      <p class="summary">重要な一連の決定が単一の時間スケールで行われることはほとんどありません。戦略的決定は、その後のすべての戦術的選択が行われる状況を因果的に形成します。標準的なバンディット理論と強化学習理論では、タイムスケール間のこの因果関係を捉えていません。我々は問題クラスを、各レベルのアクションが次のレベルのコンテキスト分布を設定する階層型 SCM である Nested Contextual Causal Bandits (NCCB) として形式化し、エピソードごとに 1 つのメカニズム因数分解された信念を抽出し、その下で再帰的に動作する Nested Causal Thompson Sampling (NCTS) を提案します。私たちの主な理論的結果は、過去のデータのみから、ポリシー外いつでも、あらゆる候補展開ポリシーを証明する因果関係のある PAC ベイジアンの超過リスク限界であり、このエージェントをここで信頼できますか、またどのようなリスクがあるかという展開の質問に答えます。階層型 SCM の実験では、同じ関数クラスの一致する RFF-GP 結合回帰に対して、因数分解された SCM メカニズムの事後転送が外因性分散シフトの下で大幅に優れたゼロショットを転送し、再帰的なメタから内部へのコミットが分散における共同コミットの代替を大幅に支配し、オフライン データが蓄積するにつれて証明書が大幅に縮小することを示しています。これらの結果を組み合わせて、安全な導入方法であるプログレッシブ認定ハンドオーバーを確立します。ゲインが認定されると、各タイムスケールが他のものとは独立してレガシー コントローラから NCTS に切り替わります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Certified Policy Optimisation for Nested Causal Bandits via PAC-Bayes Risk</p>
        <p class="orig-summary">Critical sequential decisions are rarely single-timescale: a strategic decision causally shapes the context in which every subsequent tactical choice is made; standard bandit and reinforcement-learning theory does not capture this causal coupling between timescales. We formalise the problem class as Nested Contextual Causal Bandits (NCCBs), a hierarchical SCM where each level&#x27;s action sets the next level&#x27;s context distribution, and propose Nested Causal Thompson Sampling (NCTS), which draws one mechanism-factorised belief per episode and acts recursively under it. Our main theoretical result is a causal PAC-Bayesian excess-risk bound that certifies any candidate deployment policy from historic data alone, off-policy and anytime, answering the deployment question: can we trust this agent here, and at what risk? Experiments on a hierarchical SCM show that, against a matched RFF-GP joint regression on the same function class, the factorised SCM-mechanism posterior transfers significantly better zero-shot under exogenous distribution shifts, the recursive meta-to-inner commit significantly dominates the joint-commit alternative in distribution, and the certificate significantly contracts as offline data accumulates. Combining these results, we establish progressive certified handover, a safe-deployment method: each timescale flips from a legacy controller to NCTS when gains can be certified, independently of the others.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fd9af95e7205" data-article-url="https://arxiv.org/abs/2605.29794" data-article-title="SkillsInjector: LLM エージェントの動的なスキル コンテキストの構築" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29794" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29794" target="_blank" rel="noopener">SkillsInjector: LLM エージェントの動的なスキル コンテキストの構築</a></h3>
      <p class="summary">LLM エージェントは、増大するスキル ライブラリを利用して複雑なタスクを処理できるようになりました。ただし、より多くのスキルを投入しても、必ずしもタスクの完了が向上するとは限らず、タスクの完了が低下する可能性もあります。既存の手法は依然としてスキルの注入を静的なステップとして扱い、固定基準でスキルを選択し、事前に予算を固定し、説明を変更しないままにします。どのスキルが公開されるか、いくつ含まれるか、およびそれらがどのように提示されるかはすべて、下流のパフォーマンスに影響を与えるため、この静的な処理はスキルの有用性を損なう可能性があると私たちは主張します。私たちは、これらの決定に共同で対処する 2 段階の適応手法である SkillsInjector を提案します。まず、コンテキスト プランナーは、実行に基づいたスキルの好みを学習し、タスクごとに適応可能な数のスキルを許可します。次に、セット対応レンダラーは、選択された説明が、同時に挿入された近隣のものと比較してどのように表示されるかを調整します。 tau2-bench、SkillsBench、ALFWorld 全体で、SkillsInjector が最高のスコアを達成し、最も強力なベースラインをそれぞれ 3.9、6.1、7.3 パーセントポイント改善しました。アブレーション研究では、スキルの選択、適応的な予算設定、およびセットアウェアなレンダリングがそれぞれ利益に貢献していることが示されています。これらの結果は、スキル拡張エージェントが、注入されたコンテキスト自体を最適化することで恩恵を受けることを示しています。コードは公開され次第公開されます</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SkillsInjector: Dynamic Skill Context Construction for LLM Agents</p>
        <p class="orig-summary">LLM agents now draw on growing skill libraries to handle complex tasks. However, injecting more skills does not always improve task completion and can even degrade it. Existing methods still treat skill injection as a static step, selecting skills with fixed criteria, fixing the budget in advance, and leaving descriptions unchanged. We argue that this static treatment can undermine the utility of skills, because which skills are exposed, how many are included, and how they are presented all affect downstream performance. We propose SkillsInjector, a two-stage adaptive method that jointly addresses these decisions. First, a context planner learns execution-grounded skill preferences and admits an adaptive number of skills for each task. A set-aware renderer then tailors how selected descriptions are presented relative to their co-injected neighbors. Across tau2-bench, SkillsBench, and ALFWorld, SkillsInjector achieves the highest score, improving over the strongest baseline by 3.9, 6.1, and 7.3 percentage points, respectively. Ablation studies show that skill selection, adaptive budgeting, and set-aware rendering each contribute to the gain. These results show that skill-augmented agents benefit from optimizing the injected context itself. Code will be released upon publication</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ded7fe81e3aa" data-article-url="https://arxiv.org/abs/2605.29795" data-article-title="メモ: 低データ ドメインの学習信号として Web を活用する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29795" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29795" target="_blank" rel="noopener">メモ: 低データ ドメインの学習信号として Web を活用する</a></h3>
      <p class="summary">現実世界のタスクには大規模なラベル付きデータセットが不足していることが多く、低データ領域での学習に対する広範な作業が動機付けられます。ただし、少数ショット プロンプト、命令チューニング、合成データ生成などの既存のアプローチは、引き続きラベル付きデータまたは擬似ラベル付きデータを主要な学習信号として扱います。対照的に、人間の実務者は、オープン Web との繰り返しの自主的な対話を通じて専門知識を獲得し、ドメイン知識と検索戦略の両方を徐々に洗練させます。私たちは、Web をステートレスな検索インターフェイスではなく学習信号として扱うフレームワークである MEMENTO を提案します。 MEMENTO は 2 つのレベルで動作します。各セッション内で、タスクを進化する質問に分解し、中間結果を反映するアダプティブ探索ツリー (AET) を介して反復的な Web 探索を実行します。セッション全体にわたって、デュアルチャネル記憶を通じて経験を蓄積し、宣言的知識 (事実) を手続き的知識 (検索戦略) から分離します。この設計により、エージェントは追加のモデル トレーニングを行わずに、Web インタラクションの軌跡から再利用可能な調査戦略とドメインの専門知識を学習できるようになります。私たちは、販売自動化と法律調査という 2 つのローデータ専門分野で MEMENTO を評価しています。当社の実証結果では、ReAct ベースのベースラインと比較してパフォーマンスが一貫して向上していることが示され (セールス オートメーションで 25.6%、法律調査で 36.5% 増加)、Web がデータ不足の状況でタスク固有の専門知識を獲得するためのスケーラブルな学習ソースとして機能できることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MEMENTO: Leveraging Web as a Learning Signal for Low-Data Domains</p>
        <p class="orig-summary">Real-world tasks often lack large labeled datasets, motivating extensive work on learning in low-data regimes. However, existing approaches such as few-shot prompting, instruction tuning, and synthetic data generation, continue to treat labeled or pseudo-labeled data as the primary learning signal. In contrast, human practitioners acquire expertise through repeated, self-directed interaction with the open web, progressively refining both domain knowledge and search strategies. We propose MEMENTO, a framework that treats the web as a learning signal rather than a stateless retrieval interface. MEMENTO operates at two levels: within each session, it conducts iterative web exploration via an Adaptive Exploration Tree (AET) that decomposes tasks into evolving questions and reflects on intermediate findings; across sessions, it accumulates experience through dual-channel memory, separating declarative knowledge (facts) from procedural knowledge (search strategies). This design enables agents to learn reusable research strategies and domain expertise from trajectories of web interaction without additional model training. We evaluate MEMENTO on two low-data professional domains: sales automation and legal research. Our empirical results show consistent improvements in performance over ReAct based baselines (+25.6% on sales automation and 36.5% on legal research), demonstrating that the web can serve as a scalable learning source for acquiring task-specific expertise in data-scarce settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="661f0f88226b" data-article-url="https://arxiv.org/abs/2605.29796" data-article-title="SAAS: エージェント検索における過剰検索を軽減するための自己認識強化学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29796" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29796" target="_blank" rel="noopener">SAAS: エージェント検索における過剰検索を軽減するための自己認識強化学習</a></h3>
      <p class="summary">エージェント検索により、LLM は反復推論と外部検索を通じて複雑なマルチホップの質問を解決できます。これらのシステムは有効であるにもかかわらず、実際には重大な制限に悩まされることがよくあります。エージェントは自分自身の知識の境界を認識できず、内部の知識が十分な場合でもやみくもに検索を開始し、十分な証拠が収集されている場合でも検索を終了できません。自己認識の欠如は深刻な \textbf{過剰検索} につながり、かなりの推論遅延と法外な計算コストが発生します。この目的を達成するために、精度を損なうことなく検索動作を正確に制御する動的な自己認識を育成するように設計された新しい RL フレームワークである SAAS を提案します。 SAAS では、次の 3 つの主要コンポーネントが導入されています。(i) 検索境界モデリング メカニズム。検索が無効なロールアウトと検索が有効なロールアウトを対比することで、進化するポリシーに基づいて検索境界を識別します。 (ii) 境界認識報酬モジュール。この境界認識を軌道レベルのペナルティに変換し、不必要で冗長な検索を抑制します。 (iii) 段階的な最適化戦略。これは、一連のカリキュラムを活用して、検索の正規化よりも推論を優先し、それによって報酬のハッキングを回避します。広範な実験により、SAAS が精度を維持しながら過剰検索を大幅に削減することが実証されました。私たちのコードは https://github.com/XMUDeepLIT/SAAS で匿名で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search</p>
        <p class="orig-summary">Agentic search enables LLMs to solve complex multi-hop questions through iterative reasoning and external search. Despite the effectiveness, these systems often suffer from a critical limitation in practice: agents fail to recognize their own knowledge boundaries, blindly triggering searches when internal knowledge suffices and failing to terminate search even when adequate evidence has been collected. The lack of self-awareness leads to severe \textbf{over-search}, incurring substantial inference latency and prohibitive computational cost. To this end, we propose SAAS, a novel RL framework designed to cultivate dynamic self-awareness that precisely regulates search behavior without compromising accuracy. SAAS introduces three key components: (i) a search boundary modeling mechanism, which identifies the search boundary under the evolving policy by contrasting search-disabled and search-enabled rollouts; (ii) a boundary-aware reward module, which translates this boundary awareness into trajectory-level penalties, suppressing unnecessary and redundant searches; and (iii) a stage-wise optimization strategy, which leverages a sequential curriculum to prioritize reasoning over search regularization, thereby avoiding reward hacking. Extensive experiments demonstrate that SAAS substantially reduces over-search, while maintaining accuracy. Our code is anonymously released at https://github.com/XMUDeepLIT/SAAS.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4e4c8d66caa1" data-article-url="https://arxiv.org/abs/2605.29801" data-article-title="AgentDoG 1.5: AI エージェントの安全性とセキュリティのための軽量でスケーラブルな調整フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29801" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29801" target="_blank" rel="noopener">AgentDoG 1.5: AI エージェントの安全性とセキュリティのための軽量でスケーラブルな調整フレームワーク</a></h3>
      <p class="summary">OpenClaw などの最新のオープンワールド エージェントは、強力な環境間実行機能を示しますが、広範な新しい安全リスク源をもたらします。その一方で、高度なフロンティア AI モデルは攻撃障壁を大幅に下げ、現在のエージェント調整フレームワークが現実世界の展開には不適切になっています。これらの新たな脅威に対処するために、私たちは軽量でスケーラブルなエージェントの安全性調整フレームワークを提案します。具体的には、Codex および OpenClaw の実行シナリオからの緊急リスクに対応するために、エージェントの安全性分類を更新します。さらに、わずか約 1,000 個のサンプルを使用して軽量の AgentDoG 1.5 バリアント (0.8B、2B、4B、および 8B パラメーター) をトレーニングするための影響関数の精製を備えた分類に基づくデータ エンジンを構築し、主要なクローズド ソース モデル (GPT-5.4 など) と同等のパフォーマンスを達成します。 AgentDoG 1.5 に基づいて、高効率のエージェント安全性 SFT および RL トレーニング環境を構築します。これにより、Docker レベルの環境での導入オーバーヘッドが 2 桁削減されます。最後に、リアルタイムの安全管理のためのトレーニング不要のオンライン ガードレールとして AgentDoG 1.5 を導入します。広範な実験結果は、AgentDoG 1.5 が多様で複雑な対話型エージェント シナリオにおいて最先端のパフォーマンスを達成することを示しています。すべてのモデルとデータセットは公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security</p>
        <p class="orig-summary">Modern open-world agents such as OpenClaw exhibit powerful cross-environment execution capabilities yet introduce broad new safety risk sources. Meanwhile, advanced frontier AI models drastically lower attack barriers, rendering current agent alignment frameworks inadequate for real-world deployment. To tackle these emerging threats, we propose a lightweight and scalable agent safety alignment framework. Specifically, we update the agent safety taxonomy to accommodate emergent risks from Codex and OpenClaw execution scenarios. We further build a taxonomy-guided data engine with influence-function purification to train lightweight AgentDoG 1.5 variants (0.8B, 2B, 4B, and 8B parameters) using only around 1k samples, achieving comparable performance with leading closed-source models (e.g., GPT-5.4). Based on AgentDoG 1.5, we construct a highly efficient agentic safety SFT and RL training environment, which reduces deployment overhead in Docker-level environments by two orders of magnitude. Finally, we deploy AgentDoG 1.5 as a training-free online guardrail for real-time safety moderation. Extensive experimental results indicate that AgentDoG 1.5 achieves state-of-the-art performance in diverse and complex interactive agentic scenarios. All models and datasets are openly released.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3252d568d491" data-article-url="https://arxiv.org/abs/2605.29815" data-article-title="PRAIB: LLM 支援レビューの動作に関する査読 AI ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29815" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29815" target="_blank" rel="noopener">PRAIB: LLM 支援レビューの動作に関する査読 AI ベンチマーク</a></h3>
      <p class="summary">提出論文数の増加により、特に速度とスケーラビリティの向上という観点から、査読プロセスをサポートおよび強化する手段として大規模言語モデル (LLM) の探求が促進されています。しかし、LLM が人間の査読者と同じ方法で科学論文に取り組むのか、それとも単に査読者に見える文章を作成するだけなのかは不明のままです。これに対処するために、レビューの特異性、スタイル、エンゲージメントの動作を測定する、徹底的に定義された指標で構成される新しいフレームワークである Peer Review AI Benchmark (PRAIB) を導入します。 PRAIB フレームワークを補完するために、1,000 件の ICLR および NeurIPS 論文について 5 つの独自のオープンソース モデルによって生成された 11,000 件のレビューのデータセットを活用して、大規模な実証研究を実施しています。 2021 年から 2025 年の期間にわたって、これらの機械によって生成されたレビューが、体系的な行動の相違を特定するために、さまざまな促進戦略にわたる元の人間のフィードバックと比較されます。私たちの分析では、生成されたレビューが人間のレビュー担当者によって提供されたフィードバックから大きく乖離していることが明らかになりました。LLM 評価は変動が少なく、ポジティブなバイアスがあり、自信過剰であり、その相互参照パターンはモデルに依存しており、人間の基準とは異なります。さらに、PRAIB を通じて評価すると、LLM はより長く複雑なレビューを生成する傾向があるにもかかわらず、人間のレビュー担当者が指摘した基本的な弱点を頻繁に見落とすことがわかりました。 PRAIB は、LLM のレビュー動作が人間の規範からどこでどのように逸脱しているかを特徴付けることで、レビュー プロセスのどの側面を LLM が現在確実にサポートでき、どの側面を展開前にさらなる開発が必要かを特定するための診断ツールをコミュニティに提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PRAIB: Peer Review AI Benchmark of Behaviour of LLM-Assisted Reviewing</p>
        <p class="orig-summary">The growing number of submitted papers has motivated the exploration of Large Language Models (LLMs) as a means to support and augment the peer review process, particularly in terms of improving its speed and scalability. Yet, it remains unknown whether LLMs engage with scientific manuscripts in the same manner as human reviewers, or whether they merely produce review-looking text. To address this, we introduce the Peer Review AI Benchmark (PRAIB), a novel framework comprising thoroughly defined metrics that measure review specificity, style, and behavior of engagement. To complement the PRAIB framework, we conduct a large-scale empirical study leveraging a dataset of 11,000 reviews generated by five proprietary and open-source models for 1,000 ICLR and NeurIPS papers. Spanning the 2021--2025 period, these machine-generated reviews are compared against original human feedback across diverse prompting strategies to identify systematic behavioral divergences. Our analysis reveals that the generated reviews diverge significantly from feedback provided by human reviewers: LLM ratings are less variable, positively biased, and overconfident, and their cross-reference patterns are model-dependent and distinct from human norms. Furthermore, when evaluated through PRAIB, we observe that LLMs tend to generate longer, more complex reviews, yet frequently overlook the atomic weaknesses noted by human reviewers. By characterizing where and how LLMs reviewing behavior departs from human norms, PRAIB provides the community with a diagnostic tool for identifying which aspects of the review process LLMs can reliably support today and which require further development before deployment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="98b9646400ce" data-article-url="https://arxiv.org/abs/2605.29816" data-article-title="大規模な言語モデルで非敵対的な堅牢性を活用する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29816" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29816" target="_blank" rel="noopener">大規模な言語モデルで非敵対的な堅牢性を活用する</a></h3>
      <p class="summary">この研究は、意味的には似ているがテキストが異なるプロンプトによって引き起こされる変更や潜在的なエラーに対する大規模言語モデル (LLM) の堅牢性の課題に対処するためのアプローチを示しています。最近の研究では、この種のプロンプトの変動がタスクに対する LLM のパフォーマンスに大きな影響を与える可能性があることが示されています。中心的な疑問は、意味的に中立なプロンプト変更に対する LLM の堅牢性は、モデル全体の高価な再トレーニングなしで獲得できるかということです。私たちは理論と実験の両方を通じてこの疑問に取り組みます。私たちの理論的分析により、モデルの堅牢性に影響を与える重要な要因、つまりニューラル ネットワーク モジュール出力における系統的な予想されるシフトまたは摂動によって引き起こされるバイアスが明らかになりました。この分析を動機として、我々は、単純な微調整プロセス、つまりロバスト性のためのバイアス除去によってロバスト性を達成できることを示します。私たちは、バイアス緩和が役立つ場合とそうでない場合の条件を特定し、理論と広範な実験の両方を通じて、ロバスト性を高めるためのバイアス緩和が実際にロバスト性を強化し、ランダムなプロンプト摂動に対する認証を提供するための迅速かつ効率的なツールである可能性があることを実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Harnessing non-adversarial robustness in large language models</p>
        <p class="orig-summary">The work presents an approach for addressing the challenge of robustness in Large Language Models (LLMs) to alterations and potential errors caused by semantically similar but textually different prompts. Recent works have shown that these kinds of prompt variations can significantly impact the performance of LLMs on tasks. The central question is: can LLMs&#x27; robustness to semantically-neutral prompt alterations be acquired without expensive retraining of the entire model? We address this question both theoretically and through experiments. Our theoretical analysis reveals a crucial factor impacting model robustness - a systematic expected shift or perturbation-induced bias in neural network module outputs. Motivated by this analysis, we show that robustness can be achieved via a simple fine-tuning process: debiasing for robustness. We identify conditions when debiasing helps and when it does not, and demonstrate, through both theory and extensive experiments, that debiasing for robustness may indeed be a quick and efficient tool to enhance robustness and provide certification against random prompt perturbations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="36291005dfa1" data-article-url="https://arxiv.org/abs/2605.29823" data-article-title="多項式表現による単純性の定量化と最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29823" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29823" target="_blank" rel="noopener">多項式表現による単純性の定量化と最適化</a></h3>
      <p class="summary">深いネットワークは「単純な」ソリューションを好むことが多く、そのような単純さのバイアスが一般化において重要な役割を果たすと広く考えられています。しかし、単純さを広く適用できる定量的な尺度は依然としてとらえどころがありません。ニューラル関数の分布を意識した低次元サロゲートとして多項式表現を導入します。直交多項式基底を使用して、データ依存の内挿パスに沿ってネットワークの予測動作を近似し、コンパクトな関数表現を生成します。この表現の有効度が、タスクやアーキテクチャ全体にわたる一般化を予測する実用的な単純さの指標として機能し、シャープネスなどの既存の一般化プロキシよりも一貫して優れていることを示します。最後に、多項式表現は微分可能な単純性正則化を自然に生成し、画像とテキストの分類、対照的な視覚言語モデルの微調整、および強化学習における一般化を一貫して向上させます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Quantifying and Optimizing Simplicity via Polynomial Representations</p>
        <p class="orig-summary">Deep networks often exhibit a preference for &quot;simple&quot; solutions, and such a simplicity bias is widely believed to play a key role in generalization. Yet a broadly applicable, quantitative measure of simplicity remains elusive. We introduce polynomial representations as a distribution-aware, low-dimensional surrogate for neural functions: we approximate a network&#x27;s predictive behavior along data-dependent interpolation paths using orthogonal polynomial bases, yielding a compact functional representation. We show that the effective degree of this representation serves as a practical simplicity metric that is predictive of generalization across tasks and architectures, and consistently outperforms existing generalization proxies such as sharpness. Finally, polynomial representations naturally yield a differentiable simplicity regularizer, which consistently improves generalization in image and text classification, fine-tuning contrastive vision-language models, and reinforcement learning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d6f0b263eb40" data-article-url="https://arxiv.org/abs/2605.29829" data-article-title="OptSkills: クラスターベースの蒸留を介して問題の原型から一般化可能な最適化スキルを学習する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29829" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29829" target="_blank" rel="noopener">OptSkills: クラスターベースの蒸留を介して問題の原型から一般化可能な最適化スキルを学習する</a></h3>
      <p class="summary">大規模言語モデル (LLM) を活用して、自然言語から最適化問題を自動的に定式化し、解決することが、自動最適化の効率的なパラダイムとして浮上しています。しかし、既存の手法はまだ一般化が限られています。表面的な物語の変化に敏感で、主に事例レベルで経験を再利用し、変化した問題や新たな問題の種類に適応するのに苦労しています。私たちは、最適化モデリングと解決のための原型中心のスキル学習および推論エージェント システムである OptSkills を提案します。堅牢な一般化を向上させるために、私たちのシステムは、表面的な物語ではなく、その根底にある原型によって問題をクラスター化します。ディストリビューション内の一般化を改善するために、各クラスター内の多様なモデリング パラダイムとソルバー構成を調査し、成功した軌跡を再利用可能なワークフロー レベルのスキルに抽出します。分布外の一般化を改善するために、既存のスキルを改良するか、新しく取得した軌道を使用してスキル ライブラリを拡張します。当社のシステムは、さまざまな問題の種類とシナリオを含むデータセットで 68.27% という最先端のミクロ平均精度を達成しています。さらに、難易度の高い大規模かつ高次元のベンチマークである MIPLIB-NL では、26.91% の精度を達成し、DeepSeek-V3.2-Thinking を 4.53% 上回っています。 Nano-CO でスキルを学習すると、OOD NLCO ベンチマークで 72.79% に達します。コードとスキルは https://github.com/fujiwaranoM0kou/OptSkills で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">OptSkills: Learning Generalizable Optimization Skills from Problem Archetypes via Cluster-Based Distillation</p>
        <p class="orig-summary">Leveraging Large Language Models (LLMs) to automatically formulate and solve optimization problems from natural language has emerged as an efficient paradigm for automated optimization. However, existing methods still exhibit limited generalization: they are sensitive to superficial narrative variations, reuse experience mainly at the case level, and struggle to adapt to shifted or emerging problem types. We propose OptSkills, an archetype-centric skill learning and reasoning agent system for optimization modeling and solving. To improve robust generalization, our system clusters problems by their underlying archetypes rather than surface narratives. To improve in-distribution generalization, it explores diverse modeling paradigms and solver configurations within each cluster, then distills successful trajectories into reusable workflow-level skills. To improve out-of-distribution generalization, it refines existing skills or expands the skill library using newly obtained trajectories. Our system achieves a state-of-the-art micro-averaged accuracy of 68.27% on datasets encompassing diverse problem types and scenarios. In addition, on MIPLIB-NL, a highly challenging large-scale and high-dimensional benchmark, it achieves 26.91% accuracy, outperforming DeepSeek-V3.2-Thinking by 4.53%. After skill learning on Nano-CO, it reaches 72.79% on the OOD NLCO benchmark. Code and skills are available at https://github.com/fujiwaranoM0kou/OptSkills.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ed4d43d028f" data-article-url="https://arxiv.org/abs/2605.29833" data-article-title="OmniMatBench: 19 の材料科学サブフィールドにわたって人間が調整したマルチモーダル推論ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29833" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29833" target="_blank" rel="noopener">OmniMatBench: 19 の材料科学サブフィールドにわたって人間が調整したマルチモーダル推論ベンチマーク</a></h3>
      <p class="summary">科学研究においてマルチモーダル言語モデルの役割がますます重要になる中、材料科学はその学際的、マルチモーダル、そしてアプリケーション主導型の性質により重要なテストベッドを提供します。しかし、既存の材料ベンチマークは主に特性予測、知識 QA、または特性評価の理解に焦点を当てており、材料の知識から応用までのより広範な推論プロセスは十分に検討されていません。このギャップを埋めるために、人間が調整した材料科学用のマルチモーダル推論ベンチマークである OmniMatBench を紹介します。 OmniMatBench には、基本的な材料知識、構造材料および工学材料、材料の加工および製造、機能材料および応用材料に及ぶ 19 の材料科学サブ分野にわたって、専門家が厳選した 3,171 件の QA および計算問題が含まれています。私たちは 13 のオープンソースおよびクローズドソースの MLLM を評価し、最良のモデルが全体スコア 0.372 しか達成していないことがわかり、現在の材料科学推論に大きなギャップがあることが明らかになりました。さらに分析を進めると、サブフィールド間の大きなばらつき、固定された推論ヒューリスティック、不均一な材料知識、および数式、検索、およびコード支援設定下での高度な知識の適用が制限されていることが示されています。 OmniMatBench は、現在の MLLM の機能と限界についての重要な洞察を提供し、材料科学研究における信頼できる AI アシスタントの基盤を確立します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">OmniMatBench: A Human-Calibrated Multimodal Reasoning Benchmark Across 19 Materials Science Subfields</p>
        <p class="orig-summary">As multimodal language models play an increasingly important role in scientific research, materials science offers a critical testbed due to its interdisciplinary, multimodal, and application-driven nature. However, existing materials benchmarks mainly focus on property prediction, knowledge QA, or characterization understanding, leaving the broader reasoning process from materials knowledge to application underexplored. To fill this gap, we present OmniMatBench, a human-calibrated multimodal reasoning benchmark for materials science. OmniMatBench contains 3,171 expert-curated QA and calculation problems across 19 materials-science subfields, spanning fundamental materials knowledge, structural and engineering materials, materials processing and manufacturing, and functional and applied materials. We evaluate 13 open-source and closed-source MLLMs and find that the best model achieves only a 0.372 overall score, revealing a substantial gap in current materials-science reasoning. Further analysis shows strong variation across subfields, fixed reasoning heuristics, uneven materials knowledge, and limited high-level knowledge application under formula-, retrieval-, and code-assisted settings. OmniMatBench provides crucial insights into the capabilities and limitations of current MLLMs and establishes a foundation for reliable AI assistants in materials-science research.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6470d756b1bb" data-article-url="https://arxiv.org/abs/2605.29873" data-article-title="Moment-KV: 長期生成のための運動量ベースのデコード時間 KV キャッシュ圧縮" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29873" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29873" target="_blank" rel="noopener">Moment-KV: 長期生成のための運動量ベースのデコード時間 KV キャッシュ圧縮</a></h3>
      <p class="summary">Key-Value (KV) キャッシュは、長期世代のタスクで大規模言語モデル (LLM) を展開する際の大きなボトルネックのままです。以前の作業では、プレフィル キャッシュとデコード キャッシュの両方に均一な圧縮が適用されることがよくありましたが、プレフィル キャッシュを圧縮すると重要なコンテキストが破損するため、パフォーマンスが低下します。プレフィル キャッシュを保存することは不可欠ですが、デコード段階の圧縮はまだ研究されておらず、既存の方法は厳密な最新ウィンドウまたは瞬間的な注意に依存しています。私たちが注目のダイナミクスを分析したところ、強力な時間的パターンが明らかになりました。つまり、重要なトークンは長期にわたって持続的な注目を受け取るのに対し、局所的な推論には短期間のバーストが含まれます。静的ヒューリスティックではこの動作を捕捉できないため、重要なトークンが時期尚早に削除されたり、古いトークンが保持されたりする可能性があります。我々は、運動量駆動型の時間的注意集約に基づく復号時 KV キャッシュ圧縮法である Moment-KV を提案します。私たちの手法では、トークンの重要性を継続的に進化する状態としてモデル化し、注目が衰退とともに集約され、長期的な影響力と最近の関連性の両方を捉えます。実験では、Moment-KV がデコード レイテンシーを維持しながら、長い世代のタスクにおける生成忠実度を大幅に向上させる (2.3 ～ 3.2 %) ことが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Moment-KV: Momentum-Based Decode-Time KV Cache Compression for Long Generation</p>
        <p class="orig-summary">Key-Value (KV) cache remains a major bottleneck for deploying Large Language Models (LLMs) in long-generation tasks. Prior work often applies uniform compression across both prefill and decoding caches, but compressing the prefill cache degrades performance by corrupting critical context. While preserving the prefill cache is essential, decoding-phase compression remains underexplored, with existing methods relying on rigid recency windows or instantaneous attention. Our analysis of attention dynamics reveals strong temporal patterns: critical tokens receive sustained attention over long horizons, while local reasoning involves short-lived bursts. Static heuristics fail to capture this behavior, leading to premature eviction of important tokens or retention of stale ones. We propose Moment-KV, a decoding-time KV cache compression method based on momentum-driven temporal attention aggregation. Our method models token importance as a continuously evolving state, where attention is aggregated with decay, capturing both long-term influence and recent relevance. Experiments show that Moment-KV significantly improves generation fidelity in long-generation tasks (2.3-3.2 %) while maintaining decoding latency.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c61e8a024f4c" data-article-url="https://arxiv.org/abs/2605.29893" data-article-title="冗長ですか、それとも必要ですか?エージェントの軌跡における冗長なステップを検出するためのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29893" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29893" target="_blank" rel="noopener">冗長ですか、それとも必要ですか?エージェントの軌跡における冗長なステップを検出するためのベンチマーク</a></h3>
      <p class="summary">LLM ベースのエージェントは、複数ステップの推論とツールの使用を通じて複雑なタスクを解決する強力な機能を実証しています。しかし、既存の評価プロトコルは主にタスクの成功に焦点を当てており、エージェントの動作の重要な側面である実行効率を見落としています。実際には、エージェントの軌跡には、タスクの完了にはほとんど寄与しないものの、大量のリソースを消費する冗長なステップが含まれることがよくあります。この研究では、エージェントの軌跡に対する \textbf{冗長ステップ検出} という新しい研究領域を提案し、定式化します。この取り組みをサポートするために、\textbf{RedundancyBench} を導入します。これは、慎重に注釈が付けられた軌跡を持つ多様なタスクを含む新しいベンチマークであり、タスクの完了への貢献度に応じて各ステップにラベルが付けられます。 RedundancyBench を使用して、軌道内のステップが冗長であるか必要であるかを答えるための 3 つの代表的な方法を開発および評価します。私たちの結果は、最もパフォーマンスの高い方法でも冗長ステップの検出で 24.88\% のスコアしか達成できず、一部の方法ではランダムな推測よりもパフォーマンスが悪いことがわかりました。これらの結果は、このタスクの複雑さと、この分野におけるさらなる研究の必要性を浮き彫りにしています。 \footnote{この論文のコードとデータセットはどちらも \href{https://anonymous.4open.science/r/RedundancyBench}{https://anonymous.4open.science/r/RedundancyBench} で入手できます。}</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Redundant or Necessary? A Benchmark for Detecting Redundant Steps in Agent Trajectories</p>
        <p class="orig-summary">LLM-based agents have demonstrated strong capabilities in solving complex tasks through multi-step reasoning and tool use. However, existing evaluation protocols primarily focus on task success, overlooking a critical aspect of agent behavior: execution efficiency. In practice, agent trajectories often contain redundant steps that consume substantial resources while contributing little to task completion. In this work, we propose and formulate a new research area: \textbf{redundant step detection} for agent trajectories. To support this initiative, we introduce \textbf{RedundancyBench}, a new benchmark that contains diverse tasks with carefully annotated trajectories, where each step is labeled according to its contribution to task completion. Using RedundancyBench, we develop and evaluate 3 representative methods to answer whether a step within trajectory is redundant or necessary. Our results show that even the best-performing method achieves only 24.88\% score in detecting redundant steps, while some methods perform worse than random guessing. These results highlight the task&#x27;s complexity and the need for further research in this area. \footnote{Code and dataset in this paper are both available in \href{https://anonymous.4open.science/r/RedundancyBench}{https://anonymous.4open.science/r/RedundancyBench}.}</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8ee78c21253c" data-article-url="https://arxiv.org/abs/2605.29919" data-article-title="ゲームのジオメトリとそのソルバーについて" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29919" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29919" target="_blank" rel="noopener">ゲームのジオメトリとそのソルバーについて</a></h3>
      <p class="summary">ゲーム理論や GAN などの学習システムにおける中心的な課題は、どのアルゴリズムがゲームの異種混合環境全体で均衡を効率的に計算できるかを理解することです。平衡計算は通常、ソルバーごと、ゲーム クラスごとに研究され、強力な局所保証が得られますが、ソルバーの動作については断片的なビューが得られます。既存の離散分類法では、アルゴリズムがどこで成功するかについて不完全な説明が提供されることがよくあります。私たちは、ゲームを効果的なソルバー ダイナミクスにリンクするソルバー ゲーム マップを通じてこの問題を研究します。古典的な理論では、このマップの孤立した領域が特定されていますが、中間または重複する領域についての洞察は限られており、可解性はゲームのソルバーに合わせた連続ジオメトリを定義する潜在的な構造特性によって支配されることが示唆されています。私たちは、構造を意識したソルバー合成を通じてこの視点を形式化します。学習された構造認識器は各ゲームを低次元のソルバーに合わせた表現にマッピングし、ポリシーはこの表現を効果的な原始メカニズムにマッピングし、レジーム全体でソルバーの動作を適応させます。これにより、特定のソルバー ダイナミクスが効果的である領域と、単一の主要なソルバーではなくプリミティブの混合が必要な領域が明らかになります。有界残差は、不完全なソルバー ベースまたは表現に対するローカル補正および診断信号として機能します。このフレームワークは、適応ソルバーと分析レンズの両方を提供します。同様の最適化ダイナミクスを持つゲームがクラスター化され、アルゴリズムの有効性の連続領域と重複するソルバーの動作が明らかになります。経験的に、固定プリミティブは体系的なレジームの不一致を示す一方で、学習された表現はゲーム空間をソルバーの動作に合わせた構造化地図に組織化することを示します。これらの結果は、平衡計算をソルバーメカニズムの学習と可解性の幾何学的マッピングの共同問題として見ることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">On the Geometry of Games and their Solvers</p>
        <p class="orig-summary">A central challenge in game theory and learning systems such as GANs is understanding which algorithms can efficiently compute equilibria across the heterogeneous landscape of games. Equilibrium computation is typically studied solver by solver and game class by game class, yielding strong local guarantees but a fragmented view of solver behaviour. Existing discrete taxonomies often provide an incomplete account of where algorithms succeed. We study this problem through a solver-game map linking games to effective solver dynamics. Classical theory identifies isolated regions of this map but provides limited insight into intermediate or overlapping regimes, suggesting that solvability is governed by latent structural properties defining a continuous solver-aligned geometry of games. We formalise this perspective through structure-aware solver synthesis. A learned structure recogniser maps each game to a low-dimensional solver-aligned representation, and a policy maps this representation to effective primitive mechanisms, adapting solver behaviour across regimes. This reveals regions where particular solver dynamics are effective and where mixtures of primitives are required rather than a single dominant solver. A bounded residual acts as a local corrector and diagnostic signal for incomplete solver bases or representations. The framework yields both an adaptive solver and an analytical lens: games with similar optimisation dynamics cluster together, revealing continuous regions of algorithmic validity and overlapping solver behaviour. Empirically, we show that fixed primitives exhibit systematic regime mismatch, while the learned representation organises game space into a structured cartography aligned with solver behaviour. These results suggest viewing equilibrium computation as the joint problem of learning solver mechanisms and mapping the geometry of solvability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fee1a6a5f029" data-article-url="https://arxiv.org/abs/2605.29930" data-article-title="自己と他者を理解する AI システムに向けて: 人間の認知の多様性と世界モデルの整合のための多段階推論フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29930" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29930" target="_blank" rel="noopener">自己と他者を理解する AI システムに向けて: 人間の認知の多様性と世界モデルの整合のための多段階推論フレームワーク</a></h3>
      <p class="summary">現代社会における相互誤解は、単に意見や価値観の違いだけで生じるものではありません。同じ観察のもとでも、異なる主体は異なる推論ターゲット、状態表現、予測誤差、更新優先度を形成する可能性があります。この論文では、マルチフェーズ推論フレームワークを提案し、その中核となる内部メカニズムをマルチフェーズ推論メカニズム (MIM) として定義します。 MIM は、位相形成空間、前景フィールド、対象固有のプロファイル状態、および状態表現間の位置合わせマップを通じて、異種世界モデルがどのように生じるかを形式化します。これに基づいて、この論文は世界モデルの調整を、単一の価値体系への合意や収束を強制するのではなく、異種表現を相互に処理可能にする問題として再構成します。さらに、この形式主義を哲学的不一致、認知類型論、社会的断片化、AI の調整と結びつけます。その目的は、意味、価値、予測誤差の違いを可視化し、比較し、変換可能にすることで、人間が自己と他者を理解するのに役立つ建設的な語彙を AI システムに提供することです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Toward AI Systems That Understand Self and Others: A Multi-Phase Inference Framework for Human Cognitive Diversity and World-Model Alignment</p>
        <p class="orig-summary">Mutual misunderstanding in contemporary society does not arise merely because people hold different opinions or values. Even under the same observations, different subjects may form different inferential targets, state representations, prediction errors, and update priorities. This paper proposes a multi-phase inference framework and defines its core internal mechanism as the Multi-Phase Inference Mechanism (MIM). MIM formalizes how heterogeneous world models arise through a phase-formation space, a foregrounding field, subject-specific profile states, and alignment maps between state representations. On this basis, the paper reframes world-model alignment as the problem of making heterogeneous representations mutually processable, rather than forcing agreement or convergence to a single value system. It further connects this formalism to philosophical disagreements, cognitive typology, social fragmentation, and AI alignment. The aim is to provide a constructive vocabulary for AI systems that can help humans understand self and others by making differences in meaning, value, and prediction error visible, comparable, and transformable.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5f37af8e737a" data-article-url="https://arxiv.org/abs/2605.29931" data-article-title="重要なのはスピード: AI が音楽制作のワークフローに与える影響" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29931" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29931" target="_blank" rel="noopener">重要なのはスピード: AI が音楽制作のワークフローに与える影響</a></h3>
      <p class="summary">この論文では、音楽制作ワークフローに対する AI と自動化ツールの影響に関する民族誌的研究の結果を紹介します。特にレコーディング エンジニア、ミキサー、プロデューサーを名乗るプロの参加者に焦点を当て、彼らの一般的な AI や自動化ソフトウェアの使用法、およびこれらのツールの普及に対する彼らの感情について話し合います。速度と効率、制御性、創造的主体性の維持などの重要な分野でユーザーと自動化ツールの間に生じる可能性のある緊張と、ツールの設計を通じてこれらの緊張をどのように軽減できるかについて説明します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">It`s All About Speed: AI`s Impact on Workflow in Music Production</p>
        <p class="orig-summary">In this paper, we present the results of an ethnographic study into the impact of AI and automated tools on music production workflow. Focusing specifically on professional participants who identified as recording engineers, mixers, and producers, we discuss their usage of common AI and automated software, as well as their sentiments on the proliferation of these tools. We discuss tensions that may be created between users and automated tools in key areas such as the need for speed and efficiency, controllability, and maintaining creative agency, and how these tensions may be alleviated through tool design.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="12b68d6905ff" data-article-url="https://arxiv.org/abs/2605.29940" data-article-title="LLM にフィードバックを通じてストリーミング エクスペリエンスから合成する方法を学習させる" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29940" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29940" target="_blank" rel="noopener">LLM にフィードバックを通じてストリーミング エクスペリエンスから合成する方法を学習させる</a></h3>
      <p class="summary">大規模言語モデル (LLM) は合成データの生成に広く採用されており、アノテーションのコストが大幅に削減されています。しかし、既存の研究のほとんどは合成を一連の独立したタスクとして扱い、モデルが過去のタスクからの経験を蓄積し、それを将来のタスクに転送することによって合成を学習できるかどうかという、より基本的な問題を見落としています。この作業では、合成タスクが順番に到着し、過去のタスクからの経験が将来の合成に有益な信号を提供する新しい設定である StreamSynth を導入します。この設定に対処するために、合成モデルがタスク ストリームを通じて再利用可能な合成エクスペリエンスを取得できるようにする一般的なフレームワークである SynLearner を提案します。 SynLearner は、タスクごとに個別にデータを生成するのではなく、モデルが多様な合成パターンを探索し、フィードバックから学習し、タスクの進化に応じてサンプルの品質とセットレベルの多様性のバランスをとることを奨励します。複数のベンチマークにわたる広範な実験により、SynLearner が以前のタスクの経験を効果的に活用して後のタスクの合成パフォーマンスを向上させ、一貫したタスク間の移行性を示していることがわかりました。これらの発見は、StreamSynth の実現可能性の証拠を提供し、タスク ストリームから恩恵を受けることができるエクスペリエンス主導のプロセスとしての合成データ生成を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Make LLM Learn to Synthesize from Streaming Experiences through Feedback</p>
        <p class="orig-summary">Large language models (LLMs) have been widely adopted for synthetic data generation, significantly reducing annotation costs. However, most existing studies treat synthesis as a set of isolated tasks and overlook a more fundamental question: whether a model can learn to synthesize by accumulating experience from past tasks and transferring it to future ones. In this work, we introduce StreamSynth, a new setting in which synthesis tasks arrive sequentially and experience from historical tasks provides informative signals for future synthesis. To address this setting, we propose SynLearner, a general framework that enables synthesis models to acquire reusable synthesis experience over a task stream. Instead of generating data independently for each task, SynLearner encourages the model to explore diverse synthesis patterns, learn from feedback, and balance sample quality with set-level diversity as tasks evolve. Extensive experiments across multiple benchmarks show that SynLearner effectively leverages experience from earlier tasks to improve synthesis performance on later ones, exhibiting consistent cross-task transferability. These findings provide evidence for the feasibility of StreamSynth and highlight synthetic data generation as an experience-driven process that can benefit from task streams.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5b82df70b0b6" data-article-url="https://arxiv.org/abs/2605.29951" data-article-title="MuPHI: 意味的に根拠のある報酬の最適化による暗黙的なマルチモーダル危害推論の学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29951" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29951" target="_blank" rel="noopener">MuPHI: 意味的に根拠のある報酬の最適化による暗黙的なマルチモーダル危害推論の学習</a></h3>
      <p class="summary">本来は無害な画像とテキストのペア間の相互作用からどのように害が生じるかを理解するには、表面レベルの特徴を超えた、意図を認識したクロスモーダル推論が必要です。既存の視覚言語モデル (VLM) は、知覚的手がかりに対する文字通りの推論には優れていますが、暗黙的な文脈依存の推論に依存する有害なセマンティクスを導き出すことができないことがよくあります。構成的な危害の検出と推論に関する VLM を評価するために、危害が微妙なマルチモーダルな手がかりでエンコードされている画像とテキストのペアを含むデータセットである Multimodal Pragmatic Harm Interpretation (MuPHI) を導入します。 MuPHI はさまざまな危害カテゴリにまたがっており、VLM 推論チェーンを評価するための注釈付きの危害根拠が含まれています。 VLM の検出と推論の両方を改善するために、マルチパースペクティブ報酬を最適化することで共同セマンティクスを学習する推論強化トレーニング フレームワークである MuPHIRM を提案します。 MuPHIRM は、VLM の危害検出と推論の両方の品質を向上させると同時に、トレーニング済みベースラインと推論時間ベースラインの両方と比較して優れた配布外堅牢性を実証します。私たちの調査結果は、推論指向の報酬最適化が、ベンチマーク固有のショートカットを超えて一般化するマルチモーダル システムの構築に向けて有望な方向性を提供することを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MuPHI: Learning Implicit Multimodal Harm Reasoning via Semantically Grounded Reward Optimization</p>
        <p class="orig-summary">Understanding how harm emerges from interaction between otherwise benign image-text pairs requires intent-aware cross-modal reasoning beyond surface-level features. Existing vision-language models (VLMs) excel at literal reasoning over perceptual cues but often fail to derive harmful semantics that rely on implicit, context-dependent reasoning. To evaluate VLMs on compositional harm detection and reasoning, we introduce Multimodal Pragmatic Harm Interpretation (MuPHI), a dataset containing image-text pairs where harm is encoded in subtle multimodal cues. MuPHI spans diverse harm categories and includes annotated harm rationales for assessing VLM reasoning chains. To improve both detection and reasoning in VLMs, we propose MuPHIRM, a reasoning-augmented training framework which learns joint semantics by optimizing multi-perspective rewards. MuPHIRM improves both harm detection and reasoning quality of VLMs while demonstrating superior out-of-distribution robustness compared to both trained and inference-time baselines. Our findings suggest that reasoning-oriented reward optimization offers a promising direction towards building multimodal systems that generalize beyond benchmark-specific shortcuts.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1df9a99c5c1a" data-article-url="https://arxiv.org/abs/2605.29955" data-article-title="大規模な数学の形式化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29955" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29955" target="_blank" rel="noopener">大規模な数学の形式化</a></h3>
      <p class="summary">Lean 4 で Autoformalized Textbook Library At Scale (Atlas) を構築するためのマルチエージェント システムである AutoformBot を紹介します。 AutoformBot は、形式的な検証ツール、依存関係を意識したタスク スケジューリング、協調的なバージョン管理を備えた数千の LLM エージェントを調整し、非公式な教科書の散文を機械チェックされた定義と証明に変換します。私たちは、解析、代数、トポロジー、組合せ論、確率に及ぶ 26 冊のオープンアクセス教科書のコーパスに私たちの手法を適用し、45,000 を超えるリーン 4 宣言と 500,000 行を超えるコードの検証済みライブラリである Atlas を作成します。私たちは 2 つのアーティファクトをリリースします。(i) AutoformBot、オープンソースのマルチエージェント フレームワーク。 (ii) Atlas、結果として得られる正式なライブラリ。私たちの結果は、大学院レベルの数学の中核的な内容を大規模に自動形式化することが経済的かつ技術的に実現可能であることを示唆しています。これにより、人間が生成した数学と機械が生成した数学の両方を研究レベルで自動検証する扉が開かれます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Formalizing Mathematics at Scale</p>
        <p class="orig-summary">We present AutoformBot, a multi-agent system for building an Autoformalized Textbook Library At Scale (Atlas) in Lean 4. AutoformBot orchestrates thousands of LLM agents, equipped with formal verification tools, dependency-aware task scheduling, and collaborative version control, to translate informal textbook prose into machine-checked definitions and proofs. We apply our methods to a corpus of 26 open-access textbooks spanning analysis, algebra, topology, combinatorics, and probability, producing Atlas: a verified library of over 45,000 Lean 4 declarations and 500 thousand lines of code. We release two artifacts: (i) AutoformBot, the open-source multi-agent framework; and (ii) Atlas, the resulting formal library. Our results suggest that autoformalizing the core content of graduate-level mathematics at scale is now economically and technically feasible. This opens the door to the automated verification of both human- and machine-generated mathematics at a research level.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="52dda39941bb" data-article-url="https://arxiv.org/abs/2605.29965" data-article-title="線形時間の時間的解答セットプログラミングのためのメタプログラミング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29965" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29965" target="_blank" rel="noopener">線形時間の時間的解答セットプログラミングのためのメタプログラミング</a></h3>
      <p class="summary">Answer Set Programming (ASP) の時間的拡張の開発により、非単調線形時間 (TEL)、動的 (DEL)、およびメトリック (MEL) の時間平衡ロジックが出現しました。ただし、高度に最適化された ASP システムに固有の剛性により、代替論理設計の迅速な探索と実装が妨げられることがよくあります。この研究では、統一された宣言型フレームワークを通じてさまざまな時相論理のセマンティクスを操作できる柔軟なメタプログラミング フレームワークを提案します。私たちのアプローチは、 clingo の理論文法を形式的な型仕様とネスト機能で強化することにより、標準 ASP メタプログラミングを拡張します。セマンティックな正確性を確保するために、グラウンディング中の安定モデルベースの単純化からネストされたモダリティを保護する変換パイプラインを導入します。 TEL、MEL、および DEL のメタエンコーディングを実装することにより、フレームワークの拡張性を示します。 TEL の包括的な説明を提供し、MEL の間隔制約と DEL のフィッシャー・ラドナー閉包を管理するための主要な機能に焦点を当てます。最後に、このワークフローをカプセル化する多用途ツール、metasp システムを紹介します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Meta-Programming for Linear-time Temporal Answer Set Programming</p>
        <p class="orig-summary">The development of temporal extensions of Answer Set Programming (ASP) has led to the emergence of non-monotonic linear-time (TEL), dynamic (DEL), and metric (MEL) temporal equilibrium logics. However, the inherent rigidity of highly optimized ASP systems often hinders the rapid exploration and implementation of alternative logical designs. In this work, we propose a flexible meta-programming framework that operationalizes the semantics of varied temporal logics through a unified, declarative framework. Our approach extends standard ASP meta-programming by augmenting clingo&#x27;s theory grammar with formal type specifications and nesting capabilities. To ensure semantic correctness, we introduce a transformation pipeline that protects nested modalities from stable-model-based simplifications during grounding. We demonstrate the extensibility of our framework by implementing meta-encodings for TEL, MEL, and DEL. We provide a comprehensive account of TEL and highlight the key features for managing the interval constraints of MEL and the Fischer-Ladner closure in DEL. Finally, we introduce the metasp system, a versatile tool that encapsulates this workflow.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a8eeb539d0cc" data-article-url="https://arxiv.org/abs/2605.29966" data-article-title="Compass: 専門家のガイドによる LLM エージェントによる世界的な海洋リードデータの統合のナビゲート" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29966" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29966" target="_blank" rel="noopener">Compass: 専門家のガイドによる LLM エージェントによる世界的な海洋リードデータの統合のナビゲート</a></h3>
      <p class="summary">海洋鉛 (Pb) とその同位体は、海洋循環と人為的汚染の重要なトレーサーですが、現場での観察は依然として費用がかかり、まばらです。膨大な歴史的記録が存在する一方で、それらは学術論文の非構造化コンテンツの中に埋もれており、包括的な分析にアクセスできない「データサイロ」を生み出しています。手動による抽出には拡張性がなく、汎用の大規模言語モデル (LLM) には必要なドメイン固有の知識が不足しているため、幻覚や科学的に無効な出力が発生します。これに対処するために、LLM が微調整せずに厳密な科学データ抽出を実行できるようにする、専門家主導の適応アプローチを導入します。当社は、海洋科学者と共同設計したナレッジ ツリーによって強化された LLM エージェント フレームワークである Compass を通じてこのアプローチを運用しています。これは、複雑なタスクを検証可能なステップに分解し、科学的妥当性を確保するためにエージェントの推論を導きます。 230,000 件を超える関連するオープンアクセス論文のコーパス全体に Compass を導入することで、これまで組み込まれていなかった 3,751 件の Pb レコードを抽出することに成功しました。この取り組みにより、これまでで最大の統合海洋 Pb データベースが確立されました。標準的な指標を超えて、Compass は多層検証を通じて優れた信頼性を実証し、専門家の手動検証で確認されたとおり 92% の精度を達成しています。新たに統合されたデータは、東シナ海や南極海など、これまでサンプリングが不十分だった地域のカバー範囲を拡大し、将来の科学的発見のための充実したデータ基盤を提供します。私たちは、オープンな科学的アクセスを促進するために、インタラクティブな視覚化プラットフォームをリリースします。私たちの研究は、専門家がガイドするエージェントが汎用 LLM と一か八かの科学領域の間のギャップを効果的に埋め、地球科学におけるスケーラブルなデータ発見を可能にすることを実証しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Compass: Navigating Global Marine Lead Data Integration through Expert-Guided LLM Agent</p>
        <p class="orig-summary">Marine lead (Pb) and its isotopes are critical tracers for ocean circulation and anthropogenic pollution, yet in-situ observations remain costly and sparse. While vast historical records exist, they lie buried within the unstructured content of academic papers, creating &quot;data silos&quot; inaccessible to comprehensive analysis. Manual extraction is unscalable, while general-purpose Large Language Models (LLMs) lack the necessary domain-specific knowledge, leading to hallucinations and scientifically invalid outputs. To address this, we introduce an expert-guided adaptation approach that enables LLMs to perform rigorous scientific data extraction without fine-tuning. We operationalize this approach through Compass, an LLM agent framework enhanced by a Knowledge Tree co-designed with marine scientists, which decomposes complex tasks into verifiable steps, guiding the agent&#x27;s reasoning to ensure scientific validity. Deploying Compass across a corpus of over 230,000 relevant open-access papers, we successfully extract 3,751 previously unincorporated Pb records. This effort establishes the largest integrated marine Pb database to date. Beyond standard metrics, Compass demonstrates superior reliability through multi-layered validation, achieving 92% accuracy as confirmed through expert manual verification. The newly integrated data expand coverage in previously under-sampled regions such as the East China Sea and the Southern Ocean, providing an enriched data foundation for future scientific discoveries. We release an interactive visualization platform to facilitate open scientific access. Our work demonstrates that expert-guided agents can effectively bridge the gap between general-purpose LLMs and high-stakes scientific domains, enabling scalable data discovery in geosciences.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="59913df8db78" data-article-url="https://arxiv.org/abs/2605.29986" data-article-title="トークンスペース圧縮による制約付きデコードの高速化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29986" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29986" target="_blank" rel="noopener">トークンスペース圧縮による制約付きデコードの高速化</a></h3>
      <p class="summary">LLM の出力が指定された構造に準拠していることを保証するために、文脈自由文法 (CFG) デコード エンジンは、指定された CFG に準拠する文字列を生成する次のトークンの選択を強制します。現在の CFG 制約付きデコード エンジンは高度に最適化されていますが、ステップごとの膨大な検索スペース (つまり、トークン語彙全体) から生じる固有のコストにより、より複雑な CFG では手に負えないほど高いオーバーヘッドが発生します。これはまさに CFG エンジンが最も役立つ状況です。このペーパーでは、トークン検索スペースを圧縮するためのオフライン技術である CFGzip を紹介します。これにより、CFG エンジンのオーバーヘッドが大幅に削減されます。実験では、CFGzip を SoTA 文法エンジンとともに使用すると、レイテンシーが最大 2 桁削減され、制約付き生成時間の合計が最大 7.5 倍高速化されることが報告されています。CFGzip を使用すると、複雑な CFG に対して大規模な制約付きデコードが実現可能になります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Accelerating Constrained Decoding with Token Space Compression</p>
        <p class="orig-summary">To guarantee that an LLM&#x27;s outputs conform to a specified structure, context-free grammar (CFG) decoding engines force the selection of next tokens that produce strings that conform to a given CFG. While current CFG-constrained decoding engines are highly optimized, the inherent costs arising from the massive per-step search space -- i.e. the entire token vocabulary -- result in intractably high overhead for more complex CFGs: precisely the situation where CFG engines are most useful. In this paper, we introduce CFGzip, an offline technique for compressing the token search space, which massively reduces CFG engine overhead. In experiments, we report latency reduction of up to two orders of magnitude when CFGzip is used with a SoTA grammar engine, yielding an up to 7.5x speedup in total constrained generation time: with CFGzip, constrained decoding is now feasible at scale for complex CFGs.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1c174e47c432" data-article-url="https://arxiv.org/abs/2605.30000" data-article-title="Cookie-Bench: Web 生成のための継続的なオンスクリーンキーインタラクション評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30000" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30000" target="_blank" rel="noopener">Cookie-Bench: Web 生成のための継続的なオンスクリーンキーインタラクション評価</a></h3>
      <p class="summary">フロントエンドの Web コードは、すべてのフロンティア LLM リリースの中核的な製品面となっていますが、アリーナのような人間が判断するリーダーボードは拡張できないため、これらのインタラクティブ アプリケーションを開発スピードで評価することは依然としてコストがかかります。既存の自動プロキシは通常、リファレンス実装、テスト スイート、または厳密なチェックリストに依存しており、人間のレビュー担当者がライブ セッションで実行する合理的な合成を見逃す傾向があります。私たちは、同時に参照フリーで、自律的に駆動され、総合的に推論される新しい評価体制を明確にし、2 つの成果物を通じてそれをインスタンス化します。 \textbf{\dataname} は、静的プレゼンテーション タスクと対話型アプリケーション タスクの両方にまたがる 11 ドメイン、54 リーフ、1,000 クエリの WebDev ベンチマークであり、3 つの難易度層と 3 つのターゲット言語グループにわたってバランスが取れており、回覧されたプロンプトから思い出せないようにブリーフが書き直されています。 \textbf{\framename} は、Flavell のメタ認知モニタリングに基づいており、証拠の蓄積と判断を 3 つの段階にわたって分離します。静的な知覚は受動的な観察から第一印象を形成します。エージェント駆動のインタラクションは、連続画面のビデオ、音声、およびステップごとのスクリーンショットをキャプチャしながら、アプリケーションを自律的に探索します。動的スコアリングは、証拠チェーンが完了した後にのみ、構造化された失敗の帰属を伴う全体的な機能性と美的判断を発行します。 \dataname では、\framename は専門家による評価と厳密に一致しており、インタラクティブな Web 生成に関して 13 のフロンティア LLM 全体でかなりのヘッドルームを表面化しています。 \noindenthttps://anonymous.4open.science/r/Cookie-3CE/</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Cookie-Bench: Continuous On-screen Key Interaction Evaluation for Web Generation</p>
        <p class="orig-summary">Front-end web code has become a core product surface for every frontier LLM release, yet evaluating these interactive applications at development speed remains costly because human-judged leaderboards like Arena do not scale. Existing automated proxies typically lean on reference implementations, test suites, or rigid checklists, and tend to miss the reasoned synthesis a human reviewer performs over a live session. We articulate a new evaluation regime that is simultaneously reference-free, autonomously driven, and holistically reasoned, and instantiate it through two artifacts. \textbf{\dataname} is an 11-domain, 54-leaf, 1,000-query WebDev benchmark spanning both static-presentation and interactive-application tasks, balanced across three difficulty tiers and three target-language groups, with briefs rewritten to resist recall from circulated prompts. \textbf{\framename}, grounded in Flavell&#x27;s metacognitive monitoring, separates evidence accumulation from judgment across three stages: Static Perception forms a first impression from passive observation; Agent-Driven Interaction explores the application autonomously while capturing continuous screen video, audio, and per-step screenshots; Dynamic Scoring issues holistic functionality and aesthetics verdicts with structured failure attribution only after the evidence chain is complete. On \dataname, \framename aligns closely with expert human ratings while surfacing substantial headroom across 13 frontier LLMs on interactive web generation. \noindenthttps://anonymous.4open.science/r/Cookie-3CE/</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d15a23889caa" data-article-url="https://arxiv.org/abs/2605.30002" data-article-title="KairosAgent: 融合されたセマンティック推論を使用したエージェント時系列予測" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30002" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30002" target="_blank" rel="noopener">KairosAgent: 融合されたセマンティック推論を使用したエージェント時系列予測</a></h3>
      <p class="summary">クロスドメインのマルチモーダル時系列予測は困難なタスクであり、正確な数値的理解、クロスドメインの意味論的理解、効果的なマルチモーダル融合を統合するモデルが必要です。既存のアプローチでは、Time Series Foundation Model (TSFM) を最初から構築するか、事前トレーニングされた Large Language Model (LLM) を活用します。しかし、TSFM は意味の理解を見逃していることが多く、未来志向の意味論的推論を実行する能力に欠けており、LLM は数値的な理解と正確な定量的予測に苦労しています。これらの制限を克服するために、LLM ベースの推論機能と TSFM ベースの予測機能を含む、マルチモーダル時系列予測のための新しいエージェント フレームワークである KairosAgent を提案します。 KairosAgent は、分析ツールを動的に呼び出してテキスト推論と数値予測を統合し、LLM の数値理解と意味論的推論機能を強化します。その後、推論の結果が TSFM パイプラインに融合され、より正確で信頼性の高い将来予測が可能になります。推論をさらに改善するために、マルチターンの改良とターンレベルの単位の割り当てを備えた予測パラダイムからの強化学習と並行して、高品質の軌道の大規模なコーパスを厳選しました。実験では、KairosAgent が事前トレーニングされた LLM と TSFM の有用性を最大化しながら優れたゼロショット予測パフォーマンスを達成することを実証し、効率的で解釈可能な時系列エージェントの有望な方向性を示しています。プロジェクト ページは https://foundation-model-research.github.io/KairosAgent にあります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">KairosAgent: Agentic Time Series Forecasting with Fused Semantic Reasoning</p>
        <p class="orig-summary">Cross-domain multimodal time series forecasting is a challenging task, requiring models to integrate precise numerical comprehension, cross-domain semantic understanding, and effective multimodal fusion. Existing approaches either build Time Series Foundation Models (TSFMs) from scratch or leverage pretrained Large Language Models (LLMs). However, TSFMs often overlook semantic understanding and lack the ability to perform future-oriented semantic reasoning, and LLMs struggle with numerical comprehension and accurate quantitative forecasting. To overcome these limitations, we propose KairosAgent, a novel agentic framework for multimodal time series forecasting, including an LLM-based reasoner and a TSFM-based forecaster. KairosAgent unifies textual reasoning and numerical forecasting by dynamically invoking analytical tools to enhance the numerical understanding and semantic reasoning capabilities of LLMs. The reasoning results are subsequently fused into the TSFM pipeline, enabling more accurate and reliable future predictions. To further improve the reasoning, we curate a large-scale corpus of high-quality trajectories, alongside a reinforcement learning from forecasting paradigm with multi-turn refinement and turn-level credit assignment. Experiments demonstrate that KairosAgent achieves superior zero-shot forecasting performance while maximizing the utility of pretrained LLMs and TSFMs, presenting a promising direction for efficient and interpretable time series agents. The project page is at https://foundation-model-research.github.io/KairosAgent .</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a61ce3a804e1" data-article-url="https://arxiv.org/abs/2605.30014" data-article-title="GPS ポイントから移動パターンまで: LLM による柔軟でセマンティックな軌道生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30014" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30014" target="_blank" rel="noopener">GPS ポイントから移動パターンまで: LLM による柔軟でセマンティックな軌道生成</a></h3>
      <p class="summary">都市の軌跡は、都市ダイナミクスをモデル化し、さまざまなスマート シティ アプリケーションをサポートする上で重要な役割を果たします。ただし、プライバシー上の懸念により、大規模で高品質の軌道データセットへのアクセスは制限されています。軌道生成は、現実的なデータを合成してプライバシー リスクを軽減する、有望な代替手段を提供します。しかし、既存の方法では移動パターンを明示的に捉えることができず、単一の条件下で固定長の軌道しか生成できません。これらの制限に対処するために、\textbf{HTP} を提案します。これは、GPS ポイントを直接生成するのではなく、\textbf{H} が最初に \textbf{T}ravel パターンを階層的に生成し、次に大規模言語モデル (LLM) を使用して GPS \textbf{P} ポイントを生成します。まず、ミクロレベルの GPS 軌道を粗いから細かい方法でコンパクトなマクロレベルの移動パターン トークンに量子化する、軌道固有の残差量子化変分オートエンコーダ (RQ-VAE) を設計します。これらのトークンは、交通状況によって引き起こされるポイント密度の変動など、リッチ セグメントの空間的不規則性をキャプチャします。次に、LLM ボキャブラリを移動パターン トークンで拡張して、軌道表現を LLM 入力と整合させ、教師あり微調整 (SFT) を適用して LLM を軌道生成タスクと整合させ、さまざまな条件下で移動パターン シーケンスを生成できるようにします。 2 つの現実世界のデータセットに対する広範な実験により、HTP は生成品質の点で最も強力なベースラインを平均 29.78\% 上回っていることが示されています。私たちのコードは https://github.com/slzhou-xy/HTP で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From GPS Points to Travel Patterns: Flexible and Semantic Trajectory Generation with LLMs</p>
        <p class="orig-summary">Urban trajectories play a crucial role in modeling urban dynamics and supporting various smart city applications. However, privacy concerns restrict access to large-scale and high-quality trajectory datasets. Trajectory generation provides a promising alternative by synthesizing realistic data to mitigate privacy risks. However, existing methods fail to explicitly capture travel patterns and can only generate fixed-length trajectories under a single condition. To address these limitations, we propose \textbf{HTP}, which \textbf{H}ierarchically generates \textbf{T}ravel patterns first and then generates GPS \textbf{P}oints by using large language models (LLMs), rather than directly generating GPS points. We first design a trajectory-specific residual quantization variational autoencoder (RQ-VAE) that quantizes micro-level GPS trajectories into compact, macro-level travel pattern tokens in a coarse-to-fine manner. These tokens capture rich segment spatial irregularities, such as point density variations caused by traffic conditions. Then, we extend the LLM vocabulary with travel pattern tokens to align trajectory representations with the LLM input, and apply supervised fine-tuning (SFT) to align the LLM with the trajectory generation task, enabling generation of travel pattern sequences under various conditions. Extensive experiments on two real-world datasets show that HTP outperforms the strongest baseline by an average of 29.78\% in terms of generation quality. Our code is available at https://github.com/slzhou-xy/HTP.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dbc7a880ddf0" data-article-url="https://arxiv.org/abs/2605.30029" data-article-title="RAISE: アーキテクチャ検索問題としての RAG 設計" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30029" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30029" target="_blank" rel="noopener">RAISE: アーキテクチャ検索問題としての RAG 設計</a></h3>
      <p class="summary">検索拡張生成 (RAG) システムでは、クエリの書き換え、チャンキング、検索の深さ、再ランキング、およびコンテキスト圧縮に及ぶ数多くの設計上の選択肢が明らかになります。実際には、これらの選択はヒューリスティックによって構成されることが多く、設定全体での体系的な評価と再現性が妨げられます。私たちは、この課題は RAG アーキテクチャの検索として定式化するのが最適であると主張します。この問題の制御された再現可能な研究をサポートするために、RAG ハイパーパラメータ最適化の包括的なフレームワークおよびベンチマークである RAG Intelligence Search Engine (RAISE) を導入します。これは、標準化された検索スペースと予算の下で RAG パイプラインの最適化方法を評価します。 RAISE は 13 の検索アルゴリズムを実装し、3 つのランダム シードを使用して 7 つのパブリック テキストおよびマルチモーダル データセットにわたってそれらを評価します。私たちの実験は、最適化のパフォーマンスがタスクに大きく依存することを示しています。つまり、あるデータセットで優れたパフォーマンスを発揮する手法が、他のデータセットでは一貫して一般化できない可能性があり、集計されたランキングを普遍的に優れた戦略の証拠として解釈することには注意が必要です。 RAISE は、RAG ハイパーパラメータの最適化に関する公正で再現性のある体系的な研究のための共通の実験基盤を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">RAISE: RAG Design as an Architecture Search Problem</p>
        <p class="orig-summary">Retrieval-augmented generation (RAG) systems expose numerous design choices spanning query rewriting, chunking, retrieval depth, reranking, and context compression. In practice, these choices are often configured through heuristics, hindering systematic evaluation and reproducibility across settings. We argue that this challenge is best formulated as RAG architecture search. To support controlled and reproducible study of this problem, we introduce the RAG Intelligence Search Engine (RAISE), a comprehensive framework and benchmark for RAG hyperparameter optimization, which evaluates optimization methods for RAG pipelines under standardized search spaces and budgets. RAISE implements 13 search algorithms and evaluates them across seven public text and multimodal datasets using three random seeds. Our experiments show that optimization performance is highly task-dependent: methods that perform strongly on one dataset may not generalize consistently across others, cautioning against interpreting aggregate rankings as evidence of universally superior strategies. RAISE provides a common experimental substrate for fair, reproducible, and systematic research on RAG hyperparameter optimization.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4cdd57de1820" data-article-url="https://arxiv.org/abs/2605.30036" data-article-title="機械に値を教える: LLM で人間のような動作をシミュレートする" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30036" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30036" target="_blank" rel="noopener">機械に値を教える: LLM で人間のような動作をシミュレートする</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、さまざまなペルソナや役割を採用する驚くべき能力を示しています。ただし、彼らが一貫した人間のような価値観に準拠した行動を示すことができるかどうかは依然として不明です。この研究では、確立された心理的価値理論を利用して、LLM に人間のような価値を誘導し、人間の研究で観察されたパターンとの整合性を評価します。私たちは、検証済みの心理学的アンケートを使用して、主要な LLM の価値観構造と価値観と行動の関係を評価し、人間と比較するために、500 万件を超える大規模な実験を実施しています。私たちの調査結果は、価値を重視する LLM と人間の間の両方の側面における強い一致を明らかにしています。さらに、人間の価値分布を組み込むことで、価値誘導 LLM による集団レベルのシミュレーションが強化されます。これらの発見は、人間の行動をシミュレートするための効果的で心理的に根拠のあるツールとしての価値誘導型 LLM の可能性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Teaching Values to Machines: Simulating Human-Like Behavior in LLMs</p>
        <p class="orig-summary">Large Language Models (LLMs) demonstrate a remarkable capacity to adopt different personas and roles; however, it remains unclear whether they can manifest behavior that adheres to a coherent, human-like value structure. In this work, we draw on established psychological value theory to induce human-like values in LLMs and assess their alignment with patterns observed in human studies. Using validated psychological questionnaires, we conduct large-scale experiments -- over 5 million questions -- to evaluate value structures and value-behavior relationships in leading LLMs and compare them to humans. Our findings reveal strong agreement between value-prompted LLMs and humans across both dimensions. Moreover, incorporating human value distributions enhances population-level simulations with value-induced LLMs. These findings highlight the potential of value-induced LLMs as effective, psychologically grounded tools for simulating human behavior.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7a20b53c6305" data-article-url="https://arxiv.org/abs/2605.30039" data-article-title="最小限の十分表現学習による LLM のドメイン固有のデータ合成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30039" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30039" target="_blank" rel="noopener">最小限の十分表現学習による LLM のドメイン固有のデータ合成</a></h3>
      <p class="summary">大規模言語モデルは汎用機能において目覚ましい進歩を示しており、ドメイン固有のデータを微調整することで特定のドメインで強力なパフォーマンスを達成できます。ただし、対象ドメインの高品質データを取得することは依然として大きな課題です。既存のデータ合成アプローチは演繹的パラダイムに従っており、自然言語で表現された明示的なドメイン記述と注意深くプロンプト エンジニアリングに大きく依存しており、ドメインを説明したり形式的に表現したりすることが難しい現実のシナリオへの適用性が制限されています。この研究では、帰納的パラダイムを通じてドメイン固有のデータ合成という未解明な問題に取り組みます。このパラダイムでは、特にドメインの特性を自然言語で表現することが難しい場合に、ターゲット ドメインが一連の参照例を通じてのみ定義されます。私たちは、参照サンプルから最小限の十分なドメイン表現を学習し、それを活用してドメインが調整された合成データの生成をガイドする新しいフレームワーク DOMINO を提案します。 DOMINO は、サンプル固有のノイズからドメインレベルのパターンを分離し、コアドメインの特性を維持しながらオーバーフィッティングを軽減するために、コントラストのもつれを解く目的とプロンプトチューニングを統合します。理論的には、DOMINO が合成データ配布のサポートを拡張し、より大きな多様性を確保することを証明します。経験的に、ドメイン定義が暗黙的である困難なコーディング ベンチマークでは、DOMINO によって合成されたデータを微調整すると、強力な命令調整されたバックボーンに比べて Pass@1 の精度が最大 4.63\% 向上し、その有効性と堅牢性が実証されました。この取り組みは、ドメイン固有のデータ合成のための新しいパラダイムを確立し、手動のプロンプト設計や自然言語ドメイン仕様を必要とせずに、実用的でスケーラブルなドメイン適応を可能にします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Domain-Specific Data Synthesis for LLMs via Minimal Sufficient Representation Learning</p>
        <p class="orig-summary">Large Language Models have demonstrated remarkable progress in general-purpose capabilities and can achieve strong performance in specific domains through fine-tuning on domain-specific data. However, acquiring high-quality data for target domains remains a significant challenge. Existing data synthesis approaches follow a deductive paradigm, heavily relying on explicit domain descriptions expressed in natural language and careful prompt engineering, limiting their applicability in real-world scenarios where domains are difficult to describe or formally articulate. In this work, we tackle the underexplored problem of domain-specific data synthesis through an inductive paradigm, where the target domain is defined only through a set of reference examples, particularly when domain characteristics are difficult to articulate in natural language. We propose a novel framework, DOMINO, that learns a minimal sufficient domain representation from reference samples and leverages it to guide the generation of domain-aligned synthetic data. DOMINO integrates prompt tuning with a contrastive disentanglement objective to separate domain-level patterns from sample-specific noise, mitigating overfitting while preserving core domain characteristics. Theoretically, we prove that DOMINO expands the support of the synthetic data distribution, ensuring greater diversity. Empirically, on challenging coding benchmarks where domain definitions are implicit, fine-tuning on data synthesized by DOMINO improves Pass@1 accuracy by up to 4.63\% over strong, instruction-tuned backbones, demonstrating its effectiveness and robustness. This work establishes a new paradigm for domain-specific data synthesis, enabling practical and scalable domain adaptation without manual prompt design or natural language domain specifications.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7edb3ae4cf83" data-article-url="https://arxiv.org/abs/2605.30042" data-article-title="選択の学習: 適応的な方法選択のためのセマンティック通信を備えたエンパワーメントに基づくマルチエージェント システム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30042" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30042" target="_blank" rel="noopener">選択の学習: 適応的な方法選択のためのセマンティック通信を備えたエンパワーメントに基づくマルチエージェント システム</a></h3>
      <p class="summary">科学技術計算のワークフローを自動化するには、実行可能コードを生成するだけでは不十分です。自律システムは、適切な計算戦略を選択し、忠実に実装し、結果として得られる結果が、その結果を生み出した意思決定に因果的に帰属することを保証する必要もあります。マルチエージェント パイプラインでは、このプロセスは特に脆弱です。エージェントの意図とアクションの間の小さな不一致がセマンティック ドリフトを引き起こす可能性があり、最終的に実行される手順が最初に選択された戦略を反映しなくなり、下流の評価と適応が損なわれます。この研究では、ATHENA フレームワーク (Toscano et al., 2025; Toscano et al., 2026) とエンパワーメントの概念 (Yiu et al., 2025) を動機として、コンテキスト バンディットと構造化されたエージェント間コミュニケーション、そして最も重要なことに、パイプライン全体でアクションと結果の忠実度を維持するセマンティック チェックポイントを組み合わせたマルチエージェント フレームワークを導入します。このシステムは、適応型意思決定アーキテクチャ内に、特殊なラージ言語モデル (LLM) エージェント、根拠のあるコード生成、自己修復実行ループを統合します。エンパワーメントのレンズを通してフレームワークを解釈すると、信頼性の高い自律学習には、高品質のアクションを特定するだけでなく、エージェント全体への伝播の完全性を維持することも必要であることがわかります。代表的なケーススタディとして感度分析と不確実性の定量化ワークフローを使用して、チェックされていないセマンティックドリフトが政策学習を低下させるのに対し、提案されたフレームワークは収束性、堅牢性、および新しい問題コンテキストへの適応を向上させることを実証します。これらの結果は、科学マルチエージェント システムのより広範な設計原則を示唆しています。つまり、適応的な意思決定は、意味の一貫性と計算パイプライン全体にわたる信頼性の高い情報フローを保証する明示的なメカニズムと組み合わせる必要があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Learning to Choose: An Empowerment-Guided Multi-Agent System with semantic communication for Adaptive Method Selection</p>
        <p class="orig-summary">Automating scientific computing workflows requires more than generating executable code: autonomous systems must also select appropriate computational strategies, implement them faithfully, and ensure that the resulting outcomes remain causally attributable to the decisions that produced them. In multi-agent pipelines, this process is particularly fragile, as small inconsistencies between agent intentions and actions can lead to semantic drift, where the eventually executed procedure no longer reflects the originally selected strategy, thereby corrupting downstream evaluation and adaptation. In this work, motivated by the ATHENA framework (Toscano et al., 2025; Toscano et al., 2026) and the concept of empowerment (Yiu et al., 2025), we introduce a multi-agent framework that combines contextual bandits with structured inter-agent communication and, most importantly, semantic checkpoints that preserve action-outcome fidelity throughout the pipeline. The system integrates specialized large language model (LLM) agents, grounded code generation, and self-healing execution loops within an adaptive decision-making architecture. Interpreting the framework through the lens of empowerment, we show that reliable autonomous learning requires not only identifying high-quality actions, but also preserving the integrity of their propagation across agents. Using sensitivity analysis and uncertainty quantification workflows as representative case studies, we demonstrate that unchecked semantic drift degrades policy learning, whereas the proposed framework improves convergence, robustness, and adaptation to novel problem contexts. These results suggest a broader design principle for scientific multi-agent systems: adaptive decision-making must be coupled with explicit mechanisms that guarantee semantic consistency and reliable information flow across the computational pipeline.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="668c20f6e2b6" data-article-url="https://arxiv.org/abs/2605.30049" data-article-title="テキストから画像への拡散変換のための堅牢かつ一般化可能な安全ステアリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30049" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30049" target="_blank" rel="noopener">テキストから画像への拡散変換のための堅牢かつ一般化可能な安全ステアリング</a></h3>
      <p class="summary">拡散トランスフォーマーはテキストから画像への生成の強力なバックボーンとなっていますが、その階層化されたクロスモーダル生成プロセスにより、安全制御はプロンプトレベルのフィルタリングや出力レベルの検出とは根本的に異なります。有害なセマンティクスは、テキスト表現では弱く表現され、徐々に視覚的な潜在力と結びつき、最終的にはレンダリング ダイナミクスと絡み合う可能性があります。その結果、固定層での安全ステアリングが不安定になる可能性があり、既知のリスクから学習したステアリングメカニズムが、シフトされたターゲットリスクドメインに確実に移行しない可能性があります。我々は、DiT 安全適応を位置認識の疎な特徴転送として定式化する安全ステアリング フレームワークである SafeDIG を提案します。 SafeDIG はまず、機能的に異なる DiT 介入位置にスパース オートエンコーダを構築し、ロバスト性を意識した事前トレーニング ルーティングを使用して、ソースとターゲットのリスク シフトの下でも安定を維持すると予想される介入部位を優先します。次に、SAE エンコーダを再利用可能なスパース安全ディクショナリとしてフリーズし、デコーダのみをターゲット ドメインのアクティベーション マニホールドに適応させることで、転送可能な安全機能をドメイン固有のアクティベーション ジオメトリから分離します。推論中、SafeDIG はブレンド操作と反発操作を組み合わせて、安全でないアクティベーションを転送された安全マニホールドに向けて誘導するか、有害なまばらな方向から遠ざけます。 FLUX.1 Dev と Stable Diffusion 3.5 Large の実​​験では、SafeDIG がソース ドメインの安全性と画質を維持しながら、ターゲット ドメインと全体的な安全でない生成率を一貫して削減することが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Robust and Generalizable Safety Steering for Text-to-Image Diffusion Transformers</p>
        <p class="orig-summary">Diffusion Transformers have become a powerful backbone for text-to-image generation, but their layered and cross-modal generation process makes safety control fundamentally different from prompt-level filtering or output-level detection. Harmful semantics may be weakly expressed in text representations, progressively bound to visual latents, and finally entangled with rendering dynamics. As a result, safety steering at a fixed layer can be unstable, and a steering mechanism learned from known risks may not transfer reliably to a shifted target risk domain. We propose SafeDIG, a safety steering framework that formulates DiT safety adaptation as position-aware sparse feature transfer. SafeDIG first constructs Sparse Autoencoders over functionally distinct DiT intervention positions and uses robustness-aware pre-training routing to prioritize intervention sites that are expected to remain stable under source-target risk shift. It then separates transferable safety features from domain-specific activation geometry by freezing the SAE encoder as a reusable sparse safety dictionary and adapting only the decoder to the target-domain activation manifold. During inference, SafeDIG combines Blend and Repel operations to steer unsafe activations toward transferred safety manifolds or away from harmful sparse directions. Experiments on FLUX.1 Dev and Stable Diffusion 3.5 Large show that SafeDIG consistently reduces target-domain and overall unsafe generation rates while preserving source-domain safety and image quality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2496efc85743" data-article-url="https://arxiv.org/abs/2605.30085" data-article-title="推論トレースプレフィックスの正式な認証" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30085" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30085" target="_blank" rel="noopener">推論トレースプレフィックスの正式な認証</a></h3>
      <p class="summary">言語モデル推論トレースが全か無であることはほとんどありません。多くの場合、重大なエラーが発生する前の有効な中間ステップが含まれています。既存の不確実性を定量化する方法は、通常、最終的な回答または全体的な回答を証明するものであり、安全に保持できる連続したトレースの割合について統計的な保証を提供できません。これに対処するために、クリーン プレフィックス認証のための検証者に依存しない校正手順である CROP (Conformal Reasoning Output Prefixes) を導入します。ステップレベルのリスクプロキシが与えられると、CROP は調整済みのしきい値を選択し、ステップリスクプロキシがその下に残る最長の連続プレフィックスを返し、未認定のサフィックスを下流のレビューまたは修復のためにルーティングします。 CROP は交換可能性を前提として、返されるプレフィックスに注釈付きエラーが含まれる限界確率を厳密に制御します。 6 つのプロセスラベル付き推論データセットにわたって、AUROC などの標準的なステップレベルのメトリクスがプレフィックスの有用性を完全には捉えていないことを実証し、検証者は代わりに認定されたプレフィックス長によって評価されるべきであることを示唆しています。さらに、CROP は過大な源泉徴収と過小な源泉徴収のバランスをとり、誤解を招く接尾辞を破棄しながら有効な中間推論を保持することで下流の修復精度を向上させます。最終的に、この取り組みは、プレフィックス認証を、プロセスの監督、棄権、修復の間の厳格で実用的な橋渡しとして位置付けています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Conformal Certification of Reasoning Trace Prefixes</p>
        <p class="orig-summary">Language model reasoning traces are rarely all-or-nothing; they frequently contain valid intermediate steps before a critical error occurs. Existing uncertainty quantification methods typically certify final answers or entire responses, failing to provide statistical guarantees for the proportion of a sequential trace that can be safely retained. To address this, we introduce CROP (Conformal Reasoning Output Prefixes), a verifier-agnostic calibration procedure for clean-prefix certification. Given any step-level risk proxy, CROP selects a calibrated threshold and returns the longest contiguous prefix whose step risk proxies remain below it, routing the uncertified suffix for downstream review or repair. Assuming exchangeability, CROP rigorously controls the marginal probability that the returned prefix contains an annotated error. Across six process-labeled reasoning datasets, we demonstrate that standard step-level metrics such as AUROC do not fully capture prefix utility, suggesting verifiers should instead be evaluated by certified prefix length. Furthermore, CROP balances over- and under-withholding, improving downstream repair accuracy by preserving valid intermediate reasoning while discarding misleading suffixes. Ultimately, this work positions prefix certification as a rigorous, practical bridge between process supervision, abstention, and repair.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9e748c20f57b" data-article-url="https://arxiv.org/abs/2605.30087" data-article-title="矛盾する複数ソースの個人記憶に対する選択的 QA: 診断テストベッドと手法の比較" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30087" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30087" target="_blank" rel="noopener">矛盾する複数ソースの個人記憶に対する選択的 QA: 診断テストベッドと手法の比較</a></h3>
      <p class="summary">新興のパーソナル AI エージェントは、永続的なマルチソース メモリに移行しています。これにより、評価上の問題が生じます。システムは、矛盾する証拠や不完全な証拠をどのように使用するかを決定する必要があります。 1 つのきれいな歴史から事実を引き出すことはできません。既存のベンチマークでは、エラーがメソッドに与えられた証拠に起因するのか、メソッドの競合解決ステップに起因するのかを示すことはほとんどありません。私たちはこれを、矛盾する複数ソースの個人記憶に対する選択的 QA として研究しています。システムは、矛盾する、場合によっては不完全なソースに基づいて回答するか、証拠が不十分な場合は棄権します。 8 つの推論タイプにわたる 18 の質問テンプレート、480 のペルソナ、4 つのランダム シード、および 34,560 のインスタンスを含むベンチマークを、制御されたソースの歪みと決定論的なグラウンド トゥルースを使用して開発しました。ソースへのアクセスなし、単一ソースへのアクセス、構造化融合手法、およびフロンティア LLM のベースラインのパフォーマンスを評価します。最もよく訓練されたフュージョン リゾルバーの精度は 80.3% に達し、最も強力なプロンプトのみの LLM ベースラインは 70.0% に達します。棄権すると、同じリゾルバはカバレッジ 78.3% で選択精度 85.3% に達し、最良の LLM はカバレッジ 95.4% で選択精度 71.0% に達します。モデルが異なれば、推論タイプごとに異なる強みがあります。データ、コード、キャッシュされたモデル出力、およびデータ生成プロセスを再利用のためにリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Selective QA over Conflicting Multi-Source Personal Memory: A Diagnostic Testbed and Method Comparison</p>
        <p class="orig-summary">Emerging personal AI agents are moving toward persistent, multi-source memory. This creates an evaluation problem: systems must decide how to use conflicting or incomplete evidence; they cannot just retrieve facts from one clean history. Existing benchmarks rarely show whether an error came from the evidence given to a method or from the method&#x27;s conflict-resolution step. We study this as selective QA over conflicting multi-source personal memory: systems answer based on conflicting, sometimes incomplete sources, or abstain when evidence is insufficient. We develop a benchmark containing 18 question templates across 8 reasoning types, 480 personas, 4 random seeds, and 34,560 instances, with controlled source distortions and deterministic ground truth. We evaluate the performance of baselines without access to any source, access to a single source, structured fusion methods, and frontier LLMs. The best trained fusion resolver reaches 80.3% accuracy, while the strongest prompt-only LLM baseline reaches 70.0%. With abstention, the same resolver reaches 85.3% selective accuracy at 78.3% coverage and the best LLM reaches 71.0% selective accuracy at 95.4% coverage. Different models have different strengths across reasoning types. We release the data, code, cached model outputs, and data-generating process for reuse.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="795c4126792b" data-article-url="https://arxiv.org/abs/2605.30094" data-article-title="ポーカースキル: LLM はトレーニングやソルバーなしでエキスパート レベルのポーカーをプレイできます" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30094" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30094" target="_blank" rel="noopener">ポーカースキル: LLM はトレーニングやソルバーなしでエキスパート レベルのポーカーをプレイできます</a></h3>
      <p class="summary">ポーカーは人工知能にとって画期的な挑戦です。主流のアプローチは、反事実的後悔の最小化に基づいて構築された均衡ソルバーに依存しており、何百万ものコア時間のトレーニングが必要です。大規模言語モデル (LLM) はポーカーに関する広範な知識を備えていますが、直接プレイするよう求められた場合、ソルバーベースのエージェントよりもはるかに低いパフォーマンスを発揮します。従来のルールベースのポーカー エージェントは解釈可能でトレーニング不要ですが、その戦略的上限は依然として均衡プレイをはるかに下回っています。私たちは \textbf{PokerSkill} を導入します。これはトレーニング不要でソルバー不要のフレームワークであり、LLM の構造化されたアクション基礎インターフェイスとして詳細なルールベースのポーカー スキルを使用することで、このギャップを埋めることができます。決定論的コンテキスト エンジンは現在の状態を分析し、人間のポーカー専門家によって完全に設計された階層化スキル ライブラリから関連するフラグメントのみを取得し、LLM の選択を合理的なアクションに制限します。最先端の GTO ベンチマークである GTOWizard に対して、PokerSkill を使用した GPT-5.5 XHigh は $-57 \pm 21$ mbb/ハンドを達成し、Claude Opus 4.6 は $-80 \pm 29$ mbb/ハンドを達成し、Claude Opus 4.7 は $-87\pm 64$ mbb/ハンドを達成し、損失を 49 ～ 61\% 削減しました。デフォルトのプロンプトベースラインを備えており、強力なボットである Slumbot を上回っています。私たちの重要な発見は、ルールベースのスキルだけでは強力な戦略を構成せず、LLM だけではうまく機能できないが、それらを組み合わせることで、トレーニングもソルバーへのアクセスも必要とせず、しかも数百万コア時間の計算で構築されたシステムと競合できるエージェントが得られるということです。私たちの知る限り、これは、ゲーム固有のトレーニングやソルバー クエリを使用せずに、複雑な不完全情報ゲームで競争力のあるパフォーマンスを達成する LLM の最初のデモンストレーションです。コードは https://github.com/lbn187/PokerSkill で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PokerSkill: LLMs Can Play Expert-Level Poker without Training or Solvers</p>
        <p class="orig-summary">Poker is a landmark challenge for artificial intelligence. The dominant approach relies on equilibrium solvers built on counterfactual regret minimization, requiring millions of core-hours of training. Large Language Models (LLMs) possess extensive poker knowledge but perform far below solver-based agents when asked to play directly. Traditional rule-based poker agents are interpretable and training-free, but their strategic ceiling remains far below equilibrium play. We introduce \textbf{PokerSkill}, a training-free and solver-free framework that bridges this gap by using detailed rule-based poker skills as a structured action-grounding interface for LLMs. A deterministic context engine analyzes the current state and retrieves only the relevant fragments from a layered skill library, which is entirely designed by human poker experts, constraining the LLM&#x27;s choice to reasonable actions. Against GTOWizard, a state-of-the-art GTO benchmark, GPT-5.5 XHigh with PokerSkill achieves $-57 \pm 21$ mbb/hand, Claude Opus 4.6 achieves $-80 \pm 29$ mbb/hand and Claude Opus 4.7 achieves $-87\pm 64$ mbb/hand, reducing losses by 49--61\% compared to default-prompt baselines and outperforming the strong bot Slumbot. Our key finding is that rule-based skills alone do not constitute a strong strategy, and LLMs alone cannot play well, but their combination yields an agent that requires neither training nor solver access yet competes with systems built on millions of core-hours of computation. To our knowledge, this is the first demonstration of an LLM achieving competitive performance in a complex imperfect-information game without game-specific training or solver queries. Code is available at https://github.com/lbn187/PokerSkill.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d083a665f4f3" data-article-url="https://arxiv.org/abs/2605.30117" data-article-title="VLA-Trace: 表現と行動のトレースによる視覚-言語-行動モデルの診断" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30117" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30117" target="_blank" rel="noopener">VLA-Trace: 表現と行動のトレースによる視覚-言語-行動モデルの診断</a></h3>
      <p class="summary">Vision-Language-Action (VLA) モデルがマルチモーダルな知識を具体化された制御にどのように変換するかを理解することは、依然として未解決の課題です。我々は、表現力学から因果関係の帰属と行動発現に至るまでの統一された証拠チェーンを通じて VLA モデルを分析する進歩的な診断フレームワークである VLA-Trace を紹介します。具体的には、表現の進化を追跡するためのクロスモーダルおよびチェックポイントドリフト中心のカーネル アライメント (CKA)、モダリティ固有の制御経路を特定するための注意ノックアウト介入、グラウンディング、ショートカット依存性、およびセマンティック フォローを調査するためのロールアウト レベルの行動プローブを組み合わせています。 $\pi_{0.5}$ と OpenVLA の実験により、3 つの重要な発見が明らかになりました。まず、2 つのモデルは、VLA 微調整中に異なるモダリティ固有の適応ダイナミクスを示します。第 2 に、アクションのデコード中に、さまざまなマルチモーダル ルーティング戦略と層ごとの依存関係に依存します。第三に、VLA ポリシーは視覚的に根拠のある軌道の生成には優れていますが、きめの細かいセマンティックの追跡には依然として限界があります。これらの発見は、表現保存適応、因果的 VLA 回路、および構成的意味制御の将来の方向性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">VLA-Trace: Diagnosing Vision-Language-Action Models through Representation and Behavior Tracing</p>
        <p class="orig-summary">Understanding how Vision-Language-Action (VLA) models transform multimodal knowledge into embodied control remains an open challenge. We present VLA-Trace, a progressive diagnostic framework that analyzes VLA models through a unified evidence chain from representation dynamics to causal control attribution and behavioral manifestation. It specifically combines cross-modal and checkpoint-drift centered kernel alignment (CKA) to trace representation evolution, attention knockout interventions to identify modality-specific control pathways, and rollout-level behavioral probes to examine grounding, shortcut dependence, and semantic following. Experiments on $\pi_{0.5}$ and OpenVLA reveal three key findings. First, the two models exhibit distinct modality-specific adaptation dynamics during VLA finetuning. Second, they rely on different multimodal routing strategies and layer-wise dependencies during action decoding. Third, although VLA policies excel at visually grounded trajectory generation, they remain limited in fine-grained semantic following. These findings highlight future directions for representation-preserving adaptation, causal VLA circuits, and compositional semantic control.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fba44c51fc8a" data-article-url="https://arxiv.org/abs/2605.30136" data-article-title="コンテキスト関連性による注意ステアリングによるマルチエージェントのコミュニケーションの強化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30136" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30136" target="_blank" rel="noopener">コンテキスト関連性による注意ステアリングによるマルチエージェントのコミュニケーションの強化</a></h3>
      <p class="summary">LLM ベースのマルチエージェント システムは、協調的な推論を通じて複雑なタスクで優れたパフォーマンスを実証しました。ただし、これらのシステムは、対話中に非常に長い会話履歴を急速に蓄積する傾向があります。会話が長くなるにつれて、関連性のある情報が無関係なコンテキストによってますます希薄になり、パフォーマンスの低下につながります。この研究では、新しい時間的および空間的減衰メカニズムを使用して、各エージェントの注意を関連するコンテキストに動的に向ける、トレーニング不要のコンテキスト管理手法である Agent-Radar を紹介します。私たちの実験では、Agent-Radar が 5 つの異なるベンチマークにわたって最先端の手法を上回り、最大 7.64 絶対ポイントのゲインが得られることが実証されました。さらに、私たちの分析は、エージェントと対話ラウンドの数が増加しても、エージェントレーダーが引き続き効果的で堅牢であることを示しています。最後に、アブレーション研究は、Agent-Radar のコア コンポーネントがパフォーマンスにとって重要であり、さまざまな設定で汎用化できることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Enhancing Multi-Agent Communication through Attention Steering with Context Relevance</p>
        <p class="orig-summary">LLM-based multi-agent systems have demonstrated remarkable performance on complex tasks through collaborative reasoning. However, these systems tend to rapidly accumulate extremely long conversation histories during interaction. As conversations lengthen, relevant information is increasingly diluted by irrelevant context, leading to degraded performance. In this work, we present Agent-Radar, a training-free context management method that dynamically steers each agent&#x27;s attention toward relevant context with a novel temporal and spatial decay mechanism. Our experiments demonstrate that Agent-Radar outperforms state-of-the-art methods across five different benchmarks, yielding gains of up to 7.64 absolute points. Furthermore, our analysis shows that Agent-Radar remains effective and robust as the number of agents and interaction rounds increases. Finally, the ablation study shows that core components in Agent-Radar are crucial to performance and generalizable in different settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="172d55e3d297" data-article-url="https://arxiv.org/abs/2605.30144" data-article-title="AgentSchool: LLM を利用した教育用マルチエージェント シミュレーション" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30144" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30144" target="_blank" rel="noopener">AgentSchool: LLM を利用した教育用マルチエージェント シミュレーション</a></h3>
      <p class="summary">LLM の教室への導入が急速に進んでいるにもかかわらず、教育 AI の検証は依然として独特の扱いが難しいものです。介入は、認知的および社会的軌道が不可逆的に形成される学習者の成長に影響を及ぼしますが、現実世界の試験は時間がかかり、倫理的に制約され、制度的にロックされています。 LLM ベースの教育シミュレーターが潜在的な救済策として浮上していますが、多くは依然として学習を個人に条件付けされたロールプレイに崩壊させており、既存の教室を再現するためだけに最適化された場合、教育改革に必要な制度上の新規性が構造的に不利になる可能性があります。この作業では、プロンプトによる動作ではなく状態遷移として学習をモデル化する、LLM 駆動のマルチエージェント シミュレーターである AgentSchool を紹介します。 AgentSchool は、重み付けされた教科知識グラフ、思考ワークフロー プール、明示的な誤解を備えた認知的に成長可能な学生エージェントと、近接発達ゾーンに沿って計画、足場を築き、反映する適応型教師エージェントを組み合わせます。適応型教師エージェントは、公式および非公式の両方の学習フィールド内で指導を位置付ける構成可能なシーナリー ジェネレーターに埋め込まれており、インタラクション スケール、時間的粒度、およびシミュレーション期間を分離するマルチスケール シミュレーターです。実験によれば、構造化された学生エージェントは、ベースラインシミュレータよりもより差別化された習熟と誤解の痕跡を生成する一方、教師とエージェントの比較では、ZPD情報に基づいた適応と一致するバックボーン依存のパターンが示されています。さらに、AgentSchool は、教室の社会理論と一致する、周辺参加、派閥の形成、攻撃者による結束、オピニオンリーダーの出現のもっともらしい痕跡を生成します。 AgentSchool は、教育研究手段としての役割を超えて、長期記憶、マルチエージェントの調整、組織の圧力下での将来の制度的推論のための社会的に有意義なテストベッドとして教育を組み立てています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AgentSchool: An LLM-Powered Multi-Agent Simulation for Education</p>
        <p class="orig-summary">Despite the rapid deployment of LLMs into classrooms, validating educational AI remains uniquely intractable: interventions act on developing learners whose cognitive and social trajectories are irreversibly shaped, while real-world trials are slow, ethically constrained, and institutionally locked. LLM-based educational simulators have emerged as a potential remedy, but many still collapse learning into persona-conditioned role-play and, when optimized only to reproduce existing classrooms, can structurally penalize the institutional novelty that pedagogical reform requires. In this work, we introduce AgentSchool, an LLM-driven multi-agent simulator that models learning as state transition rather than prompted behavior. AgentSchool couples cognitively growable student agents -- equipped with weighted subject knowledge graphs, thinking-workflow pools, and explicit misconceptions -- with adaptive teacher agents that plan, scaffold, and reflect along the Zone of Proximal Development, embedded in a configurable scenery generator that situates instruction within both formal and informal learning fields, and a multi-scale simulator that decouples interaction scale, temporal granularity, and simulation duration. Experiments show that structured student agents produce more differentiated mastery and misconception traces than a baseline simulator, while teacher-agent comparisons show backbone-dependent patterns consistent with ZPD-informed adaptation. Further, AgentSchool generates plausible traces of peripheral participation, clique formation, aggressor-induced cohesion, and opinion-leader emergence consistent with classroom social theories. Beyond its role as an educational research instrument, AgentSchool frames education as a socially meaningful testbed for long-horizon memory, multi-agent coordination, and future institutional reasoning under organizational pressure.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="32829ea64474" data-article-url="https://arxiv.org/abs/2605.30150" data-article-title="並列 LLM アイデアのためのアンカーレス多様化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30150" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30150" target="_blank" rel="noopener">並列 LLM アイデアのためのアンカーレス多様化</a></h3>
      <p class="summary">LLM は、広範な探索が重要な創造的なタスクのための候補アイデア プールを生成するために使用されることが増えています。この設定では、品質とコスト効率を維持しながらプールを拡大できる並列推論が魅力的です。私たちは候補者プールの多様化のための推論時間制御を研究し、アンカーレス手法が観察されたシードアイデアに依存する手法に匹敵するかどうかを検討します。 3 つのクリエイティブ タスク ファミリにわたって、中立および母集団参照の発散命令の下で、独立した生成と意味論的方向の層別化を、自己、ピア、および代表アンカー ベースラインと比較します。集団参照の相違は強力で低コストのベースラインであり、品質のプロキシを維持しながら意味論的な多様性を高めます。セマンティック方向の層別化が強化されています。単一のプランニング コールで幅広いセマンティック方向にわたって世代が編成され、最高の多様性、品質、コンピューティング フロンティアが得られます。アンカー再生成は、最終プールの多様性においては強力ですが、フルパイプラインのトークン アカウンティングではその利点が縮小します。これらの結果は、オープンエンドの LLM アイデアの実用的なアンカーレス ベースラインを確立します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Anchorless Diversification for Parallel LLM Ideation</p>
        <p class="orig-summary">LLMs are increasingly used to generate candidate-idea pools for creative tasks where broad exploration is valuable. Parallel inference can be attractive in this setting when it broadens the pool while retaining quality and cost efficiency. We study inference-time controls for candidate-pool diversification, asking whether anchorless methods can rival methods that depend on observed seed ideas. Across three creative task families, we compare independent generation and semantic direction stratification with self-, peer-, and representative-anchor baselines, under neutral and population-referential divergent instructions. Population-referential divergence is a strong low-cost baseline, increasing semantic diversity while preserving quality proxies. Semantic direction stratification is stronger: a single planning call organizes generations across broad semantic directions, yielding the best diversity--quality--compute frontier. Anchored regeneration can be strong in final-pool diversity, but its advantage shrinks under full-pipeline token accounting. These results establish practical anchorless baselines for open-ended LLM ideation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9775936b223e" data-article-url="https://arxiv.org/abs/2605.30151" data-article-title="数学タスクの評価における時間的安定性と少数のプロンプト" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30151" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30151" target="_blank" rel="noopener">数学タスクの評価における時間的安定性と少数のプロンプト</a></h3>
      <p class="summary">AI ツールが教育現場にますます統合されるにつれて、その長期にわたる安定性と、迅速なエンジニアリング技術に対する応答性の両方について疑問が生じます。この縦断的研究は、タスク分析ガイド (TAG; Stein \&amp; Smith、1998) を使用して数学タスクの認知要求を分類するさまざまな AI ツールの機能に焦点を当てました。特に、この分類能力が、(1) 時間の経過に伴うモデル バージョンの更新、および (2) サンプル タスクを使用した少数ショット プロンプトによって変化するかどうかを調べました。汎用 AI ツール (Gemini) と教育特化型 AI ツール (Coteach) をテストしました。特定のツールが選択されたのは、関連する公開されたベンチマークと以前のタスク固有のテストで比較的高いパフォーマンスが得られたためです。モデルはベースラインでテストされ、モデルのバージョン更新で再テストされ、その後、少数ショット プロンプト (認知要求カテゴリごとに 2 つの模範タスク) を使用して再度テストされました。結果から、新しいモデル バージョンだけではさまざまな影響が生じることが明らかになりました。Gemini の精度は 58\% で安定していましたが、Coteach の精度は 75\% から 50\% に低下しました。ただし、少数ショット プロンプトにより両方のモデルのパフォーマンスが向上しました。Gemini の精度は 67\% に向上し、Coteach の精度は 75\% に回復しました。これらの発見は、迅速なエンジニアリング手法が受動的モデルの改善よりも大きく信頼性の高い効果をもたらす可能性があること、およびバージョンの更新が専門的な教育タスクのパフォーマンスを必ずしも向上させるとは限らないことを示しています。この研究は、教育者や研究者が教育現場で AI ツールの選択、評価、実装にどのようにアプローチすべきかについて重要な意味を持ちます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Temporal Stability and Few-Shot Prompting in Math Task Assessment</p>
        <p class="orig-summary">As AI tools become increasingly integrated into educational contexts, questions arise about both their stability over time and their responsiveness to prompt engineering techniques. This longitudinal study focused on different AI tools&#x27; ability to use the Task Analysis Guide (TAG; Stein \&amp; Smith, 1998) to classify the cognitive demand of mathematics tasks. In particular, it examined whether this classification ability changed with (1) model version updates over time and (2) few-shot prompting using exemplar tasks. We tested a general-purpose AI tool (Gemini) and an education-specific AI tool (Coteach). The specific tools were selected because of their relatively high performance on relevant published benchmarks and prior task-specific tests. Models were tested at baseline, retested with model version updates, and then tested again using few-shot prompting (two exemplar tasks for each cognitive demand category). Results revealed that newer model versions alone produced mixed effects: Gemini&#x27;s accuracy remained stable at 58\%, while Coteach&#x27;s accuracy decreased from 75\% to 50\%. However, few-shot prompting improved both models&#x27; performance: Gemini increased to 67\% and Coteach recovered to 75\% accuracy. These findings demonstrate that prompt engineering techniques can have larger and more reliable effects than passive model improvements, and that version updates may not always improve performance on specialized educational tasks. The study has important implications for how educators and researchers should approach AI tool selection, evaluation, and implementation in educational contexts.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2aced33924ad" data-article-url="https://arxiv.org/abs/2605.30159" data-article-title="Long-Horizo​​n LLM エージェント向けのメタ認知メモリ ポリシーの最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30159" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30159" target="_blank" rel="noopener">Long-Horizo​​n LLM エージェント向けのメタ認知メモリ ポリシーの最適化</a></h3>
      <p class="summary">メモリ拡張 LLM エージェントは、インタラクションの軌跡をコンパクトなメモリに再帰的に要約することで、複雑な長期タスクに取り組みます。ただし、既存のアプローチは通常、結果ベースの強化学習を使用してこれらの記憶ポリシーをトレーニングするため、中間の記憶品質が低下する場所を特定できません。インタラクションが展開されるにつれて、曖昧な再帰的要約はタスク関連の情報を徐々に破棄し、意味論的なノイズを導入します。これは信念の逸脱を悪化させ、潜在的なタスク状態のエージェントの推定を曖昧にし、最終的には長期的な推論を狂わせます。したがって、記憶の最適化は単に軌跡レベルの成功だけではなく、中間的な要約によって引き起こされる信念の明瞭さに焦点を当てる必要があると主張します。この目的を達成するために、現在のメモリを考慮した潜在的なタスクの状態についてモデルがどの程度不確実性を保っているかを調査する自己教師ありプロキシである信念エントロピーを導入します。このプロキシに基づいて、メタ認知メモリ ポリシー最適化 (MMPO) を提案します。 MMPO は、まばらな結果ベースの信号のみに依存するのではなく、高い認識論的不確実性を引き起こす明示的にペナルティを課す要約を通じて、きめの細かいメモリ固有の監視を提供します。実験の結果、MMPO は長期にわたる多様なタスクにおいて既存の手法を常に上回っており、175 万トークンのコンテキストに拡張した場合でも 97.1% のパフォーマンスを維持することが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents</p>
        <p class="orig-summary">Memory-augmented LLM agents tackle complex long-horizon tasks by recursively summarizing interaction trajectories into compact memory. However, existing approaches typically train these memory policies using outcome-based reinforcement learning, failing to localize where intermediate memory quality degrades. As interactions unfold, ambiguous recursive summaries progressively discard task-relevant information and introduce semantic noise. This exacerbates belief deviation, obscuring the agent&#x27;s estimate of the latent task state and ultimately derailing long-horizon reasoning. We therefore argue that memory optimization should focus not merely on trajectory-level success, but on the clarity of the belief induced by intermediate summaries. To this end, we introduce Belief Entropy, a self-supervised proxy that probes how uncertain the model remains about the latent task state given its current memory. Based on this proxy, we propose Metacognitive Memory Policy Optimization (MMPO). Instead of relying only on sparse outcome-based signals, MMPO provides fine-grained, memory-specific supervision via explicitly penalizing summaries that induce high epistemic uncertainty. Experiments show that MMPO consistently outperforms existing methods on diverse long-horizon tasks, maintaining 97.1% performance even when scaled to 1.75M-token contexts.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e10bc4d68e65" data-article-url="https://arxiv.org/abs/2605.30162" data-article-title="BioRefusalAudit: 一般およびドメイン微調整されたスパース オートエンコーダーを使用したバイオセキュリティ拒否の深さの監査" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30162" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30162" target="_blank" rel="noopener">BioRefusalAudit: 一般およびドメイン微調整されたスパース オートエンコーダーを使用したバイオセキュリティ拒否の深さの監査</a></h3>
      <p class="summary">言語モデルのバイオセキュリティ評価では通常、モデルが危険な出力を生成するかどうかが問われます。この論文は補足的な質問をします。モデルが拒否した場合、その拒否は構造的に正しいのでしょうか、それともフレーミング、フォーマット、または出力長を促すための適度な変更で消えるのでしょうか? 5 つのアーキテクチャにわたって、無害性と危険性を明確に区別したモデルはありませんでした。 Gemma 2 2B-IT は、75 件のプロンプトにわたって真に拒否することはなく、危険に隣接するすべてのクエリを回避しました。 Gemma 4 E2B-IT は、チャット テンプレート形式を使用した場合は 65/75 件のプロンプトを拒否し、チャット テンプレート形式を使用しない場合は 0/75 件のプロンプトを拒否しました。両方の Gemma モデルは、80 トークンの上限の下で 0% に崩壊しました。 Qwen 2.5 1.5B と Phi-3-mini は過剰に拒否され、良性生物学の 83 ～ 87% が危険であると警告されました。 Llama 3.2 1B は唯一の意味のある Tier 勾配 (61 ポイントの広がり) を示しました。何がそのような過剰な拒否を引き起こすのかを調査するために、我々はスケジュールIであるが生物学的に無毒な化合物（特にFDA画期的治療法のステータスを持つシロシビン培養）のパネルをテストしました。一部のモデルは、真に有害な生物学を超える割合でこれらを拒否しており、拒否がCBRNの危険性に対する合法性と文化的顕著性を追跡していることを示唆しています。内部側を測定するために、モデルの表面応答ラベルを内部のスパース オートエンコーダー (SAE) 特徴のアクティベーションと比較する発散スコア D を導入します。フル D は、Gemma 2 2B-IT (Gemma Scope 1) および Gemma 4 E2B-IT (著者が訓練したバイオ SAE) で計算されました。 2 つの微調整された Gemma 2 ドメイン SAE がリリースされました。 Gemma 4 では、狭いカタログ、サンプル内キャリブレーション、および Gemma ファミリーのみの SAE 範囲を使用して、重複なし (n=75) で 0.647 ポイントのギャップで応答と拒否の応答が分離されますが、これは暫定的なものです。消費者向けハードウェア (GTX 1650 Ti Max-Q、および SAE トレーニング用の Colab T4) での 1 つのハッカソン週末にわたって構築されたこの予備的な証拠は、アクティベーション レベルの監査によって、アーキテクチャ間で大幅に異なる、動作評価では見えない障害モードが表面化する可能性があることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BioRefusalAudit: Auditing Biosecurity Refusal Depth Using General and Domain-Fine-Tuned Sparse Autoencoders</p>
        <p class="orig-summary">Biosecurity evaluations of language models typically ask whether models produce hazardous output. This paper asks a complementary question: when a model refuses, is that refusal structurally sound, or does it disappear under modest changes to prompt framing, formatting, or output length? Across five architectures, no model cleanly discriminated benign from hazard. Gemma 2 2B-IT never genuinely refused across 75 prompts, hedging on every hazard-adjacent query. Gemma 4 E2B-IT refused 65/75 prompts with chat-template formatting and 0/75 without it. Both Gemma models collapsed to 0% under an 80-token cap. Qwen 2.5 1.5B and Phi-3-mini over-refused, flagging 83-87% of benign biology as hazardous. Llama 3.2 1B showed the only meaningful tier gradient (61-point spread). To probe what drives such over-refusal, we tested a panel of Schedule I but biologically non-toxic compounds (notably psilocybin cultivation, with FDA Breakthrough Therapy status). Some models refused these at rates exceeding genuinely hazardous biology, suggesting refusal tracks legality and cultural salience over CBRN hazard. To measure the internal side, we introduce a divergence score D comparing a model&#x27;s surface response label to its internal sparse autoencoder (SAE) feature activations. Full D was computed on Gemma 2 2B-IT (Gemma Scope 1) and Gemma 4 E2B-IT (author-trained bio SAE). Two fine-tuned Gemma 2 domain SAEs were released. On Gemma 4, comply and refuse responses separated by a 0.647-point gap with zero overlap (n=75), though this is preliminary, with a narrow catalog, within-sample calibration, and Gemma-family-only SAE coverage. Built over one hackathon weekend on consumer hardware (GTX 1650 Ti Max-Q, plus Colab T4 for SAE training), this preliminary evidence suggests activation-level auditing may surface failure modes invisible to behavioral evaluation, with substantial variation across architectures.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="61fb4d534a15" data-article-url="https://arxiv.org/abs/2605.30187" data-article-title="責任ある学習支援を促進するための教育 LLM-Agency のモジュール化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30187" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30187" target="_blank" rel="noopener">責任ある学習支援を促進するための教育 LLM-Agency のモジュール化</a></h3>
      <p class="summary">AI チャットボットが教育現場に広く導入されると、学習が劇的に変化し、責任ある導入が重大な懸念事項となります。大規模言語モデル (LLM) は、教育科学からの洞察を議論する情報源にアクセスできるかもしれませんが、特に教育学的概念に固執する傾向はなく、伝達能力、批判的思考、創造性の喪失など、学習プロセスに悪影響を及ぼす危険があります。このペーパーでは、教育におけるより責任ある AI の使用に貢献するために特別に設計された、生徒の演習問題解決を支援するエージェント型 AI チャットボット アーキテクチャを紹介します。私たちは、責任ある LLM ベースの教育システムに対するいくつかの要望の特定に基づいて概念的な開発を行い、モノリシックなすぐに使えるソリューションに固有の構造的欠点を主張し、代わりにエージェント アーキテクチャのモジュール化を提案します。私たちは、演習問題を解くさまざまな段階に応じた特定のモジュールを提案し、的を絞った教育的アドバイスを組み込むことを可能にし、より制御可能、透明性、監視可能な方法で学習プロセスを生徒に導きます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Modularizing Educational LLM-Agency for Fostering Responsible Learning Assistance</p>
        <p class="orig-summary">The widespread adoption of AI chatbots in education will drastically change learning, making responsible deployment a critical concern. While large language models (LLMs) might have access to sources discussing insights from educational sciences, they are not particularly inclined to adhere to pedagogical concepts, risking negative effects on the learning process, such as a loss of transfer capabilities, critical thinking, or creativity. In this paper, we introduce an agentic AI chatbot architecture assisting students with exercise solving, specifically designed to contribute to more responsible AI use in education. We base our conceptual development on the identification of several desiderata for responsible LLM-based educational systems, argue for the structural shortcomings inherent in monolithic, out-of-the-box solutions, and instead suggest modularizing the agentic architecture. We propose specific modules for different stages of exercise solving, enabling incorporation of targeted pedagogical advice, guiding students through the learning process in a more controllable, transparent, and overseeable manner.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="076e41eb6eca" data-article-url="https://arxiv.org/abs/2605.30200" data-article-title="両刃の剣、それとも鋭利な道具?幼稚園から高等学校までの大規模なライティングのための Triadic LLM と教師のコラボレーションの設計と評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30200" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30200" target="_blank" rel="noopener">両刃の剣、それとも鋭利な道具?幼稚園から高等学校までの大規模なライティングのための Triadic LLM と教師のコラボレーションの設計と評価</a></h3>
      <p class="summary">大規模言語モデル (LLM) の統合には諸刃の剣があり、特に幼稚園から高校までの教育では、LLM、教師、生徒の間で効果的な 3 つの協力メカニズムが必要です。この論文は、K-12 のライティング学習をサポートする 3 極のコラボレーション システム、系統機能言語学に基づいた多次元評価フレームワーク、および提案軌跡追跡パイプラインを開発することにより、2 年間で 120 ドルの学校の 10,195 ドルの生徒からの 57,954 ドルの作文を含む大規模な実証データセットに貢献します。私たちの調査結果は、戦略的な分業を通じてライティングの質を向上させるこのシステムの有効性を裏付けています。LLM は教師の燃え尽き症候群を軽減する生成エンジンとして機能し、教師は教育上の門番および橋渡しとしてフィードバックの質を保証します。 LLM と教師の両方がスキル向上には不可欠ですが、過度の言語拡張が限界効用の減少をもたらす天井効果を明らかにしました。これらは、生徒の習熟度が向上するにつれて、動的に適応的な LLM と教師のコラボレーションを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Double-Edged Sword or Sharp Tool? Designing and Evaluating Triadic LLM-Teacher Collaboration for K-12 Writing at Scale</p>
        <p class="orig-summary">The double-edged sword of integrating Large Language Models (LLMs) requires an effective triadic collaboration mechanism among LLMs, teachers and students, especially for K-12 education. By developing a triadic collaboration system to support K-12 writing learning, a multidimensional evaluation framework grounded in Systemic Functional Linguistics and the suggestion trajectory tracing pipeline, this paper contributes a large-scale empirical dataset involving $57,954$ essays from $10,195$ students across $120$ schools over two years. Our findings confirm the efficacy of this system in improving writing quality through a strategic labor division: the LLM serves as a generative engine to mitigate teacher burnout, and the teacher acts as a pedagogical gatekeeper and bridge to guarantee feedback quality. While both LLM and teacher are critical for skill improvement, we uncover a ceiling effect where excessive linguistic expansion yields diminishing marginal utility. These suggest a dynamically adaptive LLM-teacher collaboration as student proficiency increases.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="63fed736868a" data-article-url="https://arxiv.org/abs/2605.30207" data-article-title="検索拡張コマーシャルチャットにおけるブランド推奨のペルソナコンディショニング: 知名度に応じた階層化されたクロスプロバイダー監査" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30207" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30207" target="_blank" rel="noopener">検索拡張コマーシャルチャットにおけるブランド推奨のペルソナコンディショニング: 知名度に応じた階層化されたクロスプロバイダー監査</a></h3>
      <p class="summary">「最高の CRM ソフトウェア」という同じプロンプトが、個人の創業者、企業の副社長、英国の SMB オーナーなど、大きく異なる状況にある購入者の AI アシスタントに届きます。私たちは、その文脈上の変化がモデルが推奨するブランドをどの程度強く再形成するかを監査します。監査サンプルは、10 ペルソナ x 8 プロンプト x 3 モデル構成 x N=10 レップの設計空間で 2,000 回実行され、2 つの OpenAI セルは 8 プロンプトを完全にカバーし、Anthropic Sonnet-4.6 / low セルは 4 プロンプトをカバーしました。ユーザー メッセージの前にペルソナを付けると、推奨セットの類似度 (Jaccard) が同じペルソナ ベースラインと比較して デルタ = -0.12 ～ -0.20 低下します (クラスター化された 95% CI では、3 つの測定セルすべてでゼロが除外されます。ソネット セルの CI は 4 つのプロンプト クラスターのみに基づいており、それに応じて幅が広くなります)。その効果は顕著に階層化されています。カテゴリーリーダーはペルソナ耐性がありますが（ペルソナ間で最大 80% の同じブランドの一貫性）、中堅ブランドはペルソナの変化に応じて推奨セットの最大 75% を交換します。 Anthropic モデルは、OpenAI 構成よりも大きな点推定効果を示していますが、クラスター化された CI が重なっているため、よりコントラストが強くなります (ソネット対 OpenAI/高)。この非対称性は、Anthropic のより検索に帰属しない生成ルートと一致しています (検索層の証拠が観察されていない推奨が 43 ～ 52% であるのに対し、OpenAI の 8 ～ 29%、Jack 2026 に文書化されています)。 AI ブランド認識の測定は、クエリを提供する購入者のペルソナを条件とする必要があります。同じプロンプトでも、モデルが誰に質問していると考えるかに応じて実質的に異なる推奨セットが生成されます。また、ペルソナ全体を集約する測定プロトコルにより、その変動が体系的に隠蔽されます。この効果は中間市場に集中しており、当社の監査では事前分布に最も依存する生成ルートで最大となっており、モデルがトレーニング データの事前分布とより豊富なコンテキスト統合に依存するにつれてペルソナの応答性が高まっていることと一致しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Persona Conditioning of Brand Recommendations in Retrieval-Augmented Commercial Chat: A Prominence-Stratified Cross-Provider Audit</p>
        <p class="orig-summary">The same prompt -- &quot;best CRM software&quot; -- reaches AI assistants from buyers in widely different contexts: a solo founder, an enterprise VP, a UK SMB owner. We audit how strongly that contextual variation reshapes which brands the model recommends. The audit samples 2,000 runs over a design space of 10 personas x 8 prompts x 3 model configurations x N=10 reps, with the two OpenAI cells at full 8-prompt coverage and the Anthropic sonnet-4.6 / low cell at 4-prompt coverage. Prefixing the user message with a persona drops the recommendation-set similarity (Jaccard) by Delta = -0.12 to -0.20 relative to a same-persona baseline (clustered 95% CIs exclude zero on all three measured cells; the sonnet cell&#x27;s CI rests on only 4 prompt clusters and is correspondingly wider). The effect is sharply prominence-stratified: category leaders are persona-resistant (~80% same-brand consistency across personas), but mid-market brands swap up to 75% of the recommendation set as the persona changes. The Anthropic model shows a larger point-estimate effect than the OpenAI configurations, though clustered CIs overlap for the closer contrast (sonnet vs. OpenAI/high); the asymmetry is consistent with Anthropic&#x27;s more retrieval-unattributed generation route (43-52% recommendations without observed retrieval-layer evidence, vs OpenAI&#x27;s 8-29%, documented in Jack 2026). Any measurement of AI brand perception must condition on the buyer persona supplying the query: the same prompt produces materially different recommendation sets depending on who the model thinks is asking, and a measurement protocol that aggregates across personas systematically obscures that variation. The effect concentrates at mid-market and is largest on the most priors-reliant generation route in our audit, consistent with persona responsiveness growing as models lean more on training-data priors and richer context integration.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c4e2a50511ea" data-article-url="https://arxiv.org/abs/2605.30219" data-article-title="モデルはいつ考えを変えるべきでしょうか?大規模言語モデルにおける文脈に基づく信念の管理" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30219" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30219" target="_blank" rel="noopener">モデルはいつ考えを変えるべきでしょうか?大規模言語モデルにおける文脈に基づく信念の管理</a></h3>
      <p class="summary">長期的な対話では、状態をいつ更新するか、いつ状態を保存するか、何を無視するかなど、蓄積される情報を管理する言語モデルが必要です。私たちはこの課題を \textbf{文脈的信念管理 (CBM)} として研究します。つまり、タスクに無関係なノイズを分離しながら、正式な証拠に合わせて予測された信念状態を維持することです。 CBM を測定可能にするために、Rule Discovery と Circuit Diagnosis にまたがるクローズドワールド ベンチマークである BeliefTrack を導入します。このベンチマークでは、有限の信念空間とシンボリック ベリファイアーによって正確なターンレベルの評価が可能になります。 BeliefTrack は、「Stay の失敗」、「Update の失敗」、「Isolation の失敗」という 3 つの失敗を診断します。複数の LLM にわたって、バニラ モデルは重大な CBM 障害を示しますが、明示的な信念追跡プロンプトでは限定的な利益が得られます。対照的に、信念状態報酬を使用した強化学習では、失敗率が平均 70.9\% 減少します。さらに詳しく調べると、これらの失敗の背後にある潜在的な信念状態のダイナミクスが明らかになり、表現レベルのステアリングにより、2 つのタスク全体で失敗率が 46.1\% 減少します\脚注{コードは、https://github.com/zjunlp/CBM で近日公開されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">When Should Models Change Their Minds? Contextual Belief Management in Large Language Models</p>
        <p class="orig-summary">Long-horizon interactions require language models to manage accumulating information: when to update their state, when to preserve their state, and what to ignore. We study this challenge as \textbf{Contextual Belief Management (CBM)}: maintaining a predicted belief state aligned with formal evidence while isolating task-irrelevant noise. To make CBM measurable, we introduce BeliefTrack, a closed-world benchmark spanning Rule Discovery and Circuit Diagnosis, where a finite belief space and symbolic verifiers enable exact turn-level evaluation. BeliefTrack diagnoses three failures: Failed Stay, Failed Update, and Failed Isolation. Across multiple LLMs, vanilla models exhibit severe CBM failures, while explicit belief-tracking prompts provide limited gains. In contrast, reinforcement learning with belief-state rewards reduces failure rates by 70.9\% on average. Further probing reveals latent belief-state dynamics behind these failures, and representation-level steering reduces failure rates by 46.1\% across two tasks\footnote{Code is coming soon at https://github.com/zjunlp/CBM.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c991f84c5c8" data-article-url="https://arxiv.org/abs/2605.30283" data-article-title="mcp-proto-okn: モデル コンテキスト プロトコルを介したオープン科学知識グラフへの自然言語アクセス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30283" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30283" target="_blank" rel="noopener">mcp-proto-okn: モデル コンテキスト プロトコルを介したオープン科学知識グラフへの自然言語アクセス</a></h3>
      <p class="summary">MCP Server Proto-OKN (mcp-proto-okn) は、AI アシスタントが自然言語を通じて科学知識グラフを検出、検査、クエリ、統合できるようにする Python ベースのモデル コンテキスト プロトコル サーバーです。このサーバーは、グラフ ルーティング、スキーマ検査、SPARQL 実行、オントロジー拡張、マルチグラフ クエリ、トランスクリプト生成を提供し、生物医学および科学ユーザーのクロスドメイン ナレッジ グラフ分析への障壁を下げます。 mcp-proto-okn は、FastMCP フレームワークを使用して Python で実装されており、https://github.com/sbl-sdsc/mcp-proto-okn で入手できます。ドキュメント、クライアント構成手順、分析トランスクリプトの例は、GitHub リポジトリで提供されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">mcp-proto-okn: Natural-language access to open scientific knowledge graphs through the Model Context Protocol</p>
        <p class="orig-summary">MCP Server Proto-OKN (mcp-proto-okn) is a Python-based Model Context Protocol server that enables AI assistants to discover, inspect, query and integrate scientific knowledge graphs through natural language. The server provides graph routing, schema inspection, SPARQL execution, ontology expansion, multi-graph querying, and transcript generation, lowering the barrier to cross-domain knowledge graph analysis for biomedical and scientific users. mcp-proto-okn is implemented in Python using the FastMCP framework and is available at https://github.com/sbl-sdsc/mcp-proto-okn. Documentation, client configuration instructions, and example analysis transcripts are provided in the GitHub repository.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fd6578021e67" data-article-url="https://arxiv.org/abs/2605.30284" data-article-title="ProjectionBench: 漸進的な情報開示の下での LLM における科学的仮説生成の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30284" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30284" target="_blank" rel="noopener">ProjectionBench: 漸進的な情報開示の下での LLM における科学的仮説生成の評価</a></h3>
      <p class="summary">科学的発見は本質的に創造的かつ不確実なプロセスであり、既知の知識を思い出す以上の推論が必要です。マルチホップ検索による深い研究タスクにおける大規模言語モデル (LLM) のパフォーマンスを評価するベンチマークが数多く提案されていますが、真の科学的発見に不可欠な革新的な推論能力はほとんどテストされていません。生の問題から古典的な帰無仮説検定までを構築し、科学的発見と推論におけるモデルのパフォーマンスを評価するためのベンチマーク フレームワークを紹介します。私たちのフレームワークでは、モデルは最初は最近の論文からのトピックと研究上の質問のみを受け取り、技術的な詳細は徐々に明らかになります。情報開示の各段階で、モデルは研究課題に対処する仮説を生成する役割を果たします。仮説は元の論文の結論と比較され、構成要素の原子的クレームの自動化された意味的類似性によって評価されます。グラウンドトゥルースの結論からの意味的乖離のこの漸進的な評価により、(最小限の情報の下で) モデルの革新性から (完全な実験の詳細の下で) 根拠のある推論能力の評価が可能になり、どちらも科学的発見の目的で LLM を使用する場合に重要です。私たちのフレームワークは、次世代の AI 科学者/共同科学者システムの開発を進めるために重要な、LLM の科学的推論と発見能力を体系的に評価するための基盤を提供します。具体的には、ここでは生物活性材料、機械材料、ナノ材料にわたる 45 の論文にわたって GPT-5、GPT-5.4、Gemini 2.5 pro、および Gemini 3.1 pro プレビューを評価します。 GPT-5.4 と Gemini 3.1 pro は予想どおり前世代の対応製品よりも優れたパフォーマンスを示し、特に GPT-5.4 は最小限のコンテキストでもグラウンド トゥルースの結論と 0.7 の F1 スコアの一致を維持していることがわかりました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ProjectionBench: Evaluating Scientific Hypothesis Generation in LLMs Under Progressive Information Disclosure</p>
        <p class="orig-summary">Scientific discovery is an inherently creative and uncertain process, requiring reasoning beyond the recall of known knowledge. While many benchmarks have been proposed to evaluate large language model (LLM) performance on deep research tasks via multi-hop retrieval, their innovative reasoning abilities essential for true scientific discovery remain largely untested. We introduce a benchmark framework for evaluating model performance in scientific discovery and reasoning, building up from a raw problem to the classical null hypothesis test. In our framework, models initially receive only the topic and research question from a recent paper, with technical details progressively revealed. At each stage of information disclosure, the model is tasked with generating hypotheses that address the research question, which is compared with the conclusions from the original paper and evaluated via automated semantic similarity of constituent atomic claims. This progressive evaluation of semantic divergence from ground-truth conclusions enables assessment of a model&#x27;s innovativeness (under minimal information) to grounded reasoning capabilities (under full experimental details), both critical for using LLMs for scientific discovery purposes. Our framework provides a foundation for systematically evaluating scientific reasoning and discovery capabilities in LLMs, crucial for advancing the development of next-generation AI scientist/co-scientist systems. Specifically, here we evaluate GPT-5, GPT-5.4, Gemini 2.5 pro, and Gemini 3.1 pro preview across 45 papers spanning bioactive materials, mechanical materials, and nanomaterials. We find that GPT-5.4 and Gemini 3.1 pro outperform their previous generation counterparts as expected, and GPT-5.4 in particular maintains 0.7 F1 score alignment with ground truth conclusions even under minimal context.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="95e0216336dc" data-article-url="https://arxiv.org/abs/2605.30288" data-article-title="MIRA: ソースを意識したデータ選択のためのトレーニング中のルーブリック アンカーリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30288" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30288" target="_blank" rel="noopener">MIRA: ソースを意識したデータ選択のためのトレーニング中のルーブリック アンカーリング</a></h3>
      <p class="summary">トレーニング中期は、最新の LLM 開発において重要な段階となっており、最終的なトレーニング後の能力を強化するために大規模に厳選された混合物を使用します。データ選択の問題は独特です。データは、事前トレーニングに近い規模で事前トレーニング スタイルの目標に基づいて最適化されますが、下流の機能に向けて厳選され、形式やトレーニングの役割が異なる異種ソースから抽出されます。その結果、効果的な選択には、スケーラビリティとソース適応型のセマンティック基準の両方が必要になります。既存のモデルベースの手法は拡張性に優れていますが、暗黙的な品質信号しか提供しません。セマンティック選択方法はより強力な判断を提供しますが、通常は固定ルーブリックまたは標準化されたデータ形式を前提としています。この不一致に対処するために、自己アンカー型ルーブリック ディスカバリに基づくソース認識フィルタリング フレームワークである MIRA を提案します。重要なアイデアは、ルーブリック構築をデータ選択の一部にすることです。MIRA はまず各ソース グループに対して何を評価すべきかを発見し、次にそれらの判断をスケーラブルな学生スコアラーに抽出して、コーパス全体をフィルタリングします。 21 のソースと 5 つのソース グループを使用したコード指向の中間トレーニングでは、MIRA は 9 つのコード ベンチマーク全体で選択ベースラインを上回り、トークンの半分のみを使用しながら完全なコーパスの実行と一致しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MIRA: Mid-training Rubric Anchoring for Source-Aware Data Selection</p>
        <p class="orig-summary">Mid-training has become an important stage in modern LLM development, using large-scale curated mixtures to strengthen capabilities before final post-training. Its data selection problem is distinct: the data are optimized under a pretraining-style objective at near-pretraining scale, but are curated toward downstream capabilities and drawn from heterogeneous sources with different formats and training roles. As a result, effective selection requires both scalability and source-adaptive semantic criteria. Existing model-based methods scale well, but provide only implicit quality signals. Semantic selection methods offer stronger judgments, but usually assume fixed rubrics or standardized data formats. To address this mismatch, we propose MIRA, a source-aware filtering framework based on self-anchored rubric discovery. The key idea is to make rubric construction part of data selection: MIRA first discovers what should be evaluated for each source group, then distills those judgments into scalable student scorers for full-corpus filtering. On code-oriented mid-training with 21 sources and 5 source groups, MIRA outperforms selection baselines across nine code benchmarks and matches the full-corpus run while using only half the tokens.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a7dc99f6b432" data-article-url="https://arxiv.org/abs/2605.30334" data-article-title="強化された LLM トレーニングのためのデータ構成の謎を解く" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30334" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30334" target="_blank" rel="noopener">強化された LLM トレーニングのためのデータ構成の謎を解く</a></h3>
      <p class="summary">大規模言語モデル (LLM) はさまざまな分野に革命をもたらしましたが、そのトレーニング効率は効果的なデータ キュレーションに大きく依存しています。データの選択は広く研究されていますが、特に現在の LLM は 1 つまたは数エポックのみでトレーニングされることが多いため、トレーニングを強化するための戦略的なデータ編成はまだ研究されていない領域です。この論文では、もともとデータ効率のために生成された、事前に計算されたサンプルレベルのスコアを再利用することで、追加の計算オーバーヘッドを最小限に抑え、LLM トレーニングに対するデータ構成の影響を体系的に調査します。私たちは、データ構成を最適化するための 4 つの主要なガイドライン (境界の鮮明化、周期的スケジューリング、カリキュラムの継続性、およびローカルの多様性) を特定し、形式化します。これらに基づいて、STR と SAW と呼ばれる 2 つの新しいデータ順序付け方法を導入します。事前トレーニング段階と SFT 段階の両方を含む、さまざまなモデル スケールとデータ サイズにわたる広範な実験により、要約されたガイドラインの有効性が検証されます。また、LLM トレーニングの安定性とパフォーマンスを向上させる上で、私たちが提案するデータ順序付け方法の堅牢性も示しています。 Github リンク: https://github.com/microsoft/data-effficacy/</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Demystifying Data Organization for Enhanced LLM Training</p>
        <p class="orig-summary">Large Language Models (LLMs) have revolutionized various fields, yet their training efficiency is heavily reliant on effective data curation. While data selection has been widely studied, the strategic data organization for enhanced training remains an underexplored area, particularly since current LLMs are often trained for only one or a few epochs. This paper systematically explores the influence of data organization on LLM training by reusing pre-computed sample-level scores originally generated for data efficiency, thereby incurring minimal additional computational overhead. We identify and formalize four key guidelines for optimizing data organization: Boundary Sharpening, Cyclic Scheduling, Curriculum Continuity, and Local Diversity. Guided by them, we introduce two novel data ordering methods termed STR and SAW. Extensive experiments across different model scales and data sizes, encompassing both pre-training and SFT stages, validate the effectiveness of our summarized guidelines. They also demonstrate the robustness of our proposed data ordering methods in enhancing the stability and performance of LLM training. Github Link: https://github.com/microsoft/data-efficacy/</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a66c8f810e8" data-article-url="https://arxiv.org/abs/2605.30335" data-article-title="局所的には一貫性があるが、全体的には一貫性がない: 複数コンポーネントの LLM エージェントにおける境界構成上の一貫性のなさ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30335" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30335" target="_blank" rel="noopener">局所的には一貫性があるが、全体的には一貫性がない: 複数コンポーネントの LLM エージェントにおける境界構成上の一貫性のなさ</a></h3>
      <p class="summary">複数コンポーネントの LLM エージェントは、それぞれが共同問題の一部のみを認識するコンポーネントから確率的クレームを組み立てます。すべてのコンポーネントが局所的に一貫している場合でも、合成は基本的な確率公理に違反する可能性があります。この局所的にコヒーレントでグローバルにインコヒーレントな障害を、構成残差 eps*、構成された引用から結合コヒーレント ポリトープまでの L2 距離を介して形式化し、システム出力と宣言されたコンポーネント間の結合制約から実行時に計算できます。積構造の二分法は、局所的なコヒーレンスが十分である場合を特徴付け、レイリー商予測は 4 つの関係クラスのうち 3 つで観察された残差と 7% 以内で一致します。階層的なボイル・ディクストラ図法は、構成を決定論的に修復します。いつでも有効な電子プロセスにより、連続的なコヒーレンス監視が可能になります。 4 つの LLM 中間層パネル (セクション 5.5 でフロンティアパネルを再実行) 上の 1,876 個のアンサンブル クリーク全体で、クリークの 33 ～ 94% で eps* &gt; 0 となり、比例配分ルールに基づく 1,770 の解決されたベットに対する後悔のベットあたり +0.115 ナットに換算されます (ベッター自身が依存する場合、ゲインは +0.006 に減少します)一貫性を持たせます）。 3 つの直感的な LLM 側の緩和策 (取得、パーティション認識プロンプト、アグリゲーター LLM) はそれぞれ失敗するか退行します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Locally Coherent, Globally Incoherent: Bounding Compositional Incoherence in Multi-Component LLM Agents</p>
        <p class="orig-summary">Multi-component LLM agents assemble probabilistic claims from components that each see only part of a joint problem; the composition can violate basic probability axioms even when every component is locally coherent. We formalise this locally coherent, globally incoherent failure via the compositional residual eps*, the L2 distance from the composed quote to the joint coherent polytope, computable at runtime from system output and the declared cross-component coupling constraints. A product-structure dichotomy characterises when local coherence suffices, and a Rayleigh-quotient prediction matches the observed residual within 7% on three of four relation classes. A hierarchical Boyle-Dykstra projection repairs the composition deterministically; an anytime-valid e-process gives sequential coherence monitoring. Across 1,876 ensemble cliques on a four-LLM mid-tier panel (frontier-panel rerun in Section 5.5), eps* &gt; 0 on 33-94% of cliques, translating to +0.115 nats per bet of regret on 1,770 resolved bets under the proportional allocation rule (the gain collapses to +0.006 under bettors that themselves coherentise). Three intuitive LLM-side mitigations(retrieval, partition-aware prompting, aggregator-LLM) each fail or regress.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5eaf6b1c0693" data-article-url="https://arxiv.org/abs/2605.30344" data-article-title="小さいながらも信頼できる: 時系列異常検出のための効率的な視覚言語推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30344" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30344" target="_blank" rel="noopener">小さいながらも信頼できる: 時系列異常検出のための効率的な視覚言語推論</a></h3>
      <p class="summary">視覚言語モデル (VLM) の最近の進歩により、多くのタスクにわたって優れたパフォーマンスが達成されましたが、これまでの研究では、大規模な言語モデルやマルチモーダル モデルを適用して連続データ内の異常なパターンを検出する場合、満足のいくパフォーマンスが得られないと報告されています。公開されている異常検出ベンチマークは通常、間隔の注釈を提供しますが、自然言語の理論的根拠は提供しないため、根拠のある解釈可能な決定を生成するために VLM を微調整することが困難になります。このギャップに対処するために、公開時系列データセットから構築され、きめ細かいタスク固有の報酬を使用して複数の大規模な VLM から選択された高品質の異常説明で強化された厳選されたベンチマークである VisAnomBench を構築します。このベンチマークを微調整することで、時系列異常検出のためのパラメーター効率の高い VLM である VisAnomReasoner を開発します。 VisAnomBench の実験結果では、VisAnomReasoner がより正確な異常位置特定を実現し、すべてのベースラインを常に上回り、精度と F1 がそれ​​ぞれ少なくとも 21.23 パーセント ポイントと 23.87 パーセント ポイント向上したことが示されています。 TSB-AD-U ベンチマークに関する追加の実験では、VisAnomReasoner によって精度と F1 がそれ​​ぞれ 9.57 パーセント ポイントと 13.39 パーセント ポイント改善され、ベンチマーク間の強力な一般化が実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection</p>
        <p class="orig-summary">Recent advances in Vision-Language Models (VLMs) have achieved impressive performance across many tasks, yet prior studies report unsatisfactory performance when applying large language or multimodal models to finding abnormal patterns in sequential data. Public anomaly detection benchmarks typically provide interval annotations but not natural-language rationales, making it difficult to fine-tune VLMs to produce grounded, interpretable decisions. To address this gap, we construct VisAnomBench, a curated benchmark built from public time-series datasets and augmented with high-quality anomaly explanations selected from multiple large VLMs using fine-grained, task-specific rewards. Through fine-tuning on this benchmark, we develop VisAnomReasoner, a parameter-efficient VLM for time-series anomaly detection. Experimental results on VisAnomBench show that VisAnomReasoner achieves more accurate anomaly localization and consistently outperforms all baselines, with improvements of at least 21.23 and 23.87 percentage points in precision and F1, respectively. Additional experiments on the TSB-AD-U benchmark demonstrate strong cross-benchmark generalization, with VisAnomReasoner improving precision and F1 by 9.57 and 13.39 percentage points, respectively.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4588493c6578" data-article-url="https://arxiv.org/abs/2605.30345" data-article-title="SchGen: セマンティックに基づいたコード表現による PCB 回路図の生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30345" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30345" target="_blank" rel="noopener">SchGen: セマンティックに基づいたコード表現による PCB 回路図の生成</a></h3>
      <p class="summary">プリント基板 (PCB) の回路図設計は、ほぼすべての電子ハードウェアを定義しますが、依然として手作業と専門知識が必要です。生成 AI は高度なデジタルおよびアナログ IC 設計を実現しましたが、自然言語の意図からの PCB 回路図の生成はほとんど解明されていません。この文書では、自然言語リクエストから編集可能な PCB 回路図を生成する初の大規模言語モデルである SchGen について説明します。主要な課題は、LLM に適した表現と大規模なデータセットが不足していることです。現在の回路図フォーマットは、冗長なツール固有の構文とジオメトリを多用する記述が大半を占めており、確実に生成することが困難になっています。相対配置とピン名ベースの配線を使用して回路図編集プリミティブをエンコードする意味論的に根拠のあるコード表現を導入し、ジオメトリ主導の生成問題を LLM に適したセマンティクス主導のマッチング タスクに変換します。さらに、オープンソースのハードウェア設計を私たちの表現に変換するヒューマン エージェントの協調パイプラインを介して、ユーザー プロンプトと組み合わせた PCB 回路図の大規模なデータセットを構築します。実験の結果、SchGen は、ワイヤ接続の精度と機能の正確性において、代替表現やさらに大規模な汎用 LLM よりも大幅に優れていることが示されています。私たちの結果は、複雑なハードウェア設計タスクの生成モデルを可能にする上での表現設計の重要な役割を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SchGen: PCB Schematic Generation with Semantic-Grounded Code Representations</p>
        <p class="orig-summary">Printed circuit board (PCB) schematic design defines nearly all electronic hardware, but it remains manual and expertise-intensive. While generative AI has advanced digital and analog IC design, PCB schematic generation from natural-language intent is largely unexplored. This paper presents SchGen, the first large language model that generates editable PCB schematics from natural-language requests. The key challenge lies in the lack of an LLM-suited representation and a large-scale dataset. Current schematic formats are dominated by verbose, tool-specific syntax and geometry-heavy descriptions, making them difficult to generate reliably. We introduce a semantically grounded code representation that encodes schematic editing primitives with relative placement and pin-name-based wiring, transforming a geometry-driven generation problem into a semantics-driven matching task amenable to LLMs. We further construct a large-scale dataset of PCB schematics paired with user prompts via a human-agent collaborative pipeline that converts open-source hardware designs into our representation. Experiments show that SchGen significantly outperforms alternative representations and even larger general-purpose LLMs on wire connectivity accuracy and functional correctness. Our results highlight the critical role of representation design in enabling generative models for complex hardware design tasks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9b2997503ec3" data-article-url="https://arxiv.org/abs/2605.30353" data-article-title="必要なのは物理学だけですか?物理学者が監視する科学ソフトウェアの AI 開発のケーススタディ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30353" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30353" target="_blank" rel="noopener">必要なのは物理学だけですか?物理学者が監視する科学ソフトウェアの AI 開発のケーススタディ</a></h3>
      <p class="summary">AI エージェントはツールですか、共著者ですか、それとも研究者ですか?定量化されたケース スタディ ($N=1$) を紹介します。物理学者が 12 勤務日と 57 セッションにわたって AI コーディング エージェント (クロード コード、ソネット、オーパス モデル) を監督し、JAX の微分可能な 1 ループ摂動理論モジュールである CLAX-PT を構築しました。私たちは、介入レベルごとに 15 の監督イベントを文書化し、分類しました。エージェントは、Oracle テストに対して反復処理を行うことで、10 件を自律的に解決しました。あと 2 つは物理学者の専門知識によるものです。できなかった 3 件はすべてオラクルの検出を回避したもので、エージェントが症状の軽減を根本原因の解決として扱ったという共通の特性があります。 57 のセッションのうち 33 は、ターゲットの物理を表現できないコード アーキテクチャ内の係数の調整に費やし、再検討を求められても CLASS-PT 分岐の選択を再評価できませんでした。注入された物理概念 (異方性 BAO 減衰) のみが再設計のきっかけとなりました。これとは別に、エージェントはすべてのオラクル テストに合格したが、理論上のどの量にも対応せず、他の宇宙論で誤った値を予測する校正済みの修正を実行しました。ファッジ要素が検出され、同じセッション内で置き換えられました。オラクルテストが見逃したものを発見するには、3 つの監督実践が重要であることが判明しました。共有変更ログにより、セッション全体での探索の停滞が表面化しました。そして非物理的な数値パッチに対する明示的なルール。この場合、エージェントの出力が信頼できるかどうかは、モデルの能力ではなく監視設計によって決まりました。ギャップを埋めるには、特定の構造内で最適化するのではなく、アーキテクチャ上の代替案を提案し、予測の妥当性と説明の正しさを区別するエージェントが必要になります。この機能はここでは示されておらず、スケーリングだけでは明らかに対処されていません。 [要約]</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Physics Is All You Need? A Case Study in Physicist-Supervised AI Development of Scientific Software</p>
        <p class="orig-summary">Are AI agents tools, co-authors, or researchers? We present a quantified case study ($N=1$): a physicist supervising an AI coding agent (Claude Code, Sonnet and Opus models) over 12 work days and 57 sessions to build CLAX-PT, a differentiable one-loop perturbation theory module in JAX. We documented and classified 15 supervision events by intervention level. The agent resolved ten autonomously by iterating against oracle tests. Two more by the physicist&#x27;s domain knowledge. The three it could not -- all evaded oracle detection -- share a common property: the agent treated symptom reduction as root-cause resolution. It spent 33 of the 57 sessions adjusting coefficients within a code architecture that could not represent the target physics, and could not re-evaluate its CLASS-PT branch choice even when prompted to reconsider; only an injected physics concept (anisotropic BAO damping) triggered the redesign. Separately, the agent committed a calibrated correction that passed all oracle tests but corresponded to no quantity in the theory, predicting wrong values at any other cosmology. The fudge factor was caught and replaced within the same session. Three supervision practices proved critical for catching what oracle tests missed: testing at diverse parameter points beyond the fiducial calibration; shared changelogs that surfaced stalled exploration across sessions; and an explicit rule against unphysical numerical patches. In this case, supervision design, not model capability, determined whether the agent&#x27;s output was trustworthy. Closing the gap would require agents that propose architectural alternatives rather than optimize within a given structure, and distinguish predictive adequacy from explanatory correctness -- capabilities not exhibited here, not obviously addressed by scaling alone. [Abridged.]</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6492973d6f75" data-article-url="https://arxiv.org/abs/2605.28828" data-article-title="ミクロマクロ検索: 大規模言語モデルにおける長文幻覚の軽減" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28828" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28828" target="_blank" rel="noopener">ミクロマクロ検索: 大規模言語モデルにおける長文幻覚の軽減</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、多くのタスクにわたって優れたパフォーマンスを実現しますが、特に冗長な取得コンテキストと長い推論チェーンにより事実の誤りが増幅される長い形式の生成では依然として幻覚が発生しやすい傾向があります。最近の研究では、重要な現象が明らかになりました。重要な情報がモデルの出力に近ければ近いほど、事実の精度が高くなります。ただし、既存の検索拡張言語モデル (RALM) には、この近接性を確保するための効果的なメカニズムがありません。外部証拠は複数回の検索を通じて推論に挿入されますが、これでは重要な情報が出力の近くに留まることを保証できません。私たちは、このギャップを埋めるための、生成しながら取得する新しいフレームワークである Micro-Macro Retrieval (M2R) を提案します。マクロレベルでは、M2R は外部ソースから大まかな証拠を取得します。ミクロレベルでは、推論中に構築された重要な情報リポジトリから重要な結果を抽出し、答えを生成する際にそれらを再利用します。この設計は、重要な情報と出力の近接性のボトルネックに直接対処し、長時間のタスクにおける幻覚を効果的に軽減します。 M2Rは、カスタマイズされたルールベースの報酬を使用したカリキュラム学習ベースの強化学習戦略でトレーニングされており、検索スキルとグラウンディングスキルの安定した習得を可能にします。さまざまなベンチマークにわたる広範な実験により、特に長いコンテキスト設定における M2R の有効性が実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Micro-Macro Retrieval: Reducing Long-Form Hallucination in Large Language Models</p>
        <p class="orig-summary">Large Language Models (LLMs) achieve impressive performance across many tasks but remain prone to hallucination, especially in long-form generation where redundant retrieved contexts and lengthy reasoning chains amplify factual errors. Recent studies highlight a critical phenomenon: the closer key information appears to the model outputs, the higher the factual accuracy. However, existing retrieval-augmented language models (RALMs) lack effective mechanisms to ensure this proximity - external evidence is injected into reasoning via multi-turn retrieval, but this cannot ensure key information stays close to the outputs. We propose Micro-Macro Retrieval (M2R), a novel retrieve-while-generate framework to fill this gap. At the macro level, M2R retrieves coarse-grained evidence from external sources; at the micro level, it extracts essential results from a key information repository built during reasoning and reuses them while generating answers. This design directly addresses the key-information-to-output proximity bottleneck, effectively reducing hallucination in long-form tasks. M2R is trained with a curriculum learning-based reinforcement learning strategy using customized rule-based rewards, enabling stable acquisition of retrieval and grounding skills. Extensive experiments across different benchmarks demonstrate the effectiveness of M2R, especially in lengthy-context settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5145b89469ba" data-article-url="https://arxiv.org/abs/2605.28829" data-article-title="アリヤバータ 2: 高度な STEM 推論のための強化学習のスケーリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28829" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28829" target="_blank" rel="noopener">アリヤバータ 2: 高度な STEM 推論のための強化学習のスケーリング</a></h3>
      <p class="summary">JEE や NEET などの競争力のある STEM 試験では、複数段階の記号的推論、正確な数値計算、物理、化学、数学にわたる深い概念的理解が必要です。最近の大規模な言語モデルは、共通の推論ベンチマークでは優れたパフォーマンスを発揮しますが、大規模に展開することは依然として困難であり、学生の何百万もの疑問がドメイン固有の一貫した構造の問題解決を必要としています。 Aryabhata 2 は、トレーニング後の強化学習によってトレーニングされた、競争力のある STEM 試験用の推論に焦点を当てた言語モデルです。 PhysicsWallah の内部質問バンクを使用して、高品質のトレーニング カリキュラムを構築し、検証可能な報酬を伴う強化学習を通じて GPT-OSS-20B のポストトレーニングを構築します。トレーニングでは、長期にわたる強化学習と、段階的にロールアウト グループのサイズが大きくなることで広がる探索を組み合わせます。 JEE Main、JEE Advanced、NEET などの競合試験ベンチマークと、AIME、HMMT、MMLU-Pro、MMLU-Redux 2.0、GPQA などの配布外推論データセットで Aryabhata 2 を評価します。結果は、Aryabhata 2 が競合 STEM 推論において基本モデル GPT-OSS-20B を上回るパフォーマンスを示しながら、必要な出力トークンが大幅に少なくなる (最大 64\% 少ない) ことを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning</p>
        <p class="orig-summary">Competitive STEM examinations such as JEE and NEET require multi-step symbolic reasoning, precise numerical computation, and deep conceptual understanding across physics, chemistry, and mathematics. Recent large language models perform strongly on common reasoning benchmarks, yet they remain difficult to deploy at scale, where millions of student doubts demand domain-specific, consistently structured problem solving. We introduce Aryabhata 2, a reasoning-focused language model for competitive STEM examinations, trained via reinforcement-learning post-training. Using PhysicsWallah&#x27;s internal question banks, we construct a high-quality training curriculum and post-train GPT-OSS-20B through reinforcement learning with verifiable rewards. Training combines prolonged reinforcement learning with broadened exploration via progressively larger rollout group sizes. We evaluate Aryabhata 2 on competitive examination benchmarks, including JEE Main, JEE Advanced, and NEET, as well as out-of-distribution reasoning datasets such as AIME, HMMT, MMLU-Pro, MMLU-Redux 2.0, and GPQA. Results show that Aryabhata 2 outperforms its base model GPT-OSS-20B on competitive STEM reasoning while requiring substantially fewer output tokens (up to 64\% fewer).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d9c0ad3bfbc8" data-article-url="https://arxiv.org/abs/2605.28830" data-article-title="オープンソースの安全ガード モデルのベンチマーク: 包括的な評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28830" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28830" target="_blank" rel="noopener">オープンソースの安全ガード モデルのベンチマーク: 包括的な評価</a></h3>
      <p class="summary">安全性が重要なアプリケーションに大規模言語モデル (LLM) が導入されることが増えているため、堅牢なコンテンツ モデレーションが不可欠になっています。 NIST AI リスク フレームワークの 8 つの安全カテゴリにまたがる 79,331 サンプルの厳選されたベンチマークに基づく 14 のオープンソース安全ガード モデルの包括的な評価を示します。当社のベンチマークは 4 つの多様なデータセット (HarmBench、StrongREJECT、RealToxicityPrompts、BeaverTails) を集約し、安全関連のコンテンツ (暴力、ヘイトスピーチ、嫌がらせ、性的コンテンツ、自殺/自傷行為、冒涜、脅迫、健康上の誤った情報) のみに焦点を当てるようにフィルタリングされています。有害なコンテンツの欠落は誤検知よりも大きなリスクをもたらすため、リコールは安全性アプリケーションにとって重要な指標であることがわかりました。私たちの評価では、驚くべき結果が明らかになりました。Qwen Guard (4B パラメーター) は最高の再現率 (83.97%) を達成しましたが、Llama Guard (12B) や GPT-OSS Safeguard (20B) などのより大きなモデルは保守的な動作を示し、安全でないコンテンツを最大 75% 見逃しました。我々は、モデルのサイズが安全検出のパフォーマンスと相関しないこと、および汎用のガード モデルが特殊なガード モデルよりも優れていることを実証します。これらの調査結果は、実稼働環境での安全装置モデルを選択するための実践的なガイダンスを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Benchmarking Open-Source Safety Guard Models: A Comprehensive Evaluation</p>
        <p class="orig-summary">As Large Language Models (LLMs) are increasingly deployed in safety-critical applications, robust content moderation becomes essential. We present a comprehensive evaluation of 14 open-source safety guard models on a curated benchmark of 79,331 samples spanning 8 NIST AI Risk Framework safety categories. Our benchmark aggregates four diverse datasets (HarmBench, StrongREJECT, RealToxicityPrompts, and BeaverTails), filtered to focus exclusively on safety-relevant content (violence, hate speech, harassment, sexual content, suicide/self-harm, profanity, threats, and health misinformation). We find that recall is the critical metric for safety applications, as missing harmful content poses greater risk than false positives. Our evaluation reveals surprising results: Qwen Guard (4B parameters) achieves the highest recall (83.97%) while larger models like Llama Guard (12B) and GPT-OSS Safeguard (20B) exhibit conservative behavior, missing up to 75% of unsafe content. We demonstrate that model size does not correlate with safety detection performance and that general-purpose guard models outperform specialized ones. These findings provide practical guidance for selecting safety guard models in production deployments.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="77a5cdfb400c" data-article-url="https://arxiv.org/abs/2605.28831" data-article-title="S3Mem: 長期対話型質​​問応答のための構造化時空間シーン-イベント記憶" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28831" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28831" target="_blank" rel="noopener">S3Mem: 長期対話型質​​問応答のための構造化時空間シーン-イベント記憶</a></h3>
      <p class="summary">長期にわたる対話型エージェントは、多くの場合、大規模な軌跡履歴を蓄積しますが、以前のイベントに関する質問に確実に答えることができません。私たちは、主なボトルネックはコンテキストの長さだけではなく、長期記憶の軌跡と答えのインターフェースにあると主張します。履歴がプレーンテキストのチャンクとして保存され、標準の検索拡張生成 (RAG) でクエリされる場合、システムは多くの場合、特に空間的、時間的、繰り返しイベント、およびマルチホップ状態の質問について、ローカルに関連するが連鎖的に不完全な証拠を取得します。我々は、長期対話型質​​問応答 (QA) のための構造化されたシーンイベントエピソード記憶フレームワークである S3MEM を提案します。 S3MEM は、構造化メモリ ユニットに軌跡を書き込み、アンカーに応じた検索を通じて証拠を取得し、応答時間推論のためのコンパクトなトークンバジェット認識証拠インターフェイスを公開します。この意味で、S3MEM は、エージェントの軌跡をクエリに合わせたサポートに変換する、構造化された証拠ハーネスです。 2 つの内部ヘッドライン環境 (Craafter、Jericho) と 2 つのファミリー外環境 (SciWorld、ALFWorld) で S3MEM を評価します。共有凍結応答時間プロトコルの下では、S3MEM は 4 つの環境すべてで一貫して Vanilla RAG を上回り、Crafter、Jericho、ALFWorld では Graph-NoReader を上回り、劇的に少ない証拠トークンを使用しながら SciWorld でも同等のパフォーマンスを発揮します。 A-MEM にインスピレーションを得た、MemoryOS に適応した、LightMem に適応した 3 つの最近のベースラインは、いくつかの設定において Vanilla RAG よりも改善されていますが、S3MEM の全体的な精度効率の最前線に匹敵するものはありません。全体として、証拠は限定された結論を裏付けています。つまり、現在の凍結された応答時間プロトコルの下では、構造化された書き込みとアンカーに応じた証拠のルーティングは、より一般的なメモリ インターフェイスよりも長期の対話型 QA に強力な精度効率のフロンティアを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">S3Mem: Structured Spatiotemporal Scene-Event Memory for Long-Horizon Interactive Question Answering</p>
        <p class="orig-summary">Long-horizon interactive agents often accumulate large trajectory histories yet still fail to answer questions about earlier events reliably. We argue that the main bottleneck is not context length alone, but the trajectory-to-answer interface of long-term memory. When histories are stored as plain-text chunks and queried with standard retrieval-augmented generation (RAG), systems often retrieve locally relevant but chain-incomplete evidence, especially for spatial, temporal, repeated-event, and multi-hop state questions. We propose S3MEM, a structured scene-event episodic memory framework for long-horizon interactive question answering (QA). S3MEM writes trajectories into structured memory units, retrieves evidence through anchor-sensitive retrieval, and exposes a compact token-budget-aware evidence interface for answer-time inference. In this sense, S3MEM is a structured evidence harness that converts agent trajectories into query-aligned support. We evaluate S3MEM on two internal headline environments (Crafter, Jericho) and two out-of-family environments (SciWorld, ALFWorld). Under a shared frozen answer-time protocol, S3MEM consistently outperforms Vanilla RAG across all four environments, surpasses Graph-NoReader on Crafter, Jericho, and ALFWorld, and matches it on SciWorld while using dramatically fewer evidence tokens. Three adapted recent baselines -- A-MEM-inspired, MemoryOS-adapted, and LightMem-adapted -- improve over Vanilla RAG in several settings, but none matches S3MEM&#x27;s overall accuracy-efficiency frontier. Overall, the evidence supports a bounded conclusion: under the current frozen answer-time protocol, structured writing and anchor-sensitive evidence routing provide a stronger accuracy-efficiency frontier for long-horizon interactive QA than more generic memory interfaces.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="08afb17b9da9" data-article-url="https://arxiv.org/abs/2605.28832" data-article-title="トピックの一貫性のためのトランスフォーマーベースの埋め込みの比較研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28832" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28832" target="_blank" rel="noopener">トピックの一貫性のためのトランスフォーマーベースの埋め込みの比較研究</a></h3>
      <p class="summary">トピック モデリングは自然言語処理 (NLP) の一分野であり、単語の共起パターンに従ってテキストの大規模なコレクションを一貫したグループに編成することを目的としています。潜在ディリクレ割り当て (LDA) は依然として最も広く使用されており、解釈可能な確率的アプローチの 1 つです。 NLP、特にトランスフォーマーベースの言語モデルの最近の進歩により、文書表現が改善されました。モデルのサイズ (パラメーターの数の点で) が、さまざまな事前定義タスクでの言語モデルのパフォーマンスに大きな影響を与えることも知られています。この研究では、さまざまなコーパスに対する BERTopic パイプライン内の 7 つのトランスフォーマーベースの言語モデル (MiniLM などの小規模なモデルから LLaMA-2 などの大きなモデルまで) のパフォーマンスを分析することにより、トピックの品質に対するモデル サイズの影響を体系的に調べます。トピックの品質は、R{\&quot;o}der et al. (2015) に従って一貫性と発散のメトリクスを使用して評価されます。私たちの結果は、2,200 万から 130 億のパラメーターの範囲にあるモデル サイズがトピックの品質に与える影響はごくわずかであることを示しており、より小さなモデルでもより大きなモデルと同等のパフォーマンスを達成できることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A comparative study of transformer-based embeddings for topic coherence</p>
        <p class="orig-summary">Topic modeling is a branch of Natural Language Processing (NLP) that aims to organize large collections of texts into coherent groups according to word co-occurrence patterns, with Latent Dirichlet Allocation (LDA) remaining one of the most widely used and interpretable probabilistic approaches. Recent advances in NLP, particularly transformer-based language models, offer improved document representations. It is also known that the size of the model (in terms of number of parameters) has a significant impact in the performance of the language models on different pre-defined tasks. In this study, we systematically examine the effect of model size on topic quality by analyzing the performances of seven transformer-based language models (from small models such as MiniLM to large ones such as LLaMA-2) in a BERTopic pipeline on a variety of corpora. Topic quality is evaluated using coherence and divergence metrics following R{\&quot;o}der et al. (2015). Our results indicate that model size, ranging from 22 million to 13 billion parameters, has a negligible impact on the quality of the topic, suggesting that smaller models can achieve comparable performance to larger models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bdb8c827aa30" data-article-url="https://arxiv.org/abs/2605.28833" data-article-title="子どものスピーチの文字起こし: ASR のパフォーマンスと信頼性の高い正書法文字起こしの取得" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28833" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28833" target="_blank" rel="noopener">子どものスピーチの文字起こし: ASR のパフォーマンスと信頼性の高い正書法文字起こしの取得</a></h3>
      <p class="summary">自動音声認識 (ASR) は、自動文字起こしを生成することにより、子供の音声研究における手動の注釈の労力を大幅に削減する可能性があります。ただし、子供固有の事前トレーニング済みモデルが限られており、ノイズ条件が非常に多様であるため、リソースが少ない言語では、子供の音声に対して確実に高品質の ASR 文字起こしを取得することは依然として困難です。この研究では、オランダの 2 つの児童音声データセット、JASMIN と DART で 3 つのモデル ファミリー (Whisper、Parakeet、Wav2Vec2) からの 9 つの ASR モデルを評価することにより、2 つの研究質問を通じて児童音声に対する最先端の ASR モデルの有効性を調査します。研究課題 1 では、子供の発話に適用された ASR モデルのパフォーマンスを調査します。微調整された Whisper-medium モデルは、JASMIN で 5.54%、DART で 70.37% の WER で最高の全体的なパフォーマンスを達成し、ノイズの多い DART データの方が明らかに困難であることを示しています。研究課題 2 では、手動による検証を必要とせずに、信頼できる正投影転写が自動的に取得できるサブセットをどの程度選択できるかを検討します。 ASR 出力と元の読み上げプロンプトを比較する発話レベルの選択方法を使用して、正しく発音された録音を識別します。提案された選択方法を使用すると、発話の 42.0% (JASMIN の場合) と 18.1% (DART の場合) が高い信頼度で正しく発音されていると自動的に識別され、その結果、発話レベルでのエラー率が非常に低くなり (精度は 98.3% 以上)、手動検証の必要性が減ります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Transcribing Children&#x27;s Speech: ASR Performance and Obtaining Reliable Orthographic Transcriptions</p>
        <p class="orig-summary">Automatic speech recognition (ASR) has the potential to substantially reduce manual annotation effort in child speech research by generating automatic transcriptions. However, obtaining reliably high-quality ASR transcriptions for child speech remains challenging in low-resource languages due to limited child-specific pre-trained models and highly diverse noise conditions. This study investigates the effectiveness of state-of-the-art ASR models on child speech through two research questions, by evaluating nine ASR models from three model families (Whisper, Parakeet, and Wav2Vec2) on two Dutch child speech datasets, JASMIN and DART. Research question 1 examines the performance of ASR-models applied to child speech. The fine-tuned Whisper-medium model achieves the best overall performance, with a WER of 5.54% on JASMIN and 70.37% on DART, showing that the noisy DART data are clearly more challenging. Research question 2 examines to what extent it is possible to select a subset for which reliable orthographic transcriptions can be obtained automatically, without the need for manual verification. We use an utterance-level selection method that compares ASR output with the original read prompt to identify correctly pronounced recordings. Using the proposed selection method, 42.0% [for JASMIN] and 18.1% [for DART] of the utterances can be automatically identified as correctly pronounced with high confidence, resulting in very low error rates on an utterance level (precisions of 98.3% and higher) and reducing the need for manual verification.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f62b709a9df" data-article-url="https://arxiv.org/abs/2605.28834" data-article-title="オランダ語の音節化アルゴリズムを評価し、深層学習を通じて音声情報と正書法情報を組み合わせることで精度を向上する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28834" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28834" target="_blank" rel="noopener">オランダ語の音節化アルゴリズムを評価し、深層学習を通じて音声情報と正書法情報を組み合わせることで精度を向上する</a></h3>
      <p class="summary">音節化は、単語を音節に分割するタスクを表します。多くの規則と例外があるため、高精度で音節化を実行するアルゴリズムをトレーニングすることは依然として課題です。過去数十年にわたり、オランダ語の音節化に関してさまざまなアルゴリズムが提案されてきましたが、包括的な比較評価はまだ行われていません。さらに、近年、深層学習は NLP 内で非常に人気が高まっていますが、オランダ語正書音節化用の最新の深層学習ベースのフレームワークは開発されていません。最後に、音声および正書法の音節化アルゴリズムは個別に検討されましたが、組み合わせて検討されたわけではありません。現在の研究の目的は 2 つあります: (a) 既存のオランダ語の音節化アルゴリズムのパフォーマンスを調べること、(b) 音声情報と正書法情報を単一のモデルに組み合わせることで音節化のパフォーマンスが向上するかどうかを調査すること。アルゴリズムのパフォーマンスを比較するために、4 つのアルゴリズム (Brandt Corstius、Liang、Trogkanis-Elkan (CRF)、および新しく考案された深層学習モデル) を 3 つの異なるデータセット (辞書単語、外来語、擬似単語) に適用しました。アルゴリズムはデータセット間でパフォーマンスが異なり、1 つの条件を除くすべての条件でデータ駆動型アルゴリズムが知識ベースのアルゴリズムを上回っています。開発された新しいディープラーニング手法により、文献で見つかった最高の手法と比較してパフォーマンスが向上しました (単語精度 99.65%、0.14% 向上)。音声情報を追加することで音節化のパフォーマンスが向上した単語を分析したところ、これらは発音に関する情報によって正書法の曖昧さを解決できた単語であることがわかりました。将来の研究では、音声情報が正書法処理に役立つ他の分野も調査される可能性があります。さらに、新しく開発された深層学習フレームワークは、オランダ語以外の言語にも適用できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Assessing Dutch Syllabification Algorithms and Improving Accuracy by Combining Phonetic and Orthographic Information through Deep Learning</p>
        <p class="orig-summary">Syllabification describes the task of dividing words into syllables. Due to many rules and exceptions, training an algorithm to perform syllabification with high accuracy remains a challenge. Throughout the last decades, different algorithms have been put forth for Dutch syllabification, yet a comprehensive comparative assessment has not been done. Additionally, deep learning has gained significant popularity within NLP in recent years, yet no modern deep-learning based framework has been developed for Dutch orthographic syllabification. Finally, phonetic and orthographic syllabification algorithms have been examined separately, but not in combination. The aim of the current research was twofold: (a) to examine the performance of existing Dutch syllabification algorithms, and (b) to investigate whether combining phonetic and orthographic information into a single model can increase syllabification performance. To compare the performance of algorithms, four algorithms (Brandt Corstius, Liang, Trogkanis-Elkan (CRF), and a newly conceived deep-learning model) were applied to three different datasets (dictionary words, loanwords, pseudowords). The algorithms show varying performance across datasets, with the data-driven algorithms outperforming a knowledge-based algorithm in all but one condition. The new deep-learning methods developed led to increased performance compared to the best found in the literature (99.65% word accuracy, a 0.14% improvement). An analysis of the words for which adding phonetic information improved syllabification performance indicates that these were words in which the orthographic ambiguity could be resolved by information on pronunciation. Future research could examine other areas where phonetic information can benefit orthographic processing. In addition, the newly developed deep learning frameworks can be applied to other languages than Dutch.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="af3e21c2846b" data-article-url="https://arxiv.org/abs/2605.28835" data-article-title="GenesisFunc: 正確かつ一般化可能な関数呼び出しのためのマルチエージェント データ生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28835" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28835" target="_blank" rel="noopener">GenesisFunc: 正確かつ一般化可能な関数呼び出しのためのマルチエージェント データ生成</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、関数呼び出し (FC) を通じて機能を拡張します。FC は、高品質、多様性、および幅広いシナリオをカバーするトレーニング データに依存します。ただし、実際の関数呼び出しデータを取得して注釈を付けるのは困難ですが、既存のパイプラインからの合成データは、多くの場合、信頼性の低い API、限られたツールのスケーラビリティ、不十分な多様性、弱い品質管理に悩まされます。これらに対処するために、FC トレーニング データを生成する自動パイプラインである GenesisFunc を紹介します。当社の GenesisFunc は、広く使用されている公開ベンチマークの信頼性の高いツールから始まり、マルチエージェント フレームワークを採用して、プロセス全体を通じて多様性と品質の両方を維持しながら、多様なシナリオにわたる会話を生成する対話生成システムをサポートします。データの精度は多段階の評価システムによってさらに強化されます。私たちは合成データセット上で 8B LLM を微調整し、広範な実験を通じて、ドメイン内の FC パフォーマンスとドメイン外の汎化において同様のサイズのオープンソース モデルを上回るパフォーマンスを示し、同時に最新の API ベースのモデルの一部と同等の FC 機能に達していることを示しました。さらに、私たちの方法は、下流のツール間で効果的に拡張できる強力な可能性を示しており、現実世界への適用可能性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GenesisFunc: Multi-Agent Data Generation for Accurate and Generalizable Function-Calling</p>
        <p class="orig-summary">Large Language Models (LLMs) extend their capabilities through function-calling (FC), which relies on training data with high quality, diversity, and broad coverage of scenario. However, obtaining and annotating real function-calling data is challenging, while synthetic data from existing pipelines often suffers from unreliable APIs, limited tool scalability, insufficient diversity, and weak quality control. To address these, we present GenesisFunc, an automated pipeline for generating FC training data. Starting from reliable tools in widely used public benchmarks, our GenesisFunc employs a multi-agent framework to support a dialogue generation system that produces conversations spanning diverse scenarios, while maintaining both diversity and quality throughout the process. The accuracy of the data is further reinforced through a multi-stage evaluation system. We fine-tune an 8B LLM on the synthetic dataset and show through extensive experiments that it outperforms similarly sized open-source models in in-domain FC performance and out-of-domain generalization, while reaching FC capabilities comparable to some of the latest API-based models. In addition, our method demonstrates strong potential to scale effectively across downstream tools, underscoring its real-world applicability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4b889e9d014" data-article-url="https://arxiv.org/abs/2605.28836" data-article-title="読者を取り残さない: 誰もが理解できるマルチエージェントの概要" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28836" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28836" target="_blank" rel="noopener">読者を取り残さない: 誰もが理解できるマルチエージェントの概要</a></h3>
      <p class="summary">米国の平文法では、政府文書が一般の人々が簡単に理解できる明確で単純な言語でアクセスできるようにすることを求めていますが、既存の要約システムは、一般読者の間の多様な言語的および認知的障壁に対処するのに苦労しています。我々は、小学生の読者、非ネイティブの読者、注意欠陥のある読者という 3 つの代表的な読者グループをシミュレートする、平易な言語要約のためのマルチエージェント フレームワークである NRLB (No Reader Left Behind) を紹介します。 NRLB は、テンプレートベースの計画と読者指向の反復的な改善を組み合わせ、難しい用語、文脈の欠落、混乱を招く文章の体系的な検出と解決を可能にします。複数のデータセットにわたる評価により、事実の正確さを維持しながら可読性が一貫して向上していることが実証されています。人間による評価では、NRLB の影響がさらに検証され、アノテーターの優先率は 55% から 76% の範囲であり、情報源に忠実であり、一般の人々が広くアクセスできる平易な言葉による要約を作成する NRLB の可能性が強調されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">No Reader Left Behind: Multi-Agent Summaries Everyone Can Understand</p>
        <p class="orig-summary">The Plain Writing Act in the United States requires government documents to be accessible in clear and simple language that the general public can easily understand, yet existing summarization systems struggle to address diverse linguistic and cognitive barriers among general readers. We present NRLB (No Reader Left Behind), a multi-agent framework for plain language summarization that simulates three representative reader groups: elementary school student readers, non-native readers, and readers with attention deficits. NRLB combines template-based planning with iterative, reader-oriented refinement, enabling systematic detection and resolution of difficult terms, missing contexts, and confusing sentences. Evaluations across multiple datasets demonstrate consistent improvements in readability while preserving factual accuracy. Human evaluation further validates NRLB&#x27;s impact, with annotator preference rates ranging from 55% to 76%, highlighting NRLB&#x27;s potential to produce plain language summaries that are both faithful to the source and broadly accessible to the general public.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f3e7d994d369" data-article-url="https://arxiv.org/abs/2605.28837" data-article-title="SERC:LDPC にヒントを得た検索拡張生成のためのセマンティック エラー修正" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28837" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28837" target="_blank" rel="noopener">SERC:LDPC にヒントを得た検索拡張生成のためのセマンティック エラー修正</a></h3>
      <p class="summary">大規模言語モデル (LLM) は顕著な機能を実証していますが、その信頼性は幻覚によって大きく損なわれます。既存の固有の自己修正手法はこれに対処しようとしますが、モデルが外部検証なしで自身の出力内のエラーを特定するのに苦労する自己バイアスにより失敗することがよくあります。これらの制限を克服するために、我々は、LDPC にヒントを得た検索拡張生成 (SERC) のためのセマンティック エラー修正を提案し、LLM 幻覚を解釈し軽減するための理論的枠組みを提供します。テキスト生成プロセスを意味論的なノイズの多いチャネルとして再定式化し、生成された応答をノイズで破損したコードワードとして扱います。低密度パリティ チェック (LDPC) コードからインスピレーションを得た SERC は、スパース検証戦略を採用しています。つまり、すべての事実を徹底的にチェックするのではなく、低密度検証クエリを生成し、外部証拠に照らして検証して、エラーを効率的に検出して修正します。 Llama-3-8B および Qwen2.5-14B を使用して、LongForm Bio および TruthfulQA ベンチマークで SERC を評価します。実験結果は、SERC が固有の自己修正手法と強力な検索拡張ベースラインの両方を上回るパフォーマンスを示し、特に事実の精度 (FactScore) において大幅な向上を示しています。特に、SERC により、小型言語モデル (SLM) が幻覚の軽減と情報の保存において大規模なベースラインのパフォーマンスを上回ることが可能になります。私たちの調査結果は、SERC がトレーニング不要でモデルに依存しないソリューションを提供し、高密度メソッドと比較して検証オーバーヘッドを大幅に削減し、リソースに制約のある環境でコストと忠実度の間の最適なトレードオフを達成することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SERC: LDPC-Inspired Semantic Error Correction for Retrieval-Augmented Generation</p>
        <p class="orig-summary">While Large Language Models (LLMs) have demonstrated remarkable capabilities, their reliability is significantly compromised by hallucinations. Existing intrinsic self-correction methods attempt to address this, but often fail due to self-bias, where models struggle to identify errors in their own outputs without external verification. To overcome these limitations, we propose the LDPC-inspired semantic error correction for retrieval-augmented generation (SERC), providing a theoretical framework to interpret and mitigate LLM hallucinations. We reformulate the text generation process as a semantic noisy channel, treating generated responses as noise-corrupted codewords. Inspired by low-density parity-check (LDPC) codes, SERC employs a sparse verification strategy: instead of exhaustively checking all facts, it generates low-density verification queries and validates them against external evidence to efficiently detect and correct errors. We evaluate SERC on LongForm Bio and TruthfulQA benchmarks using Llama-3-8B and Qwen2.5-14B. Experimental results demonstrate that SERC outperforms both intrinsic self-correction methods and strong retrieval-augmented baselines, demonstrating significant gains especially in factual precision (FactScore). Notably, SERC enables small language models (SLMs) to surpass the performance of larger baselines in hallucination reduction and information preservation. Our findings demonstrate that SERC provides a training-free, model-agnostic solution that significantly reduces verification overhead compared to dense methods, achieving an optimal trade-off between cost and fidelity in resource-constrained environments.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3bf0a75f5ab6" data-article-url="https://arxiv.org/abs/2605.28838" data-article-title="免疫介在性疾患の専門分野に特化した医療言語モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28838" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28838" target="_blank" rel="noopener">免疫介在性疾患の専門分野に特化した医療言語モデル</a></h3>
      <p class="summary">フリーテキストの医療ナラティブから詳細な臨床情報を抽出することは、研究者や医療システムにとって依然として現実的な課題です。免疫介在性疾患や感染症の用語は特にソース間で一貫性がなく、そのため、関連する生物医学的概念を十分な粒度で捉えるための汎用自然言語処理 (NLP) システムの能力が制限されることがよくあります。私たちは、免疫学および感染症の文脈で発生する疾患関連実体を識別するために調整された、ドメイン固有の固有実体認識 (NER) モデルを開発しました。私たちは、2 人の臨床専門家と協力して 371 件の症例報告のデータセットを収集し、手作業で注釈を付け、免疫介在性疾患および感染症疾患、ならびに関連する症状および臨床記述子をカバーする 12 のエンティティ クラスを定義しました。私たちは、複数の医療固有の埋め込みを備えた MedicalNER アーキテクチャ、BERT ベースのトークン分類モデル、ゼロショット NER システムなど、いくつかのモデリング戦略を評価しました。最も強力なパフォーマンスは、臨床領域の埋め込みでトレーニングされたトランスフォーマー ベースのモデルで得られ、F1 スコア 0.89 に達し、ベースライン アプローチやゼロショット アプローチを一貫して上回りました。特殊な埋め込みと専門家の注釈の組み合わせは、微妙な疾患用語を捉え、異種の生物医学テキスト全体での一般化を向上させるのに特に価値があることが判明しました。プロンプトされた LLM ベースラインは、同じ評価プロトコルの下で大幅に低いパフォーマンスを達成しました。これは、詳細なプロンプトにもかかわらず、きめの細かいエンティティ境界に対してスパン一貫した出力を生成することが困難であることを反映しています。結果として得られるモデルは、症例報告を分析するための構造化された方法を提供し、コホートの特定、疾患のモニタリング、臨床意思決定のサポートなどの下流タスクをサポートできます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Specialty-Specific Medical Language Model for Immune-Mediated Diseases</p>
        <p class="orig-summary">Extracting detailed clinical information from free-text medical narratives remains a practical challenge for researchers and healthcare systems. Terminology for immune-mediated and infectious diseases is especially inconsistent across sources, which often limits the ability of general-purpose Natural Language Processing (NLP) systems to capture the relevant biomedical concepts with sufficient granularity. We developed a domain-specific Named Entity Recognition (NER) model tailored to identify disease-related entities occurring in immunology and infectious disease contexts. We assembled and manually annotated a dataset of 371 case reports in collaboration with two clinical specialists, defining twelve entity classes covering immune-mediated and infectious conditions as well as related symptoms and clinical descriptors. We evaluated several modeling strategies, including the MedicalNER architecture with multiple healthcare-specific embeddings, a BERT-based token classification model, and zero-shot NER systems. The strongest performance was obtained with a transformer-based model trained on clinical-domain embeddings, which reached an F1 score of 0.89, consistently outperforming baseline and zero-shot approaches. The combination of specialized embeddings and expert annotation proved particularly valuable for capturing nuanced disease terminology and improving generalization across heterogeneous biomedical text. The prompted LLM baseline achieved substantially lower performance under the same evaluation protocol, reflecting difficulties in producing span-consistent outputs for fine-grained entity boundaries despite detailed prompting. The resulting model provides a structured way to analyze case reports and can support downstream tasks such as cohort identification, disease monitoring, and clinical decision support.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f2b0f7c13fb8" data-article-url="https://arxiv.org/abs/2605.28840" data-article-title="LLM エージェントの一貫性はどの程度ですか?マルチステップのツール呼び出しパイプラインにおける動作の再現性の測定" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28840" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28840" target="_blank" rel="noopener">LLM エージェントの一貫性はどの程度ですか?マルチステップのツール呼び出しパイプラインにおける動作の再現性の測定</a></h3>
      <p class="summary">ツール呼び出し機能を備えた大規模言語モデル (LLM) エージェントが実稼働システムに導入されることが増えていますが、根本的な信頼性の問題、つまり同じエージェントが 2 回同じように動作するかという問題はまだ解明されていません。我々は、エージェントが同じツールを同じ順序で、同じ引数で、同じ呼び出しを繰り返して選択するかどうかを測定する、複数ステップのツール呼び出しエージェントの動作の一貫性に関する体系的な実証研究を紹介します。 ReAct スタイルのエージェント (検索専用、フリーテキスト アクション) の一貫性に関する以前の研究とは異なり、型指定されたパラメーターと結果として生じる副作用を備えた構造化されたツール呼び出しインターフェイスのより豊富な設定を研究します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines</p>
        <p class="orig-summary">Large language model (LLM) agents with tool-calling capabilities are increasingly deployed in production systems, yet a fundamental reliability question remains under-explored: does the same agent behave the same way twice? We present a systematic empirical study of behavioral consistency in multi-step tool-calling agents, measuring whether agents select the same tools, in the same order, with the same arguments, across repeated identical invocations. Unlike prior work on consistency in ReAct-style agents(search-only, free-text actions), we study the richer setting of structured tool-calling interfaces with typed parameters and consequential side effects.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a72fa2383343" data-article-url="https://arxiv.org/abs/2605.28842" data-article-title="計画としての思考: 強化計画による思考連鎖最適化のための潜在世界モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28842" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28842" target="_blank" rel="noopener">計画としての思考: 強化計画による思考連鎖最適化のための潜在世界モデル</a></h3>
      <p class="summary">多様な NLP タスクにわたる大規模言語モデル (LLM) の成功により、モデルの動作をタスクの目標に合わせるための重要なステップとして、推論チェーンの最適化の重要性が高まっています。既存の推論チェーンのチューニング方法は、多くの場合、解釈可能性、一般化、およびサンプル効率に欠けるブラックボックス ヒューリスティックまたは勾配なしの検索に依存しています。この研究では、推論チェーンの最適化を潜在意味空間上の逐次的な意思決定プロセスとして形式化する新しいフレームワークである \textbf{Thoughts-as-Planning} を紹介します。 LLM を部分的に観察可能な環境としてモデル化し、下流の出力に対する推論チェーン編集の影響をシミュレートする潜在世界モデルを学習します。近接性を保持する埋め込み空間は、推論連鎖応答ダイナミクスをエンコードするために構築されており、勾配降下法または強化学習による計画を可能にします。私たちのメソッドはマルチスケールの抽象化をサポートしており、トークン、セグメント、命令レベルでの推論チェーン編集を統合プランナーに統合できます。言語理解と生成タスクに関する広範な実験を通じて、Thoughts-as-Planning が効率、堅牢性、一般化の点で最先端の推論チェーン調整ベースラインを上回り、その構造化された計画軌道を通じて解釈可能性を提供することを実証しました。私たちのコードは https://github.com/FastLM/Thoughts-as-Planning で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Thoughts-as-Planning: Latent World Models for Chain-of-Thoughts Optimization via Reinforcement Planning</p>
        <p class="orig-summary">The success of large language models (LLMs) across diverse NLP tasks has elevated the importance of reasoning chain optimization as a critical step in aligning model behavior with task objectives. Existing reasoning chain tuning methods often rely on black-box heuristics or gradient-free search, which lack interpretability, generalization, and sample efficiency. In this work, we introduce \textbf{Thoughts-as-Planning}, a novel framework that formalizes reasoning chain optimization as a sequential decision-making process over a latent semantic space. We model the LLM as a partially observable environment and learn a latent world model that simulates the effect of reasoning chain edits on downstream outputs. A proximity-preserving embedding space is constructed to encode reasoning chain-response dynamics, enabling planning via gradient descent or reinforcement learning. Our method supports multi-scale abstraction, allowing reasoning chain edits at token, segment, and instruction levels to be integrated into a unified planner. Through extensive experiments on language understanding and generation tasks, we demonstrate that Thoughts-as-Planning outperforms state-of-the-art reasoning chain tuning baselines in efficiency, robustness, and generalization, while offering interpretability through its structured planning trajectory. Our code is available at https://github.com/FastLM/Thoughts-as-Planning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e9df9c5deeca" data-article-url="https://arxiv.org/abs/2605.28848" data-article-title="GPF-LiveNews: 大規模言語モデルにおけるグループ条件付きフレーミングのためのストリーミング評価プロトコル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28848" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28848" target="_blank" rel="noopener">GPF-LiveNews: 大規模言語モデルにおけるグループ条件付きフレーミングのためのストリーミング評価プロトコル</a></h3>
      <p class="summary">デプロイされた言語モデルは非定常環境で評価されます。モデルのバージョン、検索レイヤー、安全システム、現実世界の入力はすべて時間の経過とともに変化します。静的バイアスのベンチマークは依然として有用ですが、モデルがさまざまな刺激を受けた視聴者に対して新たに出現したイベントをどのように組み立てるかは示していません。オープンエンド LLM 出力のグループ条件付きフレーミングを監査するためのストリーミング評価プロトコルおよびベンチマーク スナップショットである GPF-LIVENEWS を紹介します。このプロトコルは、42 の ID ラベルと 7 つのプロンプト ファミリにわたって新鮮な BBC/ロイター ニュース アンカーを拡張し、その後、意味論的感度とセンチメント差異シグナルを使用して応答バンドルを評価します。 12 回のモニタリング実行と 23 個のホストされたモデルにわたるパイロットでは、ポリシー/アクション プロンプトが最も強力なセマンティックな動きを生成しますが、センチメントの変動はディメンションおよびプロンプト ファミリ全体でより平坦です。リリースされたアーティファクトには、記事のメタデータ、プロンプト テンプレート、インスタンス化されたプロンプト、モデル出力メタデータ、スコア テーブル、ドキュメント、および再現スクリプトが含まれます。私たちはすべてのスコアを、永続的な公平性ランキングや有害なバイアスの直接の証拠としてではなく、人間によるレビューのための監視窓監査シグナルとして解釈します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GPF-LiveNews: A Streaming Evaluation Protocol for Group-Conditioned Framing in Large Language Models</p>
        <p class="orig-summary">Deployed language models are evaluated in a non-stationary environment: model versions, retrieval layers, safety systems, and real-world inputs all change over time. Static bias benchmarks remain useful, but they do not show how models frame newly emerging events for different prompted audiences. We introduce GPF-LIVENEWS, a streaming evaluation protocol and benchmark snapshot for auditing group-conditioned framing in open-ended LLM outputs. The protocol expands fresh BBC/Reuters news anchors across 42 identity labels and seven prompt families, then evaluates response bundles using semantic-sensitivity and sentiment-disparity signals. In a pilot over 12 monitoring runs and 23 hosted models, Policy/Action prompts produce the strongest semantic movement, while sentiment variation is flatter across dimensions and prompt families. The released artifact includes article metadata, prompt templates, instantiated prompts, model-output metadata, score tables, documentation, and reproduction scripts. We interpret all scores as observed-window audit signals for human review, not as permanent fairness rankings or direct proof of harmful bias.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="221e31aec2bf" data-article-url="https://arxiv.org/abs/2605.28860" data-article-title="壊滅的な忘却のメカニズムの起源: なぜ RL は SFT よりも回路を保存しやすいのでしょうか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28860" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28860" target="_blank" rel="noopener">壊滅的な忘却のメカニズムの起源: なぜ RL は SFT よりも回路を保存しやすいのでしょうか?</a></h3>
      <p class="summary">大規模言語モデル (LLM) を微調整すると、以前の機能が壊滅的に忘れられてしまうことがよくあります。最近の研究では、強化学習 (RL) が教師あり微調整 (SFT) よりも効果的に以前の機能を保持することが示されており、これはポリシー勾配更新が基本ポリシー \cite{shenfeld2025rl} に近い状態に留まっているためであると考えられます。私たちはこの行動の説明を機構レベルに拡張し、RL の利点が内部計算回路のより強力な保存によって反映されるかどうかを尋ねます。微調整下で回路がどの程度劣化するかを示すヘッドレベルの尺度である差動回路の脆弱性を導入し、科学的な質問応答に適応した Qwen2.5-3B-Instruct の RL と SFT を比較するためにそれを使用します。我々は、明らかな機構的なトレードオフを発見しました。SFT は、ターゲット タスクにより迅速に適応しますが、回路の中断と以前の機能の忘却が大幅に大きくなります。一方、RL は、タスクの適応が遅くなる代わりに、基本回路の大部分を保持します。これらの発見は、回路の保存がなぜRLが壊滅的な忘却に対してより堅牢であるかを説明するのに役立つ可能性があることを示唆しています。私たちはここでコードをリリースしました: https://github.com/rl-sft-circuit-research/fferential-circuit-vulnerability。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?</p>
        <p class="orig-summary">Fine-tuning large language models (LLMs) frequently induces catastrophic forgetting of prior capabilities. Recent work has shown that reinforcement learning (RL) retains prior capabilities more effectively than supervised fine-tuning (SFT), attributing this to policy-gradient updates remaining closer to the base policy \cite{shenfeld2025rl}. We extend this behavioral account to the mechanistic level and ask whether RL&#x27;s advantage is mirrored by stronger preservation of internal computational circuits. We introduce differential circuit vulnerability, a head-level measure of how much a circuit degrades under fine-tuning, and use it to compare RL and SFT on Qwen2.5-3B-Instruct adapted to scientific question-answering. We find a clear mechanistic trade-off: SFT adapts more rapidly to the target task but produces substantially greater circuit disruption and forgetting of prior capabilities, whereas RL preserves a larger fraction of the base circuit at the cost of slower task adaptation. These findings suggest that circuit preservation may help explain why RL is more robust to catastrophic forgetting. We released our code here: https://github.com/rl-sft-circuit-research/differential-circuit-vulnerability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a8e0e51a8a3" data-article-url="https://arxiv.org/abs/2605.28863" data-article-title="Big 2 の不完全情報下でのセルフプレイ強化学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28863" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28863" target="_blank" rel="noopener">Big 2 の不完全情報下でのセルフプレイ強化学習</a></h3>
      <p class="summary">不完全情報マルチプレイヤー ゲームでは、隠された情報、まばらな報酬、および静止していない敵の下でエージェントが行動できるかどうかをテストします。私たちはこれらの課題を、4 人用の不完全情報カード ゲームである Big 2 で研究します。私たちは、ポリシー勾配エージェントと値近似エージェント間の制御された比較を可能にする Big 2 用のセルフプレイ RL フレームワークを開発します。共通の環境、入力表現、トレーニング予算、および評価プロトコルの下では、PPO は、ランダムで貪欲でヒューリスティックな Big 2 の敵に対して、モンテカルロ Q 近似、SARSA、および Q 学習よりも優れたパフォーマンスを発揮します。さらに、適度なエントロピー正則化により、ポリシーが過度に決定論的になるのを防ぎ、PPO が向上すること、および現在のポリシーのセルフプレイは、チェックポイント セルフプレイや固定対戦相手のトレーニングよりも強力な有限予算のカリキュラムを提供することがわかりました。まとめると、これらの結果は、Big 2 が、不完全な情報、マルチプレイヤー インタラクション、遅延報酬、および可変アクション セットの下で深い RL を研究するのに有用な制御された設定であることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Self-Play Reinforcement Learning under Imperfect Information in Big 2</p>
        <p class="orig-summary">Imperfect-information multiplayer games test whether agents can act under hidden information, sparse rewards, and non-stationary opponents. We study these challenges in Big 2, a four-player imperfect-information card game. We develop a self-play RL framework for Big 2 that enables controlled comparisons between policy-gradient and value-approximating agents. Under a common environment, input representation, training budget, and evaluation protocol, PPO outperforms Monte Carlo Q approximation, SARSA, and Q-learning against random, greedy, and heuristic Big 2 opponents. We further find that moderate entropy regularization improves PPO by preventing the policy from becoming overly deterministic, and that current-policy self-play provides a stronger finite-budget curriculum than checkpoint self-play or fixed-opponent training. Together, these results show that Big 2 is a useful controlled setting for studying deep RL under imperfect information, multiplayer interaction, delayed rewards, and variable action sets.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0036e668c3cb" data-article-url="https://arxiv.org/abs/2605.28865" data-article-title="言語的監視なしの物理的相互作用を通じたワールドモデルにおける創発的な意味表現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28865" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28865" target="_blank" rel="noopener">言語的監視なしの物理的相互作用を通じたワールドモデルにおける創発的な意味表現</a></h3>
      <p class="summary">世界モデルは、言語による監視なしに、物理的な探索から何を学ぶのでしょうか?私たちは、その答えは単一の原理、つまり物理世界の幾何学的構造によって整理されると主張します。 VAE ベースの世界モデルをランダムに具現化された探索でトレーニングすると、その潜在空間が物理幾何学を反映する空間意味構造を発達させることがわかりました。方向精度はランダムに初期化されたエンコーダーの場合は 0.677+-0.029 対 0.547、位置 RSA はランダム エンコーダーの場合は 0.192+-0.047 対 0.029 (6.6 倍の改善) であり、次のことがわかります。トレーニングは、CNN の帰納的バイアスを超えた真の構造的組織化を誘発します。 20 の時間チェックポイントにわたって、予測パフォーマンスとセマンティック整合性が同時に向上し (Spearman r=-0.61、p=0.004)、共有ドライバー アカウントと一致しています。これは二重ノックアウトによって確認されます。標準の KL 正則化 (ベータ = 0.1) により、エンコーダーが幾何学的構造から強制的に遠ざけられ、予測パフォーマンスとセマンティック アラインメントの両方が、共有ドライバー アカウントの予測どおり、ステップ 50,000 までにほぼ偶然に同時に崩壊します。ベータを 0.001 に下げると、幾何学的アクセスが復元され、両方の機能が一緒に回復します。これらの発見は、物理世界の幾何学を世界モデル表現の組織原理として確立し、意味論的に根拠のある身体化されたエージェントの設計に直接的な影響を及ぼします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Emergent Semantic Representations in World Models through Physical Interaction without Linguistic Supervision</p>
        <p class="orig-summary">What does a world model learn from physical exploration, without any linguistic supervision? We argue the answer is organized by a single principle: the geometric structure of the physical world. Training a VAE-based world model on random embodied exploration, we find that its latent space develops spatial semantic structure that mirrors physical geometry -- direction accuracy 0.677+-0.029 versus 0.547 for a randomly initialized encoder, and position RSA 0.192+-0.047 versus 0.029 for random encoders (6.6x improvement), showing that training induces genuine structural organization beyond CNN inductive bias. Across 20 temporal checkpoints, prediction performance and semantic alignment co-improve (Spearman r=-0.61, p=0.004), consistent with the shared-driver account. We confirm this through a double knockout: standard KL regularization (beta=0.1) forces the encoder away from geometric structure, and both prediction performance and semantic alignment collapse simultaneously to near-chance by step 50,000 -- exactly as the shared-driver account predicts. Reducing beta to 0.001 restores geometric access and recovers both capabilities together. These findings establish physical world geometry as the organizing principle of world model representations, with direct implications for the design of semantically grounded embodied agents.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f60b1b21deda" data-article-url="https://arxiv.org/abs/2605.28866" data-article-title="連続性と順序性が重要: 大規模な言語モデルを使用した効果的な時系列分析のための時系列トークンの制約" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28866" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28866" target="_blank" rel="noopener">連続性と順序性が重要: 大規模な言語モデルを使用した効果的な時系列分析のための時系列トークンの制約</a></h3>
      <p class="summary">トークンベースの時系列大規模言語モデル (TS-LLM) は、時系列分析と推論の有望な方向性として浮上しています。ただし、これまでの研究では、時系列トークンの固有の連続性と順序性がほとんど見落とされており、モデルのパフォーマンスが大幅に制限されています。この論文では、時系列トークン埋め込みでこれらのプロパティを保持することが、トークンベースの TS-LLM の有効性にとって重要であると主張します。この目的を達成するために、初期化段階とトレーニング段階の両方に幾何学的制約を統合する、連続性と順序性を意識した戦略である COM (Continuity and Ordinality Matter) を提案します。複数の時系列分析ベンチマークの実証結果は、COM がトークンベースの TS-LLM のパフォーマンスを一貫して向上させ、競争力のある結果と強力な汎用性を実現していることを示しています。コードは https://anonymous.4open.science/r/COM で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Continuity and Ordinality Matter: Constraining Time Series Tokens for Effective Time Series Analysis with Large Language Models</p>
        <p class="orig-summary">Token-based time series large language models (TS-LLMs) have emerged as a promising direction for time series analysis and reasoning. However, prior studies largely overlook the inherent continuity and ordinality of time series tokens, which substantially limits model performance. In this paper, we argue that preserving these properties in time series token embeddings is crucial for the effectiveness of token-based TS-LLMs. To this end, we propose COM (Continuity and Ordinality Matter), a continuity- and ordinality-aware strategy that integrates geometric constraints into both the initialization and training stages. Empirical results on multiple time series analysis benchmarks demonstrate that COM consistently improves the performance of token-based TS-LLMs, achieving competitive results and strong generalizability. Code is available at https://anonymous.4open.science/r/COM .</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="51bad1aa972d" data-article-url="https://arxiv.org/abs/2605.28867" data-article-title="PrismFlow: 時系列生成におけるフローマッチングのための残差ダイナミクス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28867" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28867" target="_blank" rel="noopener">PrismFlow: 時系列生成におけるフローマッチングのための残差ダイナミクス</a></h3>
      <p class="summary">現実世界の信号は、振動や高周波変動を含むマルチモーダル パターンやマルチスケール ダイナミクスを示すことが多いため、高品質の時系列データを生成することは困難です。フロー マッチング (FM) は拡散モデルに代わる効率的な手段を提供しますが、実際の実装は通常、単一の有限容量のグローバル ベクトル場推定器に依存します。このような不均一な時間分布では、互換性のない条件付き速度を必要としながら、別個の領域が近くの流れ状態を通過する可能性があります。したがって、標準の $\ell_2$ 速度マッチング目的で訓練されたモノリシック推定器は、ローカル輸送場の過度に平滑化された近似を学習する可能性があります。この推定器レベルの平滑化により、ブランチ固有のダイナミクスが減衰し、スペクトルの歪みやモード カバレッジの低下につながる可能性があります。これに対処するために、私たちは Koopman にインスピレーションを得た力学専門家とともに新しい FM 手法である PrismFlow を提案します。各専門家は、局所的な非線形時間発展が線形遷移によって近似できる潜在空間での残差補正を学習します。さらに、各サンプルに最もよく適合するエキスパートのみを更新し、他のエキスパートに対する勾配をマスクして、モード固有の特化を促進する、信頼性を意識した Winner-Take-All (WTA) 目標を提案します。サンプリング中に、選ばれた専門家がグローバル輸送フィールドに残留動的補正を追加し、きめの細かい高周波数の時間構造を回復しながら FM の安定性を維持します。さまざまなベンチマークにわたって、PrismFlow は、標準 FM のスペクトル収縮を効果的に緩和し、Context-FID で 15.6% の向上、識別スコアで 38.6% の向上という最先端のパフォーマンスを達成しながら、低データ設定でも堅牢性を維持し、予測と代入に効果的です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PrismFlow: Residual Dynamics for Flow Matching in Time-Series Generation</p>
        <p class="orig-summary">Generating high-quality time-series data is challenging because real-world signals often exhibit multimodal patterns and multiscale dynamics, including oscillations and high-frequency variations. Flow Matching (FM) offers an efficient alternative to diffusion models, but practical implementations typically rely on a single finite-capacity global vector-field estimator. In such heterogeneous temporal distributions, distinct regimes may pass through nearby flow states while requiring incompatible conditional velocities. A monolithic estimator trained with the standard $\ell_2$ velocity-matching objective may therefore learn an overly smoothed approximation of the local transport field. This estimator-level smoothing can attenuate branch-specific dynamics, leading to spectral distortion and poor mode coverage. To address this, we propose PrismFlow, a new FM method with Koopman-inspired dynamical experts. Each expert learns residual corrections in a latent space where local nonlinear temporal evolution can be approximated by linear transitions. We further propose a confidence-aware Winner-Take-All (WTA) objective that updates only the expert best aligned with each sample while masking gradients to the others, encouraging mode-specific specialization. During sampling, the selected expert adds a residual dynamical correction to the global transport field, preserving FM stability while recovering fine-grained and high-frequency temporal structures. Across various benchmarks, PrismFlow effectively mitigates the spectral contraction in standard FM and achieves state-of-the-art performance, with a 15.6% gain in Context-FID and a 38.6% improvement in Discriminative Score, while remaining robust in low-data settings and effective for forecasting and imputation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="20306ed42b99" data-article-url="https://arxiv.org/abs/2605.28868" data-article-title="TaxDistill: 蒸留されたゲノム基盤モデルによるメタゲノム分類学的アノテーションの改善" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28868" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28868" target="_blank" rel="noopener">TaxDistill: 蒸留されたゲノム基盤モデルによるメタゲノム分類学的アノテーションの改善</a></h3>
      <p class="summary">メタゲノム分類学的アノテーションは、環境サンプル中の DNA 断片の微生物起源を特定することを目的としています。配列の類似性に依存する従来の方法は、高い微生物の多様性と参照データベースの不完全さによって制約を受けることが多く、より有益なメタゲノム配列表現を学習するために事後補正を実行する Taxometer などの学習アプローチの開発が動機付けられてきました。ただし、これらの方法は通常、トレーニング中に類似性検索ツールから得られたラベルに依存するため、必然的にノイズが発生し、表現の学習が損なわれ、分類パフォーマンスが低下する可能性があります。この問題に対処するために、メタゲノム分類のための知識蒸留フレームワークである TaxDistill を提案します。深い意味論的特徴を抽出し、信頼性に基づいてソフトラベルを生成するための教師ネットワークとして、500M パラメーターのゲノム基盤モデルである GenomeOcean を導入します。このソフト ラベル情報を軽量の学生ネットワークに抽出することにより、TaxDistill は、初期検索ツールによってもたらされるラベル ノイズを効果的に低減します。 7 つの多様な CAMI2 データセットに対する包括的な実験により、TaxDistill がほとんどのシナリオで既存のベースラインを上回るパフォーマンスを示すことが実証されました。たとえば、胃腸のデータセットでは、MMseqs2 の F1 スコアが 0.763 から 0.941 に向上し、Taxometer のベースラインを上回っています。全体として、TaxDistill は、複雑なメタゲノム解析におけるラベル補正の信頼できる方法を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TaxDistill: Improving Metagenomic Taxonomic Annotation via Distilled Genomic Foundation Models</p>
        <p class="orig-summary">Metagenomic taxonomic annotation aims to identify the microbial origins of DNA fragments in environmental samples. Traditional methods that rely on sequence similarity are often constrained by the high microbial diversity and the incompleteness of reference databases, which has motivated the development of learning approaches such as Taxometer that perform post hoc correction to learn more informative metagenomic sequence representations. However, these methods typically rely on labels derived from similarity search tools during training, which inevitably introduces noise that can impair representation learning and degrade classification performance. To address this issue, we propose TaxDistill, a knowledge distillation framework for metagenomic classification. We introduce GenomeOcean, a 500M parameter genomic foundation model, as the teacher network to extract deep semantic features and generate soft labels based on confidence. By distilling this soft label information into a lightweight student network, TaxDistill effectively reduces the label noise introduced by initial retrieval tools. Comprehensive experiments on seven diverse CAMI2 datasets demonstrate that TaxDistill outperforms existing baselines in most scenarios. For instance, on the Gastrointestinal dataset, it improves the F1 score of MMseqs2 from 0.763 to 0.941, outperforming the Taxometer baseline. Overall, TaxDistill provides a reliable method for label correction in complex metagenomic analysis.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f9e3cbdaa51c" data-article-url="https://arxiv.org/abs/2605.28869" data-article-title="ラベル空間の再形成によるマルチモーダル学習のバランスをとる" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28869" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28869" target="_blank" rel="noopener">ラベル空間の再形成によるマルチモーダル学習のバランスをとる</a></h3>
      <p class="summary">マルチモーダル学習では、多くの場合、モダリティの不均衡が発生します。つまり、より速く収束するモダリティが最適化を支配する一方、他のモダリティは学習が不十分なままになります。既存のアプローチでは通常、弱いモダリティを強化するか、最適化勾配を調整することでこの問題を軽減します。しかし、そのような戦略は主に最適化率の不一致を補償するものであり、多くの場合、これらの不一致がモダリティレベルでどのように生じるかを分析することなく、強力なモダリティの最適化能力を犠牲にします。理論的洞察と経験的観察に基づいて、学習ペースの不一致は、モダリティ固有の特徴空間と共有ラベル空間の間のマッピングの難易度の違いから生じると主張します。この問題に対処するために、レーベル側のデザインからマルチモーダル バランスを促進する最初の方法である、Balanced Multimodal Label Reshaping (BMLR) を提案します。 BMLR は、モダリティ間のマッピングの難易度を均等化するためにクロスモーダル ラベル空間を再形成し、それによってモダリティの相互作用を促進し、より豊富なクラス間情報を各モダリティに注入します。複数のアーキテクチャにわたる広範な実験により、BMLR がマルチモーダル パフォーマンスを一貫して向上させ、多様なモデル設計との強力な互換性を示すことが実証されました。ソースコードは近日中に公開される予定です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Balancing Multimodal Learning through Label Space Reshaping</p>
        <p class="orig-summary">Multimodal learning often suffers from modality imbalance, where modalities that converge faster dominate optimization while others remain undertrained. Existing approaches typically mitigate this issue by strengthening the weak modality or adjusting optimization gradients. However, such strategies mainly compensate for optimization rate discrepancies, often at the expense of the strong modality&#x27;s optimization capacity, without analyzing how these discrepancies arise at the modality level. Based on theoretical insights and empirical observations, we argue that the discrepancy of learning pace arises from differences in the mapping difficulty between modality-specific feature space and the shared label space. To address this issue, we propose Balanced Multimodal Label Reshaping (BMLR), the first method that promotes multimodal balance from the label-side design. BMLR reshapes the cross-modal label space to equalize mapping difficulty across modalities, thereby facilitating modality interaction and injecting richer inter-class information into each modality. Extensive experiments across multiple architectures demonstrate that BMLR consistently improves multimodal performance and exhibits strong compatibility with diverse model designs. The source code will be released soon.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9d08cd0b23af" data-article-url="https://arxiv.org/abs/2605.28870" data-article-title="線形構造に基づく表現の位置合わせ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28870" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28870" target="_blank" rel="noopener">線形構造に基づく表現の位置合わせ</a></h3>
      <p class="summary">私たちは、シグナル、バイアス、ノイズという表現の 3 要素からなる統計的枠組みを通じて、プラトン表現仮説 (PRH) を調査します。 {1) 信号:} プラトニック アライメントは、線形表現仮説 (LRH) に従って表現で線形にエンコードされる、オブジェクトと属性の間の普遍的な関係から生じると提案します。我々は、疎なオートエンコーダを使用して線形のオブジェクト属性特徴を抽出し、これらの疎な表現が密な対応物よりも強いクロスモーダルアライメントを示すことが多いことを示すことにより、LRH が PRH の説明に役立つという証拠を提供します。 {2) バイアス:} 使用されるアーキテクチャとトレーニング手順が多様であるため、モデルにはさまざまな暗黙的なバイアスがあります。この差は部分的に緩和できることを示します。センタリングと正規化により、モデル間の位置合わせが一貫して向上します。 {3) ノイズ:} 有限サンプル トレーニングでは、表現にノイズが発生します。私たちは、LLM およびテキスト埋め込みモデルにおける単語頻度とアライメントとの間の強力で一貫した正の相関関係を明らかにすることにより、表現ノイズがデータ不足によって引き起こされるという証拠を提供します。信号、バイアス、ノイズを総合して、線形表現仮説を改良し、多様な最新の AI アーキテクチャから生じる表現の整合に関連するさらなる現象を説明する統計モデルを提案します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Representation Alignment Rests on Linear Structure</p>
        <p class="orig-summary">We investigate the Platonic Representation Hypothesis (PRH) through a tripartite statistical framework of representations: signal, bias, and noise. {1) Signal:} We propose that Platonic alignment arises from the universal relationship between objects and attributes, which is encoded linearly in representations according to the Linear Representation Hypothesis (LRH). We provide evidence that LRH helps explain PRH by extracting linear object-attribute features with sparse autoencoders and showing that these sparse representations often exhibit stronger cross-modal alignment than their dense counterparts. {2) Bias:} Models have different implicit biases due to the diverse architectures and training procedures used. We show that this difference can be partially mitigated. Centering and normalization consistently improve cross-model alignment. {3) Noise:} Finite-sample training leads to noise in representations. We provide evidence that representational noise is driven by data scarcity by revealing a strong and consistent positive correlation between word frequency and alignment in LLMs and text embedding models. Synthesizing signal, bias, and noise, we propose a statistical model that refines the Linear Representation Hypothesis and explains further phenomena related to the alignment of representations emerging from diverse modern AI architectures.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb292634bb9f" data-article-url="https://arxiv.org/abs/2605.28876" data-article-title="LogDx-CI: LLM 根本原因診断のためのベンチマーク ログ削減ツール" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28876" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28876" target="_blank" rel="noopener">LogDx-CI: LLM 根本原因診断のためのベンチマーク ログ削減ツール</a></h3>
      <p class="summary">CI 障害ログは大きく (中央値 5k 行、このコーパスでは最大 200k)、ノイズが多くなります。ログをデバッグしようとするコーディング エージェントは、ログを管理可能なコンテキストに削減する上流のツールに依存していますが、この分野では、どの削減が下流の LLM 診断に十分な証拠を保持するかについて、公的に実証された比較が行われていません。 LogDx-CI は、11 のコンテキスト削減ツール (raw、tail、grep、3 つの RTK モード、2 つの実際の LLM マップリデュース サマライザー、3 つのハイブリッド ルーター) を 35 の実際の GitHub Actions 障害ケースで比較するベンチマークであり、3 つの LLM デバッガー ファミリ (Claude Haiku 4.5、Claude Sonnet 4.6、OpenAI gpt-5-mini) と Sonnet 4.6 ツールを使用してスコア付けされました。エージェント。耐荷重に関する 3 つの調査結果を報告します。 (1)~ハイブリッド grep+tail ルーターがコスト品質のパレートフロンティアを支配しています。上位 2 つのメソッドのスコアは、ケースごとに $\sim$ \$0.03 で 0.670 / 0.666 で、$4.5\times$ 少ないトークンでスタンドアロン grep とほぼ同じ品質です。 (2)~エージェント ループ方式では、リダクション ツール全体の品質範囲が $7\times$ 崩壊します (シングルショット スプレッド 0.42 $\to$ エージェント ループ スプレッド 0.059)。エージェントは、フォローアップ ツール呼び出しを通じて弱いコンテキストを救出します。ただし、コストの差は依然として残ります。コンテキストが弱い場合、エージェントは回復するために 2 ～ 4$\times$ 回多くのツール呼び出しを発行する必要があります。 (3)~ファミリー間 LLM サマリー ペア (Claude Haiku デバッガーにフィードする gpt-5-mini サマライザー) は、4 つの診断ツール バリアントの平均で、同じファミリー ペアを $+0.071$ 上回っており、このタスクに関するセルフコール バイアス仮説を偽っています。 gpt-5-mini サマライザーは、エージェント ループ \#1 メソッド (スコア 0.749) でもあり、ケースあたりのツール呼び出しは $0.37$ で、リデューサー コストは Haiku サマライザーよりも $10\time$ 低くなります (ケースあたり \$0.18 対 \$1.75)。すべてのデータ、コード、ケースごとのバンドル、再現性インフラストラクチャは公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LogDx-CI: Benchmarking Log Reduction Tools for LLM Root-Cause Diagnosis</p>
        <p class="orig-summary">CI failure logs are large (median 5k lines, max 200k in this corpus) and noisy. Coding agents that try to debug them depend on an upstream tool to reduce the log to a manageable context, but the field has had no public empirical comparison of which reductions preserve enough evidence for downstream LLM diagnosis. We introduce LogDx-CI, a benchmark that compares 11 context-reduction tools (raw, tail, grep, three RTK modes, two real LLM map-reduce summarizers, three hybrid routers) on 35 real GitHub Actions failure cases, scored by 3 LLM debugger families (Claude Haiku 4.5, Claude Sonnet 4.6, OpenAI gpt-5-mini) plus a Sonnet 4.6 tool-using agent. We report three load-bearing findings. (1)~Hybrid grep+tail routers dominate the cost-quality Pareto frontier; the top two methods score 0.670 / 0.666 at $\sim$ \$0.03 per case, same-ballpark quality as standalone grep at $4.5\times$ fewer tokens. (2)~In the agent-loop regime, the quality range across reduction tools collapses $7\times$ (single-shot spread 0.42 $\to$ agent-loop spread 0.059); the agent rescues weak contexts via follow-up tool calls. However, cost differences persist: weak contexts force the agent to issue 2--4$\times$ more tool calls to recover. (3)~A cross-family LLM-summary pair (gpt-5-mini summarizer feeding a Claude Haiku debugger) beats the same-family pair by $+0.071$ averaged across four diagnoser variants, falsifying the self-call-bias hypothesis on this task. The gpt-5-mini summarizer is also the agent-loop \#1 method (score 0.749) at $0.37$ tool-calls per case and $10\times$ lower reducer cost than the Haiku summarizer (\$0.18 vs \$1.75 per case). All data, code, per-case bundles, and reproducibility infrastructure are public.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="22e755596a9e" data-article-url="https://arxiv.org/abs/2605.28882" data-article-title="GrowLoop: 人間がシードし、自己進化する会話評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28882" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28882" target="_blank" rel="noopener">GrowLoop: 人間がシードし、自己進化する会話評価</a></h3>
      <p class="summary">大規模な言語モデルの急速な進歩に伴い、自由な会話における人間らしさを評価することがますます重要になってきています。しかし、人間らしさは人間が直感的に認識する暗黙知の一種ですが、根底にある基準は明示的な定式化に抵抗します。人間の判断は大きく異なり、一部のケースでは強い同意が得られますが、他のケースでは正当な意見の相違が見られます。一方、人間の判断の背後にある基準は暗黙的なままであり、事件を構築するための明確な根拠は残されていません。さらに、人間に似ているとみなされるものは静的なものではなく、モデルの能力と人間の期待に応じて進化します。専門家が作成したベンチマーク、報酬モデル、自己進化型ベンチマークなどの評価方法は進歩していますが、3 つの課題すべてに同時に対処できるものはありません。そこで、モデルの進歩やシナリオの変化に合わせて継続的に適応する、自己進化する会話評価システムである GrowLoop を提案します。最初の動きとして最小限の人間のシード アノテーションを使用して、LLM エージェントはヒューリスティック学習を通じて評価ルーブリックを繰り返し抽出し、改良します。アノテーターが集まる場合には人間と AI の合意が必要ですが、異なる場合には妥当性のみが期待されます。さらに、Rubric-Caseの共進化機構により、評価対象が移動した際に新たなシーズを介して拡張され、継続的な進化が可能となります。自由形式の会話における人間らしさの評価に適用すると、生成されたルーブリックは、人間の判断に沿って既存の手法を大幅に上回るだけでなく、アノテーターが見落としている問題も明らかになります。結果として得られるベンチマークは、機能層全体でモデルを効果的に識別し、どこが不足しているかを明らかにすると同時に、新しいシナリオに一般化し、モデルの進歩に合わせて適応します。私たちの取り組みは、ベンチマークのパラダイムを手動の更新や難易度のスケーリングから、包括的で継続的な自己進化へと移行させます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GrowLoop: Self-Evolving Conversation Evaluation Seeded by Human</p>
        <p class="orig-summary">With the rapid advancement of large language models, evaluating human-likeness in open-ended conversation has become increasingly important. However, human-likeness is a form of tacit knowledge that humans perceive intuitively, yet the underlying criteria resist explicit formulation. Human judgments vary widely, with strong agreement on some cases and legitimate disagreement on others. Meanwhile, the criteria behind human judgments remain implicit, leaving no clear basis for constructing cases. Further, what counts as human-like is not static, but evolving with model capability and human expectations. Despite progress in evaluation methods such as expert-authored benchmarks, Reward Models, and self-evolving benchmarks, none addresses all three challenges simultaneously. Therefore, we propose GrowLoop, a self-evolving conversation evaluation system that continuously adapts as models advance and scenarios shift. With minimal human seed annotations as the first mover, LLM agents iteratively extract and refine evaluation rubrics through Heuristic Learning. Human-AI agreement is required where annotators converge, while only plausibility is expected where they diverge. Moreover, the Rubric-Case co-evolution mechanism enables continuous evolution, expanded through new seeds when the evaluation target moves. Applied to human-likeness evaluation in open-ended conversation, the generated rubrics not only substantially outperform existing methods in alignment with human judgments, but also uncover issues that annotators overlook. The resulting benchmark effectively discriminates models across capability tiers and reveals where they fall short, while generalizing to new scenarios and adapting as models advance. Our work shifts the benchmarking paradigm from manual updates or difficulty scaling to comprehensive, continuous self-evolution.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c2371b073de" data-article-url="https://arxiv.org/abs/2605.28889" data-article-title="潜在メモリ管理としてのコンテキスト蒸留" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28889" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28889" target="_blank" rel="noopener">潜在メモリ管理としてのコンテキスト蒸留</a></h3>
      <p class="summary">コンテキスト蒸留はコンテキスト情報をモデルパラメータに圧縮しますが、既存の方法では、蒸留された複数の潜在記憶を非オラクル設定でどのように保存、取得、安全にアクティブ化するかを無視することがよくあります。コンテキスト蒸留を潜在的なメモリ管理問題として定式化します。各コンテキストを独立した LoRA アダプターに抽出し、明示的なメモリ選択を可能にするモジュール式メモリ バンクを形成します。クエリが与えられると、私たちのフレームワークは候補メモリを取得し、クエリを最適なアダプタにルーティングし、セルフゲーティング メカニズムを使用して潜在メモリをアクティブ化するかどうかを決定します。効率を向上させるために、推論中の管理オーバーヘッドを削減するキャッシュ共有をさらに導入します。実験では、私たちの方法が検索のベースラインを大幅に上回り、セルフゲーティングが不要な潜在記憶を非アクティブ化することで堅牢性を向上させることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Context Distillation as Latent Memory Management</p>
        <p class="orig-summary">Context distillation compresses contextual information into model parameters, yet existing methods often ignore how multiple distilled latent memories should be stored, retrieved, and safely activated in non-oracle settings. We formulate context distillation as a latent memory management problem. We distill each context into an independent LoRA adapter, forming a modular memory bank that enables explicit memory selection. Given a query, our framework retrieves candidate memories, routes the query to the most suitable adapter, and uses a Self-Gating mechanism to decide whether latent memory should be activated. To improve efficiency, we further introduce cache sharing to reduce management overhead during inference. Experiments show that our method substantially outperforms baselines with retrieval, while Self-Gating improves robustness by deactivate unnecessary latent memories.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8646762765fc" data-article-url="https://arxiv.org/abs/2605.28899" data-article-title="量子強化された人工知能における敵対的堅牢性" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28899" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28899" target="_blank" rel="noopener">量子強化された人工知能における敵対的堅牢性</a></h3>
      <p class="summary">人工知能は、さまざまなアプリケーション分野で目覚ましい成功を収めてきました。ただし、敵対的な攻撃に対する脆弱性により、信頼性、セキュリティ、信頼性に重​​大な課題が生じます。敵対的機械学習は、非常に正確なモデルであっても、慎重に作成された摂動によって操作される可能性があることを実証しており、医療、金融、自律技術などの安全性が重要なシステムにおいて深刻な懸念を引き起こしています。並行して、量子コンピューティングは、重ね合わせ、もつれ、量子干渉などの原理を通じて複雑な計算問題に対処できる変革的なパラダイムとして登場しました。これらの分野の融合により、量子技術が学習効率、スケーラビリティ、堅牢性をどのように強化できるかを探求する量子人工知能が出現しました。この章では、敵対的機械学習と既存の防御戦略の包括的な概要を示し、その後、量子コンピューティングと量子機械学習モデルについて分かりやすく紹介します。さらに、量子最適化、特徴マッピング、およびハイブリッド量子古典アーキテクチャに重点を置き、量子強化された敵対的堅牢性のための概念的なフレームワークを示します。安全で信頼できる AI システムの開発をサポートするために、実用的なアプリケーション、主要な課題、将来の研究の方向性についても説明します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Quantum-Enhanced Adversarial Robustness in Artificial Intelligence</p>
        <p class="orig-summary">Artificial Intelligence has achieved remarkable success across diverse application domains. However, its vulnerability to adversarial attacks poses significant challenges to reliability, security, and trustworthiness. Adversarial machine learning demonstrates that even highly accurate models can be manipulated through carefully crafted perturbations, raising serious concerns in safety critical systems such as healthcare, finance, and autonomous technologies. In parallel, quantum computing has emerged as a transformative paradigm capable of addressing complex computational problems through principles such as superposition, entanglement, and quantum interference. The convergence of these fields has led to the emergence of quantum artificial intelligence, which explores how quantum techniques can enhance learning efficiency, scalability, and robustness. This chapter provides a comprehensive overview of adversarial machine learning and existing defense strategies, followed by an accessible introduction to quantum computing and quantum machine learning models. It further presents conceptual frameworks for quantum-enhanced adversarial robustness, emphasizing quantum optimization, feature mapping, and hybrid quantum classical architectures. Practical applications, key challenges, and future research directions are also discussed to support the development of secure and trustworthy AI systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79d7771feac9" data-article-url="https://arxiv.org/abs/2605.28910" data-article-title="臨床要約のための幻覚検出に基づく好みの最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28910" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28910" target="_blank" rel="noopener">臨床要約のための幻覚検出に基づく好みの最適化</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、要約タスクでは有望であることが示されていますが、幻覚を引き起こすことがよくあります。幻覚はサポートされていない、または間違った記述であり、特殊な医療アプリケーションでの信頼性が制限されます。 \itermodelfull (\itermodel) という推論時間手法を導入します。これは、幻覚検出器を活用して、事実の修正に向けて反復的な要約改訂をガイドします。これに基づいて、検出器による調整軌道をモデルの微調整のための好みのペアに変換する、好み学習のための \itermodel (\model) を提案します。広範な実験により、\MimicIV からの現実世界の臨床ノートを要約する際に、私たちの方法がラマ モデルとジェマ モデルの幻覚を大幅に軽減することが示されました。たとえば、Llama-3.1-8B-Instruct の \itermodel は 24\% を軽減し、\model は 48\% の幻覚を軽減します。重要なのは、人間の専門家と LLM 陪審の評価に従って、両方の方法で要約の流暢性、一貫性、および関連性が維持されることです。これらの結果を総合すると、検出に基づいた改良と好みの学習が、臨床要約における事実の忠実性を向上させるための自動化されたソリューションを提供することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Hallucination Detection-Guided Preference Optimization for Clinical Summarization</p>
        <p class="orig-summary">Large language models (LLMs) have shown promise on summarization tasks, but they often produce hallucinations, which are unsupported or incorrect statements that limit their reliability in specialized healthcare applications. We introduce \itermodelfull (\itermodel), an inference-time method that leverages hallucination detectors to guide iterative summary revisions toward factual corrections. Building on this, we propose \itermodel for Preference Learning (\model), which converts detector-guided refinement trajectories into preference pairs for model finetuning. Extensive experiments show that our methods substantially reduce hallucinations for Llama and Gemma models in summarizing real-world clinical notes from \MimicIV. For example, \itermodel reduces 24\% and \model reduces 48\% hallucinations in Llama-3.1-8B-Instruct. Importantly, both methods preserve summary fluency, coherence, and relevance according to human expert and LLM-Jury evaluations. Together, these results demonstrate that detection-informed refinement and preference learning offer an automated solution for improving factual faithfulness in clinical summarization.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4e0efa0798a" data-article-url="https://arxiv.org/abs/2605.28914" data-article-title="AIRGuard: ランタイム権限制御によるエージェント アクションの保護" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28914" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28914" target="_blank" rel="noopener">AIRGuard: ランタイム権限制御によるエージェント アクションの保護</a></h3>
      <p class="summary">ツールを使用する言語エージェントは、モデルの決定を外部の副作用に変えます。つまり、ファイルの読み取り、スクリプトの実行、API の呼び出し、メッセージの送信、およびモデル コンテキスト プロトコル ツールの呼び出しを行います。このため、エージェント攻撃はジェイルブレイクとは異なります。多くの場合、有害なステップは、明らかに禁止された出力ではなく、攻撃者が制御するコンテキストによって許可されたアクセスがユーザーの利益に反するように誘導されるため、安全ではなくなる通常の実行可能なアクションです。私たちは、この失敗モードを権限の混乱として特定します。信頼できないリソースは推論を提供する可能性がありますが、副作用を許可してはなりません。最小特権をアクション時の認証として運用するランタイム ガードである AIRGuard を紹介します。 AIRGuard は、異種ツール呼び出しを正規化し、タスクの権限をステップレベルの権限に導き出し、ソースとターゲットの信頼を追跡し、機密の副作用をシミュレートし、ステップ間のリスクを監査し、アクションの実行前に意思決定を強制します。 AgentTrap では、AIRGuard により Sonnet 4.6 の攻撃成功率が防御なしの場合の 36.3% から 5.5% に減少します。 DTAP-150 では、AIRGuard は、ARGUS の 52.0%、MELON の 42.0% と比較して、Haiku 4.5 では 76.0% の良好なユーティリティを維持します。さらに、分析の結果、プロンプトのみのポリシーはわずかにしか役に立たないのに対し、専用のランタイム権限制御層により、エージェント システムがツールを介した副作用を直接制御できることがわかりました。コードとデータは https://github.com/Sophie508/AIRGuard で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AIRGuard: Guarding Agent Actions with Runtime Authority Control</p>
        <p class="orig-summary">Tool-using language agents turn model decisions into external side effects: they read files, run scripts, call APIs, send messages, and invoke Model Context Protocol tools. This makes agent attacks different from jailbreaks. The harmful step is often not an obviously forbidden output, but an ordinary executable action that becomes unsafe because attacker-controlled context steers authorized access against the user&#x27;s interest. We identify this failure mode as authority confusion: untrusted resources may inform reasoning, but they must not authorize side effects. We present AIRGuard, a runtime guard that operationalizes least privilege as action-time authorization. AIRGuard normalizes heterogeneous tool calls, derives task authority into step-level authority, tracks source and target trust, simulates sensitive side effects, audits cross-step risk, and enforces decisions before actions execute. On AgentTrap, AIRGuard reduces Sonnet 4.6 attack success from 36.3% without defense to 5.5%. On DTAP-150, AIRGuard preserves 76.0% benign utility with Haiku 4.5, compared with 52.0% for ARGUS and 42.0% for MELON. An ablation further shows that prompt-only policy helps only modestly, whereas a dedicated runtime authority-control layer gives the agent system direct control over tool-mediated side effects. Code and data are available at https://github.com/Sophie508/AIRGuard.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6965ba56fe9" data-article-url="https://arxiv.org/abs/2605.28916" data-article-title="アインシュタイン望遠鏡のシミュレートされたデータの分析に適用されたエージェント AI の初の直接比較" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28916" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28916" target="_blank" rel="noopener">アインシュタイン望遠鏡のシミュレートされたデータの分析に適用されたエージェント AI の初の直接比較</a></h3>
      <p class="summary">我々は、人間の介入なしに共有コンピューティング インフラストラクチャ上でシンプルなエンドツーエンドの重力波データ分析パイプラインを自律的に実行するという 2 つの最先端のエージェント AI システム、Claude Code (Anthropic) と Codex (OpenAI) の比較を報告します。このパイプラインは、生のアインシュタイン望遠鏡でシミュレートされたノイズからのパワー スペクトル密度推定、幾何学的テンプレート バンクの生成、100 個のバイナリ ブラック ホール信号注入の整合フィルター回復、自動結果生成、および Physical Review D のスタイルでフォーマットされた原稿の大規模言語モデル支援の作成で構成されます。両方のエージェントは、同一の仕様書と同一のコンピューティング リソースを受け取りました。実験は 2 回実行されました。1 回目は非現実的な大音量の注入を使用して実行され、2 回目は物理的に動機付けられた SNR 範囲に再スケーリングされた信号を使用して実行されました。科学的結果は両方の実行で収束しました。ただし、エージェントは大幅に異なる動作と計算コストを示しました。Claude Code は、仕様からのサイレント逸脱はありますが、パイプラインを約 3.4 分で完了しましたが、Codex は、整合フィルターの内部ループの一方的なパフォーマンスの最適化を含む、明示的な自己修正の再起動に約 16 分を要しました。自律的に生成された原稿も、長さ、詳細、品質が異なりました。 2 回目の実行では、SNR 範囲の命令の解釈における微妙な違いが、真の科学的相違につながりました。Claude Code は命令を黙って再解釈しましたが、Codex は文字通り仕様に従いました。速度と可聴性、サイレントと透過的なエラー処理、命令の解釈、マルチモデル パイプラインにおける中間データ表現の重要性など、これらの動作の違いが科学技術コンピューティング ワークフローでのエージェント AI の展開に与える影響について説明します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">First head-to-head comparison of agentic AI applied to the analysis of simulated data of the Einstein Telescope</p>
        <p class="orig-summary">We report a comparison of two state-of-the-art agentic AI systems, Claude Code (Anthropic) and Codex (OpenAI), tasked with autonomously executing a simple end-to-end gravitational wave data analysis pipeline on a shared computing infrastructure without human intervention. The pipeline comprises power spectral density estimation from raw Einstein Telescope simulated noise, geometric template bank generation, matched filter recovery of 100 binary black hole signal injections, automated results generation, and large language model-assisted production of a manuscript formatted in the style of Physical Review D. Both agents received identical written specifications and identical compute resources. The experiment was run twice: a first run with unrealistically loud injections, and a second run with signals rescaled to a physically motivated SNR range. The scientific results converged in both runs. However, the agents exhibited substantially different behaviors and computational costs: Claude Code completed the pipeline in ~3.4 minutes with silent deviations from the specification, while Codex required ~16 minutes across explicit self-correcting restarts, including an unsolicited performance optimization of the matched filter inner loop. The autonomously generated manuscripts also diverged in length, details, and quality. In the second run, a subtle difference in the interpretation of the SNR range instruction led to a genuine scientific divergence: Claude Code silently reinterpreted the instructions, while Codex followed the specification literally. We discuss the implications of these behavioral differences, such as speed versus auditability, silent versus transparent error handling, instruction interpretation, and the criticality of intermediate data representations in multi-model pipelines, for the deployment of agentic AI in scientific computing workflows.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c0944f346359" data-article-url="https://arxiv.org/abs/2605.28919" data-article-title="CosmicFish-HRM: コンパクトな言語モデルの階層的反復メカニズムによる適応推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28919" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28919" target="_blank" rel="noopener">CosmicFish-HRM: コンパクトな言語モデルの階層的反復メカニズムによる適応推論</a></h3>
      <p class="summary">大規模な言語モデルは強力な推論機能を実現していますが、多くの場合、膨大なパラメータ数と高価な推論が犠牲になります。この研究では、コンパクトな言語モデルにおける適応推論の深さという別の方向を探求します。我々は、推論中に計算量を動的に割り当てる階層推論モジュール (HRM) を中心に構築されたコンパクトな言語モデルである CosmicFish-HRM を紹介します。すべての入力に固定の計算を適用する代わりに、モデルは高レベルおよび低レベルの推論サイクルを繰り返し、入力の複雑さに基づいていつ停止するかを学習します。 CosmicFish-HRM は、この適応推論コアを、グループ化されたクエリ アテンション、RoPE、SwiGLU アクティベーションなどの最新のトランスフォーマー コンポーネントと組み合わせます。追加の推論インフラストラクチャによって小規模ではオーバーヘッドが発生しますが、モデルのサイズが大きくなり、HRM コアの相対コストが減少するにつれて、このトレードオフはますます有利になると仮説を立てています。私たちの結果は、モデルが不均一な推論動作を学習し、タスクと入力全体に異なる数の推論ステップを割り当てていることを示しています。これらの発見は、適応型推論深度が推論能力のパラメータ スケールのみに依存する有望な代替手段を提供する可能性があることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CosmicFish-HRM: Adaptive Reasoning via Hierarchical Recurrent Mechanisms in Compact Language Models</p>
        <p class="orig-summary">Large language models have achieved strong reasoning capabilities, though often at the cost of massive parameter counts and expensive inference. In this work, we explore a different direction: adaptive reasoning depth in compact language models. We present CosmicFish-HRM, a compact language model built around a Hierarchical Reasoning Module (HRM) that dynamically allocates computational effort during inference. Instead of applying fixed computation to every input, the model iterates through high-level and low-level reasoning cycles and learns when to halt based on input complexity. CosmicFish-HRM combines this adaptive reasoning core with modern transformer components including Grouped Query Attention, RoPE, and SwiGLU activations. While the additional reasoning infrastructure introduces overhead at small scale, we hypothesize that this tradeoff becomes increasingly favorable as model size grows and the relative cost of the HRM core diminishes. Our results show that the model learns non-uniform reasoning behavior, allocating different numbers of reasoning steps across tasks and inputs. These findings suggest that adaptive reasoning depth may offer a promising alternative to relying solely on parameter scale for reasoning capability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8d5ea9403739" data-article-url="https://arxiv.org/abs/2605.28920" data-article-title="Conf-Gen: 生成モデルの共形不確かさの定量化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28920" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28920" target="_blank" rel="noopener">Conf-Gen: 生成モデルの共形不確かさの定量化</a></h3>
      <p class="summary">コンフォーマル予測 (CP) とその拡張であるコンフォーマル リスク コントロール (CRC) は、正式な保証を通じて教師あり機械学習の不確実性を定量化するための確立されたフレームワークです。ただし、人工知能 (AI) における最近の進歩は、CP や CRC と直接互換性のない大規模言語モデル (LLM) や画像ジェネレーターなどの教師なし生成モデルによって推進されています。この研究では、理論的前提を緩和しながら CRC を生成タスクに適応させる一般的なフレームワークであるコンフォーマル生成 (Conf-Gen) を紹介します。 Conf-Gen は、CP を LLM に適用するという以前の試みを統合して一般化し、コンフォーマルな方法論をまったく新しいドメインに拡張します。我々は、非記憶画像を生成する画像ジェネレータ、明確な質問を十分に行った会話型 AI システム、および AI エージェントの出力が正しいことについての等角保証の取得を含む、いくつかの新しいアプリケーションを通じて Conf-Gen の柔軟性を実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Conf-Gen: Conformal Uncertainty Quantification for Generative Models</p>
        <p class="orig-summary">Conformal prediction (CP) and its extension, conformal risk control (CRC), are established frameworks for quantifying uncertainty in supervised machine learning through formal guarantees. However, recent breakthroughs in artificial intelligence (AI) have been driven by unsupervised generative models, such as large language models (LLMs) and image generators, which are not directly compatible with CP or CRC. In this work we introduce conformal generation (Conf-Gen), a general framework adapting CRC to generative tasks while relaxing its theoretical assumptions. Conf-Gen unifies and generalizes previous attempts to apply CP to LLMs, and extends conformal methodology to entirely new domains. We demonstrate the flexibility of Conf-Gen through some novel applications, including obtaining conformal guarantees on: image generators producing non-memorized images, conversational AI systems having asked enough clarifying questions, and the output of AI agents being correct.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="efcb6643a3fa" data-article-url="https://arxiv.org/abs/2605.28969" data-article-title="Beyond Recall: AI パーソナライゼーションの解釈層としての行動仕様" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28969" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28969" target="_blank" rel="noopener">Beyond Recall: AI パーソナライゼーションの解釈層としての行動仕様</a></h3>
      <p class="summary">AI エージェントが人間に代わって意思決定を行う場合、その意思決定はユーザーと一致する必要があります。システムが人の解釈をどれだけ忠実に捉えているかを測定するために、表現精度を導入します。解釈層は動作仕様として運用されます。私たちのリファレンス実装は、人のデータを解釈パターンに積極的に圧縮し、言語モデルのコンテキストとして機能します。私たちは、校正済みの 5 人の審査員 LLM パネルによって採点された、保留された行動予測のプロトタイプ ベンチマークで仕様を評価します。私たちは、完全な生のコーパス、完全に抽出されたファクト、および 4 つの商用メモリ システム (Mem0、Letta、Supermemory、Zep) など、さまざまなコンテキスト条件を使用して独立して構成してテストします。この仕様は 14 のパブリック ドメインの自伝的コーパスにわたって、集合的に表現の精度を向上させ、モデルのヘッジをほぼ排除します。生のコーパスが提供する内容のほとんどを、コンテキスト コストを約 25 分の 1 に抑えて復元します。この仕様は、トレーニング前のベースラインに関係なく、被験者を共通の予測レベルに引き上げます。したがって、絶対ポイントのリフトはベースラインが最も低いところで最大となり、関連する母集団が事前トレーニングで適切に代表されていない人であることを示唆しています。リフトは、解釈が必要な質問で最大であり、解釈レイヤーを提供することで、抽出された事実や生のコーパスでは実現できないモデル動作が可能になります。逆に、リコールが必要な質問では、この層は役立つというよりむしろ邪魔になる可能性があります。私たちは、表現の精度は再現とは異なり、人間と AI の整合性はユーザーがどれだけ正確に表現されているかに依存すると結論付けています。表現が正確であるため、その調整はテスト可能です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond Recall: Behavioral Specification as an Interpretive Layer for AI Personalization</p>
        <p class="orig-summary">If an AI agent makes decisions on a person&#x27;s behalf, those decisions must align with its user. We introduce representational accuracy to measure how faithfully a system captures a person&#x27;s interpretation. An interpretive layer is operationalized as a Behavioral Specification. Our reference implementation aggressively compresses a person&#x27;s data into interpretive patterns, served as context to a language model. We evaluate the Specification on a prototype benchmark of held-out behavioral predictions scored by a calibrated 5-judge LLM panel. We test it independently and in composition with a range of context conditions: full raw corpus, full extracted facts, and four commercial memory systems (Mem0, Letta, Supermemory, Zep). Across 14 public-domain autobiographical corpora, the Specification lifts representational accuracy in aggregate and nearly eliminates model hedging. It recovers most of what the raw corpus delivers, at ~25x less context cost. The Specification lifts subjects toward a common predictive level regardless of pretraining baseline; the lift in absolute points is therefore largest where the baseline is lowest, suggesting the population of relevance is anyone not adequately represented in pretraining. Lift is greatest on interpretation-required questions, where providing an interpretive layer enables model behavior that extracted facts or raw corpus do not. Conversely, on recall-required questions, this layer can interfere rather than help. We conclude that representational accuracy is distinct from recall and that human-AI alignment is dependent on how accurately the user is represented. Representational accuracy makes that alignment testable.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="48f0cb1cec5d" data-article-url="https://arxiv.org/abs/2605.28977" data-article-title="うつ病検出におけるブラックボックスEEGモデルを解釈するための事後説明可能なAI手法の比較" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28977" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28977" target="_blank" rel="noopener">うつ病検出におけるブラックボックスEEGモデルを解釈するための事後説明可能なAI手法の比較</a></h3>
      <p class="summary">最近の深層学習の進歩により、脳波検査 (EEG) に基づいた大うつ病性障害 (MDD) の分類の精度はますます高まっていますが、高容量モデルの意思決定プロセスの解釈は依然として困難です。この研究では、EEG ベースの MDD 検出用に訓練された InceptionTime アーキテクチャに適用された複数の事後説明可能性手法を調査します。分析には、Shapley ベース、勾配ベース、摂動ベースのアトリビューション アプローチ (DeepSHAP、Integrated Gradients、GradCAM、Occlusion、Permutation Feature Importance) が含まれます。説明可能性分析は、EEG セグメントと被験者にわたるグローバル アトリビューション集約を使用して、被験者レベルの層別 5 重交差検証フレームワーク内で実行されました。評価された方法では、特に右半球における前頭、側頭、後部の脳波領域に繰り返し重点を置いた、部分的に収束した属性パターンが明らかになりました。定量的比較では、勾配ベースのアプローチと摂動ベースのアプローチが実質的に一致していることが示されましたが、DeepSHAP は比較的明確な属性分布を生成しました。同時に、説明可能性手法間のばらつきにより、結果として得られる説明に対する方法論的な仮定の影響が浮き彫りになりました。全体として、この結果は、さまざまな事後説明可能性アプローチが、うつ病検出のための EEG ベースの深層学習モデルにおいて部分的に重複する関連性構造を捕捉していることを示唆しています。観察された帰属パターンは、MDD に関する以前のいくつかの EEG 研究とほぼ一致していますが、この分析は、決定的な神経生理学的バイオマーカーや臨床応用性の証拠ではなく、探索的なものとして解釈されるべきです。この研究は、精神医学用途におけるブラックボックスEEG分類器を解釈するための事後説明可能性の有用性と限界の両方を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Comparing Post-Hoc Explainable AI Methods for Interpreting Black-Box EEG Models in Depression Detection</p>
        <p class="orig-summary">Recent advances in deep learning have enabled increasingly accurate electroencephalography (EEG)-based classification of Major Depressive Disorder (MDD), but the decision-making processes of high-capacity models remain difficult to interpret. This study investigates multiple post-hoc explainability methods applied to an InceptionTime architecture trained for EEG-based MDD detection. The analysis includes Shapley-based, gradient-based, and perturbation-based attribution approaches: DeepSHAP, Integrated Gradients, GradCAM, Occlusion, and Permutation Feature Importance. Explainability analysis was performed within a subject-level stratified 5-fold cross-validation framework using global attribution aggregation across EEG segments and subjects. The evaluated methods revealed partially convergent attribution patterns, with recurring emphasis on frontal, temporal, and posterior EEG regions, particularly in the right hemisphere. Quantitative comparison demonstrated substantial agreement between gradient- and perturbation-based approaches, while DeepSHAP produced comparatively distinct attribution distributions. At the same time, variability between explainability methods highlighted the influence of methodological assumptions on the resulting explanations. Overall, the results suggest that different post-hoc explainability approaches capture partially overlapping relevance structures in EEG-based deep learning models for depression detection. Although the observed attribution patterns are broadly consistent with several previous EEG studies of MDD, the analysis should be interpreted as exploratory rather than evidence of definitive neurophysiological biomarkers or clinical applicability. The study highlights both the usefulness and limitations of post-hoc explainability for interpreting black-box EEG classifiers in psychiatric applications.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="facb5d0b32a1" data-article-url="https://arxiv.org/abs/2605.28983" data-article-title="深層学習のハミルトン・ヤコビ理論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28983" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28983" target="_blank" rel="noopener">深層学習のハミルトン・ヤコビ理論</a></h3>
      <p class="summary">この論文では、ニューラル ネットワークのトレーニングは、ハミルトン - ヤコビの初期値問題による検索として正確に特定されています。各勾配ステップは、ホップ - コール プロパゲータが観測値に最もよく適合する粘性ハミルトン - ヤコビ方程式の初期データを選択します。推論時の入力は、その解が評価される空間点であり、初期条件はすでに重みにエンコードされています。この対応関係は、log-sum-exp 層と、より広範なアーキテクチャの構造に対して正確です。残差ネットワーク、変換器、リカレント アーキテクチャ (RNN、LSTM、SSM) はそれぞれ、アーキテクチャに依存するハミルトニアンと粘性を使用して、同じクラスのハミルトン-ヤコビ方程式を離散化します。単一の変形パラメータ $\varepsilon$ は、リプシッツ条件下で閉じた可換図の 4 つの視点 (ネットワーク、熱帯代数、粘性偏微分方程式、凸最適化) をすべて統合します。定量的な結果には以下が含まれます: 固定 $t$ に対するミニマックス最適汎化率 $O(n^{-1/(d+2)})$。敵対的な堅牢性は $\varepsilon$ によって制御されます。残差ネットワークのハミルトニアン系の共状態方程式としてのバックプロパゲーション (Pontryagin Maximum Principle)。 PDE求積法によるデータ固有の次元と一致するスケーリング指数。閉じた形式の $O(N)$ 影響関数 (ソフトマックス属性重み $\pi_j$) のエントロピー ランドスケープは $\varepsilon$ が増加するにつれて褶曲分岐を起こし、それぞれが属性盆地をマージします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Hamilton-Jacobi Theory of Deep Learning</p>
        <p class="orig-summary">In this paper, training a neural network is identified, exactly, as a search through Hamilton--Jacobi initial-value problems: each gradient step selects the initial data of a viscous Hamilton--Jacobi equation whose Hopf--Cole propagator best fits the observations; at inference, the input is the spatial point at which that solution is evaluated and the initial condition is already encoded in the weights. The correspondence is exact for log-sum-exp layers and structural for broader architectures: residual networks, transformers, and recurrent architectures (RNNs, LSTMs, SSMs) each discretize the same class of Hamilton--Jacobi equations, with architecture-dependent Hamiltonian and viscosity. A single deformation parameter $\varepsilon$ unifies all four perspectives (network, tropical algebra, viscous PDE, convex optimization) in a commutative diagram closed under Lipschitz conditions. Quantitative consequences include: the minimax optimal generalization rate $O(n^{-1/(d+2)})$ for fixed $t$; adversarial robustness controlled by $\varepsilon$; backpropagation as the co-state equation of the Hamiltonian system for residual networks (Pontryagin Maximum Principle); scaling exponents consistent with data intrinsic dimension via PDE quadrature; and a closed-form $O(N)$ influence function (softmax attribution weights $\pi_j$) whose entropy landscape undergoes fold bifurcations as $\varepsilon$ increases, each merging attribution basins.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ba2fed011e61" data-article-url="https://arxiv.org/abs/2605.28999" data-article-title="LLM ベースの履歴書スクリーニングにおける現実世界のプロンプト インジェクション攻撃の測定" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28999" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28999" target="_blank" rel="noopener">LLM ベースの履歴書スクリーニングにおける現実世界のプロンプト インジェクション攻撃の測定</a></h3>
      <p class="summary">LLM はプロンプト インジェクション攻撃に対して脆弱です。ただし、この脆弱性は主に学術研究やいくつかの事例研究を通じて概念的に実証されています。実際の LLM ベースのアプリケーションにおけるその普及と影響は、ほとんど解明されていません。この研究では、広く使用されているアプリケーションである LLM ベースの履歴書スクリーニングにおけるプロンプト インジェクション攻撃の最初の体系的な研究を紹介します。私たちの分析は、hireEZ が数年にわたって収集した約 20 万件の実際の履歴書に基づいています。まず、履歴書への即時挿入を検出するためのカスタマイズされた方法を設計します。小規模のデータセットを手動で検証すると、当社の検出器が高精度を達成し、最先端の汎用検出器を上回る性能を発揮することが実証されています。次に、検出器を完全な再開データセットに適用し、現実世界のプロンプト インジェクション攻撃の包括的な測定研究を実施します。私たちの分析では、いくつかの興味深い調査結果が明らかになりました。履歴書の約 1% に、隠されたプロンプト インジェクションが含まれています。このような注入された履歴書の普及率は、過去 1 ～ 2 年で著しく増加しています。また、挿入されたプロンプトの 90% 以上は明示的な命令を使用しません。これらの結果は、現実世界の LLM ベースのアプリケーションにおける大規模なプロンプト インジェクションの最初の証拠を提供し、そのような攻撃を理解して軽減するための将来の研究の基礎を築きます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Measuring Real-World Prompt Injection Attacks in LLM-based Resume Screening</p>
        <p class="orig-summary">LLMs are vulnerable to prompt injection attacks. However, this vulnerability has been primarily demonstrated conceptually in academic studies or through a few anecdotal case studies. Its prevalence and impact in real-world LLM-based applications are largely unexplored. In this work, we present the first systematic study of prompt-injection attacks in a widely used application: LLM-based resume screening. Our analysis is based on approximately 200K real-world resumes collected over multiple years by hireEZ. We first design tailored methods to detect prompt injection in resumes. Manual validation on a small-scale dataset demonstrates that our detectors achieve high precision and outperform state-of-the-art general-purpose detectors. We then apply our detector to the full resume dataset and conduct a comprehensive measurement study of real-world prompt injection attacks. Our analysis reveals several intriguing findings: approximately 1% of resumes contain hidden prompt injections; the prevalence of such injected resumes has increased noticeably over the past one to two years; and more than 90% of injected prompts do not use explicit instructions. These results provide the first evidence of large-scale prompt injection in real-world LLM-based applications and lay the groundwork for future studies to understand and mitigate such attacks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="82d740c41455" data-article-url="https://arxiv.org/abs/2605.29001" data-article-title="FormInv: 数学的推論ベンチマークにおける意味的不変性の測定プロトコル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29001" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29001" target="_blank" rel="noopener">FormInv: 数学的推論ベンチマークにおける意味的不変性の測定プロトコル</a></h3>
      <p class="summary">MathCheck (ICLR 2025) の言い換え品質監査では、129 グループ (3.1%) で意味的に間違った 4 つの言い換えが検出されました。それらを削除すると、GPT-4o がランク 2 からランク 4 に下がり、Claude Haiku と DeepSeek V3 がその上位に上がります。これらのランキングの変化は、単一モデルの評価では認識されません。モデル間の一致により、これらのエラーが自動的に検出されました (MathCheck のモデルは 3/4 以上、一次評価のモデルは 6/9 以上)。価格は 10 ドル未満でした。私たち自身のデータセットでは、同じプロトコルで、自動生成された結合変化言い換えの 47% が意味的に間違っていることがわかりました。この欠陥が測定ギャップをさらに深めています。Claude Haiku 4.5 は 86% の精度を達成していますが、SCR=50% です。つまり、その定理の半分は意味的に同等の再ステートメントの下で異なる答えになっています。一方、9 つのモデル全体の精度の合計は 86 ～ 96% にすぎませんが、意味的一貫性率 (SCR) は 50 ～ 82% に及びます。これは、標準ベンチマークでは見えない 32 ポイントのギャップです。形式的には、9 つ​​のフロンティア モデルを超えるターゲット ランキングには、それを実現する言い換えファミリーに対する重み付けが存在します (フリー ベンチマークの帰結)。すべてのファミリーをパレート支配するモデルはないためです。そのため、ファミリーを選択するベンチマーク設計者は、どのモデルが勝つかを暗黙的に選択していることになります。 FormInv は、監査プロトコル (再現率 100% で外部ベンチマークに複製)、366 ～ 811 項目にわたる 9 つのモデル (Lean4 で検証された定理) で評価された一次不変性尺度としての SCR および定理ごとのコクランの Q、およびレジームを意識したモデル選択のための FormInvSelector を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">FormInv: A Measurement Protocol for Semantic Invariance in Mathematical Reasoning Benchmarks</p>
        <p class="orig-summary">A paraphrase-quality audit of MathCheck (ICLR 2025) detected 4 semantically incorrect paraphrases in 129 groups (3.1%); removing them drops GPT-4o from rank 2 to rank 4 and elevates Claude Haiku and DeepSeek V3 above it; these ranking changes are invisible to any single-model evaluation. Cross-model unanimity found these errors automatically (&gt;= 3/4 models for MathCheck; &gt;= 6/9 for our primary evaluation) for under $10; in our own dataset the same protocol found that 47% of auto-generated connective-variation paraphrases were semantically incorrect. That flaw compounds a deeper measurement gap: Claude Haiku 4.5 achieves 86% accuracy yet SCR=50%, meaning half its theorems are answered differently under semantically equivalent restatements, while aggregate accuracy across 9 models spans only 86-96% yet Semantic Consistency Rates (SCR) span 50-82% -- a 32-point gap invisible to standard benchmarks. Formally, for any target ranking over 9 frontier models there exists a weighting over paraphrase families that realizes it (No-Free-Benchmark corollary), because no model Pareto-dominates all families -- so benchmark designers who select families are implicitly choosing which model wins. FormInv supplies the audit protocol (replicated on external benchmarks at 100% recall), SCR and per-theorem Cochran&#x27;s Q as primary invariance measures evaluated on 9 models across 366-811 items (on Lean4-verified theorems), and FormInvSelector for regime-aware model selection.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2f4f1a2db0a4" data-article-url="https://arxiv.org/abs/2605.29005" data-article-title="LoRe: 反復グラフ ソルバー向けのステップごとのインタラクション バジェットを備えた適応型インタラクション評価ルーティング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29005" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29005" target="_blank" rel="noopener">LoRe: 反復グラフ ソルバー向けのステップごとのインタラクション バジェットを備えた適応型インタラクション評価ルーティング</a></h3>
      <p class="summary">組み合わせ最適化のための拡散ベースのニューラル ソルバーは、高密度のエッジ/因子相互作用を繰り返し再評価するため、実時間での推論が高価になり、大規模になるとメモリに制限されることがよくあります。多体物理学の計算手法にインスピレーションを得て、ステップごとの相互作用評価の予算設定を強制する、トレーニング不要の推論時間ドロップイン ラッパーである LoRe を導入します。各反復では、固定のスパース化 (静的 kNN グラフや静的など) を使用する代わりに、計算を競合性の高い相互作用または不確実性の高い相互作用に動的にルーティングすることで、相互作用の固定部分のみを評価します。マスク）。完全に包括的なエンドツーエンドの壁時計アカウンティングの下で​​、LoRe は最大独立集合 (MIS) 問題のスケーラビリティを大幅に向上させ、実行可能な推論をベースラインのメモリ不足制限を超えて $3\times$ 以上拡張し、$\sim 8\times$ の高速化と $\sim 12\times$ のピークメモリ削減を実現し、この体制でソリューションの品質は維持されます。大規模な巡回販売員問題 (TSP) に対するクロスタスクの汎用性と、トポロジーの変化に対するゼロショットの堅牢性を実証する LoRe は、$n=1000$ で $\sim 15\times$ の高速化を実現し、$44\times$ のメモリ削減と競争力のあるツアー品質を実現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LoRe: Adaptive Interaction-Evaluation Routing with Per-Step Interaction Budgets for Iterative Graph Solvers</p>
        <p class="orig-summary">Diffusion-based neural solvers for combinatorial optimization repeatedly re-evaluate dense edge/factor interactions, making inference expensive in wall-clock time and often memory-bound at scale. Inspired by the computational methodologies of many-body physics, we introduce LoRe, a training-free, inference-time drop-in wrapper that enforces per-step interaction-evaluation budgeting: at each iteration, it evaluates only a fixed fraction of interactions by dynamically routing computation to high-conflict or high-uncertainty interactions, instead of using a fixed sparsification (e.g., static kNN graphs or static masks). Under fully inclusive end-to-end wall-clock accounting, LoRe substantially improves scalability on the Maximum Independent Set (MIS) problem, extending feasible inference more than $3\times$ beyond the baseline&#x27;s out-of-memory limit, delivering a $\sim 8\times$ speedup and a $\sim 12\times$ peak-memory reduction, with solution quality preserved in this regime. Demonstrating cross-task generality on the large-scale Traveling Salesperson Problem (TSP) and zero-shot robustness to topology shifts, LoRe achieves a $\sim 15\times$ speedup at $n=1000$ with a $44\times$ memory reduction and competitive tour quality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="62828389fb1d" data-article-url="https://arxiv.org/abs/2605.29009" data-article-title="クロスモデルエントロピーによるラベルフリーの強化学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29009" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29009" target="_blank" rel="noopener">クロスモデルエントロピーによるラベルフリーの強化学習</a></h3>
      <p class="summary">強化学習を使用した大規模な言語モデルのトレーニング後の処理は、報酬信号によってボトルネックになります。既存のアプローチでは、自動正しさチェックを備えたドメイン (数学、コード実行など) にトレーニングを制限するグラウンドトゥルース検証可能な報酬、または収集にコストがかかり、報酬ハッキングの傾向がある人間の好みのラベルのいずれかを必要とします。最近のラベルフリー手法は、グラウンドトゥルース検証器を、モデル自身の出力に対する多数決やトークンエントロピーなどの自己参照信号に置き換えていますが、モデル自体のエラーを強化するリスクがあります。この研究では、RL ポストトレーニング用のラベルフリー報酬信号として、別の検証モデルの下でのジェネレーターの応答の平均対数尤度であるクロスモデル エントロピー (CME) を提案します。 CME は継続的でトレーニングは必要なく、検証者が驚くことではないと判断した応答は正しいか高品質である可能性が高いという原則に基づいています。検証器は生成器から独立しているため、自己一貫性を介して信号を操作することはできません。トレーニング ループに他に変更を加えずに CME を GRPO に統合し、ラベルフリー RL をオープンエンドの命令フォロー、つまり自己参照信号が適用できない、またはあまり適していない領域に拡張します。次のオープンエンドの指導 (UltraFeedback プロンプト、AlpacaEval 2.0 で評価) では、CME の報酬は、4 つのモデル ファミリ (Qwen、Llama、Gemma、OLMo) と 3 つのトレーニング体制 (事前トレーニング済み、SFT、および指導調整済み) にわたる、裁判官としての LLM との直接比較でトレーニングを受けていないベースを上回り、同点調整後の勝率は 52.5% ～ 71.4% でした。コードは公開され次第公開されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Label-Free Reinforcement Learning via Cross-Model Entropy</p>
        <p class="orig-summary">Post-training large language models with reinforcement learning is bottlenecked by the reward signal. Existing approaches require either ground-truth verifiable rewards, restricting training to domains with automatic correctness checks (e.g., mathematics, code execution), or human preference labels, which are expensive to collect and prone to reward hacking. Recent label-free methods replace ground-truth verifiers with self-referential signals like majority voting or token entropy over a model&#x27;s own outputs, but risk reinforcing a model&#x27;s own errors. In this work we propose Cross-Model Entropy (CME), the mean log-likelihood of a generator&#x27;s response under a separate verifier model, as a label-free reward signal for RL post-training. CME is continuous, training-free, and grounded in the principle that responses a verifier finds unsurprising are likely correct or high quality. Because the verifier is independent of the generator, the signal cannot be gamed through self-consistency. We integrate CME into GRPO with no other changes to the training loop, extending label-free RL to open-ended instruction following -- a regime where self-referential signals are inapplicable or poorly suited. On open-ended instruction following (UltraFeedback prompts, evaluated on AlpacaEval 2.0), CME rewards beat the untrained base in head-to-head LLM-as-Judge comparisons across four model families (Qwen, Llama, Gemma, OLMo) and three training regimes (pretrained, SFT, and instruction-tuned), with tie-adjusted win rates ranging from 52.5% to 71.4%. Code will be released upon publication.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d4447098aab6" data-article-url="https://arxiv.org/abs/2605.29028" data-article-title="Return-to-Go は単なる数字ではありません: リターン条件付き教師あり学習のための Q ガイドによるアライメント" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29028" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29028" target="_blank" rel="noopener">Return-to-Go は単なる数字ではありません: リターン条件付き教師あり学習のための Q ガイドによるアライメント</a></h3>
      <p class="summary">条件付きシーケンス モデル (CSM) は、Return-to-Go (RTG) を制御信号として扱うことでポリシーを学習します。ただし、既存の CSM は、多くの場合、RTG をポリシーのパフォーマンスに合わせるのではなく、単純な数値入力として扱います。この論文では、出力ポリシーの $Q$ 値が入力 RTG と一致していることを保証することで、この調整を強制するフレームワークである Q-ALIGN DT を提案します。 $Q$ 関数を利用して CSM に緻密なガイダンスを提供し、CSM で RTG 摂動手法を使用してそれをさらに微調整することにより、私たちの手法は、より高い RTG がより高い期待リターンを伴う軌道に一貫してマッピングされることを保証します。理論的には、Q-ALIGN DT が目的のポリシーを効率的に学習し、RTG が十分に高い場合に最適に近いポリシーを出力できることを示します。私たちは広範な実験を通じて、Q-ALIGN DT が D4RL ベンチマーク全体で優れた制御性とパフォーマンスを達成することを経験的に実証しています。驚くべきことに、私たちのモデルは、正確な調整を維持し、以前の方法が失敗した速度追跡などのタスクに一般化する、構造化されたポリシー群を効果的に学習します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Return-to-Go Is More Than a Number: Q-Guided Alignment for Return-Conditioned Supervised Learning</p>
        <p class="orig-summary">Conditioned Sequence Models (CSMs) learn policies by treating return-to-go (RTG) as a control signal. However, existing CSMs often treat the RTGs as simple numerical inputs rather than aligning them with the performance of their policies. In this paper, we propose Q-ALIGN DT, a framework that enforces this alignment by ensuring the $Q$-value of the output policy is consistent with the input RTG. By leveraging a $Q$ function to provide dense guidance to CSMs and further fine-tuning it using an RTG-perturbation technique with the CSM, our method ensures that higher RTGs are consistently mapped to trajectories with higher expected returns. Theoretically, we show that Q-ALIGN DT can efficiently learn the desired policy and output a near-optimal one when the RTG is sufficiently high. Empirically, we demonstrate through extensive experiments that Q-ALIGN DT achieves superior controllability and performance across the D4RL benchmark. Remarkably, our model effectively learns a structured family of policies that maintains precise alignment and generalizes to tasks like velocity-tracking where prior methods fail.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="86dab57f613e" data-article-url="https://arxiv.org/abs/2605.29059" data-article-title="SCDBench: LLM ベースのスマート コントラクト デコンパイラーのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29059" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29059" target="_blank" rel="noopener">SCDBench: LLM ベースのスマート コントラクト デコンパイラーのベンチマーク</a></h3>
      <p class="summary">スマート コントラクトの逆コンパイルは、バイトコードから高レベルのソース コードを復元することを目的としていますが、既存の研究では狭いデータセット、一貫性のないメトリクス、限定的なセマンティック一貫性チェックが使用されているため、逆コンパイラーの評価は依然として困難です。大規模言語モデル (LLM) が、たとえそのセマンティクスが元のコントラクトから異なっていても、コンパイルされてもっともらしいと思われるソースのような Solidity を生成し始めるにつれて、このギャップはますます重要になります。 LLM ベースのスマート コントラクト逆コンパイルのためのデータセットおよびベンチマーク手法である SCDBench を紹介します。データセットには、ペアのバイトコード入力、グラウンドトゥルースのソースコード、再生可能なセマンティックチェックポイントを備えた 600 の実世界の Solidity コントラクトが含まれています。 SCDBench は、形式の完全性、コンパイル可能性、アプリケーション バイナリ インターフェイス (ABI) の回復、および差分再生によるセマンティックの一貫性という 4 つの累積的な段階を通じて逆コンパイラーの出力を評価します。 Claude Opus 4.7、GPT-5.3-Codex、GLM-5 をゼロショット逆コンパイル設定で評価します。これには、拡張推論およびゼロショット コンパイル修復設定の有無にかかわらず GLM-5 バリアントが含まれます。結果は、フロンティア LLM は多くの場合、構造化されコンパイル可能な Solidity を生成できることを示していますが、セマンティックな一貫性の達成はまだ解決には程遠く、最もパフォーマンスの高いフロンティア モデルは 42/600 コントラクトのみを完全に逆コンパイルします。さらに、同一モデルのコンパイル修復を導入すると、わずかな追加コストでパフォーマンスが大幅に向上することも示します。 SCDBench は、厳密で再現可能な評価のための共通基盤を確立し、ブロックチェーンのセキュリティと透明性のための信頼できるスマート コントラクト デコンパイラーの開発を加速することを目的としています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SCDBench: A Benchmark for LLM-Based Smart Contract Decompilers</p>
        <p class="orig-summary">Smart contract decompilation aims to recover high-level source code from bytecode, but evaluating decompilers remains difficult because existing studies use narrow datasets, inconsistent metrics, and limited semantic consistency checks. This gap is increasingly important as large language models (LLMs) begin to generate source-like Solidity that may compile and appear plausible, even when its semantics diverge from the original contract. We introduce SCDBench, a dataset and benchmark methodology for LLM-based smart contract decompilation. The dataset contains 600 real-world Solidity contracts with paired bytecode inputs, ground-truth source code, and replayable semantic checkpoints. SCDBench evaluates decompiler outputs through four cumulative stages: format completeness, compilability, Application Binary Interface (ABI) recovery, and semantic consistency via differential replay. We evaluate Claude Opus 4.7, GPT-5.3-Codex, and GLM-5 in a zero-shot decompilation setting, including GLM-5 variants with and without extended reasoning and a zero-shot compilation-repair setting. The results show that frontier LLMs can often produce structured and compilable Solidity, but achieving semantic consistency remains far from solved: the best-performing frontier model perfectly decompiles only 42/600 contracts. We further show that introducing same-model compilation repair substantially improves performance at modest additional cost. SCDBench establishes a common ground for rigorous, reproducible evaluation and aims to accelerate the development of reliable smart contract decompilers for blockchain security and transparency.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e154200c20f6" data-article-url="https://arxiv.org/abs/2605.29076" data-article-title="構造化プロンプトの最適化と強化学習の融合により、複雑なテキストに対するグローバルおよびローカルの解釈可能性が実現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29076" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29076" target="_blank" rel="noopener">構造化プロンプトの最適化と強化学習の融合により、複雑なテキストに対するグローバルおよびローカルの解釈可能性が実現</a></h3>
      <p class="summary">LLM は高度なテキスト分類を備えていますが、既存のパラダイムはトレードオフに直面しています。教師付き (ラベルのみ) 微調整はスケーラブルですが、複雑なテキストに対する推論が限られており、広範なモデルの透明性に欠けています。一方、離散プロンプト最適化は人間が読める命令を提供しますが、パフォーマンスとスケーラビリティに苦労します。私たちは、3 つの段階的な段階を持つ eXTC (eXplainable Text Classifier) を導入します。(1) 新しい構造化プロンプト最適化アルゴリズムを介して、自然言語で標準操作手順 (SOP、またはルールブック) を学習します。 (2) SOP に基づいた推論を大規模な教師 LLM からコンパクトな LM に抽出します。 (3) 強化学習により、初期 SOP を超えて推論能力を拡張します。この設計により、eXTC は、(i) コンパクトな LM を介した高速推論、(ii) 学習したドメイン ルールのグローバルなモジュール式説明と並行した推論時のローカル推論トレースを提供できるようになり、(iii) 分類パフォーマンスと説明品質の両方において、さまざまなベンチマークにわたって既存のパラダイムを大幅に上回り、段階ごとに向上します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Structured Prompt Optimization Meets Reinforcement Learning for Global and Local Interpretability over Complex Text</p>
        <p class="orig-summary">LLMs have advanced text classification, yet existing paradigms face a trade-off: supervised (label only) fine-tuning is scalable but offers limited reasoning on complex text and lacks broader model transparency, while discrete prompt optimization offers human-readable instructions but struggles with performance and scalability. We introduce eXTC (eXplainable Text Classifier) with three progressive stages: (1) learning a Standard Operating Procedure (SOP, or rulebook) in natural language via a new Structured Prompt Optimization algorithm; (2) SOP-grounded reasoning distillation from a large teacher LLM into a compact LM; and (3) expanding reasoning capabilities beyond the initial SOP via reinforcement learning. This design enables eXTC to provide (i) fast inference via a compact LM, with (ii) inference-time local reasoning traces, alongside a global, modular explanation of its learned domain rules, while (iii) significantly outperforming existing paradigms across diverse benchmarks in both classification performance and explanation quality, with stage-by-stage gains.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a3c805c8c364" data-article-url="https://arxiv.org/abs/2605.29084" data-article-title="同じ質問、異なるソース、異なる回答: 医療用マルチソース RAG におけるソース依存性の監査" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29084" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29084" target="_blank" rel="noopener">同じ質問、異なるソース、異なる回答: 医療用マルチソース RAG におけるソース依存性の監査</a></h3>
      <p class="summary">複数著者の機関コーパス上に展開された検索拡張生成 (RAG) システムは、どのソースを取得するかに応じて、同じ質問に対して異なる答えを与える可能性があります。これは、支配的な単一のゴールドアンサーのパラダイムでは診断できない失敗モードです。私たちは、情報源依存性は NLP 評価の欠如した軸であり、それを監査することは、評価の単位を回答の正しさから情報源間の関係に移すことを意味すると主張します。私たちはこれを、医療機関の情報源が明らかに同意していない移植患者教育において具体化し、3 つの成果物を公開しています。TransplantQA、実際の患者の質問のベンチマークであり、候補情報源として複数の医療機関のハンドブックに基づいて生成することでそれぞれの回答が得られます。 HERO-QA、各回答を根拠付けて監査する階層的な検索戦略。そして、検証された 5 ラベル分類法に基づいてソース間の関係をスコアリングする構造化された出力ジャッジです。大規模な場合、より適切な検索により、以前に提案された推定値よりもはるかに多くの不一致が明らかになり、その激しさではなく、その有病率が過小評価されています。このフレームワークはドメインに依存せず、法的および教育的な RAG に移行します。ソース依存性の測定は、一般に、展開されたマルチソース NLP の責任です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Same Question, Different Source, Different Answer: Auditing Source-Dependence in Medical Multi-Source RAG</p>
        <p class="orig-summary">A retrieval-augmented generation (RAG) system deployed over a multi-author institutional corpus can give a different answer to the same question depending on which source it retrieves -- a failure mode the dominant single-gold-answer paradigm cannot diagnose. We argue that source-dependence is a missing axis of NLP evaluation, and that auditing it means shifting the unit of evaluation from answer correctness to the inter-source relationship. We make this concrete in transplant patient education, where institutional sources demonstrably disagree, releasing three artefacts: TransplantQA, a benchmark of real patient questions, each answered by grounding generation in multiple institutional handbooks as candidate sources; HERO-QA, a hierarchical retrieval strategy that grounds and audits each answer; and a structured-output judge that scores inter-source relationships on a validated 5-label taxonomy. At scale, better retrieval reveals far more disagreement than prior estimates suggested -- understating its prevalence, not its intensity. The framework is domain-agnostic and transfers to legal and educational RAG: measuring source-dependence is a responsibility for deployed multi-source NLP generally.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="77bfb5208485" data-article-url="https://arxiv.org/abs/2605.29089" data-article-title="OISD: 言語モデルのポリシーに基づく内部自己蒸留" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29089" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29089" target="_blank" rel="noopener">OISD: 言語モデルのポリシーに基づく内部自己蒸留</a></h3>
      <p class="summary">最近の強化学習 (RL) ポストトレーニング アプローチは主に、まばらな結果レベルの報酬を使用して最終的な出力ポリシーを最適化しますが、中間表現にエンコードされた予測信号はほとんど見落とされます。この論文では、オンポリシー内部自己蒸留と呼ばれる新しいパラダイムを導入し、オンポリシー予測信号を最終層から中間表現に転送することで推論を改善する OISD フレームワークを提案します。ロールアウトおよびグループ相対ポリシー最適化 (GRPO) の最適化中、最終層はポリシーと、選択された中間層に対する独立した内部教師の両方として機能します。最終層は、2 つの相補的なメカニズムを通じてそれに合わせるよう誘導されます。ロジット アライメントは、高レベルの推論動作 (思考方法) を転送し、アテンション アライメントは、最終層から選択した中間層に一貫した注意パターン (どこを見るか) を強制します。どちらも、外部の特権情報を必要としません。私たちの OISD は、GRPO と協力して、符号付きアドバンテージ加重ジェンセン - シャノン アライメントを採用して、統一された政策の下で政策の一貫性を維持しながら、有益な中間表現を抽出します。実験結果は、OISD の有効性を実証しており、4 つの数学的推論タスクにわたって強力な推論 RL ベースラインを大幅に改善し、一貫して改善しています。コードは https://github.com/THE-MALT-LAB/OISD でリリースされます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">OISD: On-Policy Internal Self-Distillation of Language Models</p>
        <p class="orig-summary">Recent reinforcement learning (RL) post-training approaches primarily optimize the final output policy using sparse outcome-level rewards, while largely overlooking predictive signals encoded in intermediate representations. In this paper, we introduce a new paradigm called on-policy internal self-distillation and propose the OISD framework, which improves reasoning by transferring on-policy predictive signals from the final layer to intermediate representations. During rollout and Group Relative Policy Optimization (GRPO) optimization, the final layer acts as both the policy and a detached internal teacher for selected intermediate layers, which are guided to align with it through two complementary mechanisms: logit alignment, which transfers high-level reasoning behaviors (how to think), and attention alignment, which enforces consistent attention patterns (where to look) from the final layer to the selected intermediate layer, both without requiring external privileged information. Our OISD, together with GRPO, employs signed advantage-weighted Jensen--Shannon alignment to distill informative intermediate representations while preserving policy consistency under a unified acting policy. Experimental results demonstrate the effectiveness of OISD, with substantial and consistent improvements over strong reasoning RL baselines across four mathematical reasoning tasks. The code will be released at https://github.com/THE-MALT-LAB/OISD</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c78075cde82" data-article-url="https://arxiv.org/abs/2605.29107" data-article-title="GEO-Bench: 生成エンジン最適化におけるランキング操作のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29107" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29107" target="_blank" rel="noopener">GEO-Bench: 生成エンジン最適化におけるランキング操作のベンチマーク</a></h3>
      <p class="summary">大規模言語モデル (LLM) では、ユーザーのクエリに対する製品、ドキュメント、推奨事項のランク付けが増えており、これらのランク付けを操作することによる公平性と情報の完全性への懸念が高まっています。生成エンジン最適化 (GEO) に関する研究により、多くの操作方法が生み出されてきましたが、それぞれの操作方法は独自のメトリクスを使用して独自のデータセットで評価されるため、それらの相対的な強度と検出可能性は不明のままです。 1 つのプロトコルの下で GEO ランキング操作攻撃を評価するベンチマークである GEO-Bench を紹介します。ブラック ボックスのプロンプト ベースの攻撃 (TAP、ゼロショット)、ホワイト ボックスの勾配ベースの攻撃 (STS、RAF、StealthRank)、および 10 のホワイト ハット C-SEO 戦略を統合します。有効性 (NRG、Success@{\alpha}、Promote@{\alpha}) とステルス (キーワード違反率、困惑率) の両方のメトリクスを使用して、固定オープンウェイト ランカー (Llama-3.1-8B-Instruct) に対して 5 つのデータセットのすべてのメソッドをスコア付けします。私たちの評価では、敵対的攻撃全体で有効性とステルス性がトレードオフであること、ブラック ボックス コンテンツの書き換えは、より流暢なテキストを生成しながら、ランク昇格に対する勾配ベースの攻撃と同等かそれを上回っており、一部のドメインではキーワード ベースと複雑さベースの検出の両方を回避できること、アクセス モデルが攻撃強度を予測していないことが示されています。 GEO-Bench は、データセット、攻撃実装、メトリクスを標準化することで、これらの攻撃パラダイム全体での初めての直接比較を可能にし、検出方法の開発をサポートします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GEO-Bench: Benchmarking Ranking Manipulation in Generative Engine Optimization</p>
        <p class="orig-summary">Large language models (LLMs) increasingly rank products, documents, and recommendations for user queries, which makes manipulating these rankings a growing concern for fairness and information integrity. Research on generative engine optimization (GEO) has produced many manipulation methods, but each is evaluated on its own dataset with its own metrics, so their relative strength and detectability stay unclear. We present GEO-Bench, a benchmark that evaluates GEO ranking-manipulation attacks under one protocol. It unifies black-box prompt-based attacks (TAP, Zero-Shot), white-box gradient-based attacks (STS, RAF, StealthRank), and ten white-hat C-SEO strategies. We score every method on five datasets against a fixed open-weight ranker (Llama-3.1-8B-Instruct), using metrics for both effectiveness (NRG, Success@{\alpha}, Promote@{\alpha}) and stealth (keyword violation rate, perplexity ratio). Our evaluation shows that effectiveness and stealth trade off across adversarial attacks, that black-box content rewriting matches or exceeds gradient-based attacks on rank promotion while producing more fluent text and can evade both keyword- and perplexity-based detection on some domains, and that the access model does not predict attack strength. By standardizing datasets, attack implementations, and metrics, GEO-Bench enables the first direct comparison across these attack paradigms and supports the development of detection methods.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="92f90929e562" data-article-url="https://arxiv.org/abs/2605.29115" data-article-title="unix-ctf: Unix コンピテンス強化学習のための手続き型環境" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29115" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29115" target="_blank" rel="noopener">unix-ctf: Unix コンピテンス強化学習のための手続き型環境</a></h3>
      <p class="summary">Unix の能力とは、単に端末を介してプログラムを作成するだけでなく、シェルとオペレーティング システムのプリミティブを一流のツールとして使用できる能力のことです。現在のターミナル ベンチマークでは、この区別が曖昧になる傾向があります。Python には堪能だが Unix には弱いソルバーは、ターミナル ベンチ 2.0 のかなりの部分をパスできる一方で、その逆のスキル プロファイルはほとんど実行されません。私たちはこの区別を有効にし、Unix コンポーネントのトレーニング サーフェスを構築します。 unix-ctf は、シェル エージェント用のキャプチャ ザ フラグ タスクの手続き型ジェネレーターです。各タスクは、単一の Unix 機能を使用して短いトークン (flag(a3b1c9...) 形式のフラグ) を新しい Linux コンテナー内に隠します。エージェントはそれを回復する必要があります。タスクは、LLM 支援合成パイプラインによって生成されます。LLM 支援合成パイプラインは、候補の隠蔽手法を生成し、パラメータ化された非表示と検索スクリプトのペアに書き換え、双方向契約でフィルタリングします。非表示スクリプトはディスク上にフラグの平文の痕跡を残してはならず、検索スクリプトは新しいディレクトリにフラグを回復する必要があります。 LLM は植え付けと回復のステップのみを記述するため (コンテナ、レイアウト、およびグレーディング ハーネスは固定されています)、パイプラインは 750 の生の試行のうち 656 を移植可能で再利用可能なバリアントとして取得します (87.5%)。 Endless Terminals のフルコンテナ生成アプローチの再現は、同じチェックの下でわずか 17.4\% に達します。 656 のバリアントは、155 の異なるテクニックに正規化されます。このサーフェス上で GRPO を使用して Qwen3-8B を LoRA で微調整すると、15 スキルのマルチファミリー ホールドアウト (n=225) で解決率が 11.6\% から 43.6\% に上昇し、モデルが解決する InterCode-CTF タスクを再配分し、InterCode-CTF で 32/100 に達しながらフォレンジックで +33 pp の向上をもたらしました。これらの結果は、Unix の能力は分離可能でトレーニング可能であり、シェルを介したプログラミングに組み込まれるのではなく、直接評価するのが最適であることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">unix-ctf: Procedural Environments for Unix-Competence Reinforcement Learning</p>
        <p class="orig-summary">Unix competence is the ability to use shell and operating-system primitives as first-class tools, not merely to write programs through a terminal. Current terminal benchmarks tend to blur this distinction: a solver fluent in Python but weak in Unix can pass a substantial fraction of Terminal-Bench 2.0, while the reverse skill profile is rarely exercised. We make the distinction operational and build a training surface for the Unix component. unix-ctf is a procedural generator of capture-the-flag tasks for shell agents. Each task hides a short token (a flag of the form flag(a3b1c9...)) inside a fresh Linux container using a single Unix feature, and the agent must recover it. Tasks are produced by an LLM-assisted synthesis pipeline that generates candidate hiding techniques, rewrites them into parameterized hide-and-find script pairs, and filters them with a bidirectional contract: the hide script must leave no plaintext trace of the flag on disk, and the find script must recover the flag in a fresh directory. Because the LLM only writes the planting and recovery steps (the container, layout, and grading harness are fixed), the pipeline lands 656 of 750 raw attempts as portable, reusable variants (87.5\%). Our reproduction of Endless Terminals&#x27; full-container-generation approach lands only 17.4\% under the same checks. The 656 variants canonicalize to 155 distinct techniques. Fine-tuning Qwen3-8B with LoRA using GRPO on this surface lifts solve rate from 11.6\% to 43.6\% on a 15-skill multi-family holdout (n=225), redistributes which InterCode-CTF tasks the model solves, and produces a +33 pp gain in Forensics while reaching 32/100 on InterCode-CTF. These results suggest that Unix competence is separable, trainable, and best evaluated directly rather than folded into programming-through-a-shell.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b643651b0129" data-article-url="https://arxiv.org/abs/2605.29121" data-article-title="Softmax 専門家混合ルーターにおける負荷不均衡の最小分岐モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29121" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29121" target="_blank" rel="noopener">Softmax 専門家混合ルーターにおける負荷不均衡の最小分岐モデル</a></h3>
      <p class="summary">我々は、2 つの専門家の混合専門家 (MoE) 層に対する適応ソフトマックス ルーティングの最小動的モデルを提案します。モデルは離散強化ルールの平均場限界として取得されます。選択されたエキスパートは小さなスコア増加を受け取りますが、すべてのスコアは正則化減衰を受けます。対称の場合、制限システムは超臨界熊手分岐を持ちます。弱いフィードバックの場合は独特の安定した平衡状態が存在しますが、臨界フィードバック強度を超えると 2 つの安定した非対称状態が現れます。外部の非対称性が追加されると、熊手は一対の折り曲げ分岐点に展開され、制御パラメータ平面に先端を形成します。分岐セットとカスプ破局の局所正規形の正確なパラメトリック方程式を導出します。数値実験では、この画像を経験的エキスパート負荷、小規模なトレーニング可能な MoE モデル、ハードトップ 1 PyTorch ルーティング、および数字に関する小規模な分類実験に結び付けます。その結果、適応型 MoE ルーターにおける負荷の不均衡への突然の移行に対する、制御された低次元メカニズムが提供されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Minimal Bifurcation Model of Load Imbalance in a Softmax Mixture-of-Experts Router</p>
        <p class="orig-summary">We propose a minimal dynamical model of adaptive softmax routing for a two-expert Mixture-of-Experts (MoE) layer. The model is obtained as a mean-field limit of a discrete reinforcement rule: the selected expert receives a small score increment, while all scores undergo regularizing decay. In the symmetric case the limiting system has a supercritical pitchfork bifurcation: for weak feedback there is a unique stable balanced state, whereas above a critical feedback strength two stable asymmetric states appear. When an external asymmetry is added, the pitchfork unfolds into a pair of fold bifurcations forming a cusp in the control-parameter plane. We derive exact parametric equations for the bifurcation set and the local normal form of the cusp catastrophe. Numerical experiments connect this picture to empirical expert load, a small trainable MoE model, hard top-1 PyTorch routing, and a small classification experiment on digits. The results provide a controlled low-dimensional mechanism for abrupt transitions to load imbalance in adaptive MoE routers.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e70c74f9988a" data-article-url="https://arxiv.org/abs/2605.29126" data-article-title="いつ、どのくらいの期間?時間的推論におけるリードアウト-メディエーターの角度" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29126" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29126" target="_blank" rel="noopener">いつ、どのくらいの期間?時間的推論におけるリードアウト-メディエーターの角度</a></h3>
      <p class="summary">線形プローブは、表現をほぼ完全にデコードできますが、モデルがその表現をどのように使用するかにはまったく無関係です。言語モデルの暦日継続推論では、$\sin$/$\cos$ プローブは層のアクティベーションから年間通算日を回復しますが、その方向をアブレーションしてもモデルの答えには影響しません。一方、同じ層で分散アライメント検索 (DAS) によって見つかった 4 次元部分空間をアブレーションすると、パフォーマンスが完全に崩壊します。これら 2 つの部分空間間の角度、\emph{readout-mediator angle} を測定すると、2 つのランダムな部分空間間の角度 (Haar 均一ヌル) と区別できないことがわかります。これは、プローブがモデルの実際の計算に直交する方向を学習したことを意味します。回路をリバース エンジニアリングすると、その理由が明らかになります。アテンション ヘッドは ${\pm}30$ 日と ${\pm}61$ 日に学習した QK オフセットを通じて月単位のコンテキストをルーティングし、MLP は \emph{when} (絶対日付) を \emph{how long} (期間) に変換します。すべて、プローブが決して触れない因果部分空間の下流です。スパース オートエンコーダ分解により、この分割が確認されます。プローブと整合した特徴と DAS と整合した特徴は、因果関係の重複が無視できる程度に、意味的に切り離された概念をエンコードします。この解離は 4 つのスケール ($1.5$ ～ $9\,$B) と 2 つのモデルファミリーにわたって再現され、さらに 2 つの領域 (空間変位、記号演算) に関する予備的な証拠により、リードアウトメディエーターの直交性がプローブベースの解釈可能性の一般的な失敗モードであることが示唆されています。これは、実行時安全性モニターとしてプローブを展開するという提案を直接的に損なうものです。プローブは、モデルが黙って放棄した方向について高い信頼性を報告することができます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">When and How Long? The Readout-Mediator Angle in Temporal Reasoning</p>
        <p class="orig-summary">A linear probe can decode a representation almost perfectly and yet be completely irrelevant to how the model uses it. On calendar-date duration reasoning in language models, a $\sin$/$\cos$ probe recovers day-of-year from a layer&#x27;s activations, yet ablating its direction has no effect on the model&#x27;s answers -- while ablating a four-dimensional subspace found by Distributed Alignment Search (DAS) at the same layer collapses performance entirely. We measure the angle between these two subspaces -- the \emph{readout-mediator angle} -- and find it indistinguishable from the angle between two random subspaces (the Haar-uniform null), meaning the probe has learned a direction orthogonal to the model&#x27;s actual computation. Reverse-engineering the circuit reveals why: attention heads route month-grained context through learned QK offsets at ${\pm}30$ and ${\pm}61$ days, and MLPs then convert \emph{when} (absolute date) into \emph{how long} (duration) -- all downstream of the causal subspace the probe never touches. Sparse-autoencoder decomposition confirms the split: probe-aligned and DAS-aligned features encode semantically disjoint concepts with negligible causal overlap. The dissociation replicates across four scales ($1.5$-$9\,$B) and two model families, with preliminary evidence on two further domains (spatial displacement, symbolic arithmetic), suggesting that readout-mediator orthogonality is a general failure mode of probe-based interpretability. This directly undermines proposals to deploy probes as runtime safety monitors: the probe can report high confidence on a direction the model has silently abandoned.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0ff9b6813e2a" data-article-url="https://arxiv.org/abs/2605.29138" data-article-title="自動運転における遅延と精度のトレードオフを最適化するための多重解像度エンドツーエンドのディープ ニューラル ネットワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29138" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29138" target="_blank" rel="noopener">自動運転における遅延と精度のトレードオフを最適化するための多重解像度エンドツーエンドのディープ ニューラル ネットワーク</a></h3>
      <p class="summary">レイテンシと精度のトレードオフは、サイバーフィジカル システム用のディープ ニューラル ネットワーク (DNN) のリアルタイム アプリケーションの基本です。特に自動運転では、安全性は予測の品質と、センシングから作動までのエンドツーエンドの遅延の両方に依存します。 (1) レイテンシーを考慮すると、レイテンシーに最適なネットワーク構成はシーンのコンテキストとコンピューティングの可用性によって異なります。 (2) 単一の固定解像度モデルは、条件が変化すると最適ではなくなります。単眼カメラ入力を使用した CARLA 都市走行課題のための、多重解像度のエンドツーエンドのディープ ニューラル ネットワークを紹介します。私たちのアプローチでは、解像度ごとのバッチ正規化を通じて複数の入力解像度をサポートする畳み込みニューラル ネットワーク (CNN) を採用しています。これにより、レイテンシ バジェットの下で理想的な入力スケールの実行時選択が可能になるだけでなく、元のトレーニング データセットにアクセスせずにマルチ解像度トレーニングを可能にする解像度のリターゲティングも可能になります。私たちは、CARLA で多重解像度のエンドツーエンド CNN を実装して評価し、遅延安全性のフロンティアを探索します。結果は、固定解像度のベースラインと比較して、ルートごとの安全指標 (車線侵入、赤信号違反、衝突) が一貫して改善していることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Multi-Resolution End-to-End Deep Neural Network for Optimizing Latency-Accuracy Tradeoff in Autonomous Driving</p>
        <p class="orig-summary">Latency-accuracy tradeoffs are fundamental in real-time applications of deep neural networks (DNNs) for cyber-physical systems. In autonomous driving, in particular, safety depends on both prediction quality and the end-to-end delay from sensing to actuation. We observe that (1) when latency is accounted for, the latency-optimal network configuration varies with scene context and compute availability; and (2) a single fixed-resolution model becomes suboptimal as conditions change. We present a multi-resolution, end-to-end deep neural network for the CARLA urban driving challenge using monocular camera input. Our approach employs a convolutional neural network (CNN) that supports multiple input resolutions through per-resolution batch normalization, enabling runtime selection of an ideal input scale under a latency budget, as well as resolution retargeting, which allows multi-resolution training without access to the original training dataset. We implement and evaluate our multi-resolution end-to-end CNN in CARLA to explore the latency-safety frontier. Results show consistent improvements in per-route safety metrics - lane invasions, red-light infractions, and collisions - relative to fixed-resolution baselines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="626c9ba586ca" data-article-url="https://arxiv.org/abs/2605.29141" data-article-title="明示的なコンテキストフィードバックによる LLM 推奨におけるユーザーの好みの調整に向けて" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29141" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29141" target="_blank" rel="noopener">明示的なコンテキストフィードバックによる LLM 推奨におけるユーザーの好みの調整に向けて</a></h3>
      <p class="summary">従来のレコメンダー システム (RecSys) は、主に暗黙的なシグナル (クリック、視聴、購入など) からユーザーの好みを推測し、コメントやレビューなど、ユーザーが口頭テキストを通じて提供する豊富で明示的な文脈に応じたフィードバックを無視することがよくありました。この明示的なコンテキスト フィードバックは、ユーザーの好みに関する決定の背後にある微妙な理由を捉えます。さらに、ユーザーの好みを調整するための重要な異種情報と、より説明しやすい推奨事項を提供します。このような信号を見落とすと、アルゴリズムがユーザーの選択の背後にある「意味論的コンテキスト」を理解できないため、ユーザーの好みの調整がずれ、フィルターバブルがさらに強化される可能性があります。大規模言語モデル (LLM) の最近の進歩により、ユーザー生成コンテンツを利用してより正確で多様なレコメンデーションを実現する新たな機会が生まれていますが、現在の LLM ベースのレコメンデーションは依然としてアイテムのメタデータの使用に焦点を当てており、このリソースが十分に活用されていません。このペーパーでは、次世代の LLM ベースの RecSys において明示的なコンテキスト フィードバックを優先することを提唱します。私たちは、レコメンデーションパラダイムの進化をレビューし、コンテキスト豊富なフィードバックの価値を強調し、新しいベンチマークとメトリクスを求め、明示的なユーザーシグナルをスケーラブルな LLM 駆動の RecSys に統合するためのフレームワークを導入します。ユーザーの好みのモデリングを中心に、よりパーソナライズされ、透明性があり、説明可能な RecSys オンライン プラットフォームを促進することを目指しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Toward User Preference Alignment in LLM Recommendation via Explicit Context Feedback</p>
        <p class="orig-summary">Traditional recommender systems (RecSys) primarily infer user preferences from implicit signals (such as clicks, watches, and purchases), often neglecting the rich explicit contextual feedback users provide through verbal text, like comments and reviews. This explicit context feedback captures the nuanced reasons behind user decisions regarding their preferences. In addition, it offers critical heterogeneous information for user preference alignment and more explainable recommendations. Overlooking such signals can lead to misaligned user preferences and further reinforce filter bubbles, as algorithms fail to understand the &quot;semantic context&quot; behind user choices. Recent advances in Large Language Models (LLMs) present new opportunities to harness user-generated content for more accurate and diverse recommendations, yet current LLM-based recommendations still focus on using item meta-data and underutilize this resource. In this paper, we advocate for prioritizing explicit context feedback in the next generation of LLM-based RecSys. We review the evolution of recommendation paradigms, highlight the value of context-rich feedback, call for new benchmarks and metrics, and introduce frameworks for integrating explicit user signals into scalable LLM-driven RecSys. Centering on user-preference modeling, we aim to foster more personalized, transparent, and explainable RecSys online platforms.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2353cbb93fc7" data-article-url="https://arxiv.org/abs/2605.29146" data-article-title="SafeRx-Agent: 安全で説明可能な投薬推奨のための知識に基づいたマルチエージェント フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29146" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29146" target="_blank" rel="noopener">SafeRx-Agent: 安全で説明可能な投薬推奨のための知識に基づいたマルチエージェント フレームワーク</a></h3>
      <p class="summary">薬剤の推奨は患者の来院時の薬剤を予測しますが、既存の方法では依然として 2 つの重要な課題に直面しています。モデルレベルでは、従来の医薬品推奨方法は限られた根拠に基づいて構造化された医薬品コードを予測するだけですが、LLMエージェントはより豊富な臨床コンテキストを使用できますが、安全性の検証とトレーサビリティが欠けている可能性があります。タスクレベルでは、既存のベンチマークは広範な薬剤カテゴリーを使用することが多く、サブグループレベルの安全性の違いが無視され、リスクの過大評価につながる可能性があります。第 4 レベルの ATC コード生成に基づいた、最初のきめ細かい薬剤推奨設定を導入します。私たちは、患者の状況、外部の臨床知識、安全性検証を使用して追跡可能な薬剤セットを推奨する、知識に基づいたマルチエージェント フレームワークである Safe Prescription Agent (SafeRx-Agent) を提案します。 MIMIC-III および MIMIC-IV データセットに関する実験結果は、SafeRx-Agent が薬物相互作用、禁忌、および薬物セットのサイズを制御しながら、きめ細かい薬物予測の精度を向上させることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SafeRx-Agent: A Knowledge-Grounded Multi-Agent Framework for Safe and Explainable Medication Recommendation</p>
        <p class="orig-summary">Medication recommendation predicts medications for patient visits, but existing methods still face two key challenges. At the model level, traditional drug recommendation methods only predict structured drug codes with limited evidence grounding, while LLM agents can use richer clinical context but may lack safety verification and traceability. At the task level, existing benchmarks often use broad medication categories, which ignore subgroup-level safety differences and can lead to risk overestimation. We introduce the first fine-grained medication recommendation setting based on fourth-level ATC code generation. We propose Safe Prescription Agent (SafeRx-Agent), a knowledge-grounded multi-agent framework that uses patient context, external clinical knowledge, and safety verification to recommend traceable medication sets. Experimental results on MIMIC-III and MIMIC-IV datasets show that SafeRx-Agent improves fine-grained medication prediction accuracy while controlling drug interactions, contraindications, and medication set size.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e06fff8fd1ed" data-article-url="https://arxiv.org/abs/2605.29151" data-article-title="$\overline{\mathcal M}_{0,n}$ のポアンカール多項式の実数根: AI 支援による証明" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29151" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29151" target="_blank" rel="noopener">$\overline{\mathcal M}_{0,n}$ のポアンカール多項式の実数根: AI 支援による証明</a></h3>
      <p class="summary">安定したドリーニュ-マンフォード法空間 $\overline{\mathcal M}_{0,n}$ のポアンカレ多項式 \[ P_n(t)=\sum_{i=0}^{n-3} \dim H^{2i}(\overline{\mathcal M}_{0,n};\mathbb{Q})t^i \] の実根があることを証明します。 $n$ が指す有理曲線は、アルフィ-チェン-マルコッリの予想を証明します。証明は Keel--Manin--Getzler 再帰から始まりますが、その主な新しいアイデアはポアンカール多項式の二変量変形 $F_m(y,t)$ です。この変形により、1 変数反復では見えない隠れたインターレース構造が明らかになります。固定 $t&lt;0$ の場合、$y$ 方向の $F_m$ のゼロセットは、$0&lt;1-t$ の区間で Sturm--Rolle 引数によって制御されます。元の多項式はスライス $y=1$ 上で復元され、このスライスを通る移動根の順序付けされた交差により、実根性と厳密なインターレースの両方が得られます。その結果、$\overline{\mathcal M}_{0,n}$ の Betti 数は超対数凹列を形成します。さらに、複素射影線の縮退における $n$ 順序点のフルトン-マクファーソン空間 $\mathbb{P}^1[n]$ のポアンカレ多項式の実根性と超対数凹面を証明します。 $\overline{\mathcal M}_{0,n}$ の証明は、Google DeepMind が開発したエージェント フロンティア モデル システムである Co-Mathematician による AI 支援ワークフローの反復を通じて得られました。人間の役割は、問題を提起し、連続する試みを評価し、ギャップの修復を要求し、進化する議論を文献と比較し、人間が検証可能な最終的な証拠を組み立てることでした。私たちの追加の人的貢献は、同様の残留変形戦略がフルトン-マクファーソン空間 $\mathbb P^1[n]$ に適用され、対応する実根定理が得られることを観察することでした。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Real-rootedness of the Poincar\&#x27;e polynomials of $\overline{\mathcal M}_{0,n}$: an AI-assisted proof</p>
        <p class="orig-summary">We prove real-rootedness for the Poincar\&#x27;e polynomial \[ P_n(t)=\sum_{i=0}^{n-3} \dim H^{2i}(\overline{\mathcal M}_{0,n};\mathbb{Q})t^i \] of the Deligne--Mumford moduli space $\overline{\mathcal M}_{0,n}$ of stable $n$-pointed rational curves, proving a conjecture of Aluffi--Chen--Marcolli. The proof starts from the Keel--Manin--Getzler recurrence, but its main new idea is a bivariate deformation $F_m(y,t)$ of the Poincar\&#x27;e polynomial. This deformation reveals a hidden interlacing structure not visible in the one-variable recurrence. For fixed $t&lt;0$, the zero set of $F_m$ in the $y$-direction is controlled by a Sturm--Rolle argument on the interval $0&lt;1-t$. The original polynomial is recovered on the slice $y=1$, and the ordered crossings of the moving roots through this slice give both real-rootedness and strict interlacing. Consequently, the Betti numbers of $\overline{\mathcal M}_{0,n}$ form an ultra-log-concave sequence. We further prove real-rootedness and ultra-log-concavity for the Poincar\&#x27;e polynomial of the Fulton--MacPherson space $\mathbb{P}^1[n]$ of $n$ ordered points in degenerations of the complex projective line. The proof for $\overline{\mathcal M}_{0,n}$ was obtained through an iterative AI-assisted workflow with Co-Mathematician, an agentic frontier-model system developed by Google DeepMind. The human role was to pose the problem, evaluate successive attempts, request repairs of gaps, compare the evolving argument with the literature, and assemble the final human-verifiable proof. Our additional human contribution was to observe that a similar residual deformation strategy applies to the Fulton--MacPherson spaces $\mathbb P^1[n]$, yielding the corresponding real-rootedness theorem.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2d11474824a2" data-article-url="https://arxiv.org/abs/2605.29153" data-article-title="SciML におけるマルチレジーム パターンの解明: 明確な故障モードとレジーム固有の最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29153" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29153" target="_blank" rel="noopener">SciML におけるマルチレジーム パターンの解明: 明確な故障モードとレジーム固有の最適化</a></h3>
      <p class="summary">異なるハイパーパラメータ設定の下でトレーニングされたニューラル ネットワークは、レジーム内での一貫した動作とレジーム間での質的な違いを伴う、別個のトレーニング「レジーム」に分類される場合があります。この論文では、パフォーマンス、トレーニング ダイナミクス、損失ランドスケープ ジオメトリを共同で分析するレジーム認識診断フレームワークを通じて、科学的機械学習 (SciML) モデルにおけるこのようなマルチレジームの動作を研究します。私たちは 3 つの重要な発見を特定します。(i) 多くの標準的な SciML モデル、さまざまな制約の強制、およびさまざまなオプティマイザー設計にわたって、一貫した 3 つの体制構造が現れています。 (ii) 最適化の有効性はレジームごとに異なり、すべてのレジームで適切に機能する単一の方法はありません。 (iii) SciML モデルは、標準的な損失ランドスケープ メトリクスの従来の解釈に疑問を呈する可能性のあるきめ細かい故障モードを示すことができます。私たちの結果は、SciML の故障モードに関する統一されたタスクを意識しない視点を確立し、ロバスト性を向上させるためのレジームを意識したガイダンスを提供するアプローチを提供します。私たちはこれらの発見を、物理学に基づいたニューラル ネットワーク、ニューラル オペレーター、ニューラル常微分方程式などの広く使用されている SciML モデル全体に​​わたって、代表的な常微分方程式と偏微分方程式にわたるベンチマークで検証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Unveiling Multi-regime Patterns in SciML: Distinct Failure Modes and Regime-specific Optimization</p>
        <p class="orig-summary">Neural networks trained under different hyperparameter settings can fall into distinct training &quot;regimes,&quot; with consistent behavior within regimes and qualitative differences across regimes. In this paper, we study such multi-regime behavior in scientific machine learning (SciML) models through a regime-aware diagnostic framework that jointly analyzes performance, training dynamics, and loss-landscape geometry. We identify three key findings: (i) a consistent three-regime structure emerges across many standard SciML models, different constraint enforcements, and various optimizer designs; (ii) optimization effectiveness is regime-specific, with no single method performing well across all regimes; and (iii) SciML models can exhibit fine-grained failure modes that can challenge conventional interpretations of standard loss-landscape metrics. Our results provide an approach to establish a unified, task-oblivious perspective on failure modes in SciML and to inform regime-aware guidance for improving robustness. We validate these findings across widely-used SciML models, including physics-informed neural networks, neural operators, and neural ordinary differential equations, on benchmarks spanning representative ordinary and partial differential equations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="208ccf7c0466" data-article-url="https://arxiv.org/abs/2605.29155" data-article-title="CA-AC-MPC: CUDA アクセラレーテッド アクター クリティカル モデル予測制御" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29155" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29155" target="_blank" rel="noopener">CA-AC-MPC: CUDA アクセラレーテッド アクター クリティカル モデル予測制御</a></h3>
      <p class="summary">文献では、アクター クリティカル モデル予測制御 (AC-MPC) は、MPC を強化学習と統合して、複雑な動的システムの高性能制御を可能にします。ただし、微分可能な MPC 層では、前方パスと後方パスの両方で最適化問題を繰り返し解く必要があり、トレーニングと推論のレイテンシーが大幅に増加します。このホワイト ペーパーでは、ベースライン定式化の制御パフォーマンスを維持しながら、エンドツーエンドの実行時間を大幅に短縮する CUDA 高速化バリアントを導入して、このボトルネックに取り組みます。アジャイルドローンレースタスクのシミュレーション結果は、私たちのアプローチがトレーニングと推論時間を大幅に短縮しながら、最先端のラップタイムと限界に近い動的挙動を達成することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CA-AC-MPC: CUDA-Accelerated Actor-Critic Model Predictive Control</p>
        <p class="orig-summary">In the literature, actor-critic model predictive control (AC-MPC) integrates MPC with reinforcement learning to enable high-performance control of complex dynamical systems. However, its differentiable MPC layer requires repeatedly solving an optimization problem in both the forward and backward passes, leading to substantial training and inference latency. This paper tackles this bottleneck introducing a CUDA-accelerated variant that significantly reduces end-to-end execution time while preserving the control performance of the baseline formulation. Simulation results on an agile drone racing task show that our approach achieves state-of-the-art lap times and near-limit dynamic behaviour with markedly reduced training and inference time.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ce869c9010b0" data-article-url="https://arxiv.org/abs/2605.29157" data-article-title="視差: 言語モデリングのためのパラメータ化されたローカル線形アテンション" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29157" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29157" target="_blank" rel="noopener">視差: 言語モデリングのためのパラメータ化されたローカル線形アテンション</a></h3>
      <p class="summary">大規模言語モデル (LLM) は人工知能の中心的なパラダイムとなっていますが、注意の核となる計算プリミティブは構造的に変わっていません。ローカル線形アテンション (LLA) は、テスト時回帰フレームワークのノンパラメトリック統計から派生したアテンション メカニズムです。効率的な注意バリアントに関する先行研究とは対照的に、LLA はソフトマックス アテンションの局所定数推定を局所線形推定にアップグレードし、連想記憶に対して明らかに優れたバイアス分散トレードオフをもたらします。ただし、計算および数値の安定性に関する懸念のため、LLA は LLM 事前トレーニングではスケーリングされていません。 LLM 向けにスケーラブルなパラメータ化されたローカル リニア アテンションである Parallax を紹介します。 Parallax は LLA の数値ソルバーを排除し、KV 共分散を調査する追加のクエリのようなプロジェクターを学習します。私たちは視差を、帯域幅、プローブ構造、アフィン構造によって接続された注意メカニズムのファミリーの中に配置します。私たちは、FlashAttention よりも演算強度を高め、より計算に集中した領域に注意を移す、ハードウェア認識アルゴリズムを提案します。私たちのプロトタイプのデコード カーネルは、さまざまなバッチ サイズとコンテキスト長にわたって、FlashAttendant 2/3 と同等またはそれを上回るパフォーマンスを発揮します。視差を 0.6B および 1.7B スケールで事前トレーニングし、ダウンストリーム ベンチマークに転送されるゲインにより、事前トレーニング全体を通じて一貫したパープレキシティの改善が見られます。この利点は、パラメーター一致制御と計算一致制御の両方で持続し、パレートの改善を示しています。私たちは慎重な事前トレーニングアブレーションを実行し、ミューオンが視差の能力を解放するという新しい現象を特定しました。私たちの知る限り、これは、アーキテクチャ研究文献におけるアテンション メカニズムのための強力なアーキテクチャ オプティマイザー コードデザインの最初の実証的実証です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Parallax: Parameterized Local Linear Attention for Language Modeling</p>
        <p class="orig-summary">Large Language Models (LLMs) have become the central paradigm in artificial intelligence, yet the core computational primitive of attention has remained structurally unchanged. Local Linear Attention (LLA) is an attention mechanism derived from nonparametric statistics in the test-time regression framework. In contrast to prior research on efficient attention variants, LLA upgrades the local constant estimate in softmax attention to a local linear estimate, yielding provably superior bias-variance tradeoffs for associative memory. However, LLA has not been scaled in LLM pretraining due to computational and numerical stability concerns. We introduce Parallax, a parameterized Local Linear Attention that is scalable for LLMs. Parallax eliminates the numerical solver in LLA and learns an extra query-like projector that probes the KV covariance. We place Parallax within a family of attention mechanisms connected by the bandwidth, the probe construction and the affine structure. We propose a hardware-aware algorithm that increases the arithmetic intensity over FlashAttention, shifting attention into a more compute bound regime. Our prototype decode kernel matches or outperforms FlashAttention 2/3 across diverse batch sizes and context lengths. We pretrain Parallax at 0.6B and 1.7B scales and find consistent perplexity improvements throughout pretraining with gains that transfer to downstream benchmarks. The advantage persists under both parameter-matched and compute-matched controls, demonstrating a Pareto improvement. We perform careful pretraining ablations and identify a novel phenomenon whereby Muon unlocks the capacity of Parallax. To our knowledge, this is the first empirical demonstration of strong architecture-optimizer codesign for attention mechanisms in the architecture research literature.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="303dbd57ac81" data-article-url="https://arxiv.org/abs/2605.29161" data-article-title="生成グラフ トポロジの進化的な洗練: ハイブリッド WGAN-GA アプローチ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29161" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29161" target="_blank" rel="noopener">生成グラフ トポロジの進化的な洗練: ハイブリッド WGAN-GA アプローチ</a></h3>
      <p class="summary">現実的なグラフ構造のデータを生成することは、離散的な接続性、さまざまなグラフ サイズ、およびクラス固有の構造パターンにより困難です。最近の敵対的生成ネットワーク (GAN) ベースのグラフ生成手法は、接続性を学習し、クラス固有の密度分布を照合することでエッジ モデリングを改善します。ただし、これらのモデルは、実際のグラフと比較した場合、度数やスペクトル分布などに依然として顕著な偏差を示しており、重要な構造特性が完全に保存されていないことを示しています。この研究は、既存の GAN ベースのグラフ ジェネレーター フレームワークによって生成されたグラフを遺伝的アルゴリズム (GA) で改良することで、これらの偏差を減らすことを目的としています。 GAN フレームワークでは、ジェネレーターがノード機能と接続パターンの両方を生成し、GNN ベースの批評家がグラフの現実性とクラスの一貫性を評価して、グローバルな構造とクラスの整合性を確保します。この基盤に基づいて、GA を適用して、生成されたグラフのエッジを調整します。改良プロセスにより、多様性と新規性を維持しながら、合成グラフが実際のデータとよりよく一致するように導きます。実験結果は、GA 改良により基本モデルと比較して複合最大平均不一致 (MMD) が一貫して低下し、実際の構造パターンにより密接に一致するグラフが得られることを示しています。これは、進化的改良が GAN ベースのグラフ ジェネレーターの残留構造偏差を修正する効果的かつ柔軟な方法であり、現実的なグラフ合成とデータ拡張への適合性を向上させることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Evolutionary Refinement of Generative Graph Topologies: A Hybrid WGAN-GA Approach</p>
        <p class="orig-summary">Generating realistic graph-structured data is challenging due to discrete connectivity, varying graph sizes, and class-specific structural patterns. Recent Generative Adversarial Networks (GAN)-based graph generation methods improve edge modelling by learning connectivity and matching class-specific density distributions. However these models still exhibit noticeable deviations such as in degree and spectral distribution when compared to real graphs, indicating that important structural properties are not fully preserved. This work aims to reduce these deviations by refining the graphs produced by an existing GAN-based graph generator framework with a Genetic Algorithm (GA). In the GAN framework, the generator produces both node features and connectivity patterns, while a GNN-based critic evaluates graph realism and class consistency to ensure global structural and class alignment. Building on this foundation, we apply a GA to refine the edges of generated graphs. The refinement process guides synthetic graphs toward closer agreement with real data, while preserving diversity and novelty. Experimental results show that the GA refinement consistently lowers combined Maximum Mean Discrepancy (MMD) compared to the base model, leading to graphs that more closely match real structural patterns. This demonstrates that evolutionary refinement is an effective and flexible way to correct residual structural deviations in GAN-based graph generators, improving their suitability for realistic graph synthesis and data augmentation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="51d57232ec0f" data-article-url="https://arxiv.org/abs/2605.29169" data-article-title="積分格子およびモジュール格子における進化的ふるい分けのためのドメイン情報に基づく表現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29169" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29169" target="_blank" rel="noopener">積分格子およびモジュール格子における進化的ふるい分けのためのドメイン情報に基づく表現</a></h3>
      <p class="summary">従来の暗号化は、整数因数分解や離散対数などの問題に根ざしており、完全に動作する量子コンピューターに対して必然的に脆弱になります。これは依然としてエンジニアリングのフロンティアですが、差し迫った脅威は現在保存されている暗号化されたデータにも及び、将来的には量子機能を使用して復号化される可能性があります。この不測の事態から身を守るために、現代の量子安全暗号のバックボーンは最短ベクトル問題 (SVP) です。我々は、モジュール格子への適用を自然に拡張しながら、ドメイン情報に基づいた SVP 表現とクロスオーバーを組み込むことにより、SVP の遺伝的アルゴリズム (GA) として Ajtai らのふるい分けに対する Laarhoven の扱いを強化します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Domain-Informed Representation for Evolutionary Sieving in Integral and Module Lattices</p>
        <p class="orig-summary">Traditional cryptography, rooted in problems, e.g., integer factorisation or discrete log, is inevitably vulnerable to a fully operational quantum computer. Although it remains an engineering frontier, the looming threat extends to encrypted data stored today, which could be decrypted in the future with quantum capabilities. To safeguard against this eventuality, the backbone of the modern quantum-safe cryptography is the Shortest Vector Problem (SVP). We enhance Laarhoven&#x27;s treatment of Ajtai et al.&#x27;s sieving as a genetic algorithm (GA) for the SVP by incorporating domain-informed SVP representation and crossover while naturally extending application to the module lattices.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="820efc19ffdb" data-article-url="https://arxiv.org/abs/2605.29170" data-article-title="UA-Legal-Bench: ウクライナの法的推論に関する大規模言語モデルを評価するためのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29170" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29170" target="_blank" rel="noopener">UA-Legal-Bench: ウクライナの法的推論に関する大規模言語モデルを評価するためのベンチマーク</a></h3>
      <p class="summary">法的 NLP ベンチマークは圧倒的に英語中心であり、形態学的に豊富な非ラテン文字言語の障害モードは検出されません。 UA-Legal-Bench は、ウクライナの法的推論に関する大規模な言語モデルを評価するための 5 つのタスクのベンチマークであり、世界最大の公開司法コーパス (9,950 万件の判決) の 1 つである統一国家裁判所判決記録簿 (EDRSR) から構築されています。ベンチマークは、（1）事件タイプ分類（4クラス、n=2,000）、（2）判決形式分類（4クラス、n=2,000）、（3）事件結果予測（6クラス、n=800）、（4）法規範抽出（n=1,794）、（5）原因カテゴリ予測（22クラス、n=1,871）から構成されます。 AWS Bedrock 経由で 158K API コールを使用して、ゼロショットおよび 3 ショット プロンプトの下で 5 つのファミリーからの 11 個の LLM (3B ～ 675B) を評価しました。私たちの結果は、タスクに大きく依存する少数ショットの効果を明らかにしました。少数ショットのプロンプトは、判断フォームの分類を最大 +38.6 pp 向上させますが、結果の予測にはさまざまな影響を及ぼします。不均衡な法務タスクでは精度が誤解を招くことを示します。COP 精度が最も高いモデル (62%) は多数派クラスの予測子 (マクロ F1: 23%) ですが、真に最良のモデルのマクロ F1 スコアはわずか 44% です。ファミリ内のスケーリング分析により、8B モデルは表面レベルのタスクではフロンティアのパフォーマンスに匹敵することができますが、スケーリングのしきい値はファミリ間で大幅に異なることが明らかになりました。すべてのデータ、プロンプト、モデル予測を公開します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">UA-Legal-Bench: A Benchmark for Evaluating Large Language Models on Ukrainian Legal Reasoning</p>
        <p class="orig-summary">Legal NLP benchmarks are overwhelmingly English-centric, leaving failure modes in morphologically rich, non-Latin-script languages undetected. We introduce UA-Legal-Bench, a five-task benchmark for evaluating large language models on Ukrainian legal reasoning, built from the Unified State Register of Court Decisions (EDRSR) -- one of the world&#x27;s largest open judicial corpora (99.5 million decisions). The benchmark comprises: (1) case-type classification (4 classes, n=2,000), (2) judgment form classification (4 classes, n=2,000), (3) case-outcome prediction (6 classes, n=800), (4) legal norm extraction (n=1,794), and (5) cause category prediction (22 classes, n=1,871). We evaluate 11 LLMs (3B--675B) from five families under zero-shot and 3-shot prompting via AWS Bedrock with 158K API calls. Our results reveal sharply task-dependent few-shot effects: few-shot prompting improves judgment form classification by up to +38.6 pp but has mixed effects on outcome prediction. We show that accuracy is misleading on imbalanced legal tasks: the model with highest COP accuracy (62%) is a majority-class predictor (macro-F1: 23%), while the genuinely best model scores only 44% macro-F1. Within-family scaling analysis reveals that 8B models can match frontier performance on surface-level tasks but scaling thresholds vary dramatically across families. We release all data, prompts, and model predictions.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="45102b7095bd" data-article-url="https://arxiv.org/abs/2605.29179" data-article-title="人工知能時代の持続可能な金属有機フレームワーク集水装置" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29179" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29179" target="_blank" rel="noopener">人工知能時代の持続可能な金属有機フレームワーク集水装置</a></h3>
      <p class="summary">有機金属フレームワーク (MOF) は、細孔環境が調整可能であるため、乾燥条件で水を捕捉および放出するように正確に設計できるため、水採取の優れた候補です。人工知能 (AI) を MOF の発見に統合することで、大気水回収 (AWH)、安定性、サイクル効率を向上させる構造的特徴を特定することで、高性能吸着剤の設計をさらに加速できます。この観点では、協調吸着、動作相対湿度 (RH)、取り込み容量、ヒステリシス、拡張性などの重要な MOF 設計原則を検討します。多変量戦略や長腕リンカー伸長などの最近の設計の進歩に焦点を当て、これらの原理が安定性と結晶性を維持しながら細孔容量と親水性をどのように調整するかを検証します。さらに、AI、大規模言語モデル (LLM)、データ マイニングが、予測合成、逆設計、合成と構造と特性の関係の解明を通じて、次世代の MOF 集水器の発見プロセスをどのように加速できるかについて説明します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Sustainable Metal-Organic Framework Water Harvesters in the Artificial Intelligence Era</p>
        <p class="orig-summary">Metal-organic frameworks (MOFs) are excellent candidates for water harvesting due to their tunable pore environments, which can be precisely engineered to capture and release water in arid conditions. Integrating artificial intelligence (AI) into MOF discovery can further accelerate the design of high-performance sorbents by identifying structural features that enhance atmospheric water harvesting (AWH), stability, and cycling efficiency. In this Perspective, we examine key MOF design principles, including cooperative adsorption, operational relative humidity (RH), uptake capacity, hysteresis, and scalability. We highlight recent design advancements such as multivariate strategies and long-arm linker extension, and examine how these principles tune pore capacity and hydrophilicity, while preserving stability and crystallinity. Furthermore, we discuss how AI, large language models (LLMs), and data mining can accelerate the discovery process through predictive synthesis, inverse design, and elucidating synthesis-structure-property relationships for the next generation of MOF water harvesters.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2c8c59e8739e" data-article-url="https://arxiv.org/abs/2605.29183" data-article-title="TIMEGATE: リソース制約下での継続的な ML 適応のための持続可能なタイムボックス化プロモーション ゲート" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29183" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29183" target="_blank" rel="noopener">TIMEGATE: リソース制約下での継続的な ML 適応のための持続可能なタイムボックス化プロモーション ゲート</a></h3>
      <p class="summary">機械学習 (ML) システムが継続的な適応に進化するにつれて、各再トレーニング サイクルではコンピューティング、アノテーション、エネルギーが使用されます。時間の予算設定、ラベル付け、トレーニング、評価によって適応を管理するポリシー層である TIMEGATE を紹介します。 TIMEGATE は、部分評価と完全評価の決定のためにメトリック利用可能性信号 M を送信します。 (i) ラベル付けは、成人用表形式でトレーニングを 2.3 倍上回るパフォーマンスを示します。 (ii) SST-2 上の LLaMA-3.1-8B + QLoRA に転送します (精度 0.80 ～ 0.96、35/36 回の実行で M =1)。 (iii) M は有益です。28 セルの感度は、厳しいしきい値では M が 0.81 に低下することを示しています。 (iv) 100 サイクルのシミュレーションにより、サイレント ミス プロモーションなしで 66% の評価計算量の節約が達成されます。 (v) LLaMA での 10% スライス評価では、単一の H200 で使用する実時間とエネルギーが 89% 削減されます (比率は 0.2% に一致します)。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TIMEGATE: Sustainable Time-Boxed Promotion Gates for Continual ML Adaptation Under Resource Constraints</p>
        <p class="orig-summary">As machine learning(ML) systems evolve to continual adaptation, each re-training cycle uses compute, annotation, and energy. We introduce TIMEGATE, a policy layer managing adaptation by budgeting time, labeling, training, and evaluation. TIMEGATE emits a metric-availability signal M for partial vs. full-evaluation decisions. We validate: (i) labeling outperforms training by 2.3x on Adult tabular; (ii) it transfers to LLaMA-3.1-8B + QLoRA on SST-2 (accuracy 0.80 to 0.96; M =1 in 35/36 runs); (iii) M is informative, 28-cell sensitivity shows M drops to 0.81 at tight thresholds; (iv) 100-cycle simulation achieves 66% evaluation-compute savings with no silent mis-promotions; (v) 10%-slice evaluation on LLaMA uses 89% less wall-clock and energy on a single H200 (ratios agree to 0.2%).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="31bc8b030a72" data-article-url="https://arxiv.org/abs/2605.29184" data-article-title="Influence-Guided Symbolic Regression: Scientific Discovery via LLM-Driven Equation Search with Granular Feedback" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29184" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29184" target="_blank" rel="noopener">Influence-Guided Symbolic Regression: Scientific Discovery via LLM-Driven Equation Search with Granular Feedback</a></h3>
      <p class="summary">Large Language Models (LLMs) offer a promising avenue for scientific discovery, yet their application to symbolic regression is often const…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="02ad693ddb9e" data-article-url="https://arxiv.org/abs/2605.29194" data-article-title="Stochastic Lifting for Generating Trajectories of Stochastic Physical Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29194" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29194" target="_blank" rel="noopener">Stochastic Lifting for Generating Trajectories of Stochastic Physical Systems</a></h3>
      <p class="summary">Many stochastic physical systems evolve smoothly over time in the sense that the distribution of states changes regularly across time steps…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="02d614df7801" data-article-url="https://arxiv.org/abs/2605.29224" data-article-title="Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29224" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29224" target="_blank" rel="noopener">Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents</a></h3>
      <p class="summary">AI agents augment large language models with external tools such as web retrieval, enabling grounded and up-to-date responses. However, inc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c742d6cbccf9" data-article-url="https://arxiv.org/abs/2605.29230" data-article-title="Toward Ethical Facial Age Estimation: A Generalized Zero-Shot Benchmark Without Training on Children&#x27;s Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29230" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29230" target="_blank" rel="noopener">Toward Ethical Facial Age Estimation: A Generalized Zero-Shot Benchmark Without Training on Children&#x27;s Data</a></h3>
      <p class="summary">Age estimation from facial images typically relies on training data that includes images of minors, a practice that raises serious ethical,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f19ecb23e299" data-article-url="https://arxiv.org/abs/2605.29233" data-article-title="BlockBatch: Multi-Scale Consensus Decoding for Efficient Diffusion Language Model Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29233" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29233" target="_blank" rel="noopener">BlockBatch: Multi-Scale Consensus Decoding for Efficient Diffusion Language Model Inference</a></h3>
      <p class="summary">Diffusion language models (dLLMs) generate text by iteratively denoising multiple token positions in parallel, offering an attractive alter…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="307c924ec00a" data-article-url="https://arxiv.org/abs/2605.29243" data-article-title="Wait! There&#x27;s a Way Out: A Decision Mechanism for Forecasting Conversational Derailment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29243" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29243" target="_blank" rel="noopener">Wait! There&#x27;s a Way Out: A Decision Mechanism for Forecasting Conversational Derailment</a></h3>
      <p class="summary">Forecasting conversational derailment is the task of predicting, as the conversation unfolds, whether it will eventually derail into person…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="73d46f8c9c69" data-article-url="https://arxiv.org/abs/2605.29250" data-article-title="OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29250" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29250" target="_blank" rel="noopener">OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources</a></h3>
      <p class="summary">Real-world information needs require access to structurally diverse knowledge sources, from unstructured text and relational tables to know…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a310902cebbf" data-article-url="https://arxiv.org/abs/2605.29254" data-article-title="Extreme dynamic symmetry enables omnidirectional and multifunctional robots" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29254" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29254" target="_blank" rel="noopener">Extreme dynamic symmetry enables omnidirectional and multifunctional robots</a></h3>
      <p class="summary">Symmetry is a central organizing principle in natural systems, yet its use as a unifying design strategy in robotics has largely remained l…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="65010a9841cc" data-article-url="https://arxiv.org/abs/2605.29256" data-article-title="DynSess: Dynamic Session-Level Evaluation and Optimization Framework for Role-Playing Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29256" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29256" target="_blank" rel="noopener">DynSess: Dynamic Session-Level Evaluation and Optimization Framework for Role-Playing Agents</a></h3>
      <p class="summary">Role-playing with large language models is fundamentally a session-level task, requiring agents to sustain character identity and interacti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9b4d21b81080" data-article-url="https://arxiv.org/abs/2605.29259" data-article-title="KLAS: Using Similarity to Stitch Neural Networks for Improved Accuracy-Efficiency Tradeoffs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29259" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29259" target="_blank" rel="noopener">KLAS: Using Similarity to Stitch Neural Networks for Improved Accuracy-Efficiency Tradeoffs</a></h3>
      <p class="summary">Given the wide range of deployment targets, flexible model selection is essential for optimizing performance within a given compute budget.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cbecc7825ba2" data-article-url="https://arxiv.org/abs/2605.29268" data-article-title="Compute Allocation in Evolutionary Search: From Depth-Breadth to Multi-Armed Bandits" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29268" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29268" target="_blank" rel="noopener">Compute Allocation in Evolutionary Search: From Depth-Breadth to Multi-Armed Bandits</a></h3>
      <p class="summary">LLM-guided evolutionary search (Evolve systems) has reached state-of-the-art results on mathematical and combinatorial tasks, yet most exis…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1a02f548c0ef" data-article-url="https://arxiv.org/abs/2605.29272" data-article-title="Causal Label Recovery in Payment Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29272" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29272" target="_blank" rel="noopener">Causal Label Recovery in Payment Networks</a></h3>
      <p class="summary">Fraud detection models in payment networks train on chargeback labels that are systematically biased. Every label must survive three sequen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5bdde593bd35" data-article-url="https://arxiv.org/abs/2605.29277" data-article-title="Code-QA-Bench: Separating Code Reasoning from Documentation Memorization in Repository-Level QA" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29277" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29277" target="_blank" rel="noopener">Code-QA-Bench: Separating Code Reasoning from Documentation Memorization in Repository-Level QA</a></h3>
      <p class="summary">We present Code-QA-Bench, a fully automated framework for synthesizing repository-level code understanding benchmarks that separates genuin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9477e23fdebc" data-article-url="https://arxiv.org/abs/2605.29280" data-article-title="LoopFM: Learning frOm HistOrical RePresentations of Foundation Model for Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29280" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29280" target="_blank" rel="noopener">LoopFM: Learning frOm HistOrical RePresentations of Foundation Model for Recommendation</a></h3>
      <p class="summary">Knowledge distillation (KD) transfers a single scalar prediction from a large foundation model (FM) to compact vertical models (VMs), suffe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1061001cd528" data-article-url="https://arxiv.org/abs/2605.29283" data-article-title="Do Physics Foundation Models Learn Generalizable Physics? A Bias-Aware Benchmark Across Physical Regimes and Distribution Shifts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29283" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29283" target="_blank" rel="noopener">Do Physics Foundation Models Learn Generalizable Physics? A Bias-Aware Benchmark Across Physical Regimes and Distribution Shifts</a></h3>
      <p class="summary">Recent physics foundation models claim general spatiotemporal forecasting ability, yet their evaluations often collapse performance into a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8e21412c776e" data-article-url="https://arxiv.org/abs/2605.29299" data-article-title="Pocket-Dentist: On-Device Dental Image Understanding via Efficient Multimodal Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29299" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29299" target="_blank" rel="noopener">Pocket-Dentist: On-Device Dental Image Understanding via Efficient Multimodal Large Language Models</a></h3>
      <p class="summary">Evaluations of dental vision-language models remain fragmented across datasets, task definitions and metrics, and often ignore their comput…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fd4eb0286e72" data-article-url="https://arxiv.org/abs/2605.29300" data-article-title="MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29300" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29300" target="_blank" rel="noopener">MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs</a></h3>
      <p class="summary">Recent Large Audio-Language Models (LALMs) have demonstrated promising abilities in understanding musical content. However, whether their r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5f86e262c2c4" data-article-url="https://arxiv.org/abs/2605.29307" data-article-title="GrepSeek: Training Search Agents for Direct Corpus Interaction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29307" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29307" target="_blank" rel="noopener">GrepSeek: Training Search Agents for Direct Corpus Interaction</a></h3>
      <p class="summary">Large Language Model (LLM) search agents have shown strong promise for knowledge-intensive language tasks through multiple rounds of reason…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="78bbcb28dbc0" data-article-url="https://arxiv.org/abs/2605.29335" data-article-title="Rethinking FID Through the Geometry of the Reference Dataset" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29335" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29335" target="_blank" rel="noopener">Rethinking FID Through the Geometry of the Reference Dataset</a></h3>
      <p class="summary">Fr\&#x27;echet Inception Distance (FID) is widely used to evaluate image generators, yet lower FID does not always correspond to better sample q…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="862f4f0ea26f" data-article-url="https://arxiv.org/abs/2605.29359" data-article-title="Does Distributed Training Undermine Compute Governance?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29359" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29359" target="_blank" rel="noopener">Does Distributed Training Undermine Compute Governance?</a></h3>
      <p class="summary">Compute governance proposals often rely on the assumption that frontier AI training requires large, detectable computing clusters. However,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="473931ebcf9e" data-article-url="https://arxiv.org/abs/2605.29368" data-article-title="SURGENT: A Surgical Multi-Agent Assistance System Across the Perioperative Workflow" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29368" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29368" target="_blank" rel="noopener">SURGENT: A Surgical Multi-Agent Assistance System Across the Perioperative Workflow</a></h3>
      <p class="summary">The intricate nature of modern surgical care necessitates intelligent systems that can synthesize extensive patient records, support collab…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1bdfbe9b5719" data-article-url="https://arxiv.org/abs/2605.29380" data-article-title="TRACER: Persistent Regularization for Robust Multimodal Finetuning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29380" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29380" target="_blank" rel="noopener">TRACER: Persistent Regularization for Robust Multimodal Finetuning</a></h3>
      <p class="summary">Mainstream strategies for finetuning pretrained multimodal models often degrade out-of-distribution (OOD) robustness, a phenomenon known as…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e4ddde70d83d" data-article-url="https://arxiv.org/abs/2605.29384" data-article-title="Latent Terms: Dense Retrievers Contain Trivially Extractable BM25-ready Zipfian Vocabularies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29384" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29384" target="_blank" rel="noopener">Latent Terms: Dense Retrievers Contain Trivially Extractable BM25-ready Zipfian Vocabularies</a></h3>
      <p class="summary">We propose Latent Terms, a method revealing that models trained for dense retrieval, whether single- or multi-vector, learn representations…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a1363ceb572" data-article-url="https://arxiv.org/abs/2605.29387" data-article-title="On the Optimizer Dependence of Neural Scaling Laws" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29387" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29387" target="_blank" rel="noopener">On the Optimizer Dependence of Neural Scaling Laws</a></h3>
      <p class="summary">The scaling exponent $\alpha$ in neural scaling laws $L(N) \propto N^{-\alpha}$ is commonly treated as a fixed constant set by architecture…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5f34608b89d9" data-article-url="https://arxiv.org/abs/2605.29398" data-article-title="GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29398" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29398" target="_blank" rel="noopener">GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models</a></h3>
      <p class="summary">Reinforcement learning (RL) can be used to improve the policy (denoiser) of diffusion large language models (dLLMs), while being hindered b…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f42567e7d989" data-article-url="https://arxiv.org/abs/2605.29402" data-article-title="Semantic and Visual Evidence for Efficient Long-Video Reasoning: A Solution for the HD-EPIC VQA Challenge" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29402" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29402" target="_blank" rel="noopener">Semantic and Visual Evidence for Efficient Long-Video Reasoning: A Solution for the HD-EPIC VQA Challenge</a></h3>
      <p class="summary">Understanding long-form egocentric videos remains challenging for multimodal large language models (MLLMs) due to limited context length an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="965c14326177" data-article-url="https://arxiv.org/abs/2605.29411" data-article-title="The Good, the Bad, and the Ugly of Markov Boundary for Tabular Prediction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29411" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29411" target="_blank" rel="noopener">The Good, the Bad, and the Ugly of Markov Boundary for Tabular Prediction</a></h3>
      <p class="summary">Under standard graphical assumptions, the Markov boundary of a target variable is the smallest set of features that renders every other fea…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8b85a06c7991" data-article-url="https://arxiv.org/abs/2605.29414" data-article-title="Beyond Bilingual Transfer: Multilingual Code-Switching in Instruction Tuning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29414" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29414" target="_blank" rel="noopener">Beyond Bilingual Transfer: Multilingual Code-Switching in Instruction Tuning</a></h3>
      <p class="summary">Recent studies have shown that code-switching data (CSD), in which multiple languages are mixed within the same context, can improve cross-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4bc8fc939a9a" data-article-url="https://arxiv.org/abs/2605.29428" data-article-title="DELOS: Detecting Shallow Transits in Kepler Photometry Using a Contrastive-Learning Framework" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29428" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29428" target="_blank" rel="noopener">DELOS: Detecting Shallow Transits in Kepler Photometry Using a Contrastive-Learning Framework</a></h3>
      <p class="summary">We present DEtection in phase-folded Light curves with cOntrastive Scoring (DELOS), a contrastive-learning-based framework designed to sear…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3d67671a4a00" data-article-url="https://arxiv.org/abs/2605.29434" data-article-title="AliMark: Enhancing Robustness of Sentence-Level Watermarking Against Text Paraphrasing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29434" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29434" target="_blank" rel="noopener">AliMark: Enhancing Robustness of Sentence-Level Watermarking Against Text Paraphrasing</a></h3>
      <p class="summary">Existing sentence-level watermarking methods enhance robustness to paraphrasing by anchoring watermarks in sentence semantics. However, the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="88140098abaa" data-article-url="https://arxiv.org/abs/2605.29440" data-article-title="SkillBrew: Multi-Objective Curation of Skill Banks for LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29440" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29440" target="_blank" rel="noopener">SkillBrew: Multi-Objective Curation of Skill Banks for LLM Agents</a></h3>
      <p class="summary">Retrieval-augmented LLM agents increasingly rely on curated skill banks: collections of reusable textual principles that guide decision mak…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="de72d519c1e0" data-article-url="https://arxiv.org/abs/2605.29442" data-article-title="How Coding Agents Fail Their Users: A Large-Scale Analysis of Developer-Agent Misalignment in 20,574 Real-World Sessions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29442" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29442" target="_blank" rel="noopener">How Coding Agents Fail Their Users: A Large-Scale Analysis of Developer-Agent Misalignment in 20,574 Real-World Sessions</a></h3>
      <p class="summary">AI coding agents increasingly act directly within software environments, yet existing analyses of their failures rely on benchmark trajecto…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="25df3b0a7655" data-article-url="https://arxiv.org/abs/2605.29448" data-article-title="How Much Is a Dataset Worth? Scaling Laws, the Vendi Score, and Matrix Spectral Functions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29448" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29448" target="_blank" rel="noopener">How Much Is a Dataset Worth? Scaling Laws, the Vendi Score, and Matrix Spectral Functions</a></h3>
      <p class="summary">Neural scaling laws appraise data through dataset size, while the Vendi Score uses quantum entropy to measure dataset value. We show both t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2b53ce91ba51" data-article-url="https://arxiv.org/abs/2605.29453" data-article-title="Forget Less, Generalize More: Unifying Temporal and Structural Adaptation for Dynamic Graphs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29453" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29453" target="_blank" rel="noopener">Forget Less, Generalize More: Unifying Temporal and Structural Adaptation for Dynamic Graphs</a></h3>
      <p class="summary">Representation learning on dynamic graphs requires capturing complex dependencies that evolve across both time and structure. Existing appr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d4f24ccd11d9" data-article-url="https://arxiv.org/abs/2605.29458" data-article-title="Adaptive Interviewing for Persona Simulation in LLMs: Evidence-Grounded Reasoning Improves Decision Alignment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29458" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29458" target="_blank" rel="noopener">Adaptive Interviewing for Persona Simulation in LLMs: Evidence-Grounded Reasoning Improves Decision Alignment</a></h3>
      <p class="summary">Accurately simulating the decisions of a specific individual remains challenging for large language models (LLMs), partly because persona i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aa074eec9099" data-article-url="https://arxiv.org/abs/2605.29462" data-article-title="Benchmarking Large Vision-Language Models on CFMME: A Comprehensive Chinese Financial Multimodal Evaluation Dataset" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29462" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29462" target="_blank" rel="noopener">Benchmarking Large Vision-Language Models on CFMME: A Comprehensive Chinese Financial Multimodal Evaluation Dataset</a></h3>
      <p class="summary">The emergence of Large Vision-Language Models (LVLMs) has substantially expanded model capabilities beyond text-only understanding, enablin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d7b3ec266c87" data-article-url="https://arxiv.org/abs/2605.29463" data-article-title="Honest Lying: Understanding Memory Confabulation in Reflexive Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29463" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29463" target="_blank" rel="noopener">Honest Lying: Understanding Memory Confabulation in Reflexive Agents</a></h3>
      <p class="summary">Reflexion-style agents rely on self-generated reflections as memory, implicitly assuming that agents can accurately diagnose their own fail…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8e544fbc69a2" data-article-url="https://arxiv.org/abs/2605.29467" data-article-title="Composing Non-Conjugate Factor Graphs with Closed-Form Variational Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29467" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29467" target="_blank" rel="noopener">Composing Non-Conjugate Factor Graphs with Closed-Form Variational Inference</a></h3>
      <p class="summary">Stacking probabilistic building blocks into deeper architectures typically breaks closed-form inference. We show that closed-form inference…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0b89d90c6a21" data-article-url="https://arxiv.org/abs/2605.29468" data-article-title="SciIntBench: Measuring LLM Compliance with Research Integrity Norms Under Adversarial Framing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29468" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29468" target="_blank" rel="noopener">SciIntBench: Measuring LLM Compliance with Research Integrity Norms Under Adversarial Framing</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly used to support scientific work, but it is unclear whether they uphold responsible conduct of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="76e987892a59" data-article-url="https://arxiv.org/abs/2605.29473" data-article-title="Inform, Coach, Relate, Listen: Auditing LLM Caregiving Support Roles" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29473" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29473" target="_blank" rel="noopener">Inform, Coach, Relate, Listen: Auditing LLM Caregiving Support Roles</a></h3>
      <p class="summary">Language models are increasingly being deployed for conversational support in informal caregiving contexts, where interactions often extend…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="74582849a3b9" data-article-url="https://arxiv.org/abs/2605.29475" data-article-title="MOOSE-Copilot: A Web-Based Interactive Assistant for Unified Exploratory and Fine-Grained Scientific Hypothesis Discovery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/copilot/" data-entity="copilot">Copilot</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29475" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29475" target="_blank" rel="noopener">MOOSE-Copilot: A Web-Based Interactive Assistant for Unified Exploratory and Fine-Grained Scientific Hypothesis Discovery</a></h3>
      <p class="summary">Large language models (LLMs) show remarkable potential in scientific hypothesis discovery. However, existing approaches face two critical l…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3920a4ed3330" data-article-url="https://arxiv.org/abs/2605.29478" data-article-title="Evolutionary Rule Extraction from Corporate Default Prediction Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29478" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29478" target="_blank" rel="noopener">Evolutionary Rule Extraction from Corporate Default Prediction Models</a></h3>
      <p class="summary">Small and medium-sized enterprises (SMEs) represent the majority of firms in most economies and often face financial constraints and higher…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="de1ed44e8262" data-article-url="https://arxiv.org/abs/2605.29486" data-article-title="PhoneWorld: Scaling Phone-Use Agent Environments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29486" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29486" target="_blank" rel="noopener">PhoneWorld: Scaling Phone-Use Agent Environments</a></h3>
      <p class="summary">A central bottleneck for phone-use agents is that controllable, reproducible environments covering real mobile behavior are hard to build a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8ac05faab03c" data-article-url="https://arxiv.org/abs/2605.29488" data-article-title="AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29488" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29488" target="_blank" rel="noopener">AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling</a></h3>
      <p class="summary">Conditional human motion generation remains a fundamental challenge in computer vision and robotics. Despite significant progress, current…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="84e3018e6ed6" data-article-url="https://arxiv.org/abs/2605.29493" data-article-title="The New Pro Se: Generative AI and the Surge in Federal Civil Self-Representation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29493" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29493" target="_blank" rel="noopener">The New Pro Se: Generative AI and the Surge in Federal Civil Self-Representation</a></h3>
      <p class="summary">Since public access to generative AI tools became widespread, federal civil litigation has seen a marked increase in pro se (self-represent…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="91832551a827" data-article-url="https://arxiv.org/abs/2605.29500" data-article-title="Quotient DAGs for Off-Policy Evaluation:Forward-Flow Importance Sampling and Exact Slate Propensities" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29500" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29500" target="_blank" rel="noopener">Quotient DAGs for Off-Policy Evaluation:Forward-Flow Importance Sampling and Exact Slate Propensities</a></h3>
      <p class="summary">Off-policy evaluation estimates how a target policy would perform using data collected by a different behavior policy, which is crucial whe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fe96ab0ad77f" data-article-url="https://arxiv.org/abs/2605.29502" data-article-title="Source-Grounded Semantic Reinforcement Learning for Low-Resource Target-Language Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29502" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29502" target="_blank" rel="noopener">Source-Grounded Semantic Reinforcement Learning for Low-Resource Target-Language Generation</a></h3>
      <p class="summary">Low-resource target-language generation is often limited by scarce parallel data, while high-resource source-language monolingual data is a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6a552254f101" data-article-url="https://arxiv.org/abs/2605.29518" data-article-title="Network Optimization Aspects of Autonomous Vehicles: Challenges and Future Directions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29518" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29518" target="_blank" rel="noopener">Network Optimization Aspects of Autonomous Vehicles: Challenges and Future Directions</a></h3>
      <p class="summary">Global megatrends, such as urbanization, population growth, and emerging network solutions are accelerating the development of the Connecte…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79c7c74eed43" data-article-url="https://arxiv.org/abs/2605.29524" data-article-title="KBF: Knowledge Boundary as Fingerprint for Language Model and Black-Box API Auditing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29524" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29524" target="_blank" rel="noopener">KBF: Knowledge Boundary as Fingerprint for Language Model and Black-Box API Auditing</a></h3>
      <p class="summary">Relay and reseller APIs increasingly intermediate access to large language models (LLMs), but users have no direct way to verify that a cla…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="91974a866dbb" data-article-url="https://arxiv.org/abs/2605.29526" data-article-title="Temporal Motif-aware Graph Test-time Adaptation for OOD Blockchain Anomaly Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29526" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29526" target="_blank" rel="noopener">Temporal Motif-aware Graph Test-time Adaptation for OOD Blockchain Anomaly Detection</a></h3>
      <p class="summary">Ever-evolving transaction patterns have significantly hindered anomaly detection on emerging cryptocurrency blockchains due to the vast num…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d5be3296ff5e" data-article-url="https://arxiv.org/abs/2605.29532" data-article-title="GUITestScape: Towards Open-set Evaluation on Exploratory GUI Testing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29532" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29532" target="_blank" rel="noopener">GUITestScape: Towards Open-set Evaluation on Exploratory GUI Testing</a></h3>
      <p class="summary">Exploratory GUI testing is a particularly demanding setting for MLLM agents: without predefined test scripts, an agent must autonomously na…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="04abca85ee25" data-article-url="https://arxiv.org/abs/2605.29539" data-article-title="GiPL: Generative augmented iterative Pseudo-Labeling for Cross-Domain Few-Shot Object Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29539" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29539" target="_blank" rel="noopener">GiPL: Generative augmented iterative Pseudo-Labeling for Cross-Domain Few-Shot Object Detection</a></h3>
      <p class="summary">Vision-language foundation models have shown promising zero-shot generalization for Cross-Domain Few-Shot Object Detection (CD-FSOD). Howev…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a74e566a8835" data-article-url="https://arxiv.org/abs/2605.29543" data-article-title="SCOPE: A Lightweight-training LLM Framework for Air Traffic Control Readback Monitoring" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29543" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29543" target="_blank" rel="noopener">SCOPE: A Lightweight-training LLM Framework for Air Traffic Control Readback Monitoring</a></h3>
      <p class="summary">Pilot readback of Air Traffic Control (ATC) voice instructions is a primary safeguard against miscommunication in air transportation. Howev…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d035a1062ac7" data-article-url="https://arxiv.org/abs/2605.29547" data-article-title="Singularity-aware Optimization via Randomized Geometric Probing: Towards Stable Non-smooth Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29547" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29547" target="_blank" rel="noopener">Singularity-aware Optimization via Randomized Geometric Probing: Towards Stable Non-smooth Optimization</a></h3>
      <p class="summary">Deep learning optimization relies heavily on the assumption of smooth loss landscapes, a condition systematically violated by modern archit…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="482f6fc73fe9" data-article-url="https://arxiv.org/abs/2605.29562" data-article-title="VLA-Pro: Cross-Task Procedural Memory Transfer for Vision-Language-Action Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29562" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29562" target="_blank" rel="noopener">VLA-Pro: Cross-Task Procedural Memory Transfer for Vision-Language-Action Models</a></h3>
      <p class="summary">Vision-Language-Action~(VLA) models have shown strong potential for general-purpose robotic manipulation, yet they still struggle to genera…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="89aee7d88af6" data-article-url="https://arxiv.org/abs/2605.29588" data-article-title="Brain-IT-VQA: From Brain Signals to Answers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29588" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29588" target="_blank" rel="noopener">Brain-IT-VQA: From Brain Signals to Answers</a></h3>
      <p class="summary">Decoding visual content from fMRI signals recorded while a person views images, and specifically answering questions about the seen images,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="51914b13bc0a" data-article-url="https://arxiv.org/abs/2605.29601" data-article-title="Training Deliberative Monitors for Black-Box Scheming Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29601" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29601" target="_blank" rel="noopener">Training Deliberative Monitors for Black-Box Scheming Detection</a></h3>
      <p class="summary">As autonomous agents become more capable of performing real-world tasks, distinguishing scheming behavior from benign task pursuit may beco…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4b813b353de3" data-article-url="https://arxiv.org/abs/2605.29610" data-article-title="Learning Context-Conditioned Predicate Semantics via Prototype Feedback" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29610" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29610" target="_blank" rel="noopener">Learning Context-Conditioned Predicate Semantics via Prototype Feedback</a></h3>
      <p class="summary">In scene graph generation, a central challenge is modeling polysemous predicates whose meanings shift across contexts. Prior approaches add…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="52e70fef8f8f" data-article-url="https://arxiv.org/abs/2605.29626" data-article-title="DLM-SWAI: Steering Diffusion Language Models Before They Unmask" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29626" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29626" target="_blank" rel="noopener">DLM-SWAI: Steering Diffusion Language Models Before They Unmask</a></h3>
      <p class="summary">Steering language model generation toward desired textual properties is essential for practical deployment, and inference-time methods are…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7e0a63983bd4" data-article-url="https://arxiv.org/abs/2605.29628" data-article-title="COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29628" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29628" target="_blank" rel="noopener">COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings</a></h3>
      <p class="summary">Contrastive Language-Audio Pretraining (CLAP) models are widely used for audio understanding and support modality-agnostic condition swappi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3790255bd5ee" data-article-url="https://arxiv.org/abs/2605.29630" data-article-title="Entity-Collision: A Stratified Protocol for Attributing Retrieval Lift in Agent Memory" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29630" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29630" target="_blank" rel="noopener">Entity-Collision: A Stratified Protocol for Attributing Retrieval Lift in Agent Memory</a></h3>
      <p class="summary">End-to-end agent-memory benchmarks report a single hit@k per retriever, confounding lexical leakage (uncontrolled query/gold/distractor ent…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ebda0997373" data-article-url="https://arxiv.org/abs/2605.29631" data-article-title="Predicting Causal Effects from Natural Language Queries using Structured Representations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29631" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29631" target="_blank" rel="noopener">Predicting Causal Effects from Natural Language Queries using Structured Representations</a></h3>
      <p class="summary">Randomized controlled trials are a cornerstone of medicine and the social sciences as they enable reliable estimates of causal effects. How…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="66cf62fb18c2" data-article-url="https://arxiv.org/abs/2605.29645" data-article-title="The Sample Complexity of Multiclass and Sparse Contextual Bandits" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29645" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29645" target="_blank" rel="noopener">The Sample Complexity of Multiclass and Sparse Contextual Bandits</a></h3>
      <p class="summary">We study contextual bandits in the stochastic i.i.d.\ setting, where a learner observes contexts drawn from an unknown distribution, select…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="494cd7c3b246" data-article-url="https://arxiv.org/abs/2605.29657" data-article-title="OccamToken: Efficient VLM Inference with Training-Free and Budget-Adaptive Token Pruning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29657" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29657" target="_blank" rel="noopener">OccamToken: Efficient VLM Inference with Training-Free and Budget-Adaptive Token Pruning</a></h3>
      <p class="summary">Vision-language models (VLMs) rely on long visual token sequences for visual understanding, making the prefill stage expensive in both comp…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4ff6d80353b9" data-article-url="https://arxiv.org/abs/2605.29659" data-article-title="Opir: Efficient Multi-Task Safety Classification for Toxicity, Jailbreaks, Hate Speech, and Harmful Content" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29659" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29659" target="_blank" rel="noopener">Opir: Efficient Multi-Task Safety Classification for Toxicity, Jailbreaks, Hate Speech, and Harmful Content</a></h3>
      <p class="summary">Real-time safety filtering for large language model (LLM) applications requires classifiers that can detect unsafe prompts, toxic language,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ed7e19b976e" data-article-url="https://arxiv.org/abs/2605.29670" data-article-title="EviLink: Multi-Path Schema Linking with Uncertainty-Guided Evidence Acquisition for Large-Scale Text-to-SQL" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29670" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29670" target="_blank" rel="noopener">EviLink: Multi-Path Schema Linking with Uncertainty-Guided Evidence Acquisition for Large-Scale Text-to-SQL</a></h3>
      <p class="summary">Schema linking is a difficult and important step in large-scale Text-to-SQL, where systems must identify a compact yet sufficient schema co…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f7c9b5b36da3" data-article-url="https://arxiv.org/abs/2605.29675" data-article-title="From Prompts to Context: An Ontology-Driven Framework for Human-Generative AI Collaboration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29675" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29675" target="_blank" rel="noopener">From Prompts to Context: An Ontology-Driven Framework for Human-Generative AI Collaboration</a></h3>
      <p class="summary">Collaborations with Generative AI often begin with a short prompt and end with an opaque output, leaving implicit who was involved, what ta…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="63055ab099f8" data-article-url="https://arxiv.org/abs/2605.29711" data-article-title="Personalized Turn-Level User Conversation Satisfaction Benchmark" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29711" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29711" target="_blank" rel="noopener">Personalized Turn-Level User Conversation Satisfaction Benchmark</a></h3>
      <p class="summary">User satisfaction with AI assistants is highly personalized: the same response may satisfy one user but disappoint another depending on wha…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5c8dd1b06ed6" data-article-url="https://arxiv.org/abs/2605.29712" data-article-title="Teaching Language Models to Check Grounded Claim Factuality with Human Test-Taking Strategies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29712" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29712" target="_blank" rel="noopener">Teaching Language Models to Check Grounded Claim Factuality with Human Test-Taking Strategies</a></h3>
      <p class="summary">Grounded claim factuality checking is important for large language model (LLM) applications such as retrieval-augmented generation, as it h…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="edbf4ed1a954" data-article-url="https://arxiv.org/abs/2605.29713" data-article-title="The Little Book of Generative AI Foundations: An Intuitive Mathematical Primer" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29713" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29713" target="_blank" rel="noopener">The Little Book of Generative AI Foundations: An Intuitive Mathematical Primer</a></h3>
      <p class="summary">This book provides a compact, derivation-oriented introduction to the mathematical foundations of modern generative artificial intelligence…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6134c3ae7e98" data-article-url="https://arxiv.org/abs/2605.29738" data-article-title="Multi-Legal-Bench: Evaluating LLMs on Legal Reasoning Across Jurisdictions, Languages, and Legal Traditions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29738" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29738" target="_blank" rel="noopener">Multi-Legal-Bench: Evaluating LLMs on Legal Reasoning Across Jurisdictions, Languages, and Legal Traditions</a></h3>
      <p class="summary">Legal NLP benchmarks overwhelmingly evaluate a single language or aggregate tasks that differ fundamentally across jurisdictions, making cr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2b874c8c2df8" data-article-url="https://arxiv.org/abs/2605.29753" data-article-title="A unified deeplearning framework for contrast-phase-specific virtual monochromatic imaging" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29753" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29753" target="_blank" rel="noopener">A unified deeplearning framework for contrast-phase-specific virtual monochromatic imaging</a></h3>
      <p class="summary">Dual-energy CT (DECT) enables virtual monochromatic imaging (VMI) and improved contrast resolution, but its clinical adoption is limited by…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="074233977c5d" data-article-url="https://arxiv.org/abs/2605.29773" data-article-title="Energy-Aware NECO for Single-Pass Pixel-wise Out-of-Distribution Detection in Semantic Segmentation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29773" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29773" target="_blank" rel="noopener">Energy-Aware NECO for Single-Pass Pixel-wise Out-of-Distribution Detection in Semantic Segmentation</a></h3>
      <p class="summary">Reliable semantic segmentation for mobile robots requires both accurate dense prediction and robust uncertainty estimation under distributi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="65bd6905eda0" data-article-url="https://arxiv.org/abs/2605.29782" data-article-title="Hista and Numca: Estimate State Value Effectively for LLM Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29782" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29782" target="_blank" rel="noopener">Hista and Numca: Estimate State Value Effectively for LLM Reinforcement Learning</a></h3>
      <p class="summary">Reinforcement learning (RL) refines large language models (LLMs) by directly optimizing model behavior through reward signals. While accura…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="27c78e594633" data-article-url="https://arxiv.org/abs/2605.29790" data-article-title="Evolve as a Team: Collaborative Self-Evolution for LLM-based Multi-Agent Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29790" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29790" target="_blank" rel="noopener">Evolve as a Team: Collaborative Self-Evolution for LLM-based Multi-Agent Systems</a></h3>
      <p class="summary">LLM-based multi-agent systems (MAS) have emerged as an effective paradigm for complex and long-horizon tasks. However, in real-world tasks,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="88ac81029b98" data-article-url="https://arxiv.org/abs/2605.29807" data-article-title="Data filtering methods for training language models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29807" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29807" target="_blank" rel="noopener">Data filtering methods for training language models</a></h3>
      <p class="summary">Data quality is a critical factor in the effectiveness of machine learning models. Label errors, present even in widely used benchmarks, in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8d213d993abb" data-article-url="https://arxiv.org/abs/2605.29822" data-article-title="Inferring Code Correctness from Specification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29822" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29822" target="_blank" rel="noopener">Inferring Code Correctness from Specification</a></h3>
      <p class="summary">Large language models (LLMs) have become integral to modern software development, enabling automated code generation at scale. However, val…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="079871c46539" data-article-url="https://arxiv.org/abs/2605.29826" data-article-title="Towards Localized and Disentangled Knowledge Editing for Multimodal Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29826" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29826" target="_blank" rel="noopener">Towards Localized and Disentangled Knowledge Editing for Multimodal Large Language Models</a></h3>
      <p class="summary">Existing methods in Multimodal Knowledge Editing (MKE) have advanced the ability to correct outdated or inaccurate knowledge in Multimodal…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d05df9bbd6c4" data-article-url="https://arxiv.org/abs/2605.29836" data-article-title="CB-SLICE: Concept-Based Interpretable Error Slice Discovery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29836" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29836" target="_blank" rel="noopener">CB-SLICE: Concept-Based Interpretable Error Slice Discovery</a></h3>
      <p class="summary">Despite strong average-case performance, deep learning models often exhibit systematic errors on specific population groups, known as error…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6226028cf18c" data-article-url="https://arxiv.org/abs/2605.29843" data-article-title="HARP: Hadamard-Preconditioned Adaptive Rotation Processor for Extreme LLM Quantization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29843" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29843" target="_blank" rel="noopener">HARP: Hadamard-Preconditioned Adaptive Rotation Processor for Extreme LLM Quantization</a></h3>
      <p class="summary">Post-training quantization (PTQ) is essential for deploying LLMs under memory and bandwidth constraints. However, extreme low-bit quantizat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b71a25bed2be" data-article-url="https://arxiv.org/abs/2605.29860" data-article-title="ESPO: Early-Stopping Proximal Policy Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29860" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29860" target="_blank" rel="noopener">ESPO: Early-Stopping Proximal Policy Optimization</a></h3>
      <p class="summary">When a large language model under reinforcement learning commits a wrong reasoning step early in a trajectory, standard algorithms force it…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="85e0023df501" data-article-url="https://arxiv.org/abs/2605.29861" data-article-title="Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29861" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29861" target="_blank" rel="noopener">Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation</a></h3>
      <p class="summary">Large Language Models (LLMs) have advanced autonomous agents from deep search, which retrieves concise factual answers, to deep research, w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f1eff9306e35" data-article-url="https://arxiv.org/abs/2605.29862" data-article-title="Mitigating Stethoscope-Induced Shortcuts in Respiratory Sound Classification under Federated Domain Generalization with Causality-Inspired Interventions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29862" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29862" target="_blank" rel="noopener">Mitigating Stethoscope-Induced Shortcuts in Respiratory Sound Classification under Federated Domain Generalization with Causality-Inspired Interventions</a></h3>
      <p class="summary">AI-driven respiratory sound classification (RSC) is promising for automated pulmonary disease detection, yet multi-site deployment is hinde…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="505c2b4743db" data-article-url="https://arxiv.org/abs/2605.29874" data-article-title="Evolutionary Dynamics of Cooperation in Next-Generation LLM Agent Systems: A Cross-Provider Empirical Extension" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29874" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29874" target="_blank" rel="noopener">Evolutionary Dynamics of Cooperation in Next-Generation LLM Agent Systems: A Cross-Provider Empirical Extension</a></h3>
      <p class="summary">Do next-generation LLM agents inherit the cooperative biases documented in their predecessors, or does scale and provider diversity reshape…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="95bcd7db2490" data-article-url="https://arxiv.org/abs/2605.29881" data-article-title="Mitigating Hallucination in Vision-Language Models through Barrier-Regulated Adaptive Closed-form Steering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29881" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29881" target="_blank" rel="noopener">Mitigating Hallucination in Vision-Language Models through Barrier-Regulated Adaptive Closed-form Steering</a></h3>
      <p class="summary">Large vision-language models (LVLMs) often hallucinate objects that are not present in the input image, largely because visual grounding we…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="83ef4f0734d9" data-article-url="https://arxiv.org/abs/2605.29886" data-article-title="CRITIC-R1: Learning Structured Critics for Retrieval-Augmented Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29886" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29886" target="_blank" rel="noopener">CRITIC-R1: Learning Structured Critics for Retrieval-Augmented Generation</a></h3>
      <p class="summary">Retrieval-augmented generation (RAG) improves knowledge-intensive question answering by incorporating external evidence. However, existing…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4a9403756b1" data-article-url="https://arxiv.org/abs/2605.29888" data-article-title="LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29888" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29888" target="_blank" rel="noopener">LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training</a></h3>
      <p class="summary">Reinforcement learning (RL) post-training has shown to improve reasoning in large language models (LLMs). However, there has been little ex…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fbed9f1f01c9" data-article-url="https://arxiv.org/abs/2605.29889" data-article-title="Internal Representation, Not Clinical Knowledge: Where Apparent LLM Triage Failures Originate" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29889" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29889" target="_blank" rel="noopener">Internal Representation, Not Clinical Knowledge: Where Apparent LLM Triage Failures Originate</a></h3>
      <p class="summary">Patient-voiced clinical-triage benchmarks report high under-triage rates for consumer LLMs for constrained multiple-choice output, yet the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f9dbf64d24f3" data-article-url="https://arxiv.org/abs/2605.29910" data-article-title="Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29910" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29910" target="_blank" rel="noopener">Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents</a></h3>
      <p class="summary">Consensus protocols form the backbone of distributed systems and blockchains, where implementation bugs can cause data corruption and finan…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="37518f8ac1ad" data-article-url="https://arxiv.org/abs/2605.29916" data-article-title="Selection Hyper-heuristics Can Automatically Adjust the Learning Period to Optimally Solve Pseudo-Boolean Problems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29916" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29916" target="_blank" rel="noopener">Selection Hyper-heuristics Can Automatically Adjust the Learning Period to Optimally Solve Pseudo-Boolean Problems</a></h3>
      <p class="summary">The Random Gradient hyper-heuristic was recently shown to be able to learn the optimal neighbourhood size when optimizing the LeadingOnes b…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c68f6feedc2d" data-article-url="https://arxiv.org/abs/2605.29927" data-article-title="Does The Way You Plan Matter? An Empirical Study of Planning Representations for LLM Web Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><a class="entity-tag" href="/entity/alibaba/" data-entity="alibaba">Alibaba</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29927" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29927" target="_blank" rel="noopener">Does The Way You Plan Matter? An Empirical Study of Planning Representations for LLM Web Agents</a></h3>
      <p class="summary">Despite recent advances, LLM-based web agents still struggle with limited exploration, omission of critical steps, and sensitivity to task…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="73de66392a53" data-article-url="https://arxiv.org/abs/2605.29928" data-article-title="Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29928" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29928" target="_blank" rel="noopener">Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs</a></h3>
      <p class="summary">As AI-generated and AI-assisted content floods online spaces, source labels attached to such content can distort human reasoning judgments,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7dcfc82f2e07" data-article-url="https://arxiv.org/abs/2605.29935" data-article-title="CityGen: Structure-Guided City-Style Synthesis for Cross-City Autonomous Driving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29935" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29935" target="_blank" rel="noopener">CityGen: Structure-Guided City-Style Synthesis for Cross-City Autonomous Driving</a></h3>
      <p class="summary">Autonomous driving systems are commonly trained and evaluated within limited geographic regions, which hinders their scalability when deplo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d9e8354cc858" data-article-url="https://arxiv.org/abs/2605.29948" data-article-title="HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29948" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29948" target="_blank" rel="noopener">HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding</a></h3>
      <p class="summary">Unified speech foundation models require a holistic tokenization space that is both learnable by language models and decodable into high-qu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9b1b99b03b9a" data-article-url="https://arxiv.org/abs/2605.29960" data-article-title="Hijacking Agent Memory: Stealthy Trojan Attacks Through Conversational Interaction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29960" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29960" target="_blank" rel="noopener">Hijacking Agent Memory: Stealthy Trojan Attacks Through Conversational Interaction</a></h3>
      <p class="summary">Large language model (LLM) agents increasingly leverage long term memory to support persistent and autonomous task execution. However, this…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a1138aaf3c64" data-article-url="https://arxiv.org/abs/2605.29963" data-article-title="Honeyval: A Comprehensive Evaluation Framework for LLM-powered HTTP Honeypots" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29963" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29963" target="_blank" rel="noopener">Honeyval: A Comprehensive Evaluation Framework for LLM-powered HTTP Honeypots</a></h3>
      <p class="summary">Honeypots are decoy systems mimicking real system components designed to defend against cyber attacks. Recently, LLMs increasingly serve as…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6247db87d099" data-article-url="https://arxiv.org/abs/2605.29976" data-article-title="Evaluating Skill and Stability of ArchesWeather and ArchesWeatherGen under Multi-Decadal Climate Simulations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29976" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29976" target="_blank" rel="noopener">Evaluating Skill and Stability of ArchesWeather and ArchesWeatherGen under Multi-Decadal Climate Simulations</a></h3>
      <p class="summary">We evaluate the climate simulation capabilities of ArchesWeather and ArchesWeatherGen, two machine learning models originally trained for w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5ce68a741ad8" data-article-url="https://arxiv.org/abs/2605.29980" data-article-title="Genetically Aligned Patient Representations Improve Hematological Diagnosis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29980" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29980" target="_blank" rel="noopener">Genetically Aligned Patient Representations Improve Hematological Diagnosis</a></h3>
      <p class="summary">Multimodal alignment of histopathology encoders with transcriptomic and genomic data has been shown to significantly improve performance in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9d81fc416874" data-article-url="https://arxiv.org/abs/2605.30003" data-article-title="Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30003" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30003" target="_blank" rel="noopener">Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas</a></h3>
      <p class="summary">We study two-level autoresearch for cooperation: an outer-loop AI agent autonomously redesigns the inner-loop pipeline of an LLM policy-syn…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c5b9369d974a" data-article-url="https://arxiv.org/abs/2605.30011" data-article-title="VisualThink-VLA: Visual Intermediate Reasoning for Effective and Low-Latency Vision-Language-Action Policies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30011" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30011" target="_blank" rel="noopener">VisualThink-VLA: Visual Intermediate Reasoning for Effective and Low-Latency Vision-Language-Action Policies</a></h3>
      <p class="summary">Recent work has begun to equip vision-language-action (VLA) policies with explicit intermediate reasoning. In embodied control, however, te…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5f880db0ed78" data-article-url="https://arxiv.org/abs/2605.30015" data-article-title="Test Time Training for Supervised Causal Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30015" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30015" target="_blank" rel="noopener">Test Time Training for Supervised Causal Learning</a></h3>
      <p class="summary">Supervised Causal Learning (SCL) has shown promise in causal discovery by framing it as a supervised learning problem. However, it suffers…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2955e6817aea" data-article-url="https://arxiv.org/abs/2605.30022" data-article-title="Give it Space! Explicit Disentangling of Positional and Semantic Representations in Encoders" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30022" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30022" target="_blank" rel="noopener">Give it Space! Explicit Disentangling of Positional and Semantic Representations in Encoders</a></h3>
      <p class="summary">Positional encoding (PE) underpins how permutation-invariant Transformers represent sequence order, yet how positional information is proce…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="823d82818b13" data-article-url="https://arxiv.org/abs/2605.30031" data-article-title="Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30031" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30031" target="_blank" rel="noopener">Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation</a></h3>
      <p class="summary">Large Audio Language Models (LALMs) expand jailbreak risks from token-level prompting to the full speech perception-to-reasoning pipeline,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6584b9f88da9" data-article-url="https://arxiv.org/abs/2605.30038" data-article-title="Alignment-Guided Score Matching for Text-to-Image Alignment in Diffusion Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30038" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30038" target="_blank" rel="noopener">Alignment-Guided Score Matching for Text-to-Image Alignment in Diffusion Models</a></h3>
      <p class="summary">Diffusion models generate highly realistic images but often struggle with precise text-image alignment. While recent post-training methods…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="30b0325cf32b" data-article-url="https://arxiv.org/abs/2605.30040" data-article-title="Token Inflation: How Dishonest Providers Can Overcharge for Large Language Model Usage" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30040" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30040" target="_blank" rel="noopener">Token Inflation: How Dishonest Providers Can Overcharge for Large Language Model Usage</a></h3>
      <p class="summary">Per-token billing is now the standard pricing model for commercial large language models (LLMs), so the honesty of reported token counts di…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3ab4e1be608e" data-article-url="https://arxiv.org/abs/2605.30046" data-article-title="Masked Diffusion Modeling for Anomaly Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30046" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30046" target="_blank" rel="noopener">Masked Diffusion Modeling for Anomaly Detection</a></h3>
      <p class="summary">Anomaly detection aims to identify samples that deviate from the nominal data distribution and is central to many safety-critical applicati…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d132a06e0587" data-article-url="https://arxiv.org/abs/2605.30052" data-article-title="REPOT: Recoverable Program-of-Thought via Checkpoint Repair" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30052" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30052" target="_blank" rel="noopener">REPOT: Recoverable Program-of-Thought via Checkpoint Repair</a></h3>
      <p class="summary">One-shot Program-of-Thought (PoT) emits a Python program that prints a primitive-action plan; a single invalid action silently invalidates…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="474aeccf02d8" data-article-url="https://arxiv.org/abs/2605.30054" data-article-title="Projectional Decoding: Towards Semantic-Aware LLM Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30054" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30054" target="_blank" rel="noopener">Projectional Decoding: Towards Semantic-Aware LLM Generation</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly used to generate software artifacts across many software engineering (SE) tasks, yet ensuring…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f1a64f915b4" data-article-url="https://arxiv.org/abs/2605.30070" data-article-title="A Predictive Law for On-Policy Self-Distillation From World Feedback" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30070" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30070" target="_blank" rel="noopener">A Predictive Law for On-Policy Self-Distillation From World Feedback</a></h3>
      <p class="summary">Moving beyond simple scalar rewards toward richer world feedback is a natural path to more scalable RL post-training. On-policy self-distil…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8be4c5b1fd58" data-article-url="https://arxiv.org/abs/2605.30096" data-article-title="How Reliable Are AI Attackers Against a Fixed Vulnerable Target? A 400-Run Empirical Study of LLM Penetration Testing Consistency" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30096" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30096" target="_blank" rel="noopener">How Reliable Are AI Attackers Against a Fixed Vulnerable Target? A 400-Run Empirical Study of LLM Penetration Testing Consistency</a></h3>
      <p class="summary">Large language models (LLMs) can autonomously conduct multi-stage cyber attacks, but the consistency of their offensive behavior under repe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b12525ce0b86" data-article-url="https://arxiv.org/abs/2605.30102" data-article-title="When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30102" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30102" target="_blank" rel="noopener">When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems</a></h3>
      <p class="summary">The design space of agentic AI inference spans two extremes: frontier large language models (LLMs), typically hosted in the cloud and offer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f752f9b859a" data-article-url="https://arxiv.org/abs/2605.30111" data-article-title="xModel-KD: Cross-modal Knowledge Distillation for 3D Scene Perception using LiDAR" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30111" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30111" target="_blank" rel="noopener">xModel-KD: Cross-modal Knowledge Distillation for 3D Scene Perception using LiDAR</a></h3>
      <p class="summary">Point cloud segmentation is a fundamental task in 3D scene understanding. Its progress is constrained by the high cost and time required fo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cc0630d23405" data-article-url="https://arxiv.org/abs/2605.30119" data-article-title="Evolving Features vs Evolving Entire Trees with GP for Interpretable Survival Analysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30119" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30119" target="_blank" rel="noopener">Evolving Features vs Evolving Entire Trees with GP for Interpretable Survival Analysis</a></h3>
      <p class="summary">Survival analysis concerns the task of predicting the time until an event occurs. Often used in the medical field, survival analysis deals…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2a3f327aa52" data-article-url="https://arxiv.org/abs/2605.30120" data-article-title="No More K-means:Single-Stage Sparse Coding for Efficient Multi-Vector Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30120" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30120" target="_blank" rel="noopener">No More K-means:Single-Stage Sparse Coding for Efficient Multi-Vector Retrieval</a></h3>
      <p class="summary">Multi-vector retrieval (MVR) models, exemplified by ColBERT, have established new benchmarks in retrieval accuracy by preserving fine-grain…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3399da74fb51" data-article-url="https://arxiv.org/abs/2605.30122" data-article-title="Beyond MSE: Improving Precipitation Nowcasting with Multi-Quantile Regression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30122" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30122" target="_blank" rel="noopener">Beyond MSE: Improving Precipitation Nowcasting with Multi-Quantile Regression</a></h3>
      <p class="summary">Deep-learning precipitation nowcasting models are often optimized using pointwise losses such as mean squared error or mean absolute error,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cbdfb7bca252" data-article-url="https://arxiv.org/abs/2605.30126" data-article-title="PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30126" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30126" target="_blank" rel="noopener">PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding</a></h3>
      <p class="summary">Large Vision-Language Models (LVLMs) map visual inputs into dense token sequences, imposing a quadratic computational bottleneck for infere…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fc542f7135c1" data-article-url="https://arxiv.org/abs/2605.30135" data-article-title="DAMEL: Dual-Axis Multi-Expert Learning for Class-Imbalanced Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30135" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30135" target="_blank" rel="noopener">DAMEL: Dual-Axis Multi-Expert Learning for Class-Imbalanced Learning</a></h3>
      <p class="summary">Various algorithms have been proposed to address the challenges posed by class-imbalanced learning from real-world data with long-tailed di…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="45f75aa7e9a7" data-article-url="https://arxiv.org/abs/2605.30148" data-article-title="Overcoming Forgetting in LLM Fine-Tuning with Evolution Strategies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30148" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30148" target="_blank" rel="noopener">Overcoming Forgetting in LLM Fine-Tuning with Evolution Strategies</a></h3>
      <p class="summary">Evolution Strategies (ES) has recently emerged as a competitive alternative to reinforcement learning (RL) for large language model (LLM) f…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ff66d1337a51" data-article-url="https://arxiv.org/abs/2605.30152" data-article-title="Do Proactive Agents Really Need an LLM to Decide When to Wake and What to Anchor?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30152" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30152" target="_blank" rel="noopener">Do Proactive Agents Really Need an LLM to Decide When to Wake and What to Anchor?</a></h3>
      <p class="summary">Proactive agents read user activity as text and call an LLM on every event to decide whether to act. But user activity is not natively text…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3e5bc5f6a319" data-article-url="https://arxiv.org/abs/2605.30155" data-article-title="Neural Network Verification using Partial Multi-Neuron Relaxation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30155" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30155" target="_blank" rel="noopener">Neural Network Verification using Partial Multi-Neuron Relaxation</a></h3>
      <p class="summary">The increasing integration of deep neural networks in critical systems has spawned a theoretical and practical interest in formally guarant…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="723e14813ac7" data-article-url="https://arxiv.org/abs/2605.30160" data-article-title="On Distributional Reinforcement Learning in Chaotic Dynamical Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30160" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30160" target="_blank" rel="noopener">On Distributional Reinforcement Learning in Chaotic Dynamical Systems</a></h3>
      <p class="summary">Chaotic dynamical systems pose a fundamental challenge for Reinforcement Learning (RL): exponential sensitivity to initial conditions induc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5afbd12528ed" data-article-url="https://arxiv.org/abs/2605.30169" data-article-title="Dissociative Identity: Language Model Agents Lack Grounding for Reputation Mechanisms" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30169" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30169" target="_blank" rel="noopener">Dissociative Identity: Language Model Agents Lack Grounding for Reputation Mechanisms</a></h3>
      <p class="summary">As autonomous language model agents proliferate, forming an emerging agentic web with real-world consequences, what credibility signals can…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6a750bcfa626" data-article-url="https://arxiv.org/abs/2605.30179" data-article-title="iLoRA: Bayesian Low-Rank Adaptation with Latent Interaction Graphs for Microbiome Diagnosis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30179" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30179" target="_blank" rel="noopener">iLoRA: Bayesian Low-Rank Adaptation with Latent Interaction Graphs for Microbiome Diagnosis</a></h3>
      <p class="summary">Parameter-efficient adaptation has made LLMs practical for domain prediction, but standard LoRA still relies on a static low-rank update an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d3852cbf98db" data-article-url="https://arxiv.org/abs/2605.30188" data-article-title="CalArena: A Large-Scale Post-Hoc Calibration Benchmark" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30188" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30188" target="_blank" rel="noopener">CalArena: A Large-Scale Post-Hoc Calibration Benchmark</a></h3>
      <p class="summary">Reliable probability estimates are critical in many machine learning applications, yet modern classifiers are often poorly calibrated. Post…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a1f61e38498d" data-article-url="https://arxiv.org/abs/2605.30189" data-article-title="Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30189" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30189" target="_blank" rel="noopener">Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection</a></h3>
      <p class="summary">We show that LoRA adapters, the dominant distribution format for fine-tuned LLMs, can be reliably backdoored through training data poisonin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4b0dce9f53e" data-article-url="https://arxiv.org/abs/2605.30195" data-article-title="What drives performance in molecular MPNNs? An operator-level factorial benchmark" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30195" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30195" target="_blank" rel="noopener">What drives performance in molecular MPNNs? An operator-level factorial benchmark</a></h3>
      <p class="summary">Message-passing neural networks (MPNNs) are widely used for molecular property prediction, but their deployment as monolithic architectures…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1ad3634a0594" data-article-url="https://arxiv.org/abs/2605.30201" data-article-title="HPO: Hysteretic Policy Optimization for Stable and Efficient Training under Sparse-Reward Regime" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30201" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30201" target="_blank" rel="noopener">HPO: Hysteretic Policy Optimization for Stable and Efficient Training under Sparse-Reward Regime</a></h3>
      <p class="summary">We investigate a narrow but common failure mode of GRPO-style reinforcement learning in the context of sparse verifiable rewards: early upd…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="da046dbe3178" data-article-url="https://arxiv.org/abs/2605.30208" data-article-title="Automating Low-Risk Code Review at Meta: RADAR, Risk Calibration, and Review Efficiency" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30208" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30208" target="_blank" rel="noopener">Automating Low-Risk Code Review at Meta: RADAR, Risk Calibration, and Review Efficiency</a></h3>
      <p class="summary">AI-assisted coding tools have altered software production. At Meta, significant lines of code per human-landed diff grew by 105.9% year ove…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4bb00f2b5808" data-article-url="https://arxiv.org/abs/2605.30226" data-article-title="BORA: Bridging Offline Reinforcement Learning and Online Residual Adaptation for Real-World Dexterous VLA Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30226" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30226" target="_blank" rel="noopener">BORA: Bridging Offline Reinforcement Learning and Online Residual Adaptation for Real-World Dexterous VLA Models</a></h3>
      <p class="summary">Vision-Language-Action (VLA) models have emerged as a promising paradigm for grounding visual-language understanding into real-world roboti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e1c33610f10c" data-article-url="https://arxiv.org/abs/2605.30227" data-article-title="Unifying Temporal and Structural Credit Assignment in LLM-Based Multi-Agent Prompt Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30227" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30227" target="_blank" rel="noopener">Unifying Temporal and Structural Credit Assignment in LLM-Based Multi-Agent Prompt Optimization</a></h3>
      <p class="summary">While Multi-Agent Systems (MAS) empower Large Language Models to tackle complex reasoning tasks through collaborative interaction, optimizi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="abbb6278060e" data-article-url="https://arxiv.org/abs/2605.30231" data-article-title="Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30231" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30231" target="_blank" rel="noopener">Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning</a></h3>
      <p class="summary">Vision-Language Models (VLMs) often struggle with robust 3D spatial reasoning. Prevailing methods that rely on fine-tuning with 3D visual q…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8a0b85281a36" data-article-url="https://arxiv.org/abs/2605.30233" data-article-title="Do Language Models Track Entities Across State Changes?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30233" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30233" target="_blank" rel="noopener">Do Language Models Track Entities Across State Changes?</a></h3>
      <p class="summary">Entity tracking (ET), the ability to keep track of states, is a fundamental skill that underlies complex reasoning. An increasing amount of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fa0487967769" data-article-url="https://arxiv.org/abs/2605.30244" data-article-title="Reinforcement Learning with Robust Rubric Rewards" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30244" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30244" target="_blank" rel="noopener">Reinforcement Learning with Robust Rubric Rewards</a></h3>
      <p class="summary">While Reinforcement Learning with Verifiable Rewards (RLVR) is effective for deterministically checkable tasks, many vision-language tasks…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="304f24efc188" data-article-url="https://arxiv.org/abs/2605.30251" data-article-title="Same Evidence, Different Answers: Canonical-Context On-Policy Distillation for Multi-Turn Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30251" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30251" target="_blank" rel="noopener">Same Evidence, Different Answers: Canonical-Context On-Policy Distillation for Multi-Turn Language Models</a></h3>
      <p class="summary">Large language models (LLMs) often solve a task when all instructions are given in a single prompt, but fail when the same information is r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b63aa3c50e69" data-article-url="https://arxiv.org/abs/2605.30260" data-article-title="How LoRA Remembers? A Parametric Memory Law for LLM Finetuning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30260" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30260" target="_blank" rel="noopener">How LoRA Remembers? A Parametric Memory Law for LLM Finetuning</a></h3>
      <p class="summary">Large Language Models (LLMs) must continuously learn and update knowledge to remain effective in dynamic real-world environments. While Low…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f328ddd202e" data-article-url="https://arxiv.org/abs/2605.30268" data-article-title="PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30268" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30268" target="_blank" rel="noopener">PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions</a></h3>
      <p class="summary">We address the task of generating physically accurate and visually faithful 4D Human-Object Interaction (HOI). Given a static 3D human and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2d37f49666ce" data-article-url="https://arxiv.org/abs/2605.30273" data-article-title="LLUMI: Improving LLM Writing Assistance for Mental Health Support with Online Community Feedback" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30273" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30273" target="_blank" rel="noopener">LLUMI: Improving LLM Writing Assistance for Mental Health Support with Online Community Feedback</a></h3>
      <p class="summary">Large language models (LLMs) show promise in generating supportive responses for mental health queries, but improving their usefulness, emp…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0056771d13ea" data-article-url="https://arxiv.org/abs/2605.30274" data-article-title="Loong: A Human-Like Long Document Translation Agent with Observe-and-Act Adaptive Context Selection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30274" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30274" target="_blank" rel="noopener">Loong: A Human-Like Long Document Translation Agent with Observe-and-Act Adaptive Context Selection</a></h3>
      <p class="summary">Document-level translation remains one of the most challenging tasks for large language models, which are constrained by limited context wi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="056b8b20ca49" data-article-url="https://arxiv.org/abs/2605.30280" data-article-title="Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30280" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30280" target="_blank" rel="noopener">Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments</a></h3>
      <p class="summary">Embodied intelligence is often studied through specialized models for individual tasks such as manipulation or navigation, resulting in fra…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="82887e1da39d" data-article-url="https://arxiv.org/abs/2605.30290" data-article-title="Self-Trained Verification for Training- and Test-Time Self-Improvement" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30290" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30290" target="_blank" rel="noopener">Self-Trained Verification for Training- and Test-Time Self-Improvement</a></h3>
      <p class="summary">Self-improvement at scale has been a longstanding goal for reasoning models, and there are two natural places to do it: at test time, throu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7824bbbbee22" data-article-url="https://arxiv.org/abs/2605.30295" data-article-title="MedCase-Structured: A Text-to-FHIR Dataset for Benchmarking Diagnostic Reasoning in Clinically Realistic EHR Settings" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30295" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30295" target="_blank" rel="noopener">MedCase-Structured: A Text-to-FHIR Dataset for Benchmarking Diagnostic Reasoning in Clinically Realistic EHR Settings</a></h3>
      <p class="summary">Large language models (LLMs) show promise for clinical reasoning and decision support, but evaluation in realistic, electronic health recor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ecacd2fa0494" data-article-url="https://arxiv.org/abs/2605.30310" data-article-title="City-Mesh3R: Simulation-Ready City-Scale 3D Mesh Reconstruction from Multi-View Images" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30310" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30310" target="_blank" rel="noopener">City-Mesh3R: Simulation-Ready City-Scale 3D Mesh Reconstruction from Multi-View Images</a></h3>
      <p class="summary">City-scale 3D surface reconstruction from multiview images for downstream 3D simulation, poses highly challenging problems due to the scale…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="48e48944c984" data-article-url="https://arxiv.org/abs/2605.30311" data-article-title="Archon: A Unified Multimodal Model for Holistic Digital Human Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30311" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30311" target="_blank" rel="noopener">Archon: A Unified Multimodal Model for Holistic Digital Human Generation</a></h3>
      <p class="summary">Digital humans are fundamental to immersive interaction, yet creating a unified model for holistic modalities, including text, audio, motio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c1fe8925d1cd" data-article-url="https://arxiv.org/abs/2605.30318" data-article-title="Before the Shutter: Aesthetic and Actionable Portrait Photography Planning in 3D Scenes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30318" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30318" target="_blank" rel="noopener">Before the Shutter: Aesthetic and Actionable Portrait Photography Planning in 3D Scenes</a></h3>
      <p class="summary">Portrait photography is largely decided before the shutter opens: the subject&#x27;s pose, the camera configuration, and the lighting devices mu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="32d975877e76" data-article-url="https://arxiv.org/abs/2605.30319" data-article-title="Improved Guarantees for Heterogeneous Treatment-Effect Estimation via Matrix Completion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30319" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30319" target="_blank" rel="noopener">Improved Guarantees for Heterogeneous Treatment-Effect Estimation via Matrix Completion</a></h3>
      <p class="summary">A central goal of modern causal inference is estimating heterogeneous treatment effects to answer questions like &quot;how does an intervention…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec10907e4e65" data-article-url="https://arxiv.org/abs/2605.30322" data-article-title="Gram: Assessing sabotage propensities via automated alignment auditing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30322" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30322" target="_blank" rel="noopener">Gram: Assessing sabotage propensities via automated alignment auditing</a></h3>
      <p class="summary">We introduce Gram, an automated alignment auditing framework to assess the propensity of AI agents to engage in sabotage. We evaluate Gemin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ef69befd70b6" data-article-url="https://arxiv.org/abs/2605.30323" data-article-title="In-Context Reward Adaptation for Robust Preference Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30323" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30323" target="_blank" rel="noopener">In-Context Reward Adaptation for Robust Preference Modeling</a></h3>
      <p class="summary">Reinforcement Learning from Human Feedback (RLHF) typically relies on static reward models to align Large Language Models with human prefer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d306b17c3821" data-article-url="https://arxiv.org/abs/2605.30324" data-article-title="On Language Generation in the Limit with Bounded Memory" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30324" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30324" target="_blank" rel="noopener">On Language Generation in the Limit with Bounded Memory</a></h3>
      <p class="summary">We study language generation in the limit under bounded memory. In this task, a learner observes examples from an unknown target language o…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d88c5749e11f" data-article-url="https://arxiv.org/abs/2605.30326" data-article-title="RoboWits: Unexpected Challenges for Robotic Creative Problem Solving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30326" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30326" target="_blank" rel="noopener">RoboWits: Unexpected Challenges for Robotic Creative Problem Solving</a></h3>
      <p class="summary">The ability to reason, adapt, and creatively solve problems under unexpected challenges is essential for robots operating in real-world env…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4c7bc570673" data-article-url="https://arxiv.org/abs/2605.30327" data-article-title="Reasoning with Sampling: Cutting at Decision Points" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30327" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30327" target="_blank" rel="noopener">Reasoning with Sampling: Cutting at Decision Points</a></h3>
      <p class="summary">Frontier reasoning models are produced by posttraining base language models with reinforcement learning. Recent work has challenged this by…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="388d1f6b4829" data-article-url="https://arxiv.org/abs/2605.30341" data-article-title="GPIC: A Giant Permissive Image Corpus for Visual Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30341" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30341" target="_blank" rel="noopener">GPIC: A Giant Permissive Image Corpus for Visual Generation</a></h3>
      <p class="summary">Studying scalable methods for visual generative modeling requires large, accessible, and stable datasets. We introduce GPIC, a Giant Permis…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ce32c3c449ab" data-article-url="https://arxiv.org/abs/2605.30343" data-article-title="Unlocking the Working Memory of Large Language Models for Latent Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30343" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30343" target="_blank" rel="noopener">Unlocking the Working Memory of Large Language Models for Latent Reasoning</a></h3>
      <p class="summary">To improve the reasoning capabilities of large language models, test-time compute is typically scaled by generating intermediate tokens bef…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4af96e4f416" data-article-url="https://arxiv.org/abs/2605.30348" data-article-title="LLMSurgeon: Diagnosing Data Mixture of Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30348" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30348" target="_blank" rel="noopener">LLMSurgeon: Diagnosing Data Mixture of Large Language Models</a></h3>
      <p class="summary">The pretraining data mixture of Large Language Models (LLMs) constitutes their &quot;digital DNA&quot;, shaping model behaviors, capabilities, and fa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d8f528a6fe5a" data-article-url="https://arxiv.org/abs/2605.30351" data-article-title="VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30351" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30351" target="_blank" rel="noopener">VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion</a></h3>
      <p class="summary">Long-rollout causal video diffusion has converged on a fixed-size sliding-window KV cache, with recent progress innovating within this layo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="32e6bdcf577a" data-article-url="https://arxiv.org/abs/2506.06254" data-article-title="PersonaAgent: Bridging Memory and Action for Personalized LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.06254" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.06254" target="_blank" rel="noopener">PersonaAgent: Bridging Memory and Action for Personalized LLM Agents</a></h3>
      <p class="summary">Large Language Model (LLM) empowered agents have recently emerged as advanced paradigms that exhibit impressive capabilities in a wide rang…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e5a4d1d72536" data-article-url="https://arxiv.org/abs/2508.15180" data-article-title="PuzzleClone: A DSL-Powered Framework for Synthesizing Verifiable Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.15180" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.15180" target="_blank" rel="noopener">PuzzleClone: A DSL-Powered Framework for Synthesizing Verifiable Data</a></h3>
      <p class="summary">High-quality mathematical and logical datasets with verifiable answers are essential for strengthening the reasoning capabilities of large…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7757667f9135" data-article-url="https://arxiv.org/abs/2509.22504" data-article-title="Estimating the Empowerment of Language Model Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.22504" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.22504" target="_blank" rel="noopener">Estimating the Empowerment of Language Model Agents</a></h3>
      <p class="summary">As language model (LM) agents become increasingly capable and adopted in real-world applications, there is a growing need for scalable eval…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3c80ed6798a4" data-article-url="https://arxiv.org/abs/2509.23694" data-article-title="SafeSearch: Automated Red-Teaming of LLM-Based Search Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.23694" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.23694" target="_blank" rel="noopener">SafeSearch: Automated Red-Teaming of LLM-Based Search Agents</a></h3>
      <p class="summary">Search agents connect LLMs to the Internet, enabling them to access broader and more up-to-date information. However, this also introduces…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a4b442320068" data-article-url="https://arxiv.org/abs/2509.23730" data-article-title="EAPO: Enhancing Policy Optimization with On-Demand Expert Assistance" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.23730" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.23730" target="_blank" rel="noopener">EAPO: Enhancing Policy Optimization with On-Demand Expert Assistance</a></h3>
      <p class="summary">Large language models (LLMs) have recently advanced in reasoning when optimized with reinforcement learning (RL) under verifiable rewards.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c4ca24af0353" data-article-url="https://arxiv.org/abs/2510.02480" data-article-title="Controlling the Risk of Corrupted Contexts for Language Models via Early-Exiting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.02480" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.02480" target="_blank" rel="noopener">Controlling the Risk of Corrupted Contexts for Language Models via Early-Exiting</a></h3>
      <p class="summary">Large language models (LLMs) can be influenced by harmful or irrelevant context, which can significantly harm model performance on downstre…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="12be5e642879" data-article-url="https://arxiv.org/abs/2510.06063" data-article-title="TelecomTS: A Multi-Modal Observability Dataset for Time Series and Language Analysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.06063" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.06063" target="_blank" rel="noopener">TelecomTS: A Multi-Modal Observability Dataset for Time Series and Language Analysis</a></h3>
      <p class="summary">Modern enterprises generate vast streams of time series metrics when monitoring complex systems, known as observability data. Unlike conven…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8524fe6db2e6" data-article-url="https://arxiv.org/abs/2510.14150" data-article-title="CodeEvolve: an open source evolutionary coding agent for algorithmic discovery and optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.14150" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.14150" target="_blank" rel="noopener">CodeEvolve: an open source evolutionary coding agent for algorithmic discovery and optimization</a></h3>
      <p class="summary">We introduce CodeEvolve, an open-source framework that couples large language models with island-based evolutionary search for end-to-end a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c8f0ff842024" data-article-url="https://arxiv.org/abs/2510.16658" data-article-title="Large-Scale AI and Foundation Models for Neuroscience: A Comprehensive Review" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.16658" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.16658" target="_blank" rel="noopener">Large-Scale AI and Foundation Models for Neuroscience: A Comprehensive Review</a></h3>
      <p class="summary">The development of large-scale artificial intelligence (AI) models is influencing neuroscience research by enabling end-to-end learning fro…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0deba5cf0745" data-article-url="https://arxiv.org/abs/2510.22437" data-article-title="Modeling Hierarchical Thinking in Large Reasoning Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.22437" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.22437" target="_blank" rel="noopener">Modeling Hierarchical Thinking in Large Reasoning Models</a></h3>
      <p class="summary">Large Reasoning Models (LRMs) solve complex tasks by generating long Chain-of-Thought (CoT) sequences; however, the emergent dynamics gover…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7cc8d8a36abf" data-article-url="https://arxiv.org/abs/2510.26270" data-article-title="Graph-Enhanced Policy Optimization in LLM Agent Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.26270" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.26270" target="_blank" rel="noopener">Graph-Enhanced Policy Optimization in LLM Agent Training</a></h3>
      <p class="summary">Multi-step LLM agents in interactive environments represent a crucial step toward long-horizon decision-making. To train such agents, group…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d8b073e6629e" data-article-url="https://arxiv.org/abs/2511.08548" data-article-title="A Matter of Interest: Understanding Interestingness of Math Problems in Humans and Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.08548" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.08548" target="_blank" rel="noopener">A Matter of Interest: Understanding Interestingness of Math Problems in Humans and Language Models</a></h3>
      <p class="summary">The evolution of mathematics is shaped importantly by interestingness: researchers choose which problems to pursue, and students choose whi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1573d94e4513" data-article-url="https://arxiv.org/abs/2511.22884" data-article-title="InsightEval: An Expert-Curated Benchmark for Assessing Insight Discovery in LLM-Driven Data Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.22884" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.22884" target="_blank" rel="noopener">InsightEval: An Expert-Curated Benchmark for Assessing Insight Discovery in LLM-Driven Data Agents</a></h3>
      <p class="summary">Data analysis has become an indispensable part of scientific research. To discover the latent knowledge and insights hidden within massive…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0cabb4f3c7d" data-article-url="https://arxiv.org/abs/2512.15374" data-article-title="SCOPE: Prompt Evolution for Enhancing Agent Effectiveness" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.15374" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.15374" target="_blank" rel="noopener">SCOPE: Prompt Evolution for Enhancing Agent Effectiveness</a></h3>
      <p class="summary">Large Language Model (LLM) agents are increasingly deployed in environments that generate massive, dynamic contexts. However, a critical bo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2361ceaa09b0" data-article-url="https://arxiv.org/abs/2601.06431" data-article-title="LsrIF: Enhancing Logic-Structured Instruction Following of Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.06431" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.06431" target="_blank" rel="noopener">LsrIF: Enhancing Logic-Structured Instruction Following of Large Language Models</a></h3>
      <p class="summary">Instruction following is critical for large language models, yet real-world instructions often involve multiple constraints with logical st…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="575e9c1f50e0" data-article-url="https://arxiv.org/abs/2601.11178" data-article-title="TANDEM: Temporal-Aware Neural Detection for Multimodal Hate Speech" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.11178" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.11178" target="_blank" rel="noopener">TANDEM: Temporal-Aware Neural Detection for Multimodal Hate Speech</a></h3>
      <p class="summary">Social media platforms are increasingly dominated by long-form multimodal content, where harmful narratives are constructed through a compl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4483dbf88af9" data-article-url="https://arxiv.org/abs/2601.21909" data-article-title="From Meta-Thought to Execution: Cognitively Aligned Post-Training for Generalizable and Reliable LLM Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.21909" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.21909" target="_blank" rel="noopener">From Meta-Thought to Execution: Cognitively Aligned Post-Training for Generalizable and Reliable LLM Reasoning</a></h3>
      <p class="summary">Current LLM post-training methods optimize complete reasoning trajectories through Supervised Fine-Tuning (SFT) followed by outcome-based R…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="53733806d448" data-article-url="https://arxiv.org/abs/2602.00994" data-article-title="Reasoning and Tool-use Compete in Agentic RL:From Quantifying Interference to Disentangled Tuning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.00994" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.00994" target="_blank" rel="noopener">Reasoning and Tool-use Compete in Agentic RL:From Quantifying Interference to Disentangled Tuning</a></h3>
      <p class="summary">Agentic Reinforcement Learning (ARL) trains large language models to interleave reasoning with external tool execution to solve complex tas…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6ebf79750c84" data-article-url="https://arxiv.org/abs/2602.01869" data-article-title="Skill-Pro: Learning Reusable Skills from Experience via Non-Parametric PPO for LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01869" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01869" target="_blank" rel="noopener">Skill-Pro: Learning Reusable Skills from Experience via Non-Parametric PPO for LLM Agents</a></h3>
      <p class="summary">LLM-driven agents excel at sequential decision-making but often rely on on-the-fly reasoning, re-deriving solutions even in recurring scena…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4f1bc7474025" data-article-url="https://arxiv.org/abs/2602.02849" data-article-title="AutoSizer: Automatic Sizing of Analog and Mixed-Signal Circuits via Large Language Model (LLM) Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02849" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02849" target="_blank" rel="noopener">AutoSizer: Automatic Sizing of Analog and Mixed-Signal Circuits via Large Language Model (LLM) Agents</a></h3>
      <p class="summary">The design of Analog and Mixed-Signal (AMS) integrated circuits remains heavily reliant on expert knowledge, with transistor sizing a major…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e8e3001a9ec3" data-article-url="https://arxiv.org/abs/2602.02909" data-article-title="Reasoning about Reasoning: BAPO Bounds on Chain-of-Thought Token Complexity in LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02909" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02909" target="_blank" rel="noopener">Reasoning about Reasoning: BAPO Bounds on Chain-of-Thought Token Complexity in LLMs</a></h3>
      <p class="summary">Inference-time scaling via chain-of-thought (CoT) reasoning is a major driver of state-of-the-art LLM performance, but it comes with substa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7c1cc0593367" data-article-url="https://arxiv.org/abs/2602.08013" data-article-title="Small Agent Group is the Future of Digital Health" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.08013" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.08013" target="_blank" rel="noopener">Small Agent Group is the Future of Digital Health</a></h3>
      <p class="summary">The rapid adoption of large language models (LLMs) in digital health has been driven by a &quot;scaling-first&quot; philosophy, i.e., the assumption…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1a2f10ee63f0" data-article-url="https://arxiv.org/abs/2602.08783" data-article-title="Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.08783" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.08783" target="_blank" rel="noopener">Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure</a></h3>
      <p class="summary">Latent or continuous chain-of-thought methods replace explicit textual rationales with a number of internal latent steps, but these interme…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aeb11aed85a5" data-article-url="https://arxiv.org/abs/2602.11389" data-article-title="Causal-JEPA: Learning World Models through Object-Level Latent Masking" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.11389" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.11389" target="_blank" rel="noopener">Causal-JEPA: Learning World Models through Object-Level Latent Masking</a></h3>
      <p class="summary">World models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations pr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="392c32d7fe99" data-article-url="https://arxiv.org/abs/2602.14307" data-article-title="Benchmarking at the Edge of Comprehension" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.14307" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.14307" target="_blank" rel="noopener">Benchmarking at the Edge of Comprehension</a></h3>
      <p class="summary">As frontier Large Language Models (LLMs) increasingly saturate new benchmarks shortly after they are published, benchmarking itself is at a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c2b0785a6eec" data-article-url="https://arxiv.org/abs/2602.20141" data-article-title="Recurrent Structural Policy Gradient for Partially Observable Mean Field Games" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.20141" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.20141" target="_blank" rel="noopener">Recurrent Structural Policy Gradient for Partially Observable Mean Field Games</a></h3>
      <p class="summary">Mean Field Games (MFGs) provide a principled framework for modelling interactions in large population systems. However, algorithmic progres…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9c2a81bb3241" data-article-url="https://arxiv.org/abs/2602.23258" data-article-title="AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.23258" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.23258" target="_blank" rel="noopener">AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning</a></h3>
      <p class="summary">While Multi-Agent Systems (MAS) excel in complex reasoning, they suffer from the cascading impact of erroneous information from individual…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="464b5be04757" data-article-url="https://arxiv.org/abs/2603.07916" data-article-title="Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.07916" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.07916" target="_blank" rel="noopener">Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases</a></h3>
      <p class="summary">In recent advances, to enable a fully data-driven learning paradigm on relational databases (RDB), relational deep learning (RDL) is propos…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9475adc64b7b" data-article-url="https://arxiv.org/abs/2603.18859" data-article-title="RewardFlow: Topology-Aware Reward Propagation on State Graphs for Agentic RL with Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.18859" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.18859" target="_blank" rel="noopener">RewardFlow: Topology-Aware Reward Propagation on State Graphs for Agentic RL with Large Language Models</a></h3>
      <p class="summary">Reinforcement learning (RL) shows promise for enhancing LLM agentic reasoning, yet sparse terminal rewards hinder fine-grained optimization…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="91b5d6c2692a" data-article-url="https://arxiv.org/abs/2603.19828" data-article-title="FormalEvolve: Neuro-Symbolic Evolutionary Search for Diverse Autoformalization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.19828" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.19828" target="_blank" rel="noopener">FormalEvolve: Neuro-Symbolic Evolutionary Search for Diverse Autoformalization</a></h3>
      <p class="summary">Autoformalization aims to produce formal statements that compile and faithfully preserve the intended meaning of informal mathematics. Yet…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8bbdd053cd01" data-article-url="https://arxiv.org/abs/2603.23085" data-article-title="When Models Learn to Ask Why: Adaptive Causal Reasoning for Trustworthy Medical Vision-Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23085" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23085" target="_blank" rel="noopener">When Models Learn to Ask Why: Adaptive Causal Reasoning for Trustworthy Medical Vision-Language Models</a></h3>
      <p class="summary">Vision-Language Models (VLMs) have enabled interpretable medical diagnosis by integrating visual perception with linguistic reasoning. Yet,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d3a8f76bf993" data-article-url="https://arxiv.org/abs/2603.23234" data-article-title="MemCollab: Cross-Model Memory Collaboration via Contrastive Trajectory Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23234" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23234" target="_blank" rel="noopener">MemCollab: Cross-Model Memory Collaboration via Contrastive Trajectory Distillation</a></h3>
      <p class="summary">LLM agents increasingly rely on memory mechanisms to reuse knowledge from past problem-solving experiences. However, existing methods typic…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="43e4ddcfc791" data-article-url="https://arxiv.org/abs/2603.23853" data-article-title="SCoOP: Semantic Consistent Opinion Pooling for Uncertainty Quantification in Multiple Vision-Language Model Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23853" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23853" target="_blank" rel="noopener">SCoOP: Semantic Consistent Opinion Pooling for Uncertainty Quantification in Multiple Vision-Language Model Systems</a></h3>
      <p class="summary">Combining multiple Vision-Language Models (VLMs) can enhance multimodal reasoning and robustness, but aggregating heterogeneous models&#x27; out…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ebff2cf2e2a2" data-article-url="https://arxiv.org/abs/2603.27150" data-article-title="MediHive: A Decentralized Agent Collective for Medical Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.27150" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.27150" target="_blank" rel="noopener">MediHive: A Decentralized Agent Collective for Medical Reasoning</a></h3>
      <p class="summary">Large language models (LLMs) have revolutionized medical reasoning tasks, yet single-agent systems often falter on complex, interdisciplina…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c49a510477c" data-article-url="https://arxiv.org/abs/2604.05157" data-article-title="IntentScore: コンピュータ使用エージェントの意図条件付きアクションの評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.05157" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.05157" target="_blank" rel="noopener">IntentScore: コンピュータ使用エージェントの意図条件付きアクションの評価</a></h3>
      <p class="summary">Computer-Use Agent (CUA) は、大規模な言語モデルを利用してデスクトップ環境で GUI 操作を実行しますが、アクションの品質を評価せずにアクションを生成するため、後続のステップに連鎖的に発生する不可逆的なエラーにつながります。私たちは、3 つのオペレーティング システムにわたる 398K のオフライン GUI インタラクション ステップから候補アクションをスコアリングすることを学習する、プランを認識した報酬モデルである IntentScore を提案します。 IntentScore は、状態とアクションの関連性に関する対照的な調整と、アクションの正しさに関するマージン ランキングという 2 つの相補的な目標を使用してトレーニングします。アーキテクチャ的には、各候補者の計画意図がアクション エンコーダーに埋め込まれ、同様のアクションを持つ候補者間で論理的根拠が異なるものを区別できるようになります。 IntentScore は、ホールドアウト評価で 97.5% のペア識別精度を達成します。トレーニング中にまったく見えない環境である OSWorld 上のエージェント S3 の再ランカーとしてデプロイされた IntentScore は、タスクの成功率を 6.9 ポイント向上させ、異種のオフライン軌跡から学習した報酬推定が、目に見えないエージェントとタスクの分布に一般化されることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">IntentScore: Intent-Conditioned Action Evaluation for Computer-Use Agents</p>
        <p class="orig-summary">Computer-Use Agents (CUAs) leverage large language models to execute GUI operations on desktop environments, yet they generate actions without evaluating action quality, leading to irreversible errors that cascade through subsequent steps. We propose IntentScore, a plan-aware reward model that learns to score candidate actions from 398K offline GUI interaction steps spanning three operating systems. IntentScore trains with two complementary objectives: contrastive alignment for state-action relevance and margin ranking for action correctness. Architecturally, it embeds each candidate&#x27;s planning intent in the action encoder, enabling discrimination between candidates with similar actions but different rationales. IntentScore achieves 97.5% pairwise discrimination accuracy on held-out evaluation. Deployed as a re-ranker for Agent S3 on OSWorld, an environment entirely unseen during training, IntentScore improves task success rate by 6.9 points, demonstrating that reward estimation learned from heterogeneous offline trajectories generalizes to unseen agents and task distributions.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2f403edf6ce6" data-article-url="https://arxiv.org/abs/2604.10219" data-article-title="Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.10219" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.10219" target="_blank" rel="noopener">Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models</a></h3>
      <p class="summary">Multimodal Large Reasoning Models (MLRMs) have achieved remarkable strides in visual reasoning through test time compute scaling, yet long…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec406bb1c9e2" data-article-url="https://arxiv.org/abs/2604.10228" data-article-title="SVSR: A Self-Verification and Self-Rectification Paradigm for Multimodal Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.10228" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.10228" target="_blank" rel="noopener">SVSR: A Self-Verification and Self-Rectification Paradigm for Multimodal Reasoning</a></h3>
      <p class="summary">Current multimodal models often suffer from shallow reasoning, leading to errors caused by incomplete or inconsistent thought processes. To…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4de9c687c7b8" data-article-url="https://arxiv.org/abs/2604.10511" data-article-title="Thinking Fast, Thinking Wrong: Intuitiveness Modulates LLM Counterfactual Reasoning in Policy Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.10511" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.10511" target="_blank" rel="noopener">Thinking Fast, Thinking Wrong: Intuitiveness Modulates LLM Counterfactual Reasoning in Policy Evaluation</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly used for causal and counterfactual reasoning, yet their reliability in real-world policy eval…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="768f93e33a81" data-article-url="https://arxiv.org/abs/2604.11088" data-article-title="Guardrails Beat Guidance: A Large-Scale Study of Rules, Skills, and Persistent Configuration for Coding Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.11088" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.11088" target="_blank" rel="noopener">Guardrails Beat Guidance: A Large-Scale Study of Rules, Skills, and Persistent Configuration for Coding Agents</a></h3>
      <p class="summary">Random rules improve a coding agent&#x27;s task performance as much as expert-curated ones (both $+13.8$pp on a discriminative subset of SWE-ben…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1231f9279dcf" data-article-url="https://arxiv.org/abs/2604.14889" data-article-title="MemoSight: Unifying Context Compression and Multi Token Prediction for Reasoning Acceleration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.14889" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.14889" target="_blank" rel="noopener">MemoSight: Unifying Context Compression and Multi Token Prediction for Reasoning Acceleration</a></h3>
      <p class="summary">While chain-of-thought (CoT) reasoning enables LLMs to solve challenging reasoning tasks, the linear growth of the KV cache leads to substa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1796130251f9" data-article-url="https://arxiv.org/abs/2604.18847" data-article-title="Human-Guided Harm Recovery for Computer Use Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.18847" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.18847" target="_blank" rel="noopener">Human-Guided Harm Recovery for Computer Use Agents</a></h3>
      <p class="summary">As LM agents gain the ability to execute actions on real computer systems, we need ways to not only prevent harmful actions at scale but al…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="619406323a98" data-article-url="https://arxiv.org/abs/2604.25098" data-article-title="Revisiting the Effectiveness of LLM Pruning for Test-Time Scaling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.25098" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.25098" target="_blank" rel="noopener">Revisiting the Effectiveness of LLM Pruning for Test-Time Scaling</a></h3>
      <p class="summary">Large Language Models (LLMs) now exhibit remarkable reasoning capabilities through test-time compute scaling (TTS), with impressive perform…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c3a6a5d0897" data-article-url="https://arxiv.org/abs/2604.26645" data-article-title="SciHorizon-DataEVA: An Agentic System for AI-Readiness Evaluation of Heterogeneous Scientific Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.26645" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.26645" target="_blank" rel="noopener">SciHorizon-DataEVA: An Agentic System for AI-Readiness Evaluation of Heterogeneous Scientific Data</a></h3>
      <p class="summary">AI-for-Science (AI4Science) is increasingly transforming scientific discovery by embedding machine learning models into prediction, simulat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="287145528a8c" data-article-url="https://arxiv.org/abs/2605.04916" data-article-title="A Foundation Model for Zero-Shot Logical Rule Induction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.04916" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.04916" target="_blank" rel="noopener">A Foundation Model for Zero-Shot Logical Rule Induction</a></h3>
      <p class="summary">Inductive Logic Programming (ILP) learns interpretable logical rules from data. Existing methods are transductive: their learned parameters…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="104c9a161564" data-article-url="https://arxiv.org/abs/2605.07707" data-article-title="Hierarchical Task Network Planning with LLM-Generated Heuristics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.07707" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.07707" target="_blank" rel="noopener">Hierarchical Task Network Planning with LLM-Generated Heuristics</a></h3>
      <p class="summary">HTN planning is a variation of classical planning where, instead of searching for a linear sequence of actions, an algorithm decomposes hig…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="85a74aa5e1d3" data-article-url="https://arxiv.org/abs/2605.15219" data-article-title="NOVA: Fundamental Limits of Knowledge Discovery Through AI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.15219" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.15219" target="_blank" rel="noopener">NOVA: Fundamental Limits of Knowledge Discovery Through AI</a></h3>
      <p class="summary">Can AI systems discover genuinely new knowledge through iterative self improvement, and if so, at what cost? We introduce the NOVA framewor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f3dfb04382e3" data-article-url="https://arxiv.org/abs/2605.21739" data-article-title="AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.21739" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.21739" target="_blank" rel="noopener">AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence</a></h3>
      <p class="summary">Emotional intelligence (EI), the ability to perceive, understand, and respond appropriately to others&#x27; emotional states, is central to huma…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79387dfa6389" data-article-url="https://arxiv.org/abs/2605.22100" data-article-title="MPDocBench-Parse: Benchmarking Practical Multi-page Document Parsing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.22100" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.22100" target="_blank" rel="noopener">MPDocBench-Parse: Benchmarking Practical Multi-page Document Parsing</a></h3>
      <p class="summary">Document parsing converts visually rich documents into machine-readable structured representations, forming a crucial foundation for inform…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="15b822be0101" data-article-url="https://arxiv.org/abs/2605.24140" data-article-title="HyperGuide: 大規模な言語モデルにおける効率的なマルチステップ推論のための双曲線ガイダンス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24140" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24140" target="_blank" rel="noopener">HyperGuide: 大規模な言語モデルにおける効率的なマルチステップ推論のための双曲線ガイダンス</a></h3>
      <p class="summary">マルチステップの推論は、大規模な言語モデルにとって依然として中心的な課題です。シングルパス生成は効率的ですが、精度に欠けます。ツリー検索メソッドは複数のパスを探索しますが、計算量が多くなります。私たちは、推論の進行状況を段階的な生成を導く双曲線幾何学的信号に抽出することで、このギャップに対処します。私たちのアプローチは構造的観察によって動機づけられています。組み合わせ推論ツリーでは、解をもたらす状態はほとんどないのに対し、行き止まりは指数関数的に多くなります。双曲空間はこの非対称性に一致し、原点近くのコンパクトな体積と境界に向かって指数関数的に拡大する容量を備えています。そのため、原点までの距離は自然に解の近さをエンコードし、角度分離は次の異なる演算を必要とする分岐を区別します。 LLM の隠れ状態をこの空間に投影するように軽量ヘッドをトレーニングし、注入された信号に作用する独自の推論試行に基づいて低ランクのアダプターを対話的に微調整します。複数のベンチマークにわたって、幾何学的信号は一貫したゲインをもたらし、より深い推論チェーンで大幅な改善が見られます。私たちのコードは https://github.com/yuyuliu11037/HyperGuide で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">HyperGuide: Hyperbolic Guidance for Efficient Multi-Step Reasoning in Large Language Models</p>
        <p class="orig-summary">Multi-step reasoning remains a central challenge for large language models: single-pass generation is efficient but lacks accuracy; tree-search methods explore multiple paths but are computation-heavy. We address this gap by distilling reasoning progress into a hyperbolic geometric signal that guides step-by-step generation. Our approach is motivated by a structural observation: in combinatorial reasoning trees, solution-bearing states are few while dead ends are exponentially numerous. The hyperbolic space matches this asymmetry, with compact volume near the origin and exponentially expanding capacity toward the boundary, so that distance-to-origin naturally encodes solution proximity while angular separation distinguishes branches requiring different next operations. We train a lightweight head to project LLM hidden states into this space, then fine-tune a low-rank adapter interactively on its own reasoning attempts to act on the injected signal. Across multiple benchmarks, the geometric signal yields consistent gains, with larger improvements on deeper reasoning chains. Our code is publicly available at https://github.com/yuyuliu11037/HyperGuide.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8e4b06818007" data-article-url="https://arxiv.org/abs/2605.24399" data-article-title="ConceptM$^3$oE: 解釈可能な計算病理学のための、概念に基づいた専門家のマルチモーダルな混合" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24399" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24399" target="_blank" rel="noopener">ConceptM$^3$oE: 解釈可能な計算病理学のための、概念に基づいた専門家のマルチモーダルな混合</a></h3>
      <p class="summary">ヘルスケア モデルは、単峰性の予測から、異種の診断入力に対する多峰性の推論へと移行しつつあります。計算病理学では、形態だけでは区別するのが難しい複雑な腫瘍サブタイプの場合、病理学レポートと分子測定はスライド全体の画像とともに追加の診断証拠を提供する可能性がありますが、既存のモデルでは、多様な信号がどのように認識可能な診断概念に組み立てられるかを明らかにできないことがよくあります。私たちは、概念形成をインタラクションを意識した専門家混合 (MoE) 経路内に直接組み込む ConceptM$^3$oE (Concept Multimodal MoE) を提案します。このアーキテクチャは、証拠をモダリティ固有、冗長、および相乗効果のある専門家に分解し、それらを構造化された概念のボトルネックに投影して、潜在的な特徴を形態学およびバイオマーカーの概念の階層にマッピングします。解釈可能なボトルネックに典型的な情報損失を防ぐために、各エキスパート内の残余経路を利用して、タスク関連のシグナルがコンセプトを介して最終的なタスク予測に直接流れることを可能にし、解釈可能性とともに高いパフォーマンスを維持します。このフレームワークは、施設内の小児脳腫瘍コホートと公的神経膠腫コホートにわたって、独立した神経病理学者によって検証された推論トレースを生成しながら、制約のないモデルに匹敵するパフォーマンスを提供します。データが限定されたレジームでは、ConceptM$^3$oE は限定されたデータのパフォーマンスを向上させ、概念を知らされていないベースラインと比較して小さなトレーニング サイズでマクロ F1 が 56.41% から 66.70% に増加すると同時に、概念学習の正規化効果と一致するより速いトレーニング収束も示します。この取り組みは、本質的に検証可能であり、臨床現場での複雑な意思決定とより適切に連携する高性能医療 AI へのスケーラブルな道筋を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ConceptM$^3$oE: Concept-Guided Multimodal Mixture of Experts for Interpretable Computational Pathology</p>
        <p class="orig-summary">Healthcare models are transitioning from unimodal prediction toward multimodal reasoning over heterogeneous diagnostic inputs. In computational pathology, for complex tumor subtypes where morphology alone can be challenging to distinguish, pathology reports and molecular measurements may provide additional diagnostic evidence alongside whole-slide images, yet existing models often fail to clarify how diverse signals assemble into recognizable diagnostic concepts. We propose ConceptM$^3$oE (Concept Multimodal MoE), which embeds concept formation directly within interaction-aware mixture-of-experts (MoE) pathways. The architecture decomposes evidence into modality-specific, redundant, and synergistic experts, which are then projected into structured concept bottlenecks mapping latent features to a hierarchy of morphology and biomarker concepts. To prevent the information loss typical of interpretable bottlenecks, we utilize residual pathways within each expert to allow task-relevant signals to flow both through the concepts and directly to the final task prediction, so that high performance is maintained alongside interpretability. Across an institutional pediatric brain tumor cohort and a public glioma cohort, the framework delivers competitive performance to unconstrained models while producing reasoning traces validated by an independent neuropathologist. In data-limited regimes, ConceptM$^3$oE improves limited-data performance, increasing macro-F1 from 56.41% to 66.70% at small training sizes compared to non-concept-informed baselines, while also showing faster training convergence consistent with the regularizing effect of concept learning. This work offers a scalable path toward high-performance medical AI that is inherently verifiable and better aligned with the complex decision-making of clinical practice.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8d817ebb0e4e" data-article-url="https://arxiv.org/abs/2605.26029" data-article-title="CausaLab: AI 科学者向けのインタラクティブな因果発見のためのスケーラブルな環境" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26029" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26029" target="_blank" rel="noopener">CausaLab: AI 科学者向けのインタラクティブな因果発見のためのスケーラブルな環境</a></h3>
      <p class="summary">LLM エージェントによるインタラクティブな因果発見を評価するためのスケーラブルな環境である CausaLab を紹介します。以前の評価とは異なり、CausaLab では、エージェントが因果関係の証拠を使用して問題を解決できるかどうか、およびその答えが根底にある因果メカニズムに関する正しい仮説によって裏付けられているかどうかの両方を評価します。各エピソードではエージェントが合成実験室に配置されます。エージェントは以前の測定記録を受け取り、マニピュレーター結晶に介入し、同じ機構によって支配される保持されたリアクター結晶の共振周波数を予測します。隠されたデータ生成プロセスは、ランダムにサンプリングされた構造因果モデル (SCM) であるため、成功するには、事前の知識を思い出すのではなく、因果グラフと構造方程式の両方を回復する必要があります。 CausaLab には、エージェントの進化する SCM 仮説を記録するドメイン固有の言語も含まれており、軌跡を検査可能にしてグラウンド トゥルースと比較できるようになります。実験では、予測とメカニズム回復の間に永続的なギャップがあることが示されています。純粋に観測的な 6 ノード設定では、GPT-5.2-high はタスク精度 92% に達しますが、オールエッジ $F_1$ はわずか 0.471 です。この観察は、さまざまな相互作用戦略の探求をさらに動機づけます: 混合観察 - 介入戦略は構造忠実度を向上させます: 混合 6 ノード設定では、GPT-5.2-high はタスク精度とオールエッジ $F_1$ の両方で 80% を達成しました。しかし、純粋な介入戦略はタスクの精度とオールエッジ $F_1$ の両方においてパフォーマンスが低いため、強力なエージェントですら有益な介入を設計するのに苦労しています。私たちは、エージェントの主要な弱点として早期停止を特定し、仮説と過去のデータとの間の一貫性をモデルに検証するように依頼することが、この問題の軽減に役立つことを示します。したがって、CausaLab は予測の成功を因果関係の理解から切り離し、実験的因果推論者としての現在の LLM エージェントの限界を明らかにします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists</p>
        <p class="orig-summary">We introduce CausaLab, a scalable environment for evaluating interactive causal discovery by LLM agents. Unlike prior evaluations, CausaLab evaluates both whether an agent can solve a problem using causal evidence and whether its answer is grounded in a faithful recovered causal mechanism. Each episode places an agent in a synthetic laboratory: it receives prior measurement records, intervenes on a manipulator crystal, and predicts the resonance frequency of a held-out reactor crystal governed by the same mechanism. The hidden data-generating process is a randomly sampled structural causal model (SCM), so success requires recovering both a causal graph and structural equations rather than recalling prior knowledge. Experiments show a persistent gap between prediction and mechanism recovery: in the purely observational 6-node setting, GPT-5.2-high reaches 92% task accuracy but only 0.471 all-edge $F_1$. Mixed observation-intervention strategies improve structural fidelity, while pure intervention remains difficult even for strong agents. We identify premature stopping as a major weakness and show that consistency verification mitigates it. CausaLab therefore separates predictive success from causal understanding and exposes current LLM agents&#x27; limits as experimental causal reasoners.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e737157ae4a9" data-article-url="https://arxiv.org/abs/2605.26366" data-article-title="幻覚検出のための自動レイヤー選択" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26366" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26366" target="_blank" rel="noopener">幻覚検出のための自動レイヤー選択</a></h3>
      <p class="summary">幻覚検出に関する最近の研究では、幻覚関連信号は大規模言語モデル (LLM) の最終層よりも中間層でより強くエンコードされることが示されています。この特性を幻覚検出に利用しようとする研究が増えていますが、高性能レイヤーの選択を自動化する方法はまだ研究されておらず、この目的のための原則的な方法もまだ不足しています。このギャップに対処するために、最初に、なぜそのような信号が中間層で出現するのかについていくつかの仮説を提案し、質問応答と要約幻覚検出ベンチマークの両方をカバーする、多様な LLM アーキテクチャ、スケール、タスクにわたる自動層選択の対応する基準を評価します。ただし、これらの基準のいずれも満足のいくパフォーマンスを一貫して提供できないことがわかりました。したがって、我々は、最適な層または最適に近い層を一貫して特定し、前述の基準と既存の幻覚検出ベースラインの両方を上回る新しい選択基準である固有次元の最初の有効ピーク (FEPoID) を提案します。 FEPoID はトレーニング不要であり、計算上のオーバーヘッドは無視できます。さらに、LLM の生成挙動を研究し、幻覚関連信号をさらに増幅し、全体的な検出性能を大幅に向上させる、シンプルかつ効果的な打ち切り戦略を導入します。コードは https://github.com/DesoloYw/Automatic-Layer-Selection-for-Hallucination-Detection.git で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Automatic Layer Selection for Hallucination Detection</p>
        <p class="orig-summary">Recent studies on hallucination detection have shown that hallucination-related signals are more strongly encoded in intermediate layers than in the final layer of large language models (LLMs). Although a growing body of work has sought to exploit this property for hallucination detection, how to automate the selection of high-performing layers remains underexplored, and principled methods for this purpose are still lacking. To address this gap, we first propose several hypotheses for why such signals emerge in intermediate layers and evaluate corresponding criteria for automatic layer selection across diverse LLM architectures, scales, and tasks, covering both question answering and summarization hallucination detection benchmarks. However, we find that none of these criteria consistently delivers satisfactory performance. We therefore propose a new selection criterion, First Effective Peak of Intrinsic Dimension (FEPoID), which consistently identify optimal or near-optimal layers and outperforms both the aforementioned criteria and existing hallucination detection baselines. FEPoID is training-free and incurs negligible computational overhead. In addition, we study the generation behaviors of LLMs and introduce a simple yet effective truncation strategy, which further amplifies hallucination-related signals and substantially improves overall detection performance. Code is publicly available at https://github.com/DesoloYw/Automatic-Layer-Selection-for-Hallucination-Detection.git</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7aa1e076df21" data-article-url="https://arxiv.org/abs/2605.27176" data-article-title="圧縮知識グラフ仮説: 科学的仮説の生成に重要なグラフの事実はどれですか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27176" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27176" target="_blank" rel="noopener">圧縮知識グラフ仮説: 科学的仮説の生成に重要なグラフの事実はどれですか?</a></h3>
      <p class="summary">ナレッジ グラフ (KG) は、言語モデルに構造化された科学的コンテキストを提供できますが、生成された仮説を実際に形成するグラフの事実は依然として不明です。私たちは、Mistral-7B、Llama-3.1-70B、および Gemini 2.5 Flash にわたるバッテリー材料に関する KG ガイドに基づく仮説生成を研究します。密度、オントロジーの豊富さ、トポロジー、制御構造を変化させることでローカル KG に摂動を与え、提供されたグラフと固定参照メトリックの両方で出力を評価します。モデル全体に​​わたって、KG ユーティリティは選択的でモデルに依存します。グラフのコンテキストによって出力が変更されますが、KG 出力がない場合でも、モデルの以前からかなりのグラフ コンテンツが復元されます。コンパクトな上位 k サブグラフは、主張された結果トリプルが保持される場合を含め、フル KG の動作に近似することがよくあります。同時に、圧縮は 1 つのセマンティック ランキング ルールに固有のものではなく、ランダムなトポロジ ベースのサブセットでも信号の大部分を回復できます。これらの結果は、冗長性を意識した圧縮 KG 仮説を裏付けています。有用な KG 信号は、完全なローカル グラフを必要とするのではなく、コンパクトで科学的に構造化されたサブグラフから回復できることがよくあります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Compressive Knowledge Graph Hypothesis: Which Graph Facts Matter for Scientific Hypothesis Generation?</p>
        <p class="orig-summary">Knowledge graphs (KGs) can provide structured scientific context to language models, but it remains unclear which graph facts actually shape the generated hypotheses. We study KG-guided hypothesis generation for battery materials across Mistral-7B, Llama-3.1-70B, and Gemini 2.5 Flash. We perturb local KGs by varying density, ontology richness, topology, and control structure, and evaluate outputs with both provided-graph and fixed-reference metrics. Across models, KG utility is selective and model-dependent: graph context changes outputs, but no-KG outputs also recover substantial graph content from model priors. Compact top-k subgraphs often approximate full-KG behavior, including when claimed-outcome triples are held out. At the same time, compression is not unique to one semantic ranking rule, random and topology-based subsets can also recover much of the signal. These results support a redundancy-aware Compressive KG hypothesis: useful KG signal is often recoverable from compact, scientifically structured subgraphs rather than requiring the full local graph.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b6e419c51feb" data-article-url="https://arxiv.org/abs/2605.27276" data-article-title="SIA: ハーネスとウェイトのアップデートによる自己改善型 AI" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27276" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27276" target="_blank" rel="noopener">SIA: ハーネスとウェイトのアップデートによる自己改善型 AI</a></h3>
      <p class="summary">AI の構築と改善においてボトルネックになるのは人間です。モデルとそれをラップするエージェントはどちらも人によって作成、調整、修正されます。 AI 自身を改善する方法を見つけられるという長期的な目標はまだ未解決です。大きく関連性のない 2 つの研究ラインがこのボトルネックを攻撃しています。ハーネス更新スクールでは、モデルの重みを固定したまま、メタエージェントがタスク固有のエージェントの足場 (ツール、プロンプト、再試行ロジック、検索手順) を書き換えます。テスト時のトレーニング スクールでは、手書きの RL パイプラインを使用して、ハーネスを固定したままタスク フィードバックでモデル自体の重みを更新します。これら 2 つのサイロは独立して動作します。我々は、言語モデル エージェント (フィードバック エージェント) がタスク固有のエージェントのハーネスと重みの両方を更新する自己改善ループである SIA を提案します。中国の法的責任の分類、低レベルの GPU カーネルの最適化、および単一セル RNA のノイズ除去という 3 つの対照的なドメインにわたって評価します。両方のレバーを組み合わせると、3 つのベンチマークすべてでスキャフォールドの反復単独よりも優れたパフォーマンスを発揮します。初期ベースラインと比較して、LawBench では 56.6%、GPU カーネルではランタイムが 91.9%、ノイズ除去では 502% の向上が見られます。ハーネスの更新によりモデルがエージェント的になり、検索と動作の方法が形成されます。一方、重みの更新により、プロンプトや足場では得られないドメインの直感が構築されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SIA: Self Improving AI with Harness &amp; Weight Updates</p>
        <p class="orig-summary">Humans are the bottleneck in building and improving AI. Both the models and the agents that wrap them are written, tuned, and corrected by people. The long-horizon goal of an AI that can figure out how to improve itself remains open. Two largely disjoint research lines attack this bottleneck. The harness-update school has a meta-agent rewrite the scaffold of a task-specific agent (its tools, prompts, retry logic, and search procedure) while the model weights are held fixed. The test-time training school uses hand-written RL pipelines to update the model&#x27;s own weights on task feedback while the harness is held fixed. These two silos operate in isolation. We propose SIA, a self-improving loop in which a language-model agent (the Feedback-Agent) updates both the harness and the weights of a task-specific agent. We evaluate across three contrasting domains: Chinese legal charge classification, low-level GPU kernel optimisation, and single-cell RNA denoising. Combining both levers outperforms scaffold iteration alone on all three benchmarks. SIA-W+H achieves 25.1% over prior SOTA on LawBench, 12.4% faster GPU kernels than prior SOTA (1,017 vs 1,161 {\mu}s), and 20.4% over prior SOTA on denoising. Harness updates make the model agentic, shaping how it searches and acts, while weight updates build the domain intuition that no prompt or scaffold can instil.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a324ec3c043f" data-article-url="https://arxiv.org/abs/2605.27379" data-article-title="Soro: タジキスタン向けの軽量基盤モデルおよびチャットボット" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27379" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27379" target="_blank" rel="noopener">Soro: タジキスタン向けの軽量基盤モデルおよびチャットボット</a></h3>
      <p class="summary">ここでは、タジキスタンでの厳しいコンピューティングと接続の制約下での実際の展開向けに設計された、タジク語に特化した会話型大規模言語モデル (LLM) ファミリーである Soro を紹介します。オープンウェイトの Gemma 3 チェックポイントから開始して、フィルタリングされた Web テキスト、PDF ドキュメント、カリキュラムに合わせた教材にまたがる厳選された 19 億トークンのコーパスに対してタジク語のみの継続的な事前トレーニングを実行し、続いて 40,000 のタジク語教師スタイルのサンプルに対して教師付き指導チューニングを実行します。標準ベンチマークでタジク語がカバーされる範囲が限られているにもかかわらず、厳密な評価を可能にするために、一般知識、言語能力、学校および大学の入学試験の領域をカバーする一連のタジク語ベンチマークを導入し、Hugging Face でオープンソース化しています。これらのタジク語ベンチマーク全体で、Soro は標準データセットで英語の優れたパフォーマンスを維持しながら、同じサイズの Gemma 3 ベースラインを大幅に上回っています。さらに、Soro の FP8 および INT4 量子化により、タジク語の利点のほとんどが維持されると同時に、エッジ展開のメモリ要件が削減され、進行中の教育セクターのパイロットとタジキスタンの学校全体での計画されたスケールアウトがサポートされることも示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Soro: A Lightweight Foundation Model and Chatbot for Tajik</p>
        <p class="orig-summary">We present Soro, a family of Tajik-specialized conversational large language models (LLMs) designed for real-world deployment under tight compute and connectivity constraints in Tajikistan. Starting from open-weight Gemma 3 checkpoints, we perform Tajik-only continual pretraining on a curated 1.9-billion-token corpus spanning filtered web text, PDF documents, and curriculum-aligned educational materials, followed by supervised instruction tuning on 40K Tajik teacher-style examples. To enable rigorous evaluation despite the limited coverage of Tajik in standard benchmarks, we introduce a suite of Tajik benchmarks covering general knowledge, linguistic competence, and school- and university entrance-exam domains, and we open-source them on Hugging Face. Across these Tajik benchmarks, Soro substantially outperforms same-size Gemma 3 baselines while retaining strong English performance on standard datasets. We further show that FP8 and INT4 quantization of Soro preserves most Tajik-language gains while reducing memory requirements for edge deployment, supporting an ongoing education-sector pilot and planned scale-out across schools in Tajikistan.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a03ba7a97520" data-article-url="https://arxiv.org/abs/2605.27580" data-article-title="自分の状態をコントロールできるのはあなたです: なぜ人間の結末は因果関係のある状態の介入によってコントロール可能なのか" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27580" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27580" target="_blank" rel="noopener">自分の状態をコントロールできるのはあなたです: なぜ人間の結末は因果関係のある状態の介入によってコントロール可能なのか</a></h3>
      <p class="summary">行動科学と人間と対峙する人工知能にとっての中心的な謎は、個人内の多様性の持続です。同じ観察可能な入力を与えられた同じ個人は、異なる機会に異なる結果を生成し、異なる個人は、観察可能な共変量が完全に予測しないような異なる結果を生成します。私たちは、この変動は人の動的な潜在状態に属し、人間の結果は、意思決定が形成される瞬間の状態とその重み付けを対象とした介入を通じて、正確かつ操作的な意味で制御可能であると主張します。私たちは状態を、個人の生物学、生理学、神経心理学が次のイベントをどのように処理して決定と結果に導くかを制御する次元にわたる時間インデックス付きの重み付けベクトルとして定義します。状態、決定、結果の間の関係は、相関関係ではなく因果関係です。重み付けベクトルは、日単位の時間スケールでは動的です。結果が報告される意識的なチャネルは、狭い注意のボトルネックであり、その内容自体は状態に依存します。まとめると、これらの主張は、特定のイベントの結果は、介入時の状態軌道に基づいて条件付きで制御可能であることを意味します。私たちは、確立された証拠の6つの要素（因果推論、予測処理、アロスタシス、注意のボトルネック、時間生物学、計算論的精神医学）と、4つの職業上のペルソナにわたる20万人を超える同意ユーザーにまたがる展開された行動プラットフォームからの24か月の観察ベースによってフレームワークを動機付けています（研究期間は2023年から2026年）。 7 つの検証可能な予測を導き出し、国家認識システムの 6 つの運用要件をリストし、デジタル ヘルス、教育、AI のパーソナライゼーション、個人の主体性への影響について議論します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">You Are in Control of Your State: Why Human Outcomes Are Controllable Through Causal State Intervention</p>
        <p class="orig-summary">A central puzzle for the behavioural sciences and for human-facing artificial intelligence is the persistence of within-person variability. The same individual, presented with the same observable input, produces different outcomes on different occasions, and different individuals produce divergent outcomes that no observable covariate fully predicts. We argue that this variability belongs in the dynamic latent state of the person, and that human outcomes are controllable in a precise and operational sense through interventions that target the state and its weighting at the moment a decision is being formed. We define a state as the time-indexed weighting vector over the dimensions that govern how an individual&#x27;s biology, physiology, and neuropsychology process the next event into a decision and an outcome. The relationship between state, decision, and outcome is causal rather than correlational. The weighting vector is dynamic at sub-daily timescales. The conscious channel through which outcomes are reportable is a narrow attentional bottleneck whose contents are themselves state-dependent. Taken together, these claims imply that the outcome of a given event is controllable, conditionally, on the state-trajectory at the time of intervention. We motivate the framework with six strands of established evidence (causal inference, predictive processing, allostasis, attentional bottleneck, chronobiology, computational psychiatry) and a 24-month observational base from a deployed behavioural platform spanning more than 200,000 consented users across four occupational personas (research period 2023 to 2026). We derive seven testable predictions, list six operational requirements for state-aware systems, and discuss implications for digital health, education, AI personalisation, and personal agency.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4a459cd0f6ea" data-article-url="https://arxiv.org/abs/2605.27864" data-article-title="FundaPod: AI 支援のファンダメンタル投資調査のためのナレッジ グラフ メモリを備えたマルチペルソナ エージェント ポッド プラットフォーム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27864" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27864" target="_blank" rel="noopener">FundaPod: AI 支援のファンダメンタル投資調査のためのナレッジ グラフ メモリを備えたマルチペルソナ エージェント ポッド プラットフォーム</a></h3>
      <p class="summary">大規模言語モデル (LLM) は金融分野での適用が増えていますが、既存の研究のほとんどは取引シグナルや予測を中心とした財務 NLP タスクに重点を置いています。対照的に、制度的基礎研究では、人間のアナリストまたは AI エージェントが証拠を収集し、ビジネス推進要因を特定し、競合する視点を比較し、投資メモを作成する必要があります。その広範な目標は、単に結果を予測することではなく、投資知識の累積的な発展に貢献しながら、透明性、再利用可能、検証可能な投資計画を作成することです。 AI 支援のファンダメンタルズ投資調査のためのマルチペルソナ エージェント プラットフォームである FundaPod を紹介します。私たちは、基礎研究は人間中心の意思決定支援タスクであり、取引シグナルの生成とは質的に異なるため、独立性を維持するアーキテクチャの方が適していると主張します。 FundaPod では、バリュー投資家やマクロ戦略家など、さまざまなペルソナを持つ AI エージェントが、共有の出所契約に基づいて独立して調査を実施します。その後、彼らの意見の相違は、知識グラフ記憶システムを通じて人間のポートフォリオ マネージャー (PM) による裁定のために事後的に表面化されます。この論文は、設計科学の実践と認知的分離と人間と機械の協調の理論に基づいた、基礎研究をサポートする人間と AI のハイブリッド システムの 5 つの設計原則を提供します。また、4 つのアーキテクチャ メカニズムについても説明します。1 つは一般投資家の資料を展開可能なエージェントに変えるペルソナ蒸留パイプラインです。プランナーが型指定されたタスク グラフを導出できるようにする宣言型スキル レジストリ。メモの主張を検証可能な情報源に結び付ける根拠のある証拠モデル。そしてティッカー、メモ、アナリスト、テーマを結び付けるナレッジグラフ「第二の脳」。完全なケーススタディとペルソナベースのメモの比較を通じてアーキテクチャを実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">FundaPod: A Multi-Persona Agent Pod Platform with Knowledge Graph Memory for AI-Assisted Fundamental Investment Research</p>
        <p class="orig-summary">Large language models (LLMs) are increasingly applied in finance, yet most existing work emphasizes trading signals or financial NLP tasks centered on prediction. Institutional fundamental research, by contrast, requires human analysts or AI agents to gather evidence, identify business drivers, compare competing viewpoints, and generate investment memos. Its broader goal is not merely to predict outcomes, but to produce investment plans that are transparent, reusable, and verifiable, while contributing to the cumulative development of investment knowledge. We present FundaPod, a multi-persona agent platform for AI-assisted fundamental investment research. We argue that fundamental research is a human-centric decision-support task that is qualitatively distinct from trading-signal generation, and is therefore better served by an independence-preserving architecture. In FundaPod, AI agents with different personas, such as value investors or macro strategists, conduct research independently under a shared provenance contract. Their disagreements are then surfaced post hoc for adjudication by the human portfolio manager (PM) through a knowledge-graph memory system. This paper contributes five design principles for human-AI hybrid systems supporting fundamental research, grounded in design-science practice and theories of cognitive isolation and human-machine coordination. It also describes four architectural mechanisms: a persona distillation pipeline that turns public investor materials into deployable agents; a declarative skill registry that lets the planner derive typed task graphs; a grounded evidence model that links memo claims to verifiable sources; and a knowledge-graph &quot;second brain&quot; that connects tickers, memos, analysts, and themes. We demonstrate the architecture through a complete case study and a persona-based memo comparison.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7724a652e477" data-article-url="https://arxiv.org/abs/2605.27995" data-article-title="AsyncTool: マルチタスク シナリオでの非同期関数呼び出し機能の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27995" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27995" target="_blank" rel="noopener">AsyncTool: マルチタスク シナリオでの非同期関数呼び出し機能の評価</a></h3>
      <p class="summary">大規模言語モデル (LLM) ベースのエージェントは、外部ツールを使用して複雑なタスクを解決する強力な機能を示しています。ただし、既存の評価では、ツール使用の時間的側面、特にツールの応答遅延の影響が見落とされていることが多く、通常は単一タスクの設定に限定されています。実際のアプリケーションでは、多くの場合、複数のタスクを同時に実行する必要があり、全体的な効率は、エージェントがツールの応答を待つ間にアイドル時間を利用できるかどうかによって決まります。この機能を非同期ツール呼び出しと呼びます。これを評価するために、ツールのフィードバックが遅延した対話型のマルチタスク ツール使用環境で LLM ベースのエージェントを評価するためのベンチマークである AsyncTool を提案します。 AsyncTool は、複数の異種タスクを同時に提示し、実行中の現実的なツール応答遅延をシミュレートします。ハイブリッド データ進化戦略を使用して、複数のシナリオとツールの使用パターンをカバーする多様な非同期マルチタスク データセットを構築します。ステップ、サブタスク、およびタスクのレベルでモデルを評価し、タスクの調整と完了の効率を測定するための効率指向のメトリクスを導入します。広範な実験により、ツールのフィードバックが遅れていると、現在のエージェントに大きな課題が生じ、明らかなパフォーマンスの低下につながることが示されています。タスクの切り替え、依存関係の追跡、状態の維持をより適切に調整するモデルは、AsyncTool でより優れたパフォーマンスを実現します。私たちの分析は、現在ツールを使用しているエージェントの主な障害モードを特定し、より強力な時間的推論と調整機能を備えた将来のシステムを設計するための実用的な洞察を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios</p>
        <p class="orig-summary">Large language model (LLM)-based agents have shown strong capabilities in using external tools to solve complex tasks. However, existing evaluations often overlook the temporal dimension of tool use, especially the impact of tool response latency, and are usually limited to single-task settings. In real-world applications, multiple tasks often need to be executed concurrently, and overall efficiency depends on whether an agent can use idle time while waiting for tool responses. We refer to this capability as asynchronous tool calling. To evaluate it, we propose AsyncTool, a benchmark for assessing LLM-based agents in interactive multi-task tool-use environments with delayed tool feedback. AsyncTool presents multiple heterogeneous tasks simultaneously and simulates realistic tool response latency during execution. Using a hybrid data evolution strategy, we construct a diverse asynchronous multitasking dataset that covers multiple scenarios and tool-use patterns. We evaluate models at the step, sub-task, and task levels, and introduce efficiency-oriented metrics to measure task coordination and completion efficiency. Extensive experiments show that delayed tool feedback poses substantial challenges to current agents and leads to clear performance degradation. Models that better coordinate task switching, dependency tracking, and state maintenance achieve stronger performance on AsyncTool. Our analysis identifies key failure modes of current tool-using agents and provides practical insights for designing future systems with stronger temporal reasoning and coordination capabilities.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b936f9a729ee" data-article-url="https://arxiv.org/abs/2605.28700" data-article-title="The Importance of Being Statistically Earnest: A Critical Re-evaluation of GSM-Symbolic" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28700" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28700" target="_blank" rel="noopener">The Importance of Being Statistically Earnest: A Critical Re-evaluation of GSM-Symbolic</a></h3>
      <p class="summary">The GSM-Symbolic benchmark (Mirzadeh et al., 2025) reported consistent performance drops across 25 Large Language Models (LLMs) when tested…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c3b11004f866" data-article-url="https://arxiv.org/abs/2205.04297" data-article-title="Learning A Simulation-based Visual Policy for Real-world Peg In Unseen Holes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2205.04297" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2205.04297" target="_blank" rel="noopener">Learning A Simulation-based Visual Policy for Real-world Peg In Unseen Holes</a></h3>
      <p class="summary">This paper proposes a learning-based visual peg-in-hole that enables training with several shapes in simulation, and adapting to arbitrary…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a6cdfe1905f" data-article-url="https://arxiv.org/abs/2306.10356" data-article-title="MATNet: Multi-Level Fusion Transformer-Based Model for Day-Ahead PV Generation Forecasting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2306.10356" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2306.10356" target="_blank" rel="noopener">MATNet: Multi-Level Fusion Transformer-Based Model for Day-Ahead PV Generation Forecasting</a></h3>
      <p class="summary">Accurate forecasting of renewable generation is crucial to facilitate the integration of Renewable Energy Sources into the power system. Fo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="abb04c1d1b09" data-article-url="https://arxiv.org/abs/2405.13003" data-article-title="A Survey on Recent Advances in Conversational Data Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2405.13003" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2405.13003" target="_blank" rel="noopener">A Survey on Recent Advances in Conversational Data Generation</a></h3>
      <p class="summary">Recent advancements in conversational systems have significantly enhanced human-machine interactions across various domains. However, train…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="78f789351e36" data-article-url="https://arxiv.org/abs/2410.07287" data-article-title="Crafting Desirable Climate Trajectories with RL Explored Socio-Environmental Simulations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2410.07287" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2410.07287" target="_blank" rel="noopener">Crafting Desirable Climate Trajectories with RL Explored Socio-Environmental Simulations</a></h3>
      <p class="summary">Climate change poses an existential threat, necessitating effective climate policies to enact impactful change. Decisions in this domain ar…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d9d7559a3e6f" data-article-url="https://arxiv.org/abs/2410.10398" data-article-title="Are LLMs Socially Adaptive? Contrasting Belief Evolution in Large Language Models and Humans" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2410.10398" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2410.10398" target="_blank" rel="noopener">Are LLMs Socially Adaptive? Contrasting Belief Evolution in Large Language Models and Humans</a></h3>
      <p class="summary">As large language models (LLMs) increasingly engage in complex social interactions, ensuring that their behaviors align with human ethical…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="edff563f57ea" data-article-url="https://arxiv.org/abs/2410.15236" data-article-title="Jailbreaking and Mitigation of Vulnerabilities in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2410.15236" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2410.15236" target="_blank" rel="noopener">Jailbreaking and Mitigation of Vulnerabilities in Large Language Models</a></h3>
      <p class="summary">Large Language Models (LLMs) have transformed artificial intelligence by advancing natural language understanding and generation, enabling…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2046f8a984f0" data-article-url="https://arxiv.org/abs/2410.23222" data-article-title="Dataset-Driven Channel Masks in Transformers for Multivariate Time Series" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2410.23222" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2410.23222" target="_blank" rel="noopener">Dataset-Driven Channel Masks in Transformers for Multivariate Time Series</a></h3>
      <p class="summary">Recent advancements in foundation models have been successfully extended to the time series (TS) domain, facilitated by the emergence of la…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0b78851b0f4" data-article-url="https://arxiv.org/abs/2501.10332" data-article-title="Agent4Edu: Generating Learner Response Data by Generative Agents for Intelligent Education Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2501.10332" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2501.10332" target="_blank" rel="noopener">Agent4Edu: Generating Learner Response Data by Generative Agents for Intelligent Education Systems</a></h3>
      <p class="summary">Personalized learning represents a promising educational strategy within intelligent educational systems, aiming to enhance learners&#x27; pract…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aebbc4e84760" data-article-url="https://arxiv.org/abs/2502.16548" data-article-title="A Composable Multimodal Framework for cine CMR-Text-Driven Prediction of Heart Failure Outcomes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.16548" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.16548" target="_blank" rel="noopener">A Composable Multimodal Framework for cine CMR-Text-Driven Prediction of Heart Failure Outcomes</a></h3>
      <p class="summary">Objective. Heart failure is one of the leading causes of death worldwide, with millions of deaths each year, according to data from the Wor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b18de1e06bb1" data-article-url="https://arxiv.org/abs/2502.20838" data-article-title="Weakly Supervised Detection and Temporal Localization of Whale Calls in Long-Duration Bioacoustic Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.20838" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.20838" target="_blank" rel="noopener">Weakly Supervised Detection and Temporal Localization of Whale Calls in Long-Duration Bioacoustic Data</a></h3>
      <p class="summary">Passive acoustic monitoring (PAM) systems generate continuous recordings spanning months, yet automated bioacoustic analysis of whale calls…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8ab82afd894f" data-article-url="https://arxiv.org/abs/2505.10975" data-article-title="Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.10975" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.10975" target="_blank" rel="noopener">Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio</a></h3>
      <p class="summary">Monaural multi-speaker automatic speech recognition (ASR) remains challenging due to data scarcity and the intrinsic difficulty of recogniz…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1322bbb2135a" data-article-url="https://arxiv.org/abs/2505.21627" data-article-title="Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.21627" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.21627" target="_blank" rel="noopener">Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives</a></h3>
      <p class="summary">State-of-the-art large language models require specialized hardware and substantial energy to operate. As a consequence, cloud-based servic…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6f133e467efc" data-article-url="https://arxiv.org/abs/2505.21876" data-article-title="EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.21876" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.21876" target="_blank" rel="noopener">EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance</a></h3>
      <p class="summary">Recent approaches for video generation with camera control often create anchor videos (i.e., rendered videos that approximate desired camer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb1399671e06" data-article-url="https://arxiv.org/abs/2505.21996" data-article-title="VRAG: Learning World Models for Interactive Video Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.21996" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.21996" target="_blank" rel="noopener">VRAG: Learning World Models for Interactive Video Generation</a></h3>
      <p class="summary">Foundational world models must be both interactive and preserve spatiotemporal coherence for effective future planning with action choices.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7fddfb640fc0" data-article-url="https://arxiv.org/abs/2505.24503" data-article-title="Online Fair Division with Additional Information" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.24503" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.24503" target="_blank" rel="noopener">Online Fair Division with Additional Information</a></h3>
      <p class="summary">We study the problem of fairly allocating indivisible goods to agents in an online setting, where goods arrive sequentially and must be all…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="593efeb78ebe" data-article-url="https://arxiv.org/abs/2506.08354" data-article-title="Position: Text Embeddings Should Capture Implicit Semantics, Not Just Surface Meaning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.08354" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.08354" target="_blank" rel="noopener">Position: Text Embeddings Should Capture Implicit Semantics, Not Just Surface Meaning</a></h3>
      <p class="summary">This position paper argues that text embedding research should move beyond surface meaning and embrace implicit semantics as a central mode…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1b3c9117ab3b" data-article-url="https://arxiv.org/abs/2507.00037" data-article-title="Model Fusion via Retrofitting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.00037" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.00037" target="_blank" rel="noopener">Model Fusion via Retrofitting</a></h3>
      <p class="summary">Model fusion seeks to combine independently trained neural networks into a single model without retraining, but is complicated by represent…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c2f40bcf948" data-article-url="https://arxiv.org/abs/2507.06092" data-article-title="Taming Data Challenges in ML-based Security Tasks Using Generative AI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.06092" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.06092" target="_blank" rel="noopener">Taming Data Challenges in ML-based Security Tasks Using Generative AI</a></h3>
      <p class="summary">Machine learning-based supervised classifiers are widely used for security tasks, and their improvement has been largely focused on algorit…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a32b5ba6a75" data-article-url="https://arxiv.org/abs/2507.09574" data-article-title="MENTOR: Efficient Multimodal-Conditioned Tuning for Autoregressive Vision Generation Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.09574" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.09574" target="_blank" rel="noopener">MENTOR: Efficient Multimodal-Conditioned Tuning for Autoregressive Vision Generation Models</a></h3>
      <p class="summary">Recent text-to-image models produce high-quality results but still struggle with precise visual control, balancing multimodal inputs, and r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="db505c2af216" data-article-url="https://arxiv.org/abs/2507.16880" data-article-title="Finding DoRI: Discovery of Retained Images in Diffusion Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.16880" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.16880" target="_blank" rel="noopener">Finding DoRI: Discovery of Retained Images in Diffusion Models</a></h3>
      <p class="summary">Text-to-image diffusion models (DMs) have achieved remarkable success in image generation. However, concerns about data privacy and intelle…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ed6c698f343b" data-article-url="https://arxiv.org/abs/2507.21114" data-article-title="Page image classification for content-specific data processing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.21114" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.21114" target="_blank" rel="noopener">Page image classification for content-specific data processing</a></h3>
      <p class="summary">Digitization projects in humanities often generate vast quantities of page images from historical documents, presenting significant challen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8373c2acd100" data-article-url="https://arxiv.org/abs/2508.03253" data-article-title="Approximate Proportionality in Online Fair Division" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.03253" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.03253" target="_blank" rel="noopener">Approximate Proportionality in Online Fair Division</a></h3>
      <p class="summary">We study the online fair division problem, where indivisible goods arrive sequentially and must be allocated immediately and irrevocably. P…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="72886f11283d" data-article-url="https://arxiv.org/abs/2508.05614" data-article-title="GroundAct: Can LLM Agents Ground Actions in Environmental States?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.05614" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.05614" target="_blank" rel="noopener">GroundAct: Can LLM Agents Ground Actions in Environmental States?</a></h3>
      <p class="summary">LLM agents achieve 85-96% success on tasks where instructions fully specify the action, but drop to 29-53% when action feasibility depends…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c968c8379a9a" data-article-url="https://arxiv.org/abs/2508.12176" data-article-title="Scalable RF Simulation in Generative 4D Worlds" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.12176" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.12176" target="_blank" rel="noopener">Scalable RF Simulation in Generative 4D Worlds</a></h3>
      <p class="summary">Radio Frequency (RF) sensing has emerged as a powerful, privacy-preserving alternative to vision-based methods for various perception tasks…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3113922ce893" data-article-url="https://arxiv.org/abs/2508.19282" data-article-title="Less Is More: Elevating RAG via Performance-Driven Context Compression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.19282" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.19282" target="_blank" rel="noopener">Less Is More: Elevating RAG via Performance-Driven Context Compression</a></h3>
      <p class="summary">Retrieval-Augmented Generation (RAG) has emerged as a promising paradigm for improving the timeliness of knowledge updates and the factual…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1e1eb79e8400" data-article-url="https://arxiv.org/abs/2509.21154" data-article-title="GRPO is Secretly a Process Reward Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.21154" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.21154" target="_blank" rel="noopener">GRPO is Secretly a Process Reward Model</a></h3>
      <p class="summary">Process reward models (PRMs) allow for fine-grained credit assignment in reinforcement learning (RL), and seemingly contrast with outcome r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f9462d0d5db0" data-article-url="https://arxiv.org/abs/2509.21190" data-article-title="Towards Foundation Models for Zero-Shot Time Series Anomaly Detection: Leveraging Synthetic Data and Relative Context Discrepancy" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.21190" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.21190" target="_blank" rel="noopener">Towards Foundation Models for Zero-Shot Time Series Anomaly Detection: Leveraging Synthetic Data and Relative Context Discrepancy</a></h3>
      <p class="summary">Time series anomaly detection (TSAD) is a critical task, but developing models that generalize to unseen data in a zero-shot manner remains…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e818f9706437" data-article-url="https://arxiv.org/abs/2509.23571" data-article-title="Benchmarking LLM-Assisted Blue Teaming via Standardized Threat Hunting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.23571" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.23571" target="_blank" rel="noopener">Benchmarking LLM-Assisted Blue Teaming via Standardized Threat Hunting</a></h3>
      <p class="summary">As cyber threats continue to grow in scale and sophistication, blue team defenders increasingly require advanced tools to proactively detec…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8dae3de83dc4" data-article-url="https://arxiv.org/abs/2509.23573" data-article-title="Uncovering Vulnerabilities of LLM-Assisted Cyber Threat Intelligence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.23573" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.23573" target="_blank" rel="noopener">Uncovering Vulnerabilities of LLM-Assisted Cyber Threat Intelligence</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly used to help security analysts manage the surge of cyber threats, automating tasks from vulne…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4eb3fc89f5a4" data-article-url="https://arxiv.org/abs/2510.04704" data-article-title="AtomWorld: A Benchmark for Evaluating Spatial Reasoning in Large Language Models on Crystalline Materials" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.04704" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.04704" target="_blank" rel="noopener">AtomWorld: A Benchmark for Evaluating Spatial Reasoning in Large Language Models on Crystalline Materials</a></h3>
      <p class="summary">Large language models (LLMs) have shown promising potential in scientific research, enabling tasks ranging from knowledge retrieval to prop…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cdf193467e92" data-article-url="https://arxiv.org/abs/2510.08722" data-article-title="The Impact of Semantic Pairs on Self-Supervised Representation Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.08722" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.08722" target="_blank" rel="noopener">The Impact of Semantic Pairs on Self-Supervised Representation Learning</a></h3>
      <p class="summary">Instance discrimination learns visual representations by treating different augmented views of the same image as positive pairs. While this…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2abf99cf5e96" data-article-url="https://arxiv.org/abs/2510.10961" data-article-title="Obfuscation Rules for Detecting and Detoxifying Korean Toxicity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.10961" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.10961" target="_blank" rel="noopener">Obfuscation Rules for Detecting and Detoxifying Korean Toxicity</a></h3>
      <p class="summary">As language models become increasingly deployed in online environments, toxicity detection and detoxification have received growing attenti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1876e9cdd9c0" data-article-url="https://arxiv.org/abs/2510.11499" data-article-title="Offline Reinforcement Learning with Generative Trajectory Policies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.11499" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.11499" target="_blank" rel="noopener">Offline Reinforcement Learning with Generative Trajectory Policies</a></h3>
      <p class="summary">Generative models have emerged as a powerful class of policies for offline reinforcement learning (RL) due to their ability to capture comp…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2f222d7da4fe" data-article-url="https://arxiv.org/abs/2510.16060" data-article-title="Beyond Accuracy: Are Time Series Foundation Models Well-Calibrated?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.16060" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.16060" target="_blank" rel="noopener">Beyond Accuracy: Are Time Series Foundation Models Well-Calibrated?</a></h3>
      <p class="summary">The recent development of foundation models for time series data has generated considerable interest in using such models across a variety…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5643a28e9100" data-article-url="https://arxiv.org/abs/2510.20743" data-article-title="Empathic Prompting: Non-Verbal Context Integration for Multimodal LLM Conversations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.20743" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.20743" target="_blank" rel="noopener">Empathic Prompting: Non-Verbal Context Integration for Multimodal LLM Conversations</a></h3>
      <p class="summary">We present Empathic Prompting, a novel framework for multimodal human-AI interaction that enriches Large Language Model (LLM) conversations…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6ab990136d22" data-article-url="https://arxiv.org/abs/2510.26412" data-article-title="LoCoT2V-Bench: Benchmarking Long-Form and Complex Text-to-Video Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.26412" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.26412" target="_blank" rel="noopener">LoCoT2V-Bench: Benchmarking Long-Form and Complex Text-to-Video Generation</a></h3>
      <p class="summary">Recent advances in text-to-video generation have achieved impressive performance on short clips, yet evaluating long-form generation under…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="33b336140447" data-article-url="https://arxiv.org/abs/2511.04758" data-article-title="ScheduleStream: Temporal Planning with Samplers for GPU-Accelerated Multi-Arm Task and Motion Planning &amp; Scheduling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.04758" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.04758" target="_blank" rel="noopener">ScheduleStream: Temporal Planning with Samplers for GPU-Accelerated Multi-Arm Task and Motion Planning &amp; Scheduling</a></h3>
      <p class="summary">Bimanual and humanoid robots are appealing because of their human-like ability to leverage multiple arms to efficiently complete tasks. How…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1359b13a0d99" data-article-url="https://arxiv.org/abs/2511.10861" data-article-title="An accuracy-aware extension to LRP-based pruning for CNNs to prevent cascading accuracy degradation in data-scarce transfer learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.10861" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.10861" target="_blank" rel="noopener">An accuracy-aware extension to LRP-based pruning for CNNs to prevent cascading accuracy degradation in data-scarce transfer learning</a></h3>
      <p class="summary">Convolutional Neural Networks (CNNs) pre-trained on large-scale datasets such as ImageNet are widely used as feature extractors to construc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="88174b989563" data-article-url="https://arxiv.org/abs/2511.11703" data-article-title="Enhancing Reinforcement Learning in 3D Environments through Semantic Segmentation: A Case Study in ViZDoom" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.11703" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.11703" target="_blank" rel="noopener">Enhancing Reinforcement Learning in 3D Environments through Semantic Segmentation: A Case Study in ViZDoom</a></h3>
      <p class="summary">Reinforcement learning (RL) in 3D environments with high-dimensional sensory input poses two major challenges: (1) the high memory consumpt…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ebec54d80e62" data-article-url="https://arxiv.org/abs/2511.14426" data-article-title="MiAD: Mirage Atom Diffusion for De Novo Crystal Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.14426" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.14426" target="_blank" rel="noopener">MiAD: Mirage Atom Diffusion for De Novo Crystal Generation</a></h3>
      <p class="summary">In recent years, diffusion-based models have demonstrated exceptional performance in searching for simultaneously stable, unique, and novel…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c4c927c26767" data-article-url="https://arxiv.org/abs/2511.14584" data-article-title="ReflexGrad: Within-Episode Failure Recovery in LLM Agents via Progress-Gated Dual-Process Routing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.14584" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.14584" target="_blank" rel="noopener">ReflexGrad: Within-Episode Failure Recovery in LLM Agents via Progress-Gated Dual-Process Routing</a></h3>
      <p class="summary">We present ReflexGrad, a dual-process architecture for within-episode failure recovery in LLM agents without demonstrations. When agents co…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cc9f4030cfd3" data-article-url="https://arxiv.org/abs/2511.19316" data-article-title="Evaluating Dataset Watermarking for Fine-tuning Traceability of Customized Diffusion Models: A Comprehensive Benchmark and Removal Approach" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.19316" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.19316" target="_blank" rel="noopener">Evaluating Dataset Watermarking for Fine-tuning Traceability of Customized Diffusion Models: A Comprehensive Benchmark and Removal Approach</a></h3>
      <p class="summary">Recent fine-tuning techniques for diffusion models enable them to reproduce specific image sets, such as particular faces or artistic style…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e164de6bf12c" data-article-url="https://arxiv.org/abs/2512.00283" data-article-title="BioArc: Discovering Optimal Neural Architectures for Biological Foundation Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.00283" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.00283" target="_blank" rel="noopener">BioArc: Discovering Optimal Neural Architectures for Biological Foundation Models</a></h3>
      <p class="summary">Foundation models have revolutionized various fields such as natural language processing (NLP) and computer vision (CV). While efforts have…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ac7084e49a21" data-article-url="https://arxiv.org/abs/2512.01863" data-article-title="Topological Order in Neural Wavefunctions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.01863" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.01863" target="_blank" rel="noopener">Topological Order in Neural Wavefunctions</a></h3>
      <p class="summary">Topologically ordered states are among the most interesting quantum phases of matter that host emergent quasi-particles having fractional c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9070cc2c7a90" data-article-url="https://arxiv.org/abs/2512.03109" data-article-title="E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.03109" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.03109" target="_blank" rel="noopener">E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing</a></h3>
      <p class="summary">Agentic AI systems execute a sequence of actions, such as reasoning steps or tool calls, in response to a user prompt. To evaluate the succ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="955a9815b082" data-article-url="https://arxiv.org/abs/2512.04733" data-article-title="E3AD: An Emotion-Aware Vision-Language-Action Model for Human-Centric End-to-End Autonomous Driving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.04733" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.04733" target="_blank" rel="noopener">E3AD: An Emotion-Aware Vision-Language-Action Model for Human-Centric End-to-End Autonomous Driving</a></h3>
      <p class="summary">End-to-end autonomous driving (AD) systems increasingly adopt vision-language-action (VLA) models, yet they typically ignore the passenger&#x27;…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0abb8b283c72" data-article-url="https://arxiv.org/abs/2512.10388" data-article-title="The Best of the Two Worlds: Harmonizing Semantic and Hash IDs for Sequential Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.10388" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.10388" target="_blank" rel="noopener">The Best of the Two Worlds: Harmonizing Semantic and Hash IDs for Sequential Recommendation</a></h3>
      <p class="summary">Conventional Sequential Recommender Systems (SRS) typically assign unique hash IDs (HID) to construct item embeddings, which mainly capture…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3353a28eacf5" data-article-url="https://arxiv.org/abs/2512.11944" data-article-title="A Review of Learning-Based Motion Planning: Toward a Data-Driven Optimal Control Approach" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.11944" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.11944" target="_blank" rel="noopener">A Review of Learning-Based Motion Planning: Toward a Data-Driven Optimal Control Approach</a></h3>
      <p class="summary">Motion planning for autonomous driving (AD) faces a critical trade-off. While traditional rule-based pipelines offer verifiable safety and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1e838b090133" data-article-url="https://arxiv.org/abs/2512.14754" data-article-title="Revisiting the Reliability of Language Models in Instruction-Following" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.14754" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.14754" target="_blank" rel="noopener">Revisiting the Reliability of Language Models in Instruction-Following</a></h3>
      <p class="summary">Advanced LLMs have achieved near-ceiling instruction-following accuracy on benchmarks such as IFEval. However, these impressive scores do n…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f06c225911c" data-article-url="https://arxiv.org/abs/2512.15133" data-article-title="HD-Prot: A Protein Language Model for Joint Sequence-Structure Modeling with Continuous Structure Tokens" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.15133" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.15133" target="_blank" rel="noopener">HD-Prot: A Protein Language Model for Joint Sequence-Structure Modeling with Continuous Structure Tokens</a></h3>
      <p class="summary">Proteins inherently possess a consistent sequence-structure duality. The abundance of protein sequence data, which can be readily represent…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="31d87c8efca7" data-article-url="https://arxiv.org/abs/2601.01162" data-article-title="Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.01162" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.01162" target="_blank" rel="noopener">Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models</a></h3>
      <p class="summary">Qualitative data are widespread in domains such as healthcare, marketing, and bioinformatics, where clustering offers a fundamental tool fo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d782f74a5836" data-article-url="https://arxiv.org/abs/2601.04765" data-article-title="Differential syntactic and semantic encoding in LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.04765" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.04765" target="_blank" rel="noopener">Differential syntactic and semantic encoding in LLMs</a></h3>
      <p class="summary">We study how syntactic and semantic information is encoded in inner layer representations of Large Language Models (LLMs), focusing on the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8a680eadd5af" data-article-url="https://arxiv.org/abs/2601.07525" data-article-title="Thinking Before Constraining: A Unified Decoding Framework for Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.07525" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.07525" target="_blank" rel="noopener">Thinking Before Constraining: A Unified Decoding Framework for Large Language Models</a></h3>
      <p class="summary">Natural generation allows Large Language Models (LLMs) to produce free-form responses with rich reasoning, yet the lack of structure makes…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2c0499980158" data-article-url="https://arxiv.org/abs/2601.08654" data-article-title="From Rubrics to Reliable Scores: Evidence-Grounded Text Evaluation with LLM Judges" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.08654" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.08654" target="_blank" rel="noopener">From Rubrics to Reliable Scores: Evidence-Grounded Text Evaluation with LLM Judges</a></h3>
      <p class="summary">Rubric-based text evaluation increasingly uses large language models (LLMs) as scalable judges, but aligning frozen black-box models with h…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b3afaad4e4e7" data-article-url="https://arxiv.org/abs/2601.10960" data-article-title="Steering Language Models Before They Speak: Logit-Level Interventions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.10960" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.10960" target="_blank" rel="noopener">Steering Language Models Before They Speak: Logit-Level Interventions</a></h3>
      <p class="summary">Controllable generation requires language models to realize output characteristics such as reading level, politeness, and toxicity. Existin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79f500f14ea3" data-article-url="https://arxiv.org/abs/2601.13111" data-article-title="CORE-T: COherent REtrieval of Tables for Text-to-SQL" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.13111" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.13111" target="_blank" rel="noopener">CORE-T: COherent REtrieval of Tables for Text-to-SQL</a></h3>
      <p class="summary">Realistic text-to-SQL workflows often require joining multiple tables. As a result, accurately retrieving the relevant set of tables become…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="31dd38027ca8" data-article-url="https://arxiv.org/abs/2601.14758" data-article-title="Mechanism Shift During Post-training from Autoregressive to Masked Diffusion Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.14758" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.14758" target="_blank" rel="noopener">Mechanism Shift During Post-training from Autoregressive to Masked Diffusion Language Models</a></h3>
      <p class="summary">Post-training pretrained autoregressive models (ARMs) into masked diffusion models (MDMs) has emerged as a cost-effective way to overcome t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1b7f8991b071" data-article-url="https://arxiv.org/abs/2601.17670" data-article-title="Grammar-Aware Literate Generative Mathematical Programming with Compiler-in-the-Loop" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.17670" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.17670" target="_blank" rel="noopener">Grammar-Aware Literate Generative Mathematical Programming with Compiler-in-the-Loop</a></h3>
      <p class="summary">Mathematical programming is widely employed across various sectors - such as logistics, energy, and workforce planning - to model and solve…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="19ce91fc842e" data-article-url="https://arxiv.org/abs/2601.19947" data-article-title="NCSAM Noise-Compensated Sharpness-Aware Minimization for Noisy Label Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.19947" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.19947" target="_blank" rel="noopener">NCSAM Noise-Compensated Sharpness-Aware Minimization for Noisy Label Learning</a></h3>
      <p class="summary">Learning from Noisy Labels (LNL) remains a fundamental challenge in deep learning because real-world datasets often contain corrupted annot…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="97166a1d9f8f" data-article-url="https://arxiv.org/abs/2601.22139" data-article-title="Reasoning While Asking: Transforming Reasoning Large Language Models from Passive Solvers to Proactive Inquirers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.22139" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.22139" target="_blank" rel="noopener">Reasoning While Asking: Transforming Reasoning Large Language Models from Passive Solvers to Proactive Inquirers</a></h3>
      <p class="summary">Reasoning-oriented Large Language Models (LLMs) have achieved remarkable progress with Chain-of-Thought (CoT) prompting, yet they remain fu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="886031bc0753" data-article-url="https://arxiv.org/abs/2601.22347" data-article-title="Pushing the Limits of Block Rotations in Post-Training Quantization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.22347" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.22347" target="_blank" rel="noopener">Pushing the Limits of Block Rotations in Post-Training Quantization</a></h3>
      <p class="summary">Recent post-training quantization (PTQ) methods have adopted block rotations to diffuse outliers prior to rounding. While this reduces the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e1377afb6f56" data-article-url="https://arxiv.org/abs/2601.22531" data-article-title="Learn from A Rationalist: Distilling Intermediate Interpretable Rationales" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.22531" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.22531" target="_blank" rel="noopener">Learn from A Rationalist: Distilling Intermediate Interpretable Rationales</a></h3>
      <p class="summary">Because of the pervasive use of deep neural networks (DNNs), especially in high-stakes domains, the interpretability of DNNs has received i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="314cd36e604b" data-article-url="https://arxiv.org/abs/2602.01058" data-article-title="Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01058" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01058" target="_blank" rel="noopener">Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning</a></h3>
      <p class="summary">Post-training of reasoning LLMs is a holistic process that typically consists of an offline SFT stage followed by an online reinforcement l…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="559f0b5eb3f9" data-article-url="https://arxiv.org/abs/2602.02751" data-article-title="Scaling Small Agents Through Strategy Auctions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02751" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02751" target="_blank" rel="noopener">Scaling Small Agents Through Strategy Auctions</a></h3>
      <p class="summary">Small language models are increasingly viewed as a promising, cost-effective approach to agentic AI, with proponents claiming they are suff…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0fbdea6318e9" data-article-url="https://arxiv.org/abs/2602.07044" data-article-title="PipeMFL-240K: パイプラインの磁束漏れイメージングにおける物体検出のための大規模データセットおよびベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.07044" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.07044" target="_blank" rel="noopener">PipeMFL-240K: パイプラインの磁束漏れイメージングにおける物体検出のための大規模データセットおよびベンチマーク</a></h3>
      <p class="summary">パイプラインの完全性は産業安全と環境保護にとって重要であり、磁束漏れ (MFL) 検出は主要な非破壊検査技術です。 MFL解釈を自動化するためのディープラーニングの期待にもかかわらず、信頼性の高いモデルへの進歩は、大規模な公開データセットとベンチマークの欠如によって制約されており、公正な比較と再現可能な評価が困難になっています。 \textbf{PipeMFL-240K} は、パイプライン MFL 擬似カラー画像における複雑なオブジェクト検出のための、細心の注意を払って注釈が付けられた大規模なデータセットおよびベンチマークです。 PipeMFL-240K は、現実世界の検査の複雑さを反映しており、次のようないくつかの特有の課題を提起しています。(i) \textbf{12} カテゴリにわたる極めて長い裾野の分布、(ii) 多くの場合、数ピクセルのみで構成されている小さなオブジェクトの蔓延、および (iii) 大幅なクラス内変動。データセットには、約 \textbf{1,530} km にわたる 12 のパイプラインから収集された \textbf{249,320} 個の画像と \textbf{200,020} 個の高品質境界ボックス アノテーションが含まれています。ベースラインを確立するために、最先端の物体検出器を使用して広範な実験が行われます。結果は、最新の検出器が依然として MFL データの固有の特性に苦戦していることを示しており、改善の余地がかなりあることが強調されていますが、PipeMFL-240K は将来の研究を推進するための信頼性が高く、挑戦的なテストベッドを提供します。これは、パイプライン MFL 検査のこの規模と範囲における最初の公開データセットおよび最初のベンチマークとして、効率的なパイプライン診断とメンテナンス計画のための重要な基盤を提供し、MFL ベースのパイプライン完全性評価におけるアルゴリズムの革新と再現可能な研究を加速することが期待されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PipeMFL-240K: A Large-scale Dataset and Benchmark for Object Detection in Pipeline Magnetic Flux Leakage Imaging</p>
        <p class="orig-summary">Pipeline integrity is critical to industrial safety and environmental protection, with Magnetic Flux Leakage (MFL) detection being a primary non-destructive testing technology. Despite the promise of deep learning for automating MFL interpretation, progress toward reliable models has been constrained by the absence of a large-scale public dataset and benchmark, making fair comparison and reproducible evaluation difficult. We introduce \textbf{PipeMFL-240K}, a large-scale, meticulously annotated dataset and benchmark for complex object detection in pipeline MFL pseudo-color images. PipeMFL-240K reflects real-world inspection complexity and poses several unique challenges: (i) an extremely long-tailed distribution over \textbf{12} categories, (ii) a high prevalence of tiny objects that often comprise only a handful of pixels and (iii) substantial intra-class variability. The dataset contains \textbf{249,320} images and \textbf{200,020} high-quality bounding-box annotations, collected from 12 pipelines spanning approximately \textbf{1,530} km. Extensive experiments are conducted with state-of-the-art object detectors to establish baselines. Results show that modern detectors still struggle with the intrinsic properties of MFL data, highlighting considerable headroom for improvement, while PipeMFL-240K provides a reliable and challenging testbed to drive future research. As the first public dataset and the first benchmark of this scale and scope for pipeline MFL inspection, it provides a critical foundation for efficient pipeline diagnostics as well as maintenance planning and is expected to accelerate algorithmic innovation and reproducible research in MFL-based pipeline integrity assessment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="977019607f48" data-article-url="https://arxiv.org/abs/2602.10388" data-article-title="Less is Enough: Synthesizing Diverse Data in LLM Feature Space with Sparse Autoencoders" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.10388" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.10388" target="_blank" rel="noopener">Less is Enough: Synthesizing Diverse Data in LLM Feature Space with Sparse Autoencoders</a></h3>
      <p class="summary">The diversity of post-training data is critical for effective downstream performance in large language models (LLMs). Many existing approac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="865218287875" data-article-url="https://arxiv.org/abs/2602.11065" data-article-title="S-MARC: Causal Streaming Reasoning for Full-Duplex Conversational Behavior Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.11065" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.11065" target="_blank" rel="noopener">S-MARC: Causal Streaming Reasoning for Full-Duplex Conversational Behavior Modeling</a></h3>
      <p class="summary">Human conversation is organized by an implicit chain of thought and manifests as temporally structured conversational behaviors. Capturing…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4699545b6742" data-article-url="https://arxiv.org/abs/2602.11171" data-article-title="A Language-Guided Bayesian Optimization for Efficient LoRA Hyperparameter Search" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.11171" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.11171" target="_blank" rel="noopener">A Language-Guided Bayesian Optimization for Efficient LoRA Hyperparameter Search</a></h3>
      <p class="summary">Fine-tuning Large Language Models (LLMs) with Low-Rank Adaptation (LoRA) offers a resource-efficient way to personalize or specialize. Howe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b084eaf58923" data-article-url="https://arxiv.org/abs/2602.12304" data-article-title="OmniCustom: Sync Audio-Video Customization Via Joint Audio-Video Generation Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.12304" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.12304" target="_blank" rel="noopener">OmniCustom: Sync Audio-Video Customization Via Joint Audio-Video Generation Model</a></h3>
      <p class="summary">Existing mainstream video customization methods focus on generating identity-consistent videos based on given reference images and textual…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c8e19f4bd4cd" data-article-url="https://arxiv.org/abs/2602.12642" data-article-title="Beyond Normalization: Rethinking the Partition Function as a Difficulty Scheduler for RLVR" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.12642" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.12642" target="_blank" rel="noopener">Beyond Normalization: Rethinking the Partition Function as a Difficulty Scheduler for RLVR</a></h3>
      <p class="summary">Reward-maximizing RL methods have shown to be capable of enhancing the reasoning performance of LLMs, but often lead to reduced generation…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e77930fc47e9" data-article-url="https://arxiv.org/abs/2602.16449" data-article-title="GICDM: Mitigating Hubness for Reliable Distance-Based Generative Model Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.16449" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.16449" target="_blank" rel="noopener">GICDM: Mitigating Hubness for Reliable Distance-Based Generative Model Evaluation</a></h3>
      <p class="summary">Generative model evaluation commonly relies on high-dimensional embedding spaces to compute distances between samples. We show that dataset…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3df7c95f1a6e" data-article-url="https://arxiv.org/abs/2602.16610" data-article-title="Who can we trust? LLM-as-a-jury for Comparative Assessment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.16610" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.16610" target="_blank" rel="noopener">Who can we trust? LLM-as-a-jury for Comparative Assessment</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly applied as automatic evaluators for natural language generation assessment often using pairwi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="189ba4c5a897" data-article-url="https://arxiv.org/abs/2602.18527" data-article-title="JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.18527" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.18527" target="_blank" rel="noopener">JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments</a></h3>
      <p class="summary">Current audio-visual large language models (AV-LLMs) are predominantly restricted to 2D perception, relying on RGB video and monaural audio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f0d92c6667e4" data-article-url="https://arxiv.org/abs/2603.00454" data-article-title="Rooted Absorbed Prefix Trajectory Balance with Submodular Replay for GFlowNet Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.00454" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.00454" target="_blank" rel="noopener">Rooted Absorbed Prefix Trajectory Balance with Submodular Replay for GFlowNet Training</a></h3>
      <p class="summary">Generative Flow Networks (GFlowNets) enable fine-tuning large language models to approximate reward-proportional posteriors, but they remai…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fb39e38fead6" data-article-url="https://arxiv.org/abs/2603.01006" data-article-title="AG-REPA: Causal Layer Selection for Representation Alignment in Audio Flow Matching" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.01006" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.01006" target="_blank" rel="noopener">AG-REPA: Causal Layer Selection for Representation Alignment in Audio Flow Matching</a></h3>
      <p class="summary">REPresentation Alignment (REPA) improves the training of generative flow models by aligning intermediate hidden states with pretrained teac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="92ff9712329f" data-article-url="https://arxiv.org/abs/2603.03805" data-article-title="Relational In-Context Learning via Synthetic Pre-training with Structural Prior" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.03805" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.03805" target="_blank" rel="noopener">Relational In-Context Learning via Synthetic Pre-training with Structural Prior</a></h3>
      <p class="summary">Relational Databases (RDBs) are the backbone of modern business, yet they lack foundation models comparable to those in text or vision. A k…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="31c7f118958b" data-article-url="https://arxiv.org/abs/2603.04314" data-article-title="MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.04314" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.04314" target="_blank" rel="noopener">MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification</a></h3>
      <p class="summary">Animal re-identification (ReID) faces critical challenges due to viewpoint variations, particularly in Aerial-Ground (AG-ReID) settings whe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8e1be02a730c" data-article-url="https://arxiv.org/abs/2603.04678" data-article-title="Post-Training Language Models for Crosslingual Consistency" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.04678" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.04678" target="_blank" rel="noopener">Post-Training Language Models for Crosslingual Consistency</a></h3>
      <p class="summary">Language models often respond inconsistently to translation-equivalent prompts across languages, undermining the reliability of multilingua…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a6ae8b8ae17" data-article-url="https://arxiv.org/abs/2603.05488" data-article-title="Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.05488" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.05488" target="_blank" rel="noopener">Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought</a></h3>
      <p class="summary">We provide evidence of performative chain-of-thought (CoT) in reasoning models, where a model becomes strongly confident in its final answe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="264d5adab38c" data-article-url="https://arxiv.org/abs/2603.11331" data-article-title="Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.11331" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.11331" target="_blank" rel="noopener">Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover</a></h3>
      <p class="summary">Adversarial attacks can reliably steer safety-aligned large language models toward unsafe behavior. Empirically, we find that adversarial p…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4c8a96f33b6f" data-article-url="https://arxiv.org/abs/2603.13249" data-article-title="Steering at the Source: Style Modulation Heads for Robust Persona Control" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.13249" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.13249" target="_blank" rel="noopener">Steering at the Source: Style Modulation Heads for Robust Persona Control</a></h3>
      <p class="summary">Activation steering offers a computationally efficient mechanism for controlling Large Language Models (LLMs) without fine-tuning. While ef…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0cd6e2ff55ed" data-article-url="https://arxiv.org/abs/2603.14778" data-article-title="P$^2$RAG: Efficient Privacy-Preserving RAG Service Supporting Arbitrary Top-$k$ Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.14778" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.14778" target="_blank" rel="noopener">P$^2$RAG: Efficient Privacy-Preserving RAG Service Supporting Arbitrary Top-$k$ Retrieval</a></h3>
      <p class="summary">Retrieval-Augmented Generation (RAG) enables large language models to use external knowledge, but outsourcing the RAG service raises privac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8d355a4853a8" data-article-url="https://arxiv.org/abs/2603.16673" data-article-title="When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.16673" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.16673" target="_blank" rel="noopener">When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making</a></h3>
      <p class="summary">Embodied robotic systems increasingly rely on large language model (LLM)-based agents to support high-level reasoning, planning, and decisi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c111d9a4dd9b" data-article-url="https://arxiv.org/abs/2603.19294" data-article-title="Maximizing Mutual Information Between Prompt and Response Improves LLM Performance With No Additional Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.19294" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.19294" target="_blank" rel="noopener">Maximizing Mutual Information Between Prompt and Response Improves LLM Performance With No Additional Data</a></h3>
      <p class="summary">While post-training has successfully improved large language models (LLMs) across a variety of domains, these gains heavily rely on human-l…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="12e4ab560378" data-article-url="https://arxiv.org/abs/2603.23069" data-article-title="AuthorMix: Modular Authorship Style Transfer via Layer-wise Adapter Mixing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23069" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23069" target="_blank" rel="noopener">AuthorMix: Modular Authorship Style Transfer via Layer-wise Adapter Mixing</a></h3>
      <p class="summary">The task of authorship style transfer involves rewriting text in the style of a target author while preserving the meaning of the original…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3af4ea183956" data-article-url="https://arxiv.org/abs/2603.23971" data-article-title="The Price Reversal Phenomenon: When Cheaper Reasoning Models Cost More" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23971" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23971" target="_blank" rel="noopener">The Price Reversal Phenomenon: When Cheaper Reasoning Models Cost More</a></h3>
      <p class="summary">Developers and consumers increasingly choose reasoning models (RMs) based on their listed API prices. However, how accurately do these pric…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="25ec4679711f" data-article-url="https://arxiv.org/abs/2603.26668" data-article-title="Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.26668" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.26668" target="_blank" rel="noopener">Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm</a></h3>
      <p class="summary">As an important paradigm for enhancing the generation quality of Large Language Models (LLMs), retrieval-augmented generation (RAG) faces t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ee421150e9c9" data-article-url="https://arxiv.org/abs/2603.27052" data-article-title="Multi-Level Barriers to Generative AI Adoption Across Disciplines and Professional Roles in Higher Education" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.27052" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.27052" target="_blank" rel="noopener">Multi-Level Barriers to Generative AI Adoption Across Disciplines and Professional Roles in Higher Education</a></h3>
      <p class="summary">Generative Artificial Intelligence (GenAI) is rapidly reshaping higher education, yet barriers to its adoption across different disciplines…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5f54570e3cf2" data-article-url="https://arxiv.org/abs/2603.27667" data-article-title="EvA: An Evidence-First Audio Understanding Paradigm for LALMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.27667" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.27667" target="_blank" rel="noopener">EvA: An Evidence-First Audio Understanding Paradigm for LALMs</a></h3>
      <p class="summary">Large Audio Language Models (LALMs) still struggle in complex acoustic scenes because they often fail to preserve task-relevant acoustic ev…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="efe8b8e08150" data-article-url="https://arxiv.org/abs/2604.01473" data-article-title="SelfGrader: LLM Jailbreak Detection via Anchored Token-Level Logits" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.01473" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.01473" target="_blank" rel="noopener">SelfGrader: LLM Jailbreak Detection via Anchored Token-Level Logits</a></h3>
      <p class="summary">Large Language Models (LLMs) are powerful tools for answering user queries, yet they remain highly vulnerable to jailbreak attacks. Existin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b46947d6b075" data-article-url="https://arxiv.org/abs/2604.01904" data-article-title="Combating Data Laundering in LLM Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.01904" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.01904" target="_blank" rel="noopener">Combating Data Laundering in LLM Training</a></h3>
      <p class="summary">Data rights owners can detect unauthorized data use in large language model (LLM) training by querying with proprietary samples. Often, sup…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4b4bf2674358" data-article-url="https://arxiv.org/abs/2604.04956" data-article-title="The Planetary Cost of AI Acceleration, Part II: The 10th Planetary Boundary and the 6.5-Year Countdown" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.04956" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.04956" target="_blank" rel="noopener">The Planetary Cost of AI Acceleration, Part II: The 10th Planetary Boundary and the 6.5-Year Countdown</a></h3>
      <p class="summary">The recent, super-exponential scaling of autonomous Large Language Model (LLM) agents signals a broader, fundamental paradigm shift from ma…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a5410f7894b5" data-article-url="https://arxiv.org/abs/2604.06811" data-article-title="SkillTrojan: Backdoor Attacks on Skill-Based Agent Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.06811" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.06811" target="_blank" rel="noopener">SkillTrojan: Backdoor Attacks on Skill-Based Agent Systems</a></h3>
      <p class="summary">Skill-based agent systems tackle complex tasks by composing reusable skills, improving modularity and scalability while introducing a large…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2e0b310dcadd" data-article-url="https://arxiv.org/abs/2604.09557" data-article-title="SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.09557" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.09557" target="_blank" rel="noopener">SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding</a></h3>
      <p class="summary">Speculative Decoding (SD) has emerged as a critical technique for accelerating Large Language Model (LLM) inference. Unlike deterministic s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f394c7db7904" data-article-url="https://arxiv.org/abs/2604.11080" data-article-title="ReSpinQuant: Efficient Layer-Wise LLM Quantization via Subspace Residual Rotation Approximation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.11080" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.11080" target="_blank" rel="noopener">ReSpinQuant: Efficient Layer-Wise LLM Quantization via Subspace Residual Rotation Approximation</a></h3>
      <p class="summary">Rotation-based Post-Training Quantization (PTQ) has emerged as a promising solution for mitigating activation outliers in the quantization…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a6ba67c4c12" data-article-url="https://arxiv.org/abs/2604.17176" data-article-title="Intent-aligned Autonomous Spacecraft Guidance via Reasoning Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.17176" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.17176" target="_blank" rel="noopener">Intent-aligned Autonomous Spacecraft Guidance via Reasoning Models</a></h3>
      <p class="summary">Future spacecraft operations require autonomy that can interpret high-level mission intent while preserving safety. However, existing traje…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9b98aa013799" data-article-url="https://arxiv.org/abs/2604.19532" data-article-title="BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.19532" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.19532" target="_blank" rel="noopener">BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps</a></h3>
      <p class="summary">Tokenizing music to fit the general framework of language models is a compelling challenge, especially considering the diverse symbolic str…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a041e9afab9f" data-article-url="https://arxiv.org/abs/2604.20443" data-article-title="DialToM: A Theory of Mind Benchmark for Forecasting State-Driven Dialogue Trajectories" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.20443" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.20443" target="_blank" rel="noopener">DialToM: A Theory of Mind Benchmark for Forecasting State-Driven Dialogue Trajectories</a></h3>
      <p class="summary">We introduce DialToM, an annotated Theory of Mind (ToM) benchmark built from naturalistic human-human dialogues using a multiple-choice eva…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e6a9df0e4957" data-article-url="https://arxiv.org/abs/2604.21654" data-article-title="Causal Disentanglement-Inspired Degradation Representation Learning for Full-Reference Image Quality Assessment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.21654" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.21654" target="_blank" rel="noopener">Causal Disentanglement-Inspired Degradation Representation Learning for Full-Reference Image Quality Assessment</a></h3>
      <p class="summary">Existing deep network-based full-reference image quality assessment (FR-IQA) models typically work by performing pairwise comparisons of de…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="729dee9e73e4" data-article-url="https://arxiv.org/abs/2604.23256" data-article-title="Architecture-Induced Recoverability Bias in Differentiable Symbolic Regression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.23256" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.23256" target="_blank" rel="noopener">Architecture-Induced Recoverability Bias in Differentiable Symbolic Regression</a></h3>
      <p class="summary">Symbolic regression aims to recover closed-form expressions from numerical data, but in differentiable symbolic regression the recovered ex…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8246c21c8113" data-article-url="https://arxiv.org/abs/2604.23354" data-article-title="Explainable AI in Speaker Recognition -- Making Latent Representations Understandable" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.23354" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.23354" target="_blank" rel="noopener">Explainable AI in Speaker Recognition -- Making Latent Representations Understandable</a></h3>
      <p class="summary">Neural networks can be trained to learn task-relevant representations from data. Understanding how these networks make decisions falls with…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f3878fd9027" data-article-url="https://arxiv.org/abs/2604.23862" data-article-title="Graph Memory Transformer (GMT)" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.23862" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.23862" target="_blank" rel="noopener">Graph Memory Transformer (GMT)</a></h3>
      <p class="summary">We investigate whether the Feed-Forward Network (FFN) sublayer in a decoder-only transformer can be replaced by an explicit learned memory…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d7668ae0e20e" data-article-url="https://arxiv.org/abs/2604.27272" data-article-title="When 2D Tasks Meet 1D Serialization: On Serialization Friction in Structured Tasks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.27272" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.27272" target="_blank" rel="noopener">When 2D Tasks Meet 1D Serialization: On Serialization Friction in Structured Tasks</a></h3>
      <p class="summary">In the LLM era, many symbolic and structured problems are presented to models through 1D text serialization. Yet some such problems are nat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="070c697df331" data-article-url="https://arxiv.org/abs/2605.00969" data-article-title="MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.00969" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.00969" target="_blank" rel="noopener">MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio</a></h3>
      <p class="summary">Medical audio data is difficult to collect due to privacy regulations and high annotation costs arising from domain expertise. Thus, existi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f64c717c3786" data-article-url="https://arxiv.org/abs/2605.05155" data-article-title="Aes3D: Aesthetic Assessment in 3D Gaussian Splatting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.05155" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.05155" target="_blank" rel="noopener">Aes3D: Aesthetic Assessment in 3D Gaussian Splatting</a></h3>
      <p class="summary">As 3D Gaussian Splatting (3DGS) gains attention in immersive media and digital content creation, assessing the aesthetics of 3D scenes beco…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d63b3a04cc35" data-article-url="https://arxiv.org/abs/2605.07804" data-article-title="Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.07804" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.07804" target="_blank" rel="noopener">Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning</a></h3>
      <p class="summary">On-policy distillation (OPD) leverages dense teacher rewards to enhance reasoning models. However, scaling OPD to long-horizon tasks expose…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="678aadbe0234" data-article-url="https://arxiv.org/abs/2605.09823" data-article-title="CalBench: Evaluating Coordination-Privacy Trade-offs in Multi-Agent LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.09823" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.09823" target="_blank" rel="noopener">CalBench: Evaluating Coordination-Privacy Trade-offs in Multi-Agent LLMs</a></h3>
      <p class="summary">Personal AI assistants are beginning to act as delegates with access to calendars, inboxes, and user preferences. Calendar scheduling makes…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="08e2e468be0a" data-article-url="https://arxiv.org/abs/2605.11723" data-article-title="CaC: Advancing Video Reward Models via Hierarchical Spatiotemporal Concentrating" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.11723" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.11723" target="_blank" rel="noopener">CaC: Advancing Video Reward Models via Hierarchical Spatiotemporal Concentrating</a></h3>
      <p class="summary">In this paper, we propose Concentrate and Concentrate (CaC), a coarse-to-fine anomaly reward model based on Vision-Language Models. During…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dc112df858bb" data-article-url="https://arxiv.org/abs/2605.12208" data-article-title="Self-Supervised Laplace Approximation for Bayesian Uncertainty Quantification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.12208" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.12208" target="_blank" rel="noopener">Self-Supervised Laplace Approximation for Bayesian Uncertainty Quantification</a></h3>
      <p class="summary">Approximate Bayesian inference typically revolves around computing the posterior parameter distribution. In practice, however, the main obj…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="869fcc64eef0" data-article-url="https://arxiv.org/abs/2605.12925" data-article-title="AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.12925" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.12925" target="_blank" rel="noopener">AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation</a></h3>
      <p class="summary">Here is the updated abstract: Evaluation of software engineering (SWE) agents is dominated by a binary signal: whether the final patch pass…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3d105d3a7084" data-article-url="https://arxiv.org/abs/2605.13230" data-article-title="Teacher-Guided Policy Optimization for On-Policy Reasoning Distillation under Large Policy Divergence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13230" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13230" target="_blank" rel="noopener">Teacher-Guided Policy Optimization for On-Policy Reasoning Distillation under Large Policy Divergence</a></h3>
      <p class="summary">On-policy distillation (OPD) has become a promising paradigm for reasoning-oriented post-training of large language models (LLMs), especial…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c75c876c1ef6" data-article-url="https://arxiv.org/abs/2605.13511" data-article-title="Many-Shot CoT-ICL: Making In-Context Learning Truly Learn" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13511" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13511" target="_blank" rel="noopener">Many-Shot CoT-ICL: Making In-Context Learning Truly Learn</a></h3>
      <p class="summary">While many-shot ICL achieves remarkable performance, prior studies of its scaling behavior have mainly focused on non-reasoning tasks. In t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4b4b7a05b20" data-article-url="https://arxiv.org/abs/2605.13548" data-article-title="AttenA+: Rectifying Action Inequality in Robotic Foundation Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13548" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13548" target="_blank" rel="noopener">AttenA+: Rectifying Action Inequality in Robotic Foundation Models</a></h3>
      <p class="summary">Existing robotic foundation models, while powerful, are predicated on an implicit assumption of temporal homogeneity: treating all actions…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="57cdec68dbb7" data-article-url="https://arxiv.org/abs/2605.13841" data-article-title="EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13841" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13841" target="_blank" rel="noopener">EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents</a></h3>
      <p class="summary">Voice agents, artificial intelligence systems that conduct spoken conversations to complete tasks, are increasingly deployed across enterpr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a0639ad90a0b" data-article-url="https://arxiv.org/abs/2605.14113" data-article-title="ProtoMedAgent: Multimodal Clinical Interpretability via Privacy-Aware Agentic Workflows" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.14113" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.14113" target="_blank" rel="noopener">ProtoMedAgent: Multimodal Clinical Interpretability via Privacy-Aware Agentic Workflows</a></h3>
      <p class="summary">While interpretable prototype networks offer compelling case-based reasoning for clinical diagnostics, their raw continuous outputs lack th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2f3b402a57de" data-article-url="https://arxiv.org/abs/2605.14373" data-article-title="Turning Stale Gradients into Stable Gradients: Coherent Coordinate Descent with Implicit Landscape Smoothing for Lightweight Zeroth-Order Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.14373" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.14373" target="_blank" rel="noopener">Turning Stale Gradients into Stable Gradients: Coherent Coordinate Descent with Implicit Landscape Smoothing for Lightweight Zeroth-Order Optimization</a></h3>
      <p class="summary">Zeroth-Order (ZO) optimization is pivotal for scenarios where backpropagation is unavailable, such as memory-constrained on-device learning…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d4bb74eb12a5" data-article-url="https://arxiv.org/abs/2605.16385" data-article-title="Hilbert-Geo: Solving Solid Geometric Problems by Neural-Symbolic Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.16385" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.16385" target="_blank" rel="noopener">Hilbert-Geo: Solving Solid Geometric Problems by Neural-Symbolic Reasoning</a></h3>
      <p class="summary">Geometric problem solving, as a typical multimodal reasoning problem, has attracted much attention and made great progress recently, howeve…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="36852a660e8f" data-article-url="https://arxiv.org/abs/2605.16825" data-article-title="Echoes in Filter Bubble: Diagnosing and Curing Popularity Bias in Generative Recommenders" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.16825" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.16825" target="_blank" rel="noopener">Echoes in Filter Bubble: Diagnosing and Curing Popularity Bias in Generative Recommenders</a></h3>
      <p class="summary">Recently, Generative Recommenders (GRs), characterized by a unified end-to-end framework, have exhibited astonishing potential in transform…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4949767c50d9" data-article-url="https://arxiv.org/abs/2605.22080" data-article-title="JMed48k: A Multi-Profession Japanese Medical Licensing Benchmark for Vision-Language Model Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.22080" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.22080" target="_blank" rel="noopener">JMed48k: A Multi-Profession Japanese Medical Licensing Benchmark for Vision-Language Model Evaluation</a></h3>
      <p class="summary">We introduce JMed48k, a multi-profession Japanese healthcare licensing benchmark for evaluating vision-language models. Built from official…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="153a49a9cda7" data-article-url="https://arxiv.org/abs/2605.22737" data-article-title="The Distillation Game: Adaptive Attacks &amp; Efficient Defenses" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.22737" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.22737" target="_blank" rel="noopener">The Distillation Game: Adaptive Attacks &amp; Efficient Defenses</a></h3>
      <p class="summary">Distillation attacks create a deployment trade-off for model providers: the same outputs that make a model more useful can also make it eas…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a9f5a2f0ad2e" data-article-url="https://arxiv.org/abs/2605.22771" data-article-title="Reducing Political Manipulation with Consistency Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.22771" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.22771" target="_blank" rel="noopener">Reducing Political Manipulation with Consistency Training</a></h3>
      <p class="summary">Large language models (LLMs) exhibit systematic political bias across a variety of sensitive contexts. We find that LLMs handle counterpart…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7c28c8b9f3f7" data-article-url="https://arxiv.org/abs/2605.23440" data-article-title="SSDAU: 結合エンティティと関係抽出のための構造化セマンティック データ拡張" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.23440" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.23440" target="_blank" rel="noopener">SSDAU: 結合エンティティと関係抽出のための構造化セマンティック データ拡張</a></h3>
      <p class="summary">Joint Entity and Relation Extraction (JERE) は、低品質のトレーニング データにより弱い一般化の影響を非常に受けやすくなります。データ拡張は、さまざまなドメインにわたるモデルの一般化を強化するための一般的な戦略です。ただし、既存のデータ拡張手法ではテキストの関連性が見落とされることが多く、意味構造や依存関係が破壊される可能性があるため、モデルの一般化を改善するための効果的な拡張データを生成することが困難になります。この論文では、拡張中にテキストの意味構造を保持するように設計された新しい方法である構造化意味データ拡張 (SSDAU) を提案します。 SSDAU はエンティティ ラベルに基づいてテキストをセグメント化し、エンコーダを使用してコンテキスト認識を通じてエンティティの意味論的特徴をキャプチャします。次に、エンティティのセマンティック再構築を実行して拡張データを生成します。意味的に類似したエンティティを区別するために、SSDAU はコンテキスト化された埋め込みと従来の類似性スコアを融合します。潜在的なトピックのあいまいさと情報損失を軽減するために、BERTTopic モデルを適用して無関係なトピックを除外し、トピックの一貫性を確保します。さまざまなアノテーション タイプを持つデータセットで SSDAU を評価し、5 つの代表的な JERE モデルでのパフォーマンスを 7 つの一般的なデータ拡張ベースラインと比較します。実験では、SSDAU が曖昧さに対して優れた堅牢性を備えた意味的に一貫したデータを生成し (F1 の減少が 8.26\% 対ベースラインの \ 31.91\%)、すべてのメトリクスにわたって既存のすべての方法を大幅に上回っていることが実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SSDAU: Structured Semantic Data Augmentation for Joint Entity and Relation Extraction</p>
        <p class="orig-summary">Joint Entity and Relation Extraction (JERE) is highly sensitive to training data quality, making data augmentation a natural way to improve generalization. However, existing augmentation methods often weaken entity relevance and disrupt semantic structure, limiting their effectiveness for JERE. In this paper, we propose \textbf{Structured Semantic Data Augmentation (SSDAU)}, a method designed to preserve triple-aware semantic structure during augmentation. SSDAU segments text by entity labels, captures semantic features through context-aware encoding, and restructures entity semantics to generate augmented data. To distinguish semantically similar entities, SSDAU combines contextualized embeddings with traditional similarity scores. To reduce topic inconsistency, we apply BERTopic-based filtering to remove irrelevant augmentations. We evaluate SSDAU on datasets with different annotation types and compare its performance on five representative JERE models against seven popular augmentation baselines. Experiments show that SSDAU generates semantically consistent data, is more robust to ambiguity than non-LLM methods (8.95\% vs. 23.58\% average relative F1 decrease), and significantly outperforms strong alternatives in most settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b0c2bc2b381f" data-article-url="https://arxiv.org/abs/2605.23993" data-article-title="Nano World モデル: 未来のビデオ予測のミニマリスト的な実装" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.23993" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.23993" target="_blank" rel="noopener">Nano World モデル: 未来のビデオ予測のミニマリスト的な実装</a></h3>
      <p class="summary">世界モデルは、生成、計画、意思決定をサポートする予測シミュレーターを学習するための中心的なパラダイムとなっています。しかし、業界規模のインタラクティブビデオ生成が急速に進歩しているにもかかわらず、広範な研究コミュニティには、現代の世界モデルの基礎となる設計の選択を研究するための、コンパクトで再現性があり、容易に拡張可能な実装がまだ不足しています。拡散強制を中心とした将来のビデオ予測のための最小限のコードベースである Nano World Models を紹介します。 Nano World Models は、生成目標、モデル スケール、アクション条件付けメカニズム、潜在観察空間、データセット、評価プロトコル、および長期的なロールアウト手順のための統一インターフェイスを提供します。この設計により、別々の実装にまたがって絡み合うことが多いワールド モデリング コンポーネントの制御された研究が可能になります。単純な制御環境、ゲーム シミュレーション、実際のロボット データにわたる実験を通じて、予測パラメータ化、アーキテクチャ スケール、アクション インジェクション、サンプリング バジェット、ドメインの複雑さがビデオ予測の品質と自己回帰ロールアウトの動作にどのように影響するかを調査します。 Nano World Models は、コード、構成、評価スクリプト、事前トレーニング済みチェックポイントをリリースすることにより、オープンで再現可能な科学的なワールド モデル研究のための、コンパクトでありながら拡張可能な実験基盤を提供することを目指しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Nano World Models: A Minimalist Implementation of Future Video Prediction</p>
        <p class="orig-summary">World models have become a central paradigm for learning predictive simulators that support generation, planning, and decision-making. Yet, despite rapid progress in industry-scale interactive video generation, the broader research community still lacks compact, reproducible, and easily extensible implementations for studying the design choices underlying modern world models. We introduce Nano World Models, a minimalist codebase for future video prediction centered around diffusion forcing. Nano World Models provides a unified interface for generative objectives, model scales, action-conditioning mechanisms, latent observation spaces, datasets, evaluation protocols, and long-horizon rollout procedures. This design enables controlled studies of world-modeling components that are often entangled across separate implementations. Through experiments across simple control environments, game simulation, and real-robot data, we examine how prediction parameterization, architecture scale, action injection, sampling budget, and domain complexity affect video prediction quality and autoregressive rollout behavior. By releasing code, configurations, evaluation scripts, and pretrained checkpoints, Nano World Models aims to provide a compact yet extensible experimental substrate for open, reproducible, and scientific world-model research.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="32b97aa7ad36" data-article-url="https://arxiv.org/abs/2605.24460" data-article-title="Coarse-to-Fine Domain Incremental Learning with Attentive Distillation for Mining Footprint Segmentation in Multispectral Imagery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24460" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24460" target="_blank" rel="noopener">Coarse-to-Fine Domain Incremental Learning with Attentive Distillation for Mining Footprint Segmentation in Multispectral Imagery</a></h3>
      <p class="summary">Automatically mapping and segmenting global mining footprints using remote sensing and deep learning is critical for monitoring the socio-e…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f0bb6a043c25" data-article-url="https://arxiv.org/abs/2605.24846" data-article-title="Tiny Brains, Giant Impact: Uncovering the Keystone Neurons of LLM with Just a Few Prompts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24846" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24846" target="_blank" rel="noopener">Tiny Brains, Giant Impact: Uncovering the Keystone Neurons of LLM with Just a Few Prompts</a></h3>
      <p class="summary">Large language models (LLMs) display strong comprehensive abilities, yet the internal mechanisms that support these behaviors remain insuff…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b574aae0cae5" data-article-url="https://arxiv.org/abs/2605.24934" data-article-title="HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24934" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24934" target="_blank" rel="noopener">HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos</a></h3>
      <p class="summary">Human egocentric video captures rich manipulation demonstrations without any robot hardware, yet transferring these skills to robots remain…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bdfe23b8b153" data-article-url="https://arxiv.org/abs/2605.25134" data-article-title="Theoretical Analysis of Sparse Optimization with Reparameterization, Weight Decay, and Adaptive Learning Rate" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25134" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25134" target="_blank" rel="noopener">Theoretical Analysis of Sparse Optimization with Reparameterization, Weight Decay, and Adaptive Learning Rate</a></h3>
      <p class="summary">Sparse optimization is a fundamental challenge in various practical applications. A popular approach to sparse optimization is $\ell_p$ reg…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="370bea366f2a" data-article-url="https://arxiv.org/abs/2605.25297" data-article-title="Eureka: Intelligent Feature Engineering for Enterprise AI Cloud Resource Demand Prediction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/alibaba/" data-entity="alibaba">Alibaba</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25297" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25297" target="_blank" rel="noopener">Eureka: Intelligent Feature Engineering for Enterprise AI Cloud Resource Demand Prediction</a></h3>
      <p class="summary">Effective features are crucial for predictive model performance, but creating them often requires domain expertise, limiting scalability ac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="63519edfa6ec" data-article-url="https://arxiv.org/abs/2605.25376" data-article-title="KYA: A Framework-Agnostic Trust Layer for Autonomous Systems with Verifiable Provenance and Hierarchical Policy Composition" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25376" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25376" target="_blank" rel="noopener">KYA: A Framework-Agnostic Trust Layer for Autonomous Systems with Verifiable Provenance and Hierarchical Policy Composition</a></h3>
      <p class="summary">KYA (Know Your Agents) is an open-source, framework-agnostic trust and governance layer for autonomous systems, composed of five primitives…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="37879b75b67b" data-article-url="https://arxiv.org/abs/2605.25413" data-article-title="Autoregression-Free Neural Operators for Time-Dependent PDEs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25413" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25413" target="_blank" rel="noopener">Autoregression-Free Neural Operators for Time-Dependent PDEs</a></h3>
      <p class="summary">Neural operators learn mappings from function-dependent inputs to solutions, providing an effective framework for solving partial different…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dafb6f6f9e33" data-article-url="https://arxiv.org/abs/2605.25556" data-article-title="Keep the Proof State Live: Snapshotting for Efficient Tactic Search in Lean 4" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25556" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25556" target="_blank" rel="noopener">Keep the Proof State Live: Snapshotting for Efficient Tactic Search in Lean 4</a></h3>
      <p class="summary">Automated theorem proving systems built on Lean 4 increasingly rely on parallel tactic search over partially specified proofs, such as thos…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb3c39d13c76" data-article-url="https://arxiv.org/abs/2605.26092" data-article-title="GoQuant: Geometric Orthogonal Residual Projection for Multiplier-Free Power-of-Two Transformer Quantization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26092" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26092" target="_blank" rel="noopener">GoQuant: Geometric Orthogonal Residual Projection for Multiplier-Free Power-of-Two Transformer Quantization</a></h3>
      <p class="summary">The deployment of Large Language Models (LLMs) and Vision Transformers (ViTs) on edge devices is significantly constrained by memory limita…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="22d8e34dbc05" data-article-url="https://arxiv.org/abs/2605.26156" data-article-title="偏見をバグに変える: LLM 裁判官に対する盗賊主導のスタイル操作攻撃" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26156" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26156" target="_blank" rel="noopener">偏見をバグに変える: LLM 裁判官に対する盗賊主導のスタイル操作攻撃</a></h3>
      <p class="summary">冗長性や特定の文構造を好むなど、LLM 裁判官の既知の文体上の偏見は、十分に調査されていないセキュリティ上の脆弱性を示しています。この研究では、LLM 裁判官を誤解させ、割り当てられるスコアを人為的につり上げるために意味論を保持する編集を学習するブラックボックスの敵対的フレームワークである BITE (BIas exploraTion and Exploitation) を導入します。スタイル編集の選択をコンテキスト バンディット問題としてキャストし、LinUCB ポリシーを使用して、モデル パラメーターや勾配にアクセスせずに審査員のスコアを最大化する編集を適応的に選択します。経験的に、チャットボットのリーダーボードと AI レビューアーのベンチマークでのポイントごとの比較とペアごとの比較の両方を含む、さまざまな LLM ジャッジとタスクにわたって BITE をテストします。 BITE は、意味上の同等性を維持しながら、65% を超える攻撃成功率を達成し、9 ポイント スケールで 1 ～ 2 ポイントスコアを上げます。さらに攻撃のステルス性を評価し、BITE が標準的なスタイル制御手法といくつかの検出ベースラインを回避していることを示しました。私たちの調査結果は、裁判官としての LLM パラダイムの根本的な弱点を明らかにし、堅牢で攻撃を意識した評価を動機付けます。私たちのコードは https://github.com/xianglinyang/llm-as-a-judge-attach で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Turning Bias into Bugs: Bandit-Guided Style Manipulation Attacks on LLM Judges</p>
        <p class="orig-summary">The known stylistic biases in LLM judges, such as a preference for verbosity or specific sentence structures, present an underexplored security vulnerability. In this work, we introduce BITE (BIas exploraTion and Exploitation), a black-box adversarial framework that learns semantics-preserving edits to mislead an LLM judge and artificially inflate the scores it assigns. We cast the selection of stylistic edits as a contextual bandit problem and use a LinUCB policy to adaptively choose edits that maximize the judge&#x27;s score without access to model parameters or gradients. Empirically, we test BITE across a diverse range of LLM judges and tasks, including both pointwise and pairwise comparisons on chatbot leaderboards and AI-reviewer benchmarks. BITE achieves an attack success rate exceeding 65% and raises scores by 1-2 points on a 9-point scale, all while preserving semantic equivalence. We further assess the attack&#x27;s stealthiness, showing that BITE evades standard style-control methods and several detection baselines. Our findings expose a fundamental weakness in the LLM-as-a-judge paradigm and motivate robust, attack-aware evaluation. Our code is available at https://github.com/xianglinyang/llm-as-a-judge-attack.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f8e7c6b8fac" data-article-url="https://arxiv.org/abs/2605.26193" data-article-title="ブリッジングの分類と再構築: 協調的な時系列異常検出" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26193" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26193" target="_blank" rel="noopener">ブリッジングの分類と再構築: 協調的な時系列異常検出</a></h3>
      <p class="summary">時系列異常検出 (TSAD) は、さまざまな用途があるため、データ マイニングにおける長年の注目の研究トピックです。最近の研究では、TSAD に対する一般的な深層学習手法の有効性に疑問が呈されており、微妙な長期にわたる異常の検出に失敗していることが示唆されています。 Outlier Exposure (OE) と Masked Autoencoder (MAE) は、上記の問題を解決するための 2 つの有望なパラダイム (分類と再構築) として浮上しています。ただし、OE ベースの手法は一般化が不十分であるため制約があり、MAE ベースの手法は位置ずれの問題をマスクすることによって制限されます。これらの制限に対処するために、この論文では、2 つのパラダイムを統合して、それぞれの弱点を軽減しながら補完的な長所を活用する新しいフレームワーク CoAD を提案します。このフレームワークでは、分類モジュールが再構成モジュール用の確率に基づいたソフト マスクを生成するため、分類モジュールの一般化問題が軽減されます。この協調的な設計により、CoAD は既存の方法では見落とされがちな微妙で複雑な異常を効果的に検出できます。さらに、分類モジュールは、不適切な分類粒度と頻度情報の無視に関連する問題を解決するように慎重に設計されています。厳格な評価プロトコルの下で行われた高品質のベンチマーク データセットに対する広範な実験により、CoAD が最先端のディープ ラーニングと従来のデータ マイニング手法の両方を大幅に上回ることが実証され、TSAD におけるディープ ラーニングの可能性が強調されています。さらに、CoAD は軽量で、既存の SOTA 手法よりも大幅に高速であるため、大規模なリアルタイム アプリケーションにとって実用的な価値が実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Bridging Classification and Reconstruction: Cooperative Time Series Anomaly Detection</p>
        <p class="orig-summary">Time series anomaly detection (TSAD) has long been a hot research topic in data mining due to its various applications. Recent studies challenge the effectiveness of popular deep learning methods for TSAD, suggesting their failure in detecting subtle and prolonged anomalies. Outlier Exposure (OE) and Masked Autoencoder (MAE) emerge as two promising paradigms (classification and reconstruction) for solving the above problems. However, OE-based methods are constrained by poor generalization, while MAE-based methods are limited by masking misalignment issues. To address these limitations, this paper proposes a novel framework, CoAD, which unifies the two paradigms to leverage their complementary strengths while mitigating their respective weaknesses. In this framework, the classification module generates probability-informed soft masks for the reconstruction module, which in turn alleviates the generalization problem of the classification module. This cooperative design enables CoAD to effectively detect subtle and complex anomalies that are often overlooked by existing methods. Additionally, the classification module is carefully designed to resolve issues related to improper classification granularity and the neglect of frequency information. Extensive experiments on high-quality benchmark datasets, conducted under rigorous evaluation protocols, demonstrate that CoAD significantly outperforms both state-of-the-art deep learning and traditional data mining methods, highlighting the potential of deep learning in TSAD. Moreover, CoAD is lightweight and substantially faster than existing SOTA methods, demonstrating its practical value for large-scale, real-time applications.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="00ed19b787e5" data-article-url="https://arxiv.org/abs/2605.26255" data-article-title="Prospective evaluation of multimodal respiratory failure prediction: Do chest X-rays improve performance beyond EHR signals?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26255" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26255" target="_blank" rel="noopener">Prospective evaluation of multimodal respiratory failure prediction: Do chest X-rays improve performance beyond EHR signals?</a></h3>
      <p class="summary">Early prediction of respiratory failure is critical for timely clinical intervention in intensive care units. Existing electronic health re…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b00f3e7b05fc" data-article-url="https://arxiv.org/abs/2605.27078" data-article-title="Two Speeds of Learning: A Representation-Readout Decomposition of Grokking and Double Descent" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27078" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27078" target="_blank" rel="noopener">Two Speeds of Learning: A Representation-Readout Decomposition of Grokking and Double Descent</a></h3>
      <p class="summary">Training loss and accuracy are the standard signals used to monitor generalization during deep neural network training. Two well-documented…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="695f7dfaf731" data-article-url="https://arxiv.org/abs/2605.27377" data-article-title="Enhancing LLM Medical Coding with Structured External Knowledge" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27377" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27377" target="_blank" rel="noopener">Enhancing LLM Medical Coding with Structured External Knowledge</a></h3>
      <p class="summary">Accurate medical coding requires consulting authoritative resources such as the ICD tabular list and coding guidelines. Existing LLM-based…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="60fff3ff8ffa" data-article-url="https://arxiv.org/abs/2605.27382" data-article-title="The Alignment Floor: How Persona Customization Breaks Safety in Weakly-Aligned LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27382" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27382" target="_blank" rel="noopener">The Alignment Floor: How Persona Customization Breaks Safety in Weakly-Aligned LLMs</a></h3>
      <p class="summary">Telling an LLM to &quot;be enthusiastic&quot; raises its sycophancy rate from 30\% to 50\% on a lightly-aligned model, but has zero effect on a stron…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="225c28afea5d" data-article-url="https://arxiv.org/abs/2605.27387" data-article-title="From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27387" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27387" target="_blank" rel="noopener">From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons</a></h3>
      <p class="summary">Diffusion models promise efficient parallel text generation but rely on bidirectional attention, creating a structural mismatch with pre-tr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0fbe971bc1d9" data-article-url="https://arxiv.org/abs/2605.27390" data-article-title="EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter Adaptation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27390" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27390" target="_blank" rel="noopener">EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter Adaptation</a></h3>
      <p class="summary">Speculative decoding accelerates Large Language Model inference via a draft-then-verify paradigm, yet the output projection layer becomes a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="66861c639c12" data-article-url="https://arxiv.org/abs/2605.27480" data-article-title="BIRDS: Characterizing and Understanding Biodiversity Impact of Large Language Model Serving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27480" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27480" target="_blank" rel="noopener">BIRDS: Characterizing and Understanding Biodiversity Impact of Large Language Model Serving</a></h3>
      <p class="summary">Large language model (LLM) serving creates environmental impacts beyond carbon and water, including ecosystem damage through biodiversity-r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="49a71cc64725" data-article-url="https://arxiv.org/abs/2605.27959" data-article-title="ROVER: Routing Object-Centric Visual Evidence for Grounded Multi-Image Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27959" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27959" target="_blank" rel="noopener">ROVER: Routing Object-Centric Visual Evidence for Grounded Multi-Image Reasoning</a></h3>
      <p class="summary">Multimodal Large Language Models (MLLMs) have increasingly localized and interleaved visual evidence for deliberative reasoning. Grounding-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="edc8dab43389" data-article-url="https://arxiv.org/abs/2605.28166" data-article-title="QuITE: Query-Based Irregular Time Series Embedding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28166" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28166" target="_blank" rel="noopener">QuITE: Query-Based Irregular Time Series Embedding</a></h3>
      <p class="summary">Irregular Multivariate Time Series (IMTS) are common in practice, yet their irregular sampling complicates effective modeling. Existing app…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5a8920a09bb8" data-article-url="https://arxiv.org/abs/2605.28293" data-article-title="ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28293" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28293" target="_blank" rel="noopener">ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation</a></h3>
      <p class="summary">Proactive Recommender Systems (PRSs) aim to guide user preference shift toward target items by generating paths of intermediate recommendat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2d55869604d0" data-article-url="https://arxiv.org/abs/2605.28746" data-article-title="Preference-Shaped Expected Hypervolume and R2 Improvement: Exact Computation and Monotonicity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28746" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28746" target="_blank" rel="noopener">Preference-Shaped Expected Hypervolume and R2 Improvement: Exact Computation and Monotonicity</a></h3>
      <p class="summary">This paper studies preference-shaped expected improvement criteria for Bayesian multiobjective optimization. We consider two indicator fami…</p>
    </div>
  </div>
</div>
</div>
</details>
</div>]]></content><author><name></name></author><summary type="html"><![CDATA[AIニュース 2026-05-30 — 573件のストーリーを出典・トピック・要約とともに掲載。]]></summary><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-05-30.png" /><media:content medium="image" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-05-30.png" xmlns:media="http://search.yahoo.com/mrss/" /></entry><entry><title type="html">AIニュース 2026-05-29</title><link href="https://ai-news-bot-henna.vercel.app/news/2026/05/2026-05-29/" rel="alternate" type="text/html" title="AIニュース 2026-05-29" /><published>2026-05-29T00:00:00+00:00</published><updated>2026-05-29T00:00:00+00:00</updated><id>https://ai-news-bot-henna.vercel.app/news/2026/05/2026-05-29</id><content type="html" xml:base="https://ai-news-bot-henna.vercel.app/news/2026/05/2026-05-29/"><![CDATA[<h1 id="aiニュース-2026-05-29">AIニュース 2026-05-29</h1>

<p class="auto-gen-note">自動生成: 2026-05-29 13:09 JST</p>

<p><a href="/">← トップに戻る</a></p>

<p>過去24時間以内に公開された記事を、同じ話題ごとに1つのストーリーカードへまとめ、出典・トピック・要約とともに掲載しています。要約は各フィード提供文の冒頭を整形したもので、本文は各リンク先をご覧ください。</p>

<section class="today-top" aria-labelledby="today-top-heading">
  <h2 id="today-top-heading" class="today-top-heading">📌 今日の要点 TOP7</h2>
  <ol class="today-top-list">
    <li class="today-top-item">
      <a class="today-top-link" href="https://openai.com/index/endava" target="_blank" rel="noopener">How Endava builds an agentic organization with Codex</a><span class="today-top-source">OpenAI</span>
      <p class="today-top-snippet">Learn how Endava uses Codex to build an agentic organization, acceler…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/aiplus/article/2605/29/2000000034/" target="_blank" rel="noopener">Anthropic、Claude Opus 4.8を一般提供　誠実さが飛躍的に向上、Mythosに並ぶアライメント性能を実現</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">Anthropicは、AIモデルの最新版「Claude Opus 4.8」の一般提供を開始した。前世代から推論やコーディング能力を向上させ…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://monoist.itmedia.co.jp/mn/articles/2605/29/news025.html" target="_blank" rel="noopener">AI-CAEで風荷重評価を効率化、大林組がRICOS製ソリューションで検証</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">RICOSは、大林組が建物の風荷重予測に向けたAI-CAEソリューションの検証を開始したと発表した。AIが風向や建物形状などの条件を踏まえ…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/enterprise/articles/2605/29/news067.html" target="_blank" rel="noopener">富士通がOpenAI、Anthropicと相次ぎ提携　AIベンダーと組む狙いは？</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">富士通はOpenAIとAnthropicとの提携を同じ日に発表した。自社独自のAI技術を持つ同社は、AIベンダーとの提携によって何を狙うの…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/aiplus/article/2605/29/2000000035/" target="_blank" rel="noopener">「国産人型ロボ」量産化へ　東大発スタートアップ　三菱自動車も出資</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">東京大学発のロボット開発スタートアップHighlandersは、国産人型ロボットの量産化を目指す取り組みを始めると発表した。</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/2026/05/28/sesame-the-conversational-ai-startup-from-oculus-founders-launches-its-ios-app/" target="_blank" rel="noopener">Sesame, the conversational AI startup from Oculus founders, launches its iOS app</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">Sesame’s new iOS app brings its conversational AI agents to the publi…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://atmarkit.itmedia.co.jp/ait/articles/2605/29/news075.html" target="_blank" rel="noopener">クラウド依存、コストの課題を解消？　MicrosoftのローカルAI基盤「Foundry Local」</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">Microsoftは、開発者がアプリケーションにAI機能を組み込めるローカルAI実行基盤「Foundry Local」の一般提供を開始した…</p>
    </li>
  </ol>
</section>

<h2 id="トピック別件数">トピック別件数</h2>

<ul class="topic-summary">
  <li data-topic="研究/論文" data-slug="research"><a href="/topics/research/"><strong>研究/論文</strong> 295件</a></li>
  <li data-topic="LLM/生成AI" data-slug="llm"><a href="/topics/llm/"><strong>LLM/生成AI</strong> 210件</a></li>
  <li data-topic="エージェント" data-slug="agents"><a href="/topics/agents/"><strong>エージェント</strong> 128件</a></li>
  <li data-topic="ビジネス/資金調達" data-slug="business"><a href="/topics/business/"><strong>ビジネス/資金調達</strong> 44件</a></li>
  <li data-topic="ハードウェア/半導体" data-slug="hardware"><a href="/topics/hardware/"><strong>ハードウェア/半導体</strong> 15件</a></li>
  <li data-topic="ロボティクス" data-slug="robotics"><a href="/topics/robotics/"><strong>ロボティクス</strong> 14件</a></li>
  <li data-topic="その他" data-slug="others"><a href="/topics/others/"><strong>その他</strong> 10件</a></li>
  <li data-topic="画像/動画生成" data-slug="image-video"><a href="/topics/image-video/"><strong>画像/動画生成</strong> 6件</a></li>
  <li data-topic="規制/政策" data-slug="regulation"><a href="/topics/regulation/"><strong>規制/政策</strong> 1件</a></li>
</ul>

<div class="category-accordion">
<details class="category-block" open="">
<summary class="category-summary"><span class="category-name">日本語メディア</span><span class="category-count">11件</span></summary>
<div class="category-body">
<h3 class="source-section">ITmedia AI+ (日本語)</h3>
<div class="news-card" data-article-id="1d37e640c133" data-article-url="https://atmarkit.itmedia.co.jp/ait/articles/2605/29/news075.html" data-article-title="クラウド依存、コストの課題を解消？　MicrosoftのローカルAI基盤「Foundry Local」" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">11:30 JST</span><span class="topic-badge p-others">その他</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://atmarkit.itmedia.co.jp/ait/articles/2605/29/news075.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/ait/articles/2605/29/cover_news075.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://atmarkit.itmedia.co.jp/ait/articles/2605/29/news075.html" target="_blank" rel="noopener">クラウド依存、コストの課題を解消？　MicrosoftのローカルAI基盤「Foundry Local」</a></h3>
      <p class="summary">Microsoftは、開発者がアプリケーションにAI機能を組み込めるローカルAI実行基盤「Foundry Local」の一般提供を開始した。ユーザーの端末上でAI処理を完結させる仕組みにより、クラウドへの依存やネットワーク遅延、トークン課金が発生しないAI実装が可能になるという。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2bae590468d0" data-article-url="https://www.itmedia.co.jp/news/articles/2605/29/news041.html" data-article-title="それで、メモリ不足はいつまで続くの？　なかなか終わらない狂騒のウラ側" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">10:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/news/articles/2605/29/news041.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/news/articles/2605/29/cover_news041.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/news/articles/2605/29/news041.html" target="_blank" rel="noopener">それで、メモリ不足はいつまで続くの？　なかなか終わらない狂騒のウラ側</a></h3>
      <p class="summary">長引くメモリ不足。いつ安く購入できるようになるのか……。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cbbd39c42939" data-article-url="https://monoist.itmedia.co.jp/mn/articles/2605/29/news025.html" data-article-title="AI-CAEで風荷重評価を効率化、大林組がRICOS製ソリューションで検証" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">09:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://monoist.itmedia.co.jp/mn/articles/2605/29/news025.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/images/logo/1200x630_500x500_mn.gif" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://monoist.itmedia.co.jp/mn/articles/2605/29/news025.html" target="_blank" rel="noopener">AI-CAEで風荷重評価を効率化、大林組がRICOS製ソリューションで検証</a></h3>
      <p class="summary">RICOSは、大林組が建物の風荷重予測に向けたAI-CAEソリューションの検証を開始したと発表した。AIが風向や建物形状などの条件を踏まえて予測し、設計工程の効率化を図る。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5eebccc83552" data-article-url="https://www.itmedia.co.jp/enterprise/articles/2605/29/news067.html" data-article-title="富士通がOpenAI、Anthropicと相次ぎ提携　AIベンダーと組む狙いは？" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">08:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/enterprise/articles/2605/29/news067.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/enterprise/articles/2605/29/cover_news067.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/enterprise/articles/2605/29/news067.html" target="_blank" rel="noopener">富士通がOpenAI、Anthropicと相次ぎ提携　AIベンダーと組む狙いは？</a></h3>
      <p class="summary">富士通はOpenAIとAnthropicとの提携を同じ日に発表した。自社独自のAI技術を持つ同社は、AIベンダーとの提携によって何を狙うのか。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a13836de3a1a" data-article-url="https://www.itmedia.co.jp/business/articles/2605/29/news039.html" data-article-title="データ分析の「分からない」「準備が面倒」を解消　ソニーの「初心者」特化ツール、記者が使ってみた【レポート】" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">08:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/business/articles/2605/29/news039.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/business/articles/2605/29/cover_news039.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/business/articles/2605/29/news039.html" target="_blank" rel="noopener">データ分析の「分からない」「準備が面倒」を解消　ソニーの「初心者」特化ツール、記者が使ってみた【レポート】</a></h3>
      <p class="summary">自業務の成果を高めるために、データを分析したいけれど、何から始めればいいのか分からない──と悩むビジネスパーソンは少なくない。ソニーネットワークコミュニケーションズは、こうした初心者向けのニーズに着目した。データ分析業務の初心者である筆者が体験してみたところ……。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="95e1ec8c66f1" data-article-url="https://monoist.itmedia.co.jp/mn/articles/2605/29/news054.html" data-article-title="「日本は製造業のパワーハウス」、IFSが産業AI投資を急拡大する理由" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">07:30 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://monoist.itmedia.co.jp/mn/articles/2605/29/news054.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/mn/articles/2605/29/cover_news054.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://monoist.itmedia.co.jp/mn/articles/2605/29/news054.html" target="_blank" rel="noopener">「日本は製造業のパワーハウス」、IFSが産業AI投資を急拡大する理由</a></h3>
      <p class="summary">IFSジャパンは記者会見を開催し、日本市場への投資継続とパートナーシップ強化の方針を説明した。日本IBMらとの戦略的協業を通じ、製造業などアセット集約型産業のAI実装とDXを支援する。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bf244024f746" data-article-url="https://atmarkit.itmedia.co.jp/ait/articles/2605/29/news012.html" data-article-title="「Google Antigravity 2.0と戯れながら感じたこと」と「LLM Wikiを実践して『ロケスマペディア』を作ってみた」" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">05:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://atmarkit.itmedia.co.jp/ait/articles/2605/29/news012.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/ait/articles/2605/29/cover_news012.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://atmarkit.itmedia.co.jp/ait/articles/2605/29/news012.html" target="_blank" rel="noopener">「Google Antigravity 2.0と戯れながら感じたこと」と「LLM Wikiを実践して『ロケスマペディア』を作ってみた」</a></h3>
      <p class="summary">かわさきからは「Google Antigravity 2.0と戯れながら感じたこと」というタイトルで生成AI時代における教科書的コンテンツの存在意義と、AIにコードを書かせる時代の学び方について、一色からは「LLM Wikiを実践して『ロケスマペディア』を作ってみた」というタイ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6224ea3ab79" data-article-url="https://www.itmedia.co.jp/aiplus/article/2605/29/2000000035/" data-article-title="「国産人型ロボ」量産化へ　東大発スタートアップ　三菱自動車も出資" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">03:22 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/aiplus/article/2605/29/2000000035/" target="_blank" rel="noopener"><img loading="lazy" src="https://www.itmedia.co.jp/aiplus/article/ogp/2605/29/2000000035/10000196/2048" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/aiplus/article/2605/29/2000000035/" target="_blank" rel="noopener">「国産人型ロボ」量産化へ　東大発スタートアップ　三菱自動車も出資</a></h3>
      <p class="summary">東京大学発のロボット開発スタートアップHighlandersは、国産人型ロボットの量産化を目指す取り組みを始めると発表した。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="31ff174ee231" data-article-url="https://www.itmedia.co.jp/aiplus/article/2605/29/2000000036/" data-article-title="デジタル庁、AI「源内」向け国産LLM再公募　有償の政府調達へ　評価テストは50問→300問に" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">02:54 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-regulation">規制/政策</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/aiplus/article/2605/29/2000000036/" target="_blank" rel="noopener"><img loading="lazy" src="https://www.itmedia.co.jp/aiplus/article/ogp/2605/29/2000000036/10000201/2048" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/aiplus/article/2605/29/2000000036/" target="_blank" rel="noopener">デジタル庁、AI「源内」向け国産LLM再公募　有償の政府調達へ　評価テストは50問→300問に</a></h3>
      <p class="summary">初回公募は無償試用を前提に募集したが、27年度向け公募では政府調達（有償）に移行する。</p>
    </div>
  </div>
</div>
<div class="news-card" id="story-7a31fccf862a" data-article-id="7a31fccf862a" data-article-url="https://www.itmedia.co.jp/aiplus/article/2605/29/2000000034/" data-article-title="Anthropic、Claude Opus 4.8を一般提供　誠実さが飛躍的に向上、Mythosに並ぶアライメント性能を実現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">01:16 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><span class="dup-badge">2媒体が報道</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/aiplus/article/2605/29/2000000034/" target="_blank" rel="noopener"><img loading="lazy" src="https://www.itmedia.co.jp/aiplus/article/ogp/2605/29/2000000034/10000194/2048" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/aiplus/article/2605/29/2000000034/" target="_blank" rel="noopener">Anthropic、Claude Opus 4.8を一般提供　誠実さが飛躍的に向上、Mythosに並ぶアライメント性能を実現</a></h3>
      <p class="summary">Anthropicは、AIモデルの最新版「Claude Opus 4.8」の一般提供を開始した。前世代から推論やコーディング能力を向上させ、自らの作業の不確実性に対する「誠実さ」が劇的に改善した。また、数百のサブエージェントを並行して走らせる新機能「dynamic workfl…</p>
      <div class="story-sources"><span class="story-sources-label">出典:</span><a class="source-badge" href="https://www.itmedia.co.jp/news/articles/2605/29/news084.html" target="_blank" rel="noopener" title="「Mythos級モデル」一般提供、数週間以内に　米Anthropic「Opus 4.8」リリース">ITmedia AI+</a><a class="source-badge" href="https://www.itmedia.co.jp/aiplus/article/2605/29/2000000034/" target="_blank" rel="noopener" title="Anthropic、Claude Opus 4.8を一般提供　誠実さが飛躍的に向上、Mythosに並ぶアライメント性能を実現">ITmedia AI+</a><a class="source-badge" href="https://techcrunch.com/2026/05/28/anthropic-releases-opus-4-8-with-new-dynamic-workflow-tool/" target="_blank" rel="noopener" title="Anthropic releases Opus 4.8 with new ‘dynamic workflow’ tool">TechCrunch AI</a></div>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e71a68ea3465" data-article-url="https://www.itmedia.co.jp/news/articles/2605/28/news145.html" data-article-title="レノボ、国内に“水冷AIインフラ”の検証施設　GPUサーバ需要増で水冷活用促す" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">19:25 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/news/articles/2605/28/news145.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/news/articles/2605/28/cover_news145.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/news/articles/2605/28/news145.html" target="_blank" rel="noopener">レノボ、国内に“水冷AIインフラ”の検証施設　GPUサーバ需要増で水冷活用促す</a></h3>
      <p class="summary">レノボ・ジャパンが水冷技術を活用したAIインフラの検証施設「Neptuneラボ」を新設した。レノボの冷却技術を使う顧客やパートナー企業に対し、本番に近い検証・PoC環境として提供する。クラウドベンダーやSIerとの共同検証を通し、推奨される機器構成などの策定にも役立てる。レノボ…</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">海外メディア</span><span class="category-count">16件</span></summary>
<div class="category-body">
<h3 class="source-section">TechCrunch AI (英語)</h3>
<div class="news-card" data-article-id="5471d9492ea3" data-article-url="https://techcrunch.com/2026/05/28/gleans-top-line-crosses-300m-as-ai-budget-cutting-becomes-its-major-selling-point/" data-article-title="Glean’s top line crosses $300M as AI budget-cutting becomes its major selling point" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">09:44 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/28/gleans-top-line-crosses-300m-as-ai-budget-cutting-becomes-its-major-selling-point/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/02/GettyImages-2259183614.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/28/gleans-top-line-crosses-300m-as-ai-budget-cutting-becomes-its-major-selling-point/" target="_blank" rel="noopener">Glean’s top line crosses $300M as AI budget-cutting becomes its major selling point</a></h3>
      <p class="summary">The enterprise AI search startup tripled its annual revenue even as tech giants entered the category.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="12919de6dcce" data-article-url="https://techcrunch.com/2026/05/28/the-internet-is-being-rebuilt-for-machines/" data-article-title="The internet is being rebuilt for machines" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">06:24 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/28/the-internet-is-being-rebuilt-for-machines/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/ai-agents-GettyImages-2229880232.jpg?resize=1200,675" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/28/the-internet-is-being-rebuilt-for-machines/" target="_blank" rel="noopener">The internet is being rebuilt for machines</a></h3>
      <p class="summary">As AI agents move from experiments to production, AWS, Cloudflare, and others are redesigning cloud infrastructure for a future dominated b…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e14094841cd1" data-article-url="https://techcrunch.com/2026/05/28/asana-acquires-no-code-agent-builder-stack-ai/" data-article-title="Asana acquires no-code agent-builder StackAI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">05:06 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/28/asana-acquires-no-code-agent-builder-stack-ai/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/asana-illustration-getty.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/28/asana-acquires-no-code-agent-builder-stack-ai/" target="_blank" rel="noopener">Asana acquires no-code agent-builder StackAI</a></h3>
      <p class="summary">Asana will incorporate StackAI into its growing suite of AI workflow tools.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9ee607688cc2" data-article-url="https://techcrunch.com/2026/05/28/anthropic-raises-65-billion-nears-1t-valuation-ahead-of-ipo/" data-article-title="Anthropic raises $65 billion, nears $1T valuation ahead of IPO" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">03:52 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/28/anthropic-raises-65-billion-nears-1t-valuation-ahead-of-ipo/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2025/09/Screenshot-2025-09-02-at-12.22.37PM.png?resize=1200,671" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/28/anthropic-raises-65-billion-nears-1t-valuation-ahead-of-ipo/" target="_blank" rel="noopener">Anthropic raises $65 billion, nears $1T valuation ahead of IPO</a></h3>
      <p class="summary">Anthropic has closed a $65 billion Series H round at a $965 billion post-money valuation, marking what could be the AI startup&#x27;s final priv…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="350fe0bcb65e" data-article-url="https://techcrunch.com/2026/05/28/just-like-gold-and-oil-well-soon-be-able-to-trade-ai-token-futures/" data-article-title="Just like gold and oil, we’ll soon be able to trade AI token futures" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">03:32 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/28/just-like-gold-and-oil-well-soon-be-able-to-trade-ai-token-futures/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2025/09/GettyImages-640351099.jpg?resize=1200,849" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/28/just-like-gold-and-oil-well-soon-be-able-to-trade-ai-token-futures/" target="_blank" rel="noopener">Just like gold and oil, we’ll soon be able to trade AI token futures</a></h3>
      <p class="summary">Large exchanges are designing derivative products around AI tokens, which are increasingly being considered less a computational output and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a7fee3fac6f2" data-article-url="https://techcrunch.com/2026/05/28/in-just-3-weeks-strictlyvc-is-coming-to-los-angeles/" data-article-title="In just 3 weeks, StrictlyVC is coming to Los Angeles" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">02:30 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/28/in-just-3-weeks-strictlyvc-is-coming-to-los-angeles/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2025/06/54599380127_df4ede7c18_c.jpg?w=799" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/28/in-just-3-weeks-strictlyvc-is-coming-to-los-angeles/" target="_blank" rel="noopener">In just 3 weeks, StrictlyVC is coming to Los Angeles</a></h3>
      <p class="summary">StrictlyVC Los Angeles is on June 18. Join for meaningful networking and fireside chats with leaders from Mach Industries, Shinkei Systems,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="409530355c13" data-article-url="https://techcrunch.com/2026/05/28/how-long-is-anthropics-lease-with-spacex-opinions-vary/" data-article-title="How long is Anthropic’s lease with SpaceX? Opinions vary" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">00:36 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/28/how-long-is-anthropics-lease-with-spacex-opinions-vary/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/04/musk-court-2273245544.jpg?resize=1200,801" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/28/how-long-is-anthropics-lease-with-spacex-opinions-vary/" target="_blank" rel="noopener">How long is Anthropic’s lease with SpaceX? Opinions vary</a></h3>
      <p class="summary">Elon Musk is publicly reframing xAI’s massive Anthropic compute deal as short-term and cancellable, despite SpaceX’s own S-1 filing describ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a64a1af49118" data-article-url="https://techcrunch.com/2026/05/28/sesame-the-conversational-ai-startup-from-oculus-founders-launches-its-ios-app/" data-article-title="Sesame, the conversational AI startup from Oculus founders, launches its iOS app" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">00:35 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/28/sesame-the-conversational-ai-startup-from-oculus-founders-launches-its-ios-app/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/crossing-the-uncanny-valley-of-voice-hero.webp?resize=1200,900" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/28/sesame-the-conversational-ai-startup-from-oculus-founders-launches-its-ios-app/" target="_blank" rel="noopener">Sesame, the conversational AI startup from Oculus founders, launches its iOS app</a></h3>
      <p class="summary">Sesame’s new iOS app brings its conversational AI agents to the public, offering more natural back-and-forth interactions designed to feel…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ffbb231cfa20" data-article-url="https://techcrunch.com/2026/05/28/sneak-peek-at-new-siri-app-reveals-apples-plans-to-take-on-chatgpt-and-more/" data-article-title="Sneak peek at new Siri app reveals Apple’s plans to take on ChatGPT and more" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:45 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/28/sneak-peek-at-new-siri-app-reveals-apples-plans-to-take-on-chatgpt-and-more/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/1476x1375.webp?resize=1200,1118" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/28/sneak-peek-at-new-siri-app-reveals-apples-plans-to-take-on-chatgpt-and-more/" target="_blank" rel="noopener">Sneak peek at new Siri app reveals Apple’s plans to take on ChatGPT and more</a></h3>
      <p class="summary">New renders offer a closer look at Apple’s planned AI overhaul for iOS 27, including a redesigned Siri experience and standalone Siri app.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="61de5c0b6e05" data-article-url="https://techcrunch.com/2026/05/28/rsi-is-the-new-agi-and-its-just-as-hard-to-pin-down/" data-article-title="RSI is the new AGI — and it’s just as hard to pin down" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:30 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/28/rsi-is-the-new-agi-and-its-just-as-hard-to-pin-down/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2022/12/GettyImages-1202271610.jpg?resize=1200,900" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/28/rsi-is-the-new-agi-and-its-just-as-hard-to-pin-down/" target="_blank" rel="noopener">RSI is the new AGI — and it’s just as hard to pin down</a></h3>
      <p class="summary">A new crop of AI labs are focused on recursive self-improvement — but the goal is proving elusive.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8afb8076f110" data-article-url="https://techcrunch.com/2026/05/28/techcrunch-disrupt-2026-databricks-co-founder-on-what-kills-enterprise-ai-deals/" data-article-title="At TechCrunch Disrupt 2026: Databricks’ co-founder on what kills enterprise AI deals" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:30 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/28/techcrunch-disrupt-2026-databricks-co-founder-on-what-kills-enterprise-ai-deals/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/TCD26_1-Arsalan-Tavakoli-Shiraji_Speaker-16x9-Dark.png?resize=1200,675" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/28/techcrunch-disrupt-2026-databricks-co-founder-on-what-kills-enterprise-ai-deals/" target="_blank" rel="noopener">At TechCrunch Disrupt 2026: Databricks’ co-founder on what kills enterprise AI deals</a></h3>
      <p class="summary">Enterprise AI is entering a different phase now, one where enterprises are no longer evaluating whether AI is exciting. They are evaluating…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d554aedc8880" data-article-url="https://techcrunch.com/2026/05/28/youtube-adds-new-podcast-features-including-an-ai-recommendation-tool-and-auto-speed/" data-article-title="YouTube adds new podcast features, including an AI recommendation tool and ‘Auto speed’" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:28 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/28/youtube-adds-new-podcast-features-including-an-ai-recommendation-tool-and-auto-speed/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/04/GettyImages-2242441443.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/28/youtube-adds-new-podcast-features-including-an-ai-recommendation-tool-and-auto-speed/" target="_blank" rel="noopener">YouTube adds new podcast features, including an AI recommendation tool and ‘Auto speed’</a></h3>
      <p class="summary">The update signals YouTube&#x27;s ongoing efforts to compete with other platforms for podcast audiences.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3655c76183d3" data-article-url="https://techcrunch.com/2026/05/28/2-days-left-lock-in-ticket-savings-of-up-to-410-to-techcrunch-disrupt-2026/" data-article-title="2 days left: Lock in ticket savings of up to $410 to TechCrunch Disrupt 2026" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/28/2-days-left-lock-in-ticket-savings-of-up-to-410-to-techcrunch-disrupt-2026/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/02/TCD26_2Days-16X9-dark.png?resize=1200,675" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/28/2-days-left-lock-in-ticket-savings-of-up-to-410-to-techcrunch-disrupt-2026/" target="_blank" rel="noopener">2 days left: Lock in ticket savings of up to $410 to TechCrunch Disrupt 2026</a></h3>
      <p class="summary">Savings of up to $410 on TechCrunch Disrupt 2026 tickets end tomorrow, May 29, 11:59 p.m. PT. Register now to save and join 10,000+ tech le…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d9dddcb5b5e7" data-article-url="https://techcrunch.com/2026/05/28/visa-invests-in-replit-to-power-agentic-payments-for-developers/" data-article-title="Visa invests in Replit to power agentic payments for developers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/28/visa-invests-in-replit-to-power-agentic-payments-for-developers/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2025/09/Replit-founder-CEO-Amjad-Masad.png?resize=1200,715" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/28/visa-invests-in-replit-to-power-agentic-payments-for-developers/" target="_blank" rel="noopener">Visa invests in Replit to power agentic payments for developers</a></h3>
      <p class="summary">Visa said that over 1,000 employees have been using Replit for prototyping and development.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7a983c75a9bc" data-article-url="https://techcrunch.com/2026/05/28/has-the-hunt-for-ai-compute-uncovered-the-next-cerebras/" data-article-title="Has the hunt for AI compute uncovered the next Cerebras?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">22:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/28/has-the-hunt-for-ai-compute-uncovered-the-next-cerebras/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/Data-Center-Visit.jpeg?resize=900,1200" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/28/has-the-hunt-for-ai-compute-uncovered-the-next-cerebras/" target="_blank" rel="noopener">Has the hunt for AI compute uncovered the next Cerebras?</a></h3>
      <p class="summary">General Compute is betting SambaNova will be the next breakout chipmaker.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ed81bda34a5" data-article-url="https://techcrunch.com/2026/05/28/vertu-wants-ceos-to-run-companies-from-an-ai-foldable-starting-at-6880/" data-article-title="Vertu wants CEOs to run companies from an AI foldable starting at $6,880" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">16:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/28/vertu-wants-ceos-to-run-companies-from-an-ai-foldable-starting-at-6880/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/vertu-alphafold-foldable.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/28/vertu-wants-ceos-to-run-companies-from-an-ai-foldable-starting-at-6880/" target="_blank" rel="noopener">Vertu wants CEOs to run companies from an AI foldable starting at $6,880</a></h3>
      <p class="summary">Built on top of the open source Hermes project, Vertu&#x27;s new foldable combines AI-agent workflows, enterprise integrations, and ultra-premiu…</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">公式ブログ</span><span class="category-count">1件</span></summary>
<div class="category-body">
<h3 class="source-section">OpenAI (英語)</h3>
<div class="news-card" data-article-id="c4a9a577612d" data-article-url="https://openai.com/index/endava" data-article-title="How Endava builds an agentic organization with Codex" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">21:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://openai.com/index/endava" target="_blank" rel="noopener"><img loading="lazy" src="https://images.ctfassets.net/kftzwdyauwt9/4gxDAOkxUXKVkAcM8eGhNj/03482b84b74c225d36ad173865b67b14/oai_Endava_SEO.png?w=1600&amp;h=900&amp;fit=fill" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://openai.com/index/endava" target="_blank" rel="noopener">How Endava builds an agentic organization with Codex</a></h3>
      <p class="summary">Learn how Endava uses Codex to build an agentic organization, accelerating software delivery and reducing requirements analysis from weeks…</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">論文</span><span class="category-count">558件</span></summary>
<div class="category-body">
<h3 class="source-section">arXiv cs.AI (英語)</h3>
<div class="news-card" data-article-id="ff3846b7522f" data-article-url="https://arxiv.org/abs/2605.28849" data-article-title="行動誘発ミラープロックス時間差学習によるポリシー外予測の高速化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28849" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28849" target="_blank" rel="noopener">行動誘発ミラープロックス時間差学習によるポリシー外予測の高速化</a></h3>
      <p class="summary">勾配時間差分法は、線形関数近似による安定したオフポリシー予測を提供しますが、その実際のパフォーマンスは、補助変数メトリックによって引き起こされるジオメトリによって大きく影響されます。既存の Mirror-Prox TD メソッドは通常、特徴共分散メトリックを使用しますが、ハイブリッド TD メソッドは、動作ポリシー遷移情報がより有益な更新ジオメトリを提供できることを示唆しています。この論文は、STHTD-MP と呼ばれる動作誘起ミラープロックス時間差法を提案します。これは、主双対鞍点定式化の共分散メトリックを、動作ポリシーのベルマン行列の対称部分に置き換えます。この方法では、主変数と補助変数の単一の学習率を維持し、結果として得られるハイブリッド鞍点演算子に Mirror-Prox 予測補正ステップを適用します。標準的な確率的近似仮定の下で、固定ポリシーの線形予測に対する形式的収束分析を提供します。行動誘発計量は正定値であり、結合平均システムは Hurwitz であり、有界性はリアプノフ引数に従い、確率的再帰は ODE 法によって収束します。さらに、決定論的な Mirror-Prox 誤差行列のスペクトル半径に基づいて、投影されたオラクルのエルゴード ギャップ境界と GTD2-MP との正確な平均演算子比較を導出します。分析の結果、行動誘発メトリックによって鞍点の形状が改善される場合、STHTD-MP は GTD2-MP よりも平均収縮率が小さくなる可能性があることが示されています。 2 状態ベンチマーク、ランダム ウォーク、およびボーヤン チェーン ベンチマークの正確な数値平均演算子分析はこの条件を裏付けていますが、ベアードの反例は厳密な仮定が当てはまらない特異境界ケースとして特定されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction</p>
        <p class="orig-summary">Gradient temporal-difference methods provide stable off-policy prediction with linear function approximation, but their practical performance is strongly affected by the geometry induced by the auxiliary-variable metric. Existing Mirror-Prox TD methods typically use the feature covariance metric, whereas hybrid TD methods suggest that behavior-policy transition information can provide a more informative update geometry. This paper proposes a behavior-induced Mirror-Prox temporal-difference method, called STHTD-MP, which replaces the covariance metric in the primal-dual saddle-point formulation with the symmetric part of the behavior-policy Bellman matrix. The method keeps a single learning rate for the primal and auxiliary variables and applies a Mirror-Prox prediction-correction step to the resulting hybrid saddle-point operator. We provide a formal convergence analysis for fixed-policy linear prediction under standard stochastic approximation assumptions: the behavior-induced metric is positive definite, the joint mean system is Hurwitz, boundedness follows from a Lyapunov argument, and the stochastic recursion converges by the ODE method. We further derive projected-oracle ergodic gap bounds and an exact mean-operator comparison with GTD2-MP based on the spectral radius of the deterministic Mirror-Prox error matrix. The analysis shows that STHTD-MP can have a smaller mean contraction factor than GTD2-MP when the behavior-induced metric improves the saddle-point geometry. Exact numerical mean-operator analysis on two-state, Random Walk, and Boyan Chain benchmarks supports this condition, while Baird&#x27;s counterexample is identified as a singular boundary case where the strict assumptions fail.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="537ec3ff010f" data-article-url="https://arxiv.org/abs/2605.28855" data-article-title="ポリシー外の時間差予測に対する動作認識型の補助修正" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28855" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28855" target="_blank" rel="noopener">ポリシー外の時間差予測に対する動作認識型の補助修正</a></h3>
      <p class="summary">関数近似を使用した時間差学習は、オフポリシー サンプリングの下で​​は不安定になる可能性があります。 TDC は補助共分散補正を通じてオフポリシー TD を安定化し、TDRC は単一タイムスケールの再帰でこの補正をさらに正規化します。この論文では、値関数近似の特徴空間ダイナミクスを理解するための標準ローカル モデルである、線形予測設定における補助共分散ジオメトリの動作を意識した置き換えについて研究します。まず、TDC 補助行列 (C) を動作ベルマン行列 (A_\mu) に置き換えて BA-TDC を生成し、次に同じ動作認識方程式を正規化して BA-TDRC を取得します。この 2 段階の構築により、動作認識ジオメトリの寄与と正則化の寄与が分離されます。線形解析は、ニューラル ネットワークの値近似で生じる補助幾何設計の問題に対する扱いやすいモデルも提供します。この場合、特徴の共分散と時間遷移行列が共同して最終層の補正ダイナミクスを形成します。有限状態平均系の定式化を行い、インスタンス化された平均系のフルヴィッツ安定条件下での固定点保存とほぼ確実な収束を証明し、正確な線形誤差再帰のスペクトル半径を通じて決定論的平均率を比較します。 2 状態の反例、ベアードの反例、ランダム ウォーク、およびボーヤン チェーンに関する実験では、動作認識置換は一部のタスクではそれ自体で非常に有益である可能性がありますが、より困難な設定全体で堅牢なパフォーマンスを得るには正則化が必要であることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction</p>
        <p class="orig-summary">Temporal-difference learning with function approximation can be unstable under off-policy sampling. TDC stabilizes off-policy TD through an auxiliary covariance correction, and TDRC further regularizes this correction in a single-timescale recursion. This paper studies a behavior-aware replacement of the auxiliary covariance geometry in the linear prediction setting, which is the standard local model for understanding the feature-space dynamics of value-function approximation. We first replace the TDC auxiliary matrix (C) by the behavior Bellman matrix (A_\mu), yielding BA-TDC, and then regularize the same behavior-aware equation to obtain BA-TDRC. This two-step construction separates the contribution of behavior-aware geometry from the contribution of regularization. The linear analysis also provides a tractable model for an auxiliary-geometry design question that arises in neural-network value approximation, where feature covariances and temporal transition matrices jointly shape the last-layer correction dynamics. We give a finite-state mean-system formulation, prove fixed-point preservation and almost-sure convergence under a Hurwitz stability condition on the instantiated mean system, and compare deterministic mean rates through the spectral radius of the exact linear error recursion. Experiments on the two-state counterexample, Baird&#x27;s counterexample, Random Walk, and Boyan Chain show that the behavior-aware replacement can be highly beneficial by itself on some tasks, but that regularization is necessary for robust performance across harder settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0e7623426c33" data-article-url="https://arxiv.org/abs/2605.28864" data-article-title="認知カテゴリー変換器: 言語モデリングのためのカテゴリー理論的帰納バイアス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28864" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28864" target="_blank" rel="noopener">認知カテゴリー変換器: 言語モデリングのためのカテゴリー理論的帰納バイアス</a></h3>
      <p class="summary">Cognitive Categorical Transformer (CCT) は、カテゴリ理論と認知科学からのいくつかのインスピレーションに由来する認知的に根拠のあるコンポーネントで、事前トレーニング済みの GPT-2 Small バックボーンを強化する 306M パラメーターのアーキテクチャです。 WikiText-103 の一致ステップ プロトコル (215,000 のオプティマイザー ステップ、一致したデータ、一致したオプティマイザーとスケジュール) の下では、CCT は 21.27 の検証複雑度に達しましたが、これと比較して、同様に微調整された GPT-2 Small ベースラインでは 24.19 でした。したがって、このアーキテクチャは、ドメイン内微調整だけで実現できる量を超える 2.92 PPL (相対 12%) の削減に貢献します。 7 フェーズのアクティベーション スケジュール全体にわたって GT-Full の単純なメッセージ パッシングをバイパスするリトレーニング フロム スクラッチ アブレーションは 23.72 PPL に達し、アーキテクチャの改善の 84% (2.92 PPL のうち 2.45) を GT-Full に限定します。我々は、単純なメッセージパッシングが WikiText-103 の 3 億 6M パラメータスケールで言語モデルの複雑さを改善するという、アブレーションで検証された最初の証拠を提示します。公開された GPT-2 Large は、GPT-2 Small の 6.2 倍のパラメータを持ち、WikiText-103 で 22.05 ゼロショット PPL に達しました。このペーパーでは、その数値をアーキテクチャのベンチマークとしてではなく、外部に公開された参照として扱います。整合性スタイルのカテゴリカル事前確率に関する 3 つの否定的な結果 (層の平滑化、付加のラウンドトリップ、曲率の正則化) と、GT-Full と PrecisionWeightedPP の結合構造事前確率の結果は共に、*構造/一貫性の区別* と呼ばれる経験的パターンを裏付けています。このパターンでは、新しいトポロジーを追加するカテゴリカル事前確率は言語モデリングを改善しますが、一貫性の同一性を強制するカテゴリカル事前確率は改善しません。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling</p>
        <p class="orig-summary">The Cognitive Categorical Transformer (CCT) is a 306M-parameter architecture that augments a pretrained GPT-2 Small backbone with cognitively grounded components derived from category theory and several inspirations from cognitive science. Under a matched-step protocol (215,000 optimizer steps, matched data, matched optimizer and schedule) on WikiText-103, CCT reaches 21.27 validation perplexity, compared with 24.19 for an identically fine-tuned GPT-2 Small baseline. The architecture therefore contributes a 2.92 PPL (12% relative) reduction beyond what in-domain fine-tuning alone provides. A retrain-from-scratch ablation that holds GT-Full simplicial message passing bypassed across the entire seven-phase activation schedule reaches 23.72 PPL, localizing 84% of the architectural improvement (2.45 of 2.92 PPL) to GT-Full. We present the first ablation-validated evidence that simplicial message passing improves language-model perplexity at the 306M-parameter scale on WikiText-103. Published GPT-2 Large reaches 22.05 zero-shot PPL on WikiText-103 with 6.2x more parameters than GPT-2 Small; this paper treats that number as an external published reference, not as the architectural benchmark. Three negative results on consistency-style categorical priors (sheaf smoothing, adjunction round-trip, curvature regularization) and the joint structural-prior result for GT-Full and PrecisionWeightedPP together support an empirical pattern termed the *structure/consistency distinction*, in which categorical priors that add new topology improve language modeling and those that enforce a consistency identity do not.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c9609bf69dfa" data-article-url="https://arxiv.org/abs/2605.28883" data-article-title="Ultra-Reduced-Impact-Encased-Logging (URIEL): 航空機搭載ロボットシステムを使用した、熱帯林における選択的持続可能な伐採と収穫後の造林処理のための新しい方法を提案する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28883" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28883" target="_blank" rel="noopener">Ultra-Reduced-Impact-Encased-Logging (URIEL): 航空機搭載ロボットシステムを使用した、熱帯林における選択的持続可能な伐採と収穫後の造林処理のための新しい方法を提案する</a></h3>
      <p class="summary">世界中の熱帯林は、経済的および政治的利益によって引き起こされる激しい森林破壊圧力にさらされており、科学的証拠は、この森林破壊が気候変動に寄与していることを示唆しています。この論文では、熱帯林のための新しい伐採方法、Ultra-Reduced-Impact-Encased-Logging (URIEL) を提案します。この新しい方法は、ドローンによる収穫後の造林処理と統合されたロボット工学と AI の集中的な使用と組み合わせたヘリロギング技術に基づいています。この方法に適した機器のコンセプトが開発され、寸法が決定され、デジタル概念実証で詳細が完成し、ヘリコプターと木材と距離のさまざまな組み合わせについて、効果的なデジタル シミュレーションと経済的実現可能性分析が実行されました。その結果、URIEL手法は経済性が高く、生態系サービスを維持しながら森林への巻き添え被害を実質的に排除できることが実証されました。この論文の主な結論は、科学的および技術的に満足のいく結果が得られたにもかかわらず、ウリエル法の実現可能性は、その状況に固有の利害関係者の統合に依存しているということです。政治政府。認定伐採会社。そして先住民族。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Ultra-Reduced-Impact-Encased-Logging (URIEL): propose a new method for selective sustainable logging and post-harvest silvicultural treatment in tropical forest using airborne robotics systems</p>
        <p class="orig-summary">Tropical forests worldwide are under intense deforestation pressure driven by economic and political interests, and scientific evidence suggests this deforestation contributes to climate change. This paper proposes a novel logging method for tropical forests, Ultra-Reduced-Impact-Encased-Logging (URIEL). This new method is based on heli-logging techniques combined with intensive use of robotics and AI integrated with post-harvest silvicultural treatments performed by drones. The concept of appropriate equipment for this method was developed, dimensions were determined, details were completed in a digital proof of concept, and an effective digital simulation and economic feasibility analysis were carried out for various helicopter-timber-distance combinations. The results demonstrated that a URIEL method has high economic viability and makes it possible to virtually eliminate collateral damage to forests while maintaining ecosystem services. The main conclusion of this paper is that, despite the satisfactory scientific and technological results, the feasibility of a Uriel method depends on the integration of stakeholders intrinsic to the context: high-tech industry; political governments; certified logging companies; and native populations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="20fb949789da" data-article-url="https://arxiv.org/abs/2605.28897" data-article-title="レビュー アーケード: LLM レビューの人間性とゲーム性について" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28897" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28897" target="_blank" rel="noopener">レビュー アーケード: LLM レビューの人間性とゲーム性について</a></h3>
      <p class="summary">LLM が生成する科学論文のレビューは大きな注目を集めており、主要な会議でも正式に試験的に導入されています。査読者だけが LLM 支援を使用しているだけでなく、著者も投稿前に論文を修正するために LLM を使用していることを想定する必要があります。この研究では、2025 ACL ローリング レビュー (ARR) の論文に対して実証実験を実行し、著者と査読者の両方の観点から LLM レビューを評価します。まず、LLM レビューと人間のレビューとの限定的な整合性を特定します。最良のシナリオでは、位置合わせは適切です。ただし、LLM と人間のアライメントはプロンプトとモデルによって大幅に異なることもわかりました。最後に、作成者がドラフトと改訂の反復ワークフローを使用して、LLM レビューに従って提出物を改善するシナリオを調査します。 LLM レビューのこの「ゲーム」は特定のシナリオで効果的であり、最大 35\% の論文で全体のスコアが統計的に有意に増加することがわかりました。コードを公開しています: https://github.com/uhh-hcds/reviewarcade。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Review Arcade: On the Human Alignment and Gameability of LLM Reviews</p>
        <p class="orig-summary">LLM-generated reviews for scientific papers are gaining considerable traction and are even being officially piloted by major conferences. We have to assume that not only reviewers are using LLM-assistance, but also that authors use LLMs to revise their papers before submitting. In this work, we perform empirical experiments on papers from the 2025 ACL Rolling Review (ARR) to evaluate LLM reviews from both the author and the reviewer perspective. First, we identify a limited alignment of LLM reviews with human ones. In the best-case scenario, the alignment is reasonable. However, we also find that LLM-human alignment varies substantially across prompts and models. Finally, we investigate the scenario in which the author uses an iterative draft-revise workflow to improve the submission according to the LLM review. We find that this &quot;gaming&quot; of LLM reviews can be effective in specific scenarios, leading to a statistically significant increase of overall scores for up to 35\% of papers. We publish our code: https://github.com/uhh-hcds/reviewarcade.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5533142558fc" data-article-url="https://arxiv.org/abs/2605.28902" data-article-title="拡散モデルの直交概念消去" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28902" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28902" target="_blank" rel="noopener">拡散モデルの直交概念消去</a></h3>
      <p class="summary">概念消去は、拡散モデルにおける望ましくないコンテンツや安全でないコンテンツを軽減するための有望なアプローチとして浮上していますが、既存の方法には依然として大きな限界があります。トレーニングベースの方法は効果的ですが、計算コストが高いため、スケーラビリティが制限されます。編集ベースの方法はより効率的で展開しやすいですが、正確な概念の消去と全体的な生成能力の維持を同時に達成するのに苦労します。私たちは、編集ベースの方法のこの核となる制限が、追加的なパラメーター更新への依存であると特定しました。私たちの経験的分析により、概念の意味論は主にニューロンの大きさではなくニューロンの方向に依存し、全体的な生成能力はニューロンの角度幾何学に依存することが明らかになりました。追加的な更新は本質的に方向、大きさ、角度ジオメトリに絡み合っているため、必然的に概念の消去と全体的な生成パフォーマンスの間に意図しない干渉が生じます。これに対処するために、編集ベースの消去を幾何学的な観点から乗算パラメータ更新として再定式化する直交概念消去 (OCE) を提案します。具体的には、OCE は、閉形式の解から導出されたレイヤーごとの直交変換をパラメーターに適用し、ニューロンの大きさと角度の幾何学形状を維持しながら、正確な概念消去を可能にします。さらに、複数概念消去における矛盾する制約に対処するために、OCE は構造化された部分空間操作を備えた部分空間レベルの目標を導入し、より効果的でスケーラブルな消去を実現します。単一概念および複数概念の消去に関する広範な実験により、OCE が概念消去と非ターゲット保存において既存の手法を上回り、4.3 秒で最大 100 個の概念を消去できることが実証されました。コード: https://github.com/HansSunY/OCE。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Orthogonal Concept Erasure for Diffusion Models</p>
        <p class="orig-summary">Concept erasure has emerged as a promising approach to mitigate undesired or unsafe content in diffusion models, yet existing methods still face significant limitations. While training-based methods are effective, their high computational cost limits scalability. Editing-based methods are more efficient and deployment-friendly, yet they struggle to simultaneously achieve precise concept erasure and preserve overall generative capacity. We identify this core limitation of the editing-based methods as reliance on additive parameter updates. Our empirical analysis reveals that concept semantics primarily depend on neuron direction rather than neuron magnitude, while overall generative capacity relies on the angular geometry of neurons. As additive updates inherently entangle direction, magnitude, and angular geometry, they inevitably introduce unintended interference between concept erasure and overall generation performance. To address this, we propose Orthogonal Concept Erasure (OCE), which reformulates editing-based erasure as multiplicative parameter updates from a geometric perspective. Specifically, OCE applies layer-wise orthogonal transformations derived from a closed-form solution to the parameters, enabling precise concept erasure while preserving the neuron magnitude and angular geometry. Furthermore, to address conflicting constraints in multi-concept erasure, OCE introduces a subspace-level objective with structured subspace manipulation, yielding a more effective and scalable erasure. Extensive experiments on single- and multi-concept erasure demonstrate that OCE outperforms existing methods in concept erasure and non-target preservation, erasing up to 100 concepts in 4.3 s. Code: https://github.com/HansSunY/OCE.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ee20be338863" data-article-url="https://arxiv.org/abs/2605.28965" data-article-title="Frontier LLM ベースのエージェントは、自然な表現型のオントロジーキュレーションのボトルネックを克服できます" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28965" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28965" target="_blank" rel="noopener">Frontier LLM ベースのエージェントは、自然な表現型のオントロジーキュレーションのボトルネックを克服できます</a></h3>
      <p class="summary">フリーテキストの表現型記述をオントロジー用語にリンクすることは、通常表現型アノテーションと呼ばれ、比較形態学的データを研究間で統合するために不可欠です。この労働集約的なプロセスは高度な訓練を受けた人間の専門家に大きく依存しており、そのため拡張が困難であり、それが大きなボトルネックとなっています。ダードゥルら。 (2018) 7 つの系統学的研究にわたるエンティティ品質 (EQ) アノテーションのゴールド スタンダード (GS) を確立し、それを使用して 3 人のキュレーターと、オントロジーベースの意味的類似性メトリクスを備えた Semantic CharaParser NLP ツールを評価しました。彼らは、機械と人間の一貫性は、キュレーター間（人間と人間）の一貫性よりも大幅に低いと報告しました。ここでは、Anthropic と OpenAI の 5 つのフロンティア ホスト LLM を使用してそのベンチマークを再検討します。各 LLM は、ソース出版物の PDF、元の人間のキュレーターが使用したのと同じ注釈ガイド、4 つのプロジェクト オントロジー (UBERON、PATO、BSPO、GO)、および検証スクリプトを提供する自己完結型ワークスペース内で「エージェント キュレーター」として動作します。同じゴールドスタンダードに照らして評価すると、すべてのエージェントは、元の研究で訓練を受けた 3 人の人間のバイオキュレーターのキュレーター間変動の範囲内に収まりました。最もパフォーマンスの高いエージェントがアプローチしましたが、最もパフォーマンスの高い人間のキュレーターには到達できませんでした。エージェントは、4 つの指標すべてで Semantic CharaParser を大幅に上回りました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes</p>
        <p class="orig-summary">Linking free-text phenotype descriptions to ontology terms, typically referred to as phenotype annotation, is essential for the cross-study integration of comparative morphological data. This labor intensive process has heavily relied on highly trained human experts, which makes it challenging to scale and thus a key bottleneck. Dahdul et al. (2018) established a Gold Standard (GS) of Entity-Quality (EQ) annotations across seven phylogenetic studies and used it to evaluate three human curators and the Semantic CharaParser NLP tool with ontology-based semantic similarity metrics; they reported that machine-human consistency was significantly lower than inter-curator (human-human) consistency. Here we revisit that benchmark with five frontier hosted LLMs from Anthropic and OpenAI, each operating as an &quot;agentic curator&quot; within a self-contained workspace that supplies the source publication PDF, the same annotation guide used by the original human curators, the four project ontologies (UBERON, PATO, BSPO, GO), and a validation script. Evaluated against the same Gold Standard, every agent fell within the range of inter-curator variability of the three trained human biocurators of the original study; the best performing agents approached but did not reach the best performing human curator. Agents substantially outperformed Semantic CharaParser on all four metrics.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cd02c3c08906" data-article-url="https://arxiv.org/abs/2605.28978" data-article-title="VFEAgent: エンドツーエンドの自動有限要素解析のためのマルチモーダル エージェント フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28978" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28978" target="_blank" rel="noopener">VFEAgent: エンドツーエンドの自動有限要素解析のためのマルチモーダル エージェント フレームワーク</a></h3>
      <p class="summary">有限要素解析 (FEA) は、現代のエンジニアリング設計の基礎として機能します。ただし、そのワークフローは本質的に複雑で、ドメインの専門知識に大きく依存しています。最近の取り組みでは、大規模言語モデル (LLM) を FEA に統合しましたが、既存のアプローチでは、マルチモーダル入力の処理と複雑なタスクの実行において限界に直面しています。これらの制限に対処するために、入力画像と問題の説明から直接 FEA モデリングとシミュレーションを自動化するように設計されたエンドツーエンドのマルチエージェント システムである VFEAgent を提案します。当社の方法論は 2 つのコア コンポーネントを統合しています。(1) ReAct 駆動の推論を採用して異種入力から構造化 FEA 仕様を抽出するマルチモーダル ビジョン言語マルチエージェント パイプラインと、(2) 実行可能性と物理的妥当性を保証するための堅牢な自己デバッグおよびフォールバック メカニズムを組み込んだ検証優先コード合成フレームワーク。私たちは、さまざまな工学力学シナリオにわたってシステムを体系的に評価しました。結果は、VFEAgent が完全で物理的に有効なシミュレーションの生成において高い成功率を達成し、信頼性と正確性の点で LLM ベースのベースライン手法を上回っていることを示しています。これらの調査結果は、FEA ワークフロー全体を自動化する実現可能性を検証し、エンジニアを退屈な手動分析から解放するフレームワークの可能性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">VFEAgent: A Multimodal Agent Framework for End-to-End Automated Finite Element Analysis</p>
        <p class="orig-summary">Finite Element Analysis (FEA) serves as the cornerstone of modern engineering design. However, its workflow is inherently complex and relies heavily on domain expertise. Although recent efforts have integrated Large Language Models (LLMs) into FEA, existing approaches face limitations in handling multimodal inputs and executing complex tasks. To address these limitations, we propose VFEAgent, an end-to-end multi-agent system designed to automate FEA modeling and simulation directly from input images and problem descriptions. Our methodology integrates two core components: (1) a multimodal vision-language multi-agent pipeline that employs ReAct-driven reasoning to extract structured FEA specifications from heterogeneous inputs and (2) a verification-first code synthesis framework, incorporating robust self-debugging and fallback mechanisms to ensure executability and physical validity. We systematically evaluated the system across various engineering mechanics scenarios. The results demonstrate that VFEAgent achieves a high success rate in generating complete and physically valid simulations, outperforming LLM-based baseline methods in reliability and correctness. These findings validate the feasibility of automating the complete FEA workflow, highlighting the framework&#x27;s potential to liberate engineers from tedious manual analysis.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="26b98f159384" data-article-url="https://arxiv.org/abs/2605.28994" data-article-title="ビームス: モデリングとシミュレーションのための AI のベンチマークと評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28994" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28994" target="_blank" rel="noopener">ビームス: モデリングとシミュレーションのための AI のベンチマークと評価</a></h3>
      <p class="summary">現実世界の意思決定をサポートする AI ツールは、推奨事項を通知し、解釈可能にするシミュレーション モデルを構築できなければなりません。モデリング実践のさまざまな側面を自動化できるツールは、人間の専門知識に代わるものではなく、補完するものでなければなりません。ビームス イニシアチブは、人間中心のモデリングとシミュレーションの実践のベンチマークを確立することにより、モデリングとシミュレーション用の AI ツールの開発を責任ある倫理的な形式に導くことを目的としています。この取り組みでは、オープンなデジタルおよび組織インフラストラクチャを使用して、モデリングとシミュレーション用の AI ツールを共同で評価します。このイニシアチブが主催するオープンソースの SD AI プロジェクトは透明性を確立し、貢献を広く共有できるようにします。運営グループは潜在的なベンチマークに優先順位を付けることに重点を置き、技術グループは自動テストの形式でベンチマークを実装することに重点を置きます。いくつかの異なるカテゴリの評価のテストが実装され、定性的モデルの構築、定量的モデルの構築、およびモデルの議論をサポートする AI ツールに適用されています。これらには、因果変換、モデル反復、因果推論、適合性、モデル動作の説明、推奨されるモデル構築手順、推奨されるモデル修正のテストが含まれます。 sd ai プロジェクトのエンジンをさまざまな LLM と組み合わせると、これらの評価でのパフォーマンスによってさまざまな AI ツール間でのばらつきが明らかになります。この取り組みによって実施された評価は、AI 対応モデリング ツールが、因果推論や定量的なエラー修正よりも、ディスカッションや基本的な定性的なタスクにおいて優れたパフォーマンスを発揮することを示しています。単一の LLM がエンジン タイプ全体で優勢になることはなく、特定のタスクの重要性と、速度と精度の間のトレードオフが強調されます。このイニシアチブの継続的な取り組みは、別の視点と人間中心のユースケースを考慮することで、偏見に関する懸念に対処するベンチマークを組み込むことを目的としています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BEAMS: Benchmarking and Evaluating AI for Modeling and Simulation</p>
        <p class="orig-summary">AI tools to support real world decision making must be able to build simulation models that inform their recommendations and render them interpretable. Tools that can automate aspects of modeling practice must complement human expertise, not replace it. The BEAMS Initiative aims to guide the development of AI tools for modeling and simulation toward forms that are responsible and ethical by establishing benchmarks for human centered modeling and simulation practices. The initiative uses open digital and organizational infrastructure to collaboratively evaluate AI tools for modeling and simulation. The open source sd ai project hosted by the initiative establishes transparency and enables contributions to be shared broadly. A steering group focuses on prioritizing potential benchmarks, while a technical group focuses on implementing the benchmarks in the form of automated tests. Tests for several distinct categories of evaluation have been implemented and applied to AI tools that support qualitative model building, quantitative model building, and model discussion. These include tests for causal translation, model iteration, causal reasoning, conformance, model behavior explanation, suggested model building steps, and suggested model fixes. When engines from the sd ai project are coupled with different LLMs, their performance on these evaluations reveals variability across different AI tools. The evaluations implemented by the initiative demonstrate that AI enabled modeling tools perform better at discussion and basic qualitative tasks than with causal reasoning and quantitative error fixing. No single LLM dominates across engine types, highlighting the importance of specific tasks and tradeoffs between speed and accuracy. Ongoing efforts of the initiative aim to incorporate benchmarks that address concerns about bias by considering alternative perspectives and human centered use cases.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bdab0bfb424e" data-article-url="https://arxiv.org/abs/2605.29018" data-article-title="Adopt $\neq$ Adapt: 現実の LLM 会話の縦断的分析" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><a class="entity-tag" href="/entity/copilot/" data-entity="copilot">Copilot</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29018" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29018" target="_blank" rel="noopener">Adopt $\neq$ Adapt: 現実の LLM 会話の縦断的分析</a></h3>
      <p class="summary">ユーザーと LLM の相互作用について説明する研究が増えてきていますが、それが描く絵はほとんど静的なものです。個々のユーザーが時間の経過とともにどのように行動を変えるかについてはほとんど知られていません。このギャップに対処するために、無作為に抽出した $\sim$12,000 人の Microsoft Bing Copilot ユーザーの会話の軌跡を分析し、WildChat-4.8M のデータと比較します。 Copilot データには集団レベルの重要な傾向が含まれていますが、個々のユーザーの軌跡の傾向ははるかに弱いことがわかります。ユーザーの習慣は圧倒的に固定的であることがわかります。また、さまざまなアクティビティ レベルのユーザー間には明らかな違いがあることもわかりました。よりアクティブなユーザーはより成功した会話をし、より複雑でプロフェッショナル志向のタスクに LLM を使用します。一部のユーザー傾向は WildChat-4.8M にも見られますが、このデータセットが高度に熟練した「パワー」ユーザーに大きく偏っているという証拠が見つかりました。最終的に、私たちの結果は、既存のユーザーの行動を変えるのが難しいことを示唆しており、ユーザーの異質性の程度を示しています。データセット間の比較では、WildChat が典型的なユーザーと AI の対話を表していないことが強調されており、これはデータのダウンストリーム使用における重要な注意事項です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Adopt $\neq$ Adapt: Longitudinal Analyses of LLM Conversations in the Wild</p>
        <p class="orig-summary">Although a growing body of research has begun to describe user--LLM interactions, the picture it paints is largely static; little is known about how individual users change their behavior over time. To address this gap, we analyze the conversational trajectories of $\sim$12,000 randomly sampled Microsoft Bing Copilot users and compare these with data from WildChat-4.8M. While the Copilot data contains significant population-level trends, we find that trends in individual user trajectories are much weaker; user habits prove to be overwhelmingly sticky. We also find stark differences between users of different activity levels: more active users have more successful conversations and use the LLM for more complex and professionally oriented tasks. Some user trends also appear in WildChat-4.8M, but we find evidence that this dataset is significantly skewed towards highly proficient &quot;power&quot; users. Ultimately, our results suggest that existing user behavior is difficult to change and demonstrate the extent of user heterogeneity. Our comparison between datasets highlights that WildChat does not represent typical user-AI interactions, an important caveat for downstream uses of the data.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="32df9c17c410" data-article-url="https://arxiv.org/abs/2605.29025" data-article-title="モデルが一致しない場合: パブリック コメント分析のための LLM 評価を再考する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29025" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29025" target="_blank" rel="noopener">モデルが一致しない場合: パブリック コメント分析のための LLM 評価を再考する</a></h3>
      <p class="summary">連邦政府機関はパブリック コメント コーパスを分類するために大規模言語モデル (LLM) を導入しており、モデルの記録構成によって政策立案者が何を確認し、どの議論が登録されるかが決まります。小規模な検証済みセットに対するスタンスの精度に基づいた標準評価では、異なるモデルが同じ公的入力に対して実質的に異なる分類を生成する場合を検出できません。私たちは、マルチモデルの不一致を解釈の複雑さの診断として扱い、真に曖昧な公的意見に向けて人間によるレビューを指示する解釈監査パイプラインを提案します。 4 つの LLM にわたる連邦 USDA 文書に対する 1,260 件のパブリック コメントを分析したところ、モデル間のテーマの相違がモデル内のプロンプト変動を上回っており、専門家のルーブリックが深い解釈上の不一致を解決することなく抑圧していることがわかりました。層化された 40 コメントのサブサンプルに対する 2 段階のラベル付け研究では、4 人の LLM とヒューマン アノテーターが独立してラベル付けし、他のラベルを確認した後に修正しました。改訂動作はラベラーによって異なり、ヒューマン・アノテーターの改訂では、アンサンブルの集合的な出力にはないフレームが頻繁に導入されました。私たちは、不一致に基づく評価は、LLM 支援解釈コーディングの精度メトリクスを補完するために必要であると主張します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis</p>
        <p class="orig-summary">Federal agencies are deploying large language models (LLMs) to categorize public comment corpora, where the model&#x27;s organization of the record shapes what policymakers see and which arguments register. Standard evaluation, anchored on stance accuracy against a small validated set, cannot detect when different models produce materially different categorizations of the same public input. We propose an Interpretive Audit Pipeline that treats multi-model disagreement as diagnostic of interpretive complexity and directs human review toward genuinely ambiguous public input. Analyzing 1,260 public comments on a federal USDA docket across four LLMs, we find that inter-model thematic divergence exceeds within-model prompt variation, and that an expert rubric suppresses deep interpretive disagreement without resolving it. In a two-stage labeling study on a stratified 40-comment subsample, four LLMs and a human annotator labeled independently and then revised after seeing the others&#x27; labels. Revision behavior varied across labelers, and the human annotator&#x27;s revisions frequently introduced framings absent from the ensemble&#x27;s collective output. We argue disagreement-based evaluation is a necessary complement to accuracy metrics for LLM-assisted interpretive coding.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="af284b296a3f" data-article-url="https://arxiv.org/abs/2605.29027" data-article-title="トーンに注意: トーンによって LLM のパフォーマンスが変化しますか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29027" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29027" target="_blank" rel="noopener">トーンに注意: トーンによって LLM のパフォーマンスが変化しますか?</a></h3>
      <p class="summary">大規模言語モデル (LLM) の使用は急増していますが、そのパフォーマンスはプロンプトのスタイルや口調に基づいて変化することが観察されています。この研究では、プロンプトの音調の変化が客観的な多肢選択式の質問に対する LLM の精度の違いにつながるかどうか、またどのようにして起こるかを調査します。 5 つの声調バリエーションを持つ 50 ベースの質問データセットと、7 つの声調バリエーションを持つ 57 人の被験者にわたる 570 ベースの質問 MMLU サブセットの 2 つのデータセットを使用します。実験は、コスト効率の高い人気のある 4 つの LLM (ChatGPT-4o、ChatGPT-5-nano、Gemini 2.5 Flash、および Gemini 2.5 Flash Lite) のパフォーマンスを評価するために実施されました。モデル間での音色効果は体系的ですが、モデルに大きく依存します。一部のモデルは小さいながらも統計的に有意な変化を示しますが、他のモデルはトーン全体で大きな精度の変動を示します。さらに、トーン感度における被験者レベルの違いを特定し、トーンがどのように内部推論モードを調整するかを説明するためのルーティングフレームワークを提示します。私たちの調査結果は、LLM 導入においてトーン堅牢な信頼性を想定しないようユーザーに警告します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Mind Your Tone: Does Tone Alter LLM Performance?</p>
        <p class="orig-summary">The use of Large Language Models (LLMs) is proliferating, yet their performance is observed to vary based on prompting styles and tones. In this study, we investigate both whether and how tonal variations in prompts lead to disparate LLM accuracy for objective multiple-choice questions. We use two datasets: a 50-base question dataset with five tone variants and a 570-base question MMLU subset spanning 57 subjects with seven tone variants. Experiments were conducted to evaluate the performance of four cost-efficient, popular LLMs: ChatGPT-4o, ChatGPT-5-nano, Gemini 2.5 Flash, and Gemini 2.5 Flash Lite. Across models, tonal effects are systematic but highly model-dependent. Some models show small, yet statistically significant, shifts, while others exhibit large accuracy swings across tones. Further, we identify subject-level differences in tone sensitivity and present a routing framework to explain how tones may attune internal reasoning modes. Our findings caution users against assuming tone-robust reliability in LLM deployments.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6ded281069ad" data-article-url="https://arxiv.org/abs/2605.29041" data-article-title="AI を活用した教育における実践者の信念と行動: DOT フレームワーク調査の証拠" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29041" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29041" target="_blank" rel="noopener">AI を活用した教育における実践者の信念と行動: DOT フレームワーク調査の証拠</a></h3>
      <p class="summary">この研究は、教育と学習における人工知能 (AI) の統合に関する信念、行動、および制度的条件を調査した高等教育従事者を対象とした横断的調査 (n = 72) の結果を報告しています。この研究は、デザイン思考とオープン システム理論を統合する DOT フレームワークに基づいて、AI の馴染み、使用パターン、デザイン指向の実​​践、教育的信念を調査しています。 19 の信念項目の探索的因子分析により、AI の機能能力、監視とガバナンス、インストラクターのコラボレーションと計画の 3 つの因子構造が特定されました ({\alpha} = 0.90)。結果は、実践者が人間による監視と批判的評価への強いコミットメントを維持しながら、教育的サポートとして AI に好意的な見解を持っていることを示しています。報告されている実践では、反復的なプロンプトとコンテンツ生成が重視されており、ニーズ評価とフィードバック ループの一貫性の低い使用が行われています。限られた政策、トレーニング、インフラストラクチャーなどの制度的障壁が広く報告されました。これらの発見は、実務者の信念と実践の記述モデルとして DOT フレームワークに対する予備的な経験的裏付けを提供すると同時に、設計指向の理論と現在の実装との間のギャップも浮き彫りにします。この研究は、初期の測定構造に貢献し、AI 支援の設計実践を指導の質に結び付ける確認的検証と結果ベースの研究の方向性を特定します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Practitioner Beliefs and Behaviors in AI-Enhanced Education: DOT Framework Survey Evidence</p>
        <p class="orig-summary">This study reports findings from a cross-sectional survey (n = 72) of higher education practitioners examining beliefs, behaviors, and institutional conditions related to artificial intelligence (AI) integration in teaching and learning. Grounded in the DOT Framework, which integrates design thinking and open systems theory, the study investigates AI familiarity, usage patterns, design-oriented practices, and pedagogical beliefs. Exploratory factor analysis of 19 belief items identified a three-factor structure: AI Functional Capabilities, Oversight and Governance, and Instructor Collaboration and Planning ({\alpha} = .90). Results indicate that practitioners hold favorable views of AI as a pedagogical support while maintaining strong commitments to human oversight and critical evaluation. Reported practices emphasize iterative prompting and content generation, with less consistent use of needs assessment and feedback loops. Institutional barriers including limited policy, training, and infrastructure were widely reported. These findings provide preliminary empirical support for the DOT Framework as a descriptive model of practitioner beliefs and practices, while also highlighting gaps between design-oriented theory and current implementation. The study contributes an initial measurement structure and identifies directions for confirmatory validation and outcome-based research linking AI-supported design practices to instructional quality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e170ddd78a55" data-article-url="https://arxiv.org/abs/2605.29042" data-article-title="差別化可能な信念に基づく敵対者の形成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29042" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29042" target="_blank" rel="noopener">差別化可能な信念に基づく敵対者の形成</a></h3>
      <p class="summary">人間の調整は、多くの場合、戦略的行動を通じて他者の信念に影響を与える能力に依存しています。マルチエージェント強化学習では、対戦相手のシェーピングがこの影響を再現しようとしますが、既存の手法は通常、対戦相手のパラメータ、ポリシー、または値空間内で動作します。一方、隠しロール ゲームにおける信念操作テクニックは、欺瞞や信念の飽和など、ハードコードされた目的に依存することがよくあります。我々は、各観察者の信念を成形された相手の状態として扱い、$k$ ステップのソフトマックスベイズ信念ダイナミクスを通じて微分する一次手法である、微分可能な信念ベースの相手シェーピング (D-BOS) を提案します。私たちの方法では、欺瞞的または協力的な行動に明示的に報酬を与えるのではなく、信念状態を形成のターゲットとして扱います。これにより、環境の報酬構造から最適な戦略が自然に現れることが可能になります。この信念空間の定式化は、対戦相手の信念の更新を通じて微分することによって対戦相手を形成する信号を提供し、個々の推定された信念の軌跡にわたる勾配を集約することによって複数の観察者に自然に拡張されます。経験的に、D-BOS は隠しロール ゲームで PPO や BBM よりも優れており、動機が混合された設定で最大の利益をもたらします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Differentiable Belief-based Opponent Shaping</p>
        <p class="orig-summary">Human coordination often relies on the ability to influence the beliefs of others through strategic action. In multi-agent reinforcement learning, opponent shaping attempts to replicate this influence, though existing methods typically operate within an opponent&#x27;s parameter, policy, or value space. Meanwhile, belief-manipulation techniques in hidden-role games often rely on hard-coded objectives, such as deception or belief saturation. We propose Differentiable Belief-based Opponent Shaping (D-BOS), a first-order method that treats each observer&#x27;s belief as the shaped opponent state and differentiates through $k$-step softmax-Bayes belief dynamics. Rather than explicitly rewarding deceptive or cooperative behavior, our method treats the belief state as the target for shaping. This allows the optimal strategy to emerge naturally from the environment&#x27;s reward structure. This belief-space formulation provides an opponent-shaping signal by differentiating through opponent belief updates, and naturally extends to multiple observers by aggregating gradients over their individual inferred belief trajectories. Empirically, D-BOS outperforms PPO and BBM in hidden-role games, with the largest gains in mixed-motive settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="95d9641186b8" data-article-url="https://arxiv.org/abs/2605.29055" data-article-title="Agentic AI、ネストされた学習、セマンティック キャッシングによる AI の持続可能性による幻覚の軽減" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29055" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29055" target="_blank" rel="noopener">Agentic AI、ネストされた学習、セマンティック キャッシングによる AI の持続可能性による幻覚の軽減</a></h3>
      <p class="summary">幻覚は、実稼働 LLM システムにとって、特にサポートされていないクレームがチェックされずにステージ全体に伝播する可能性があるマルチエージェント パイプラインにおいて、依然として大きな信頼性の障壁となっています。この論文では、連続メモリ システム (CMS) と意味論的類似性キャッシュを備えた HOPE にインスピレーションを得た入れ子学習アーキテクチャを、217 個の認識論的不確実性プロンプトと 93 個の製造誘導ストレステスト プロンプトを組み合わせた 310 個のプロンプトのハイブリッド ベンチマークに適応させます。オープン フロア プロトコル (OFP) を介して調整された 3 段階のエージェント パイプラインは、FCD (事実の主張密度)、FGR (事実の根拠参照)、FDF (架空の免責事項の頻度)、ECS (明示的なコンテキスト化スコア)、および OSR (観察可能性スコア率) の 5 つの KPI を使用して評価され、研究対象の 5 つの重み付け構成にわたって THS (総幻覚スコア) に集約されます。緩和と可観測性のトレードオフ。 FDF、ECS、OSR、および FGR は緩和シグナルとして差し引かれるため、THS がより負であるほど、緩和が強力であることを示します。 FrontEndAgent は、現実的な幻覚ベースラインを生成する高確率ジェネレータ (温度 = 1.0) として構成され、SecondLevelReviewer と ThirdLevelReviewer はプログレッシブ コレクタとして動作します。この非対称設計により、5 つの重み付け構成全体でエンドツーエンドの THS が -31.3% ～ -35.9% 削減されます。セマンティック キャッシュは、930 回の潜在的な呼び出しで 440 回のキャッシュ ヒット (ヒット率 47.3%) を達成し、LLM 呼び出しを 490 回に減らし、エネルギーと CO2e フットプリントを削減し、マルチステージ レビュー パイプラインを運用規模で実行可能にします。 ExtremeObservability は最もマイナスの最終 THS (-0.0709) を達成しており、可観測性を重視した構成が緩和を損なうのではなく強化していることが確認されています。これらの発見は、メモリ拡張マルチエージェント設計がモデルの再トレーニングなしで事実の信頼性、運用効率、監査可能性を共同で改善できることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Hallucination Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching</p>
        <p class="orig-summary">Hallucination remains a major reliability barrier for production LLM systems, particularly in multi-agent pipelines where unsupported claims can propagate unchecked across stages. This paper adapts a HOPE-inspired Nested Learning architecture with Continuum Memory Systems (CMS) and semantic similarity caching to a hybrid benchmark of 310 prompts combining 217 epistemic-uncertainty prompts and 93 fabrication-induction stress-test prompts. A three-stage agentic pipeline orchestrated via the Open Floor Protocol (OFP) is evaluated with five KPIs -- FCD (Factual Claim Density), FGR (Factual Grounding References), FDF (Fictional Disclaimer Frequency), ECS (Explicit Contextualization Score), and OSR (Observability Score Ratio) -- aggregated into THS (Total Hallucination Score) across five weighting configurations to study mitigation-observability trade-offs. FDF, ECS, OSR, and FGR are subtracted as mitigation signals, so that a more negative THS indicates stronger mitigation. The FrontEndAgent is configured as a high-stochasticity generator (temperature = 1.0) to produce a realistic hallucination baseline, while the SecondLevelReviewer and ThirdLevelReviewer operate as progressive correctors. This asymmetric design yields end-to-end THS reductions of -31.3% to -35.9% across five weighting configurations. Semantic caching achieves 440 cache hits over 930 potential calls (47.3% hit rate), reducing LLM invocations to 490, lowering energy and CO2e footprint, and making multi-stage review pipelines operationally viable at production scale. ExtremeObservability attains the most negative final THS (-0.0709), confirming that observability-heavy configurations reinforce rather than compromise mitigation. These findings suggest that memory-augmented multi-agent designs can jointly improve factual reliability, operational efficiency, and auditability without model retraining.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="488f4f66af36" data-article-url="https://arxiv.org/abs/2605.29068" data-article-title="潜在推論を備えた堅牢で効率的なガードレール" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29068" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29068" target="_blank" rel="noopener">潜在推論を備えた堅牢で効率的なガードレール</a></h3>
      <p class="summary">大規模言語モデル (LLM) が現実世界のアプリケーションに導入されることが増えているため、その安全性を維持することが重要です。既存の安全ガードレールは通常、シングルパス分類、または最近では蒸留された推論に依存しています。推論ベースのガードレールは、分類のみのベースラインよりも大幅にパフォーマンスが優れていますが、クエリの遅延とトークンのオーバーヘッドが大幅に発生するため、高スループットの展開には非現実的です。この課題に対処するために、段階別のトレーニング カリキュラムを通じて複数ステップの安全推論を連続的な潜在空間に転送し、推論時に直接隠れ状態の伝播を可能にするガードレール モデルである COLAGUARD を提案します。 8 つの安全性ベンチマークにわたる 10 のプロンプトおよび応答モデレーション設定で評価された COLAGUARD は、マクロ F1 を Llama Guard 3 より 8.24 ポイント改善し、マクロ F1 の明示的推論ベースライン GuardReasoner と一致すると同時に、12.9 倍の高速化とトークン使用量の 22.4 倍の削減を実現します。私たちの結果は、潜在的推論が、展開可能なガードレールの明示的理論的根拠の生成に代わる実用的な代替手段を提供し、安全性の堅牢性と推論の効率を競合する目的として扱うのではなく、共同して向上させることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Robust and Efficient Guardrails with Latent Reasoning</p>
        <p class="orig-summary">Maintaining the safety of large language models (LLMs) is crucial as they are increasingly deployed in real-world applications. Existing safety guardrails typically rely on single-pass classification or, more recently, distilled reasoning. Reasoning-based guardrails significantly outperform classification-only baselines, but they incur substantial query latency and token overhead that make them impractical for highthroughput deployment. To address this challenge, we propose COLAGUARD, a guardrail model that transfers multi-step safety reasoning into a continuous latent space through a stage-wise training curriculum, enabling direct hidden-state propagation at inference. Evaluated on ten prompt- and response-moderation settings spanning eight safety benchmarks, COLAGUARD improves macro-F1 by 8.24 points over Llama Guard 3 and matches our explicit reasoning baseline, GuardReasoner, in macroF1 while delivering a 12.9X speedup and 22.4X reduction in token usage. Our results suggest that latent reasoning offers a practical alternative to explicit rationale generation for deployable guardrails, jointly improving safety robustness and inference efficiency rather than treating them as competing objectives.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6e15f3deef3a" data-article-url="https://arxiv.org/abs/2605.29078" data-article-title="実行セマンティクスを通じて強化学習ベースの産業派遣におけるシミュレーションと現実のギャップを埋める" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29078" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29078" target="_blank" rel="noopener">実行セマンティクスを通じて強化学習ベースの産業派遣におけるシミュレーションと現実のギャップを埋める</a></h3>
      <p class="summary">イベント駆動型のスケジューリング ポリシーは、非同期で部分的に監視されたシステム状態の下で意思決定が行われる産業環境で導入されることが増えています。その結果、決定状態は一時的に一貫せず、アクションの許容性は明示的に定義されず、実行エラーの原因はあいまいなままになります。これらの問題により、信頼性と解釈可能性の両方が制限されます。このギャップに対処するために、スケジューリング ポリシーと産業用実行環境の間を仲介するポリシー中立の実行および測定レイヤーが提案されています。このレイヤーは、非同期イベント ストリームから意思決定が有効なスナップショットを構築し、明示的なアクションの許容性を備えた標準化された実行コントラクトを定義し、結果をポリシーの意図、トランザクションの結果、物理的な実行、人間の介入の間の相違として記録します。これにより、意思決定セマンティクスと実行動作の分離が可能になり、デプロイメントの不一致が観察可能になり、構造的に原因が明らかになります。提案されたフレームワークは、離散イベント シミュレーションを使用して評価されます。結果は、未分化な実行失敗が完全な帰属範囲を備えた構造化された型付き結果に変換されるため、すべての観察ラグ体制にわたって分析上の利点を示しています。運用上の利点は、観察ラグが低い場合に最も大きくなり、回避可能な実行エラーをコミット前に防ぐことができます。全体として、このレイヤーは実行の不確実性を評価とポリシーの改善のための監視データに変換します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Bridging the Sim-to-Real Gap in Reinforcement Learning-Based Industrial Dispatching through Execution Semantics</p>
        <p class="orig-summary">Event-driven scheduling policies are increasingly deployed in industrial environments, where decisions are made under asynchronous and partially observed system states. As a result, decision states are not temporally consistent, action admissibility is not explicitly defined, and the origin of execution errors remains ambiguous. These issues limit both reliability and interpretability. To address this gap, a policy-neutral execution and measurement layer is proposed to mediate between scheduling policies and the industrial execution environment. The layer constructs decision-valid snapshots from asynchronous event streams, defines a standardized execution contract with explicit action admissibility, and records outcomes as divergences between policy intent, transactional outcomes, physical execution, and human intervention. This enables a separation between decision semantics and execution behavior and makes deployment mismatch observable and structurally attributable. The proposed framework is evaluated using a discrete-event simulation. The results show analytical benefits across all observation lag regimes, as undifferentiated execution failures are transformed into structured, typed outcomes with full attribution coverage. Operational benefits are strongest under low observation lag, where avoidable execution errors can be prevented before commitment. Overall, the layer turns execution uncertainty into supervisory data for evaluation and policy refinement.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="95b40f2f79b8" data-article-url="https://arxiv.org/abs/2605.29082" data-article-title="安全な自律エージェントのための帯域外メタデータの重要性: Redpanda エージェント データ プレーン" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29082" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29082" target="_blank" rel="noopener">安全な自律エージェントのための帯域外メタデータの重要性: Redpanda エージェント データ プレーン</a></h3>
      <p class="summary">AI エージェントは、企業データにアクセスし、意思決定を行い、自律的に行​​動を起こすデジタル従業員として機能することがますます期待されています。しかし、エージェントは同時に人間よりも予測可能性が低く、幻覚、誤解、敵対的操作を起こしやすいですが、深いシステム知識と高スループットのインターフェイスを備えており、マシンの速度で被害を連鎖的にもたらします。この組み合わせにより、アクセス ポリシー、データ分類、動作制約などのセキュリティ クリティカルなメタデータを忠実に解釈または伝達するエージェントに依存するのは安全ではなくなります。私たちは、帯域外メタデータ チャネルを中心に構築されたアーキテクチャである Redpanda Agentic Data Plane (ADP) を紹介します。帯域外メタデータ チャネルは、セキュリティ コンテキスト、ポリシー シグナル、および監査証跡を、エージェントの読み取りおよび書き込みパスの完全に外側で、異種インフラストラクチャ全体にわたって決定論的に伝送するインフラストラクチャ パスウェイです。これらのチャネルは、エージェントのライフサイクルのあらゆる段階でガバナンスを強化します。つまり、受信時のデータ アクセスの範囲設定、実行中のアクションの制限、送信時の改ざん防止トランスクリプトのキャプチャなどです。マルチエージェントのポートフォリオ リバランス システムを使用して ADP を実証します。このシステムでは、自律エージェントが市場を監視し、取引の意思決定を行い、分離されたクライアント アカウント全体で注文を実行します。クライアントごとのデータ スコープ、取引承認のしきい値、および改ざん防止の監査証跡はすべて、エージェントが確認することもバイパスすることもできない帯域外チャネルによって強制されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Importance of Out-of-Band Metadata for Safe Autonomous Agents: The Redpanda Agentic Data Plane</p>
        <p class="orig-summary">AI agents are increasingly expected to operate as digital employees: accessing enterprise data, making decisions, and taking actions autonomously. But agents are simultaneously less predictable than humans -- prone to hallucination, misinterpretation, and adversarial manipulation -- and more technically capable: with deep system knowledge and high-throughput interfaces cascading damage at machine speed. This combination makes it unsafe to rely on agents to faithfully interpret or propagate security-critical metadata such as access policies, data classifications, and behavioral constraints. We present the Redpanda Agentic Data Plane (ADP), an architecture built around out-of-band metadata channels: infrastructure pathways that carry security context, policy signals, and audit trails deterministically, entirely outside the agent&#x27;s read and write path and across heterogeneous infrastructure. These channels enforce governance at every stage of the agent lifecycle -- scoping data access on the way in, constraining actions during execution, and capturing tamper-proof transcripts on the way out. We demonstrate ADP with a multi-agent portfolio rebalancing system in which autonomous agents monitor markets, make trade decisions, and execute orders across isolated client accounts -- with per-client data scoping, trade approval thresholds, and tamper-proof audit trails all enforced by out-of-band channels the agents can neither see nor bypass.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="36f8c32e0d42" data-article-url="https://arxiv.org/abs/2605.29087" data-article-title="連鎖は維持され、答えは折りたたまれる: 敵対的な圧力下での推論モデルにおけるトレースと答えの解離" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29087" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29087" target="_blank" rel="noopener">連鎖は維持され、答えは折りたたまれる: 敵対的な圧力下での推論モデルにおけるトレースと答えの解離</a></h3>
      <p class="summary">推論モデルはシングルターンベンチマークで評価されますが、ユーザーが正解を押し返すマルチターンダイアログで展開されます。持続的な敵対的圧力の下では、これまで文書化されていなかった失敗モードが見つかります。つまり、思考の連鎖は最初のターンから最後まで事実上正しいままですが、発せられた答えは間違った方向に反転します。私たちはこれを不誠実な降伏 (UC) と呼び、フリップレート メトリクスとシングル ターン忠実度プローブの両方が見逃す $2\times 2$ の潜在対行動のフレームワークでこれを分離します。 3 つのデータセット (MT-Consistency、MMLU-Pro、GSM8K) にわたって、行動反転での潜在的正解率は思考モードでは 50% 近くに集まりましたが、no_think では 11 ～ 15% に落ち込みました。これは、推論がギャップを生み出すペアのモデル内因果証拠です。モデル全体で、この効果は推論チャネルを追跡します (Qwen3-32B および GPT-OSS-20B では高く、インライン CoT Gemma-4-31B-it では低くなります)。独立した GPT-4o 判事は UC ラベルの $86\%$ を裏付けています。トークンレベルのプローブは、UC セルの $84\%$ で応答スロット argmax が正しいことを示します。そして、単純なトレースアンカーの防御が裏目に出ます。全ての軌跡、痕跡、判定ラベルを公開します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure</p>
        <p class="orig-summary">Reasoning models are evaluated on single-turn benchmarks but deployed in multi-turn dialogue, where users push back on correct answers. Under sustained adversarial pressure we find a previously undocumented failure mode: the chain-of-thought stays factually correct from first turn to last while the emitted answer flips wrong. We call this unfaithful capitulation (UC) and isolate it with a $2\times 2$ latent-versus-behavioral framework that flip-rate metrics and single-turn faithfulness probes both miss. Across three datasets (MT-Consistency, MMLU-Pro, GSM8K), the latent-correct rate at the behavioral flip clusters near 50% in think mode and collapses to 11-15% under no_think -- paired, within-model causal evidence that reasoning creates the gap. Across models the effect tracks the reasoning channel (high in Qwen3-32B and GPT-OSS-20B, low in inline-CoT Gemma-4-31B-it). An independent GPT-4o judge corroborates $86\%$ of UC labels; a token-level probe shows the answer-slot argmax is correct in $84\%$ of UC cells; and a naive trace-anchored defense backfires. We release all trajectories, traces, and judge labels.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="03bb71bd67c5" data-article-url="https://arxiv.org/abs/2605.29096" data-article-title="AI および臨床試験における人間と AI の相互作用のトレンド -- 人間と AI のハイブリッドの探求" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29096" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29096" target="_blank" rel="noopener">AI および臨床試験における人間と AI の相互作用のトレンド -- 人間と AI のハイブリッドの探求</a></h3>
      <p class="summary">この論文では、ClinicalTrials.gov レジストリから取得した記録を調査して、AI 用語の一時的な傾向と AI 治験の地理的分布を特徴付けます。この研究では、登録された臨床試験における人間と AI の相互作用の傾向を分析するための探索的なハイブリッド人間と AI アプローチについても報告しています。ハイブリッド ワークフローは、フロンティア生成 AI モデル (GPT-5.5) と、AI に焦点を当てた検索によって返された記録をスクリーニングおよび分類するための人によるレビューで構成されています。この調査結果は、AI 関連の試験が時間の経過とともに顕著に増加しており、最近では機械学習、深層学習、チャットボット、GPT、大規模言語モデルへの言及が増加していることを示しています。地理的には、中国と米国が AI 関連の治験の最多を占めており、最近ではイタリア、フランス、スペイン、英国、トルコ (T\&quot;urkiye) など他のいくつかの国での増加が顕著である。100 件の記録の無作為サンプルにおいて、人間と AI の分類子は、AI を実質的に使用していない研究の特定では良好な一致を示したが、特に医療専門家の相互作用が曖昧または不十分な場合、人間と AI の相互作用の分類では低い一致を示した。全体として、結果は人間と AI のハイブリッド スクリーニングが有効であることを示唆している。臨床試験記録の削減は潜在的に実行可能ですが、より明確な試験報告とより正確な相互作用定義はプロセスに利益をもたらします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Trends in AI and Human-AI Interaction in Clinical Trials -- A Hybrid Human-AI Exploration</p>
        <p class="orig-summary">This paper examines records retrieved from the ClinicalTrials.gov registry to characterize temporal trends in AI terminology and the geographical distribution of AI trials. The work also reports on an exploratory hybrid human-AI approach to analyzing human-AI interaction trends in registered clinical trials. The hybrid workflow comprised a frontier generative AI model (GPT-5.5) and human review to screen and categorize records returned by an AI-focused search. The findings indicate a marked increase in AI-related trials over time, with recent growth in references to machine learning, deep learning, chatbots, GPTs, and large language models. Geographically, China and the United States accounted for the largest numbers of AI-related trials, with notable recent increases in several other countries including Italy, France, Spain, the UK and Turkey (T\&quot;urkiye). In a random sample of 100 records, human and AI classifiers showed good agreement in identifying studies not substantively using AI, but lower agreement in classifying human-AI interaction, particularly where health professional interaction was ambiguous or insufficiently described. Overall, the results suggest that hybrid human-AI screening of clinical trial records is potentially viable, but clearer trial reporting and more precise interaction definitions will benefit the process.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="398a1398fc7f" data-article-url="https://arxiv.org/abs/2605.29116" data-article-title="コンセンサスを超えて: 薬剤の混合物における微量レベルの合成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29116" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29116" target="_blank" rel="noopener">コンセンサスを超えて: 薬剤の混合物における微量レベルの合成</a></h3>
      <p class="summary">複数の LLM エージェントが同じ問題を解決する場合、標準的な慣行では、各エージェントの推論が多数決または階層化された統合に圧縮され、合意が最終ラインとして扱われます。私たちは、これが不必要に損失を伴うことを示します。完全な推論トレースを読み取る LLM アグリゲーターは、エージェントが全会一致で同意した場合でも、有益な修正が有害な修正を常に上回り、正しい解決策を回復します -- \emph{集約のパラドックス}。多数決には、摂動の多様性によって上昇しない上限があります (誤差の相関関係は同一です)。アグリゲーターの利益は、投票によって破棄される少数派のチェーンから正しい中間ステップを組み立てる、トレースレベルの相補性から得られます。これらの発見は、セマンティックを保持する入力摂動を通じて微量多様性を生成し、証明可能な非劣化保証を備えたアンカー改良によって大部分を保護し、コンセンサスに基づいてゲートすることなく常に合成するエージェントの自己一貫性混合を動機付けます。摂動による微量変化を伴う単一モデルは、構造化推論、博士レベルの科学、競技数学、競技プログラミングにおいて、異種モデル プールよりも優れたパフォーマンスを発揮します。集計の単位は、答えではなく、推論のトレースである必要があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond Consensus: Trace-Level Synthesis in Mixture of Agents</p>
        <p class="orig-summary">When multiple LLM agents solve the same problem, standard practice compresses each agent&#x27;s reasoning into a majority vote or layered synthesis, treating agreement as the finish line. We show this is unnecessarily lossy: an LLM aggregator that reads complete reasoning traces recovers correct solutions even when agents unanimously agree, with beneficial corrections consistently outweighing harmful ones -- the \emph{aggregation paradox}. Majority voting has a ceiling that perturbation diversity does not raise (error correlations are identical); the aggregator&#x27;s gain comes from trace-level complementarity, assembling correct intermediate steps from minority chains that voting discards. These findings motivate Self-Consistent Mixture of Agents which generates trace diversity through semantic-preserving input perturbations, safeguards the majority via anchored refinement with provable non-degradation guarantees, and always synthesizes -- never gates on consensus. A single model with perturbation-induced trace variation outperforms heterogeneous model pools across structured reasoning, PhD-level science, competition mathematics, and competitive programming. The unit of aggregation should be the reasoning trace, not the answer.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0e2f1e51782" data-article-url="https://arxiv.org/abs/2605.29119" data-article-title="PRO-CUA: コンピュータ使用エージェントのプロセス報酬の最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29119" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29119" target="_blank" rel="noopener">PRO-CUA: コンピュータ使用エージェントのプロセス報酬の最適化</a></h3>
      <p class="summary">コンピュータ使用エージェント (CUA) は、複雑なデジタル ワークフローを自動化する強力な可能性を示していますが、そのトレーニングは、費用のかかるライブ環境でのやり取りと限られた高品質の監督によって依然として制限されています。既存のフィルタリングされた動作クローン パイプラインは、専門家のデモンストレーションからの分布のシフトやネガティブな学習シグナルの欠如など、模倣のボトルネックに悩まされています。一方、標準的な軌道レベルの強化学習は、報酬がまばらで、単位の割り当てがあいまいで、長期にわたる GUI インタラクションのためのインフラストラクチャのコストが高いという問題に直面しています。この研究では、反復ステップレベル強化学習を使用して CUA をトレーニングするためのプロセス報酬最適化フレームワークである PRO-CUA を提案します。 PRO-CUA は、ポリシー上の環境インタラクションをポリシーの最適化から切り離します。現在のポリシーは、ライブ ロールアウトを通じて状態を収集し、状態ごとに多様な候補アクションを生成し、プロセス報酬モデル (PRM) からステップレベルのフィードバックを受け取り、グループ相対の利点で最適化されます。この設計により、ゴールデンアンサーやオフラインエキスパートの軌跡に依存することなく、高密度で柔軟なクレジット割り当てが可能になり、同時にエージェント自身の実行状態でのトレーニングによって分布のシフトが軽減されます。ライブ Web ベンチマークの実験により、PRO-CUA の有効性と PRM ガイドによるステップレベルのトレーニングの信頼性が実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PRO-CUA: Process-Reward Optimization for Computer Use Agents</p>
        <p class="orig-summary">Computer use agents (CUAs) have shown strong potential for automating complex digital workflows, yet their training remains constrained by costly live environment interaction and limited high-quality supervision. Existing filtered behavior cloning pipelines suffer from imitation bottlenecks, including distribution shift from the expert demonstration and the absence of negative learning signals. Meanwhile, standard trajectory-level reinforcement learning struggles with sparse rewards, ambiguous credit assignment, and high infrastructure costs for long-horizon GUI interaction. In this work, we propose PRO-CUA, a process-reward optimization framework for training CUAs with iterative step-level reinforcement learning. PRO-CUA decouples on-policy environment interaction from policy optimization: the current policy collects states through live rollouts, generates diverse candidate actions for each state, receives step-level feedback from a process reward model (PRM), and is optimized with group-relative advantages. This design enables dense and flexible credit assignment without relying on golden answers or offline expert trajectories, while reducing distribution shift by training on the agent&#x27;s own execution states. Experiments on live web benchmarks demonstrate the effectiveness of PRO-CUA and the reliability of PRM-guided step-level training.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ff716f5e680d" data-article-url="https://arxiv.org/abs/2605.29123" data-article-title="信頼性の近道: マスクされた拡散モデルの推論失敗モード" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29123" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29123" target="_blank" rel="noopener">信頼性の近道: マスクされた拡散モデルの推論失敗モード</a></h3>
      <p class="summary">マスクされた拡散言語モデル (MDM) は、現在事実上の標準推論ポリシーとして機能している信頼性に基づくデコードを使用して、任意次数の生成を独自にサポートしています。これを最適化するために、最近のトレーニング スキームは、トレーニング マスク パターンを生成中に観察されたパターンと直接調整しようとしています。しかし、我々は、信頼度に基づくデコードは複雑な推論に必要な論理フローの軌道と本質的にずれており、信頼度に合わせたトレーニングはこのずれを積極的に定着させると主張します。これを多桁加算を使用して具体化します。この場合、デコード戦略は、長距離の依存関係を解決する前に局所的に簡単な桁を早期に予測し、困難な入力に対して信頼性の高いエラーを生成します。従来のランダム マスキングではこの困難なテールでの失敗率が低く抑えられますが、信頼度に合わせたトレーニングではエラー率が桁違いに増幅されます。 5 つの異なる推論タスクにわたって、これと同じパターンがタスク依存の重大度で現れます。つまり、信頼度ベースのデコードは非常に複雑な入力で失敗を誘発し、信頼度に合わせたトレーニングは失敗を悪化させます。対照的に、ランダム マスキングは、その非効率性が認識されているにもかかわらず、困難なテールを解決するために不可欠な推論軌道の条件を堅牢に保存します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Confidence Shortcut: A Reasoning Failure Mode of Masked Diffusion Models</p>
        <p class="orig-summary">Masked diffusion language models (MDMs) uniquely support any-order generation, with confidence-based decoding currently serving as the de facto standard inference policy. To optimize for this, recent training schemes attempt to align training mask patterns directly with those observed during generation. However, we argue that confidence-based decoding is inherently misaligned with the logical-flow trajectories required for complex reasoning, and that confidence-aligned training actively entrenches this misalignment. We make this concrete using multi-digit addition, where the decoding strategy prematurely predicts locally easy digits before resolving their long-range dependencies, producing high-confidence errors on challenging inputs. While traditional random masking keeps the failure rate low on this challenging tail, confidence-aligned training amplifies the error rate by an order of magnitude. Across five distinct reasoning tasks, this same pattern emerges with task-dependent severity: confidence-based decoding induces failures on highly complex inputs, and confidence-aligned training exacerbates them. In contrast, random masking -- despite its perceived inefficiency -- robustly preserves the reasoning-trajectory conditionals essential for solving the challenging tail.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c93fd941d43" data-article-url="https://arxiv.org/abs/2605.29129" data-article-title="Agentic AI システムにおける技術的負債の管理" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29129" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29129" target="_blank" rel="noopener">Agentic AI システムにおける技術的負債の管理</a></h3>
      <p class="summary">エージェント AI システムは、実稼働インフラストラクチャとしてますます検討されています。エージェントは、複数のステップを推論し、ツールを呼び出し、ワークフローを通じて動作し、記憶とフィードバックを通じて適応します。これらのシステムは、従来のソフトウェアや予測 ML の技術的負債では完全に把握できないガバナンスの課題を生み出します。私たちは、エージェントの技術的負債を、プロンプト、メモリ、ツール スキーマ、オーケストレーション グラフ、制御ポリシー、可観測性ルーチンが、検証、標準化、管理できるよりも早くパッチを適用した場合に生じる累積負債として定義します。私たちは、確率的税を、確率的なエージェントの動作を許容範囲内に維持するための反復的な運用負担として定義します。区別は重要です。負債は設計およびガバナンス責任のストックであるのに対し、税金は確率的エージェントがツールやワークフローを通じて機能するために発生する運営コストの流れです。管理者が軽量のダッシュボードとガバナンス制御を通じて両方を可視化する方法について概説します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Governing Technical Debt in Agentic AI Systems</p>
        <p class="orig-summary">Agentic AI systems are increasingly being explored as production infrastructure: they reason over multiple steps, call tools, act through workflows, and adapt through memory and feedback. These systems create governance challenges that are not fully captured by traditional software or predictive ML technical debt. We define Agentic Technical Debt as the accumulated liability created when prompts, memory, tool schemas, orchestration graphs, control policies, and observability routines are patched together faster than they can be validated, standardized, and governed. We define Stochastic Tax as the recurring operating burden of keeping probabilistic agent behavior within acceptable bounds. The distinction matters: debt is a stock of design and governance liability, while the tax is a flow of operating cost that arises because stochastic agents act through tools and workflows. We outline how managers can make both visible through lightweight dashboards and governance controls.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c5423d6f1740" data-article-url="https://arxiv.org/abs/2605.29168" data-article-title="早いより遅いほうがよい: オントロジーに基づいた抽出後の修正による神経記号的知識グラフの構築" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29168" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29168" target="_blank" rel="noopener">早いより遅いほうがよい: オントロジーに基づいた抽出後の修正による神経記号的知識グラフの構築</a></h3>
      <p class="summary">質問応答 (QA) は AI の中核的な課題であり、特にドキュメント全体にわたるマルチホップ推論、または集計や網羅的なリストなどの記号操作を必要とする複雑なクエリの場合に当てはまります。検索拡張生成は、QA への主要なアプローチとなっており、最近のグラフベースのバリアントでは、構成的な質問をより適切にサポートするために知識を整理することで、これらの問題の一部に対処しています。ただし、ほとんどのテキスト グラフ ベースの RAG メソッドには、複雑な質問に確実に答えるために役立つ記号操作に必要な構造がまだ欠けています。これにより、SQL のようなクエリを可能にする論理述語であるナレッジ グラフ (KG) を抽出する、シンボリック グラフ ベースのアプローチが推進されます。しかし、これらのパイプラインは通常、KG 抽出に LLM を使用するため、一貫性の問題が発生する可能性があり、抽出されたファクトが常識的なオントロジー制約に違反する可能性があります。我々は、オープンドメイン抽出、型と述語の埋め込みベースの正規化、およびオントロジー違反の対象を絞ったLLMベースの修正を組み合わせた、オントロジーに基づいたKG構築のための神経記号フレームワークを提案します。修正を抽出後の段階まで延期することで、私たちの方法では、LLM 呼び出しの繰り返しを回避し、トークンの使用量を大幅に削減しながら、KG の一貫性を向上させ、下流の QA 品質を維持します。最後に、SPARQL グラフ パターンの出現を測定することにより、抽出された KG がシンボリック クエリに適していることを示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Better Later Than Sooner: Neuro-Symbolic Knowledge Graph Construction via Ontology-grounded Post-extraction Correction</p>
        <p class="orig-summary">Question answering (QA) is a core challenge in AI, particularly for complex queries requiring multi-hop reasoning across documents, or symbolic operations like aggregation or exhaustive listing. Retrieval-augmented generation has become the dominant approach to QA, with recent graph-based variants addressing part of these issues by organizing knowledge to better support compositional questions. However, most textual graph-based RAG methods still lack the structure needed for symbolic operations useful to answer complex questions reliably. This motivates symbolic graph-based approaches, which extract knowledge graphs (KGs) whose relations are logic predicates that enable SQL-like querying. Yet these pipelines typically use LLMs for KG extraction, which can introduce consistency issues, where extracted facts may violate commonsense ontology constraints. We propose a neuro-symbolic framework for ontology-grounded KG construction combining open-domain extraction, embedding-based canonicalization of types and predicates, and targeted LLM-based correction of ontology violations. By deferring corrections to a post-extraction stage, our method avoids repeated LLM calls, substantially reducing token usage while improving KG consistency and preserving downstream QA quality. Finally, we show that the extracted KGs are well suited for symbolic querying by measuring the occurrence of SPARQL graph patterns.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1b42e65a9fa3" data-article-url="https://arxiv.org/abs/2605.29174" data-article-title="ペーパーエージェント、ペーパーゲイン：DeFi投資エージェントの実証分析" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29174" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29174" target="_blank" rel="noopener">ペーパーエージェント、ペーパーゲイン：DeFi投資エージェントの実証分析</a></h3>
      <p class="summary">自律的なオンチェーン取引に AI を使用するシステムである DeFi 投資エージェントは、2024 年後半以来、合計トークン評価額で 30 億米ドルを超えています。私たちは 1,900 以上の AI タグ付き暗号プロジェクトを調査し、投資中心のエージェントに絞り込み、戦略と可観測性の側面にわたる 10 の代表的なプロジェクトを厳選しています。次に、ElizaOS と Virtuals Protocol という 2 つの著名なエージェント フレームワークの詳細なアーキテクチャ分析と、925,323 人のトークン所有者を対象とする公的に起因する取引活動を伴う 11 の Solana ベースのエージェント トレジャリーの定量的なオンチェーン パフォーマンス分析を実施します。現在のデプロイメントは初期段階で異種混合のままであることがわかりました。(1) 私たちのサンプルでは、​​多くのプロジェクトが自律的な取引実行の明確な証拠をまだ提供しておらず、開発者のインタビューでは、目に見えるデプロイメントの多くが基本的な API 統合のままであることが示唆されています。 (2) エージェントの財務省は 3,000 万米ドルを超える紙の利益を保持している一方、トークン所有者は合計で 1 億 9,170 万米ドルを損失しており、ウォレットの上位 1% が全利益の 81.4% (18 億 1,000 万米ドル) を獲得しています。 (3) トークンの評価額は財務省のファンダメンタルズとの関連が弱く、時価総額対AUMの比率は10,000倍を超えていますが、確立されたDeFiプロトコルでは1倍未満です。 (4) ユーザーの総利益は 24 億米ドルでピークに達し、その後純損失に減少し、収益の中央値はすべてのプラットフォームでマイナスとなり、トークンは史上最高値から平均して 93% 減少しました。私たちは、これらの結果を、オープンインフラストラクチャにより迅速な実験が可能になるだけでなく、自律性、パフォーマンス、および利害関係者の連携のための堅牢な標準が出現する前に、単純なエージェントや投機的なエージェントが立ち上がることを可能にする、パーミッションレスの第一世代市場の特徴であると解釈します。そこで私たちは、現在の展開と将来の投資グレードのエージェント システムとの間のギャップを特徴付けるために、自律的な実行、リスク調整後の収益性、利害関係者の連携という 3 つの側面に沿った成熟度フレームワークを提案します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Paper Agents, Paper Gains: An Empirical Analysis of DeFi Investment Agents</p>
        <p class="orig-summary">DeFi investment agents, systems that use AI for autonomous on-chain trading, have attained over USD 3 billion in combined token valuations since late 2024. We survey over 1,900 AI-tagged crypto projects, filter to investment-focused agents, and curate 10 representative projects spanning strategy and observability dimensions. We then conduct a deep-dive architectural analysis of two prominent agent frameworks, ElizaOS and Virtuals Protocol, and a quantitative on-chain performance analysis of 11 Solana-based agent treasuries with publicly attributable trading activity, covering 925,323 token holders. We find that current deployments remain early and heterogeneous: (1) in our sample, many projects do not yet provide clear evidence of autonomous trade execution, and developer interviews suggest that many visible deployments remain basic API integrations; (2) agent treasuries retain over USD 30M in paper gains while token holders collectively lost USD 191.7M, with the top 1% of wallets capturing 81.4% of all gains (USD 1.81B); (3) token valuations are weakly connected to treasury fundamentals, with market-cap-to-AUM ratios exceeding 10,000x versus below 1x for established DeFi protocols; and (4) aggregate user gains peaked at USD 2.4B before declining to net losses, with median returns negative on every platform and tokens declining 93% on average from all-time highs. We interpret these outcomes as characteristic of a permissionless, first-generation market in which open infrastructure enables rapid experimentation but also allows naive or speculative agents to launch before robust standards for autonomy, performance, and stakeholder alignment emerge. We therefore propose a maturity framework along three dimensions: autonomous execution, risk-adjusted profitability, and stakeholder alignment, to characterize the gap between current deployments and future investment-grade agent systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="033157ba02cc" data-article-url="https://arxiv.org/abs/2605.29192" data-article-title="ReasonOps: LLM 推論トレースのオペレーター セグメンテーション" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29192" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29192" target="_blank" rel="noopener">ReasonOps: LLM 推論トレースのオペレーター セグメンテーション</a></h3>
      <p class="summary">大規模な推論モデルからの思考連鎖のトレースは数万のトークンに及ぶ可能性がありますが、その内部構造を説明するための語彙が不足しています。思考連鎖のトレースを分析するために開発されたこれまでの手法は、厳密すぎるか表現力が不十分で、ドメインやモデル全体の特徴を捉えることができませんでした。これを解決するために、思考連鎖トレースに注釈を付けるための教師なしの表現力豊かな手法である ReasonOps を開発し、簡潔な汎用演算子を提供します。 ReasonOps を使用して、8 つの推論ベンチマークにわたる 6 ファミリにまたがる 12 の思考 LLM からの 44,662 のトレースを分析し、それらが共通の構成構造を共有していることを発見しました。それは、文頭の 3 トークン ピボットの教師なしクラスタリングから現れる 7 つの繰り返し推論演算子、つまり後戻り、推論、仮説立てなどの談話レベルの動きです。これらの演算子は、すべてのモデル ファミリとベンチマーク ドメインにわたって出現し、ホールドアウトされたサンプルを 70 ～ 76% の精度で分類する 3 人の独立した LLM 審査員によって確認されています。簡単な問題と難しい問題の演算子の構造を分析し、反射型演算子は難しい問題ではより役立ち、簡単な問題ではパフォーマンスに悪影響を与えることを明らかにしました。演算子シーケンスは高度にモデルを識別します。演算子分布のみでトレーニングされた分類器はマクロ AUC でソース モデルを復元し、各モデル ファミリが独特の推論フィンガープリントを持っていることを明らかにします。構造演算子の特徴は、問題内の解答の正しさをベースラインをはるかに上回って予測します。これらの演算子に基づいて構築された分類子は、特に WP-AUC および AIME に到達します。さらに、ReasonOps により、トレースが完了するかなり前に早期品質推定が可能になります。WP-AUC ではトレースの 50% のみを予測します。 ReasonOps パイプラインは教師なしでアノテーションも不要なので、LLM 推論トレースに対する深い洞察と、モデルの識別と正確性の予測に関する強力な下流の結果が可能になります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ReasonOps: Operator Segmentation for LLM Reasoning Traces</p>
        <p class="orig-summary">Chain-of-thought traces from large reasoning models can span tens of thousands of tokens, yet we lack a vocabulary for describing their internal structure. Previous methods developed to analyze chain-of-thought traces are either too rigid or not expressive enough, failing to capture features across domains and models. To remedy this, we develop ReasonOps, an unsupervised, expressive method for annotating chain-of-thought traces, providing succinct universal operators. Using ReasonOps, we analyze 44,662 traces from 12 thinking LLMs spanning 6 families across 8 reasoning benchmarks and discover that they share a common compositional structure: 7 recurring reasoning operators -- discourse-level moves such as backtracking, inferring, and hypothesizing -- that emerge from unsupervised clustering of sentence-initial 3-token pivots. These operators appear across every model family and benchmark domain, confirmed by three independent LLM judges who classify held-out samples at 70 -76% accuracy. We analyze the structure of operators on easy vs. hard problems, revealing that reflective operators are more helpful on hard problems and harm performance on easy problems. Operator sequences are highly model-identifying: a classifier trained on operator distributions alone recovers the source model with macro-AUC, revealing that each model family has a distinctive reasoning fingerprint. Structural operator features predict within-problem answer correctness well above baselines. Classifiers built on these operators reach WP-AUC and on AIME specifically. ReasonOps further enables early quality estimation well before the trace completes: we predict at WP-AUC for only 50% of the trace. The ReasonOps pipeline is unsupervised and annotation-free, enabling deep insights into LLM reasoning traces as well as strong downstream results on model identification and correctness prediction.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="231dd6215a9d" data-article-url="https://arxiv.org/abs/2605.29218" data-article-title="GTA: Web エージェント向けに長期的なタスクを大規模に生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29218" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29218" target="_blank" rel="noopener">GTA: Web エージェント向けに長期的なタスクを大規模に生成</a></h3>
      <p class="summary">Web エージェントは、言語モデルとブラウジング機能およびツール使用機能を組み合わせたもので、オープンな Web アシスタントとして有望です。しかし、拡張性のあるプロセスレベルの監督が欠如しているため、進歩はますます制限されています。既存のベンチマークは主に手動で構築されており、中間軌道を含まない粗い開始ゴールの注釈のみを提供しますが、最近の自動生成の取り組みは依然として高価で偏りがあり、浅いものです。これらの制限により、現実的なマルチホップ、クロスページのタスクに一般化する必要があるエージェントの信頼できるトレーニングと評価が妨げられます。スケーラブルなフレームワークである GTA を導入します。これは、クローリング、検索ベースのシーディング、インコンテキスト生成、および自動品質管理を統合して、実行可能な軌跡と組み合わせた現実的なタスクを生成します。この設計は、クロールを生成から切り離して効率を高め、タスクをサイト グラフに固定して構成性を強化し、決定論的な再生と体系的な検証を通じて緻密な監視を保証します。電子商取引、政府、フォーラム、ニュースをカバーする 50 以上の Web サイト上でパイプラインをインスタンス化し、多言語およびマルチホップをカバーします。結果として得られたベンチマークでは、人間とエージェントのパフォーマンスの大きなギャップが明らかになり、詳細な診断が可能になります。私たちの貢献は 3 つあります: (i) マルチホップ Web エージェント タスク生成の形式化、(ii) 自動データ作成のための効率的で検証済みのパイプラインの提案、(iii) 再現可能な評価を備えた動的ベンチマークのリリース。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GTA: Generating Long-Horizon Tasks for Web Agents at Scale</p>
        <p class="orig-summary">Web agents, which couple language models with browsing and tool-use capabilities, show promise as open web assistants. Yet progress is increasingly limited by the lack of scalable, process-level supervision. Existing benchmarks are largely manually constructed, providing only coarse start-goal annotations without intermediate trajectories, while recent automatic generation efforts remain expensive, biased, and shallow. These limitations prevent reliable training and evaluation of agents that must generalize to realistic, multi-hop, cross-page tasks. We introduce a scalable framework, GTA, that integrates crawling, retrieval-based seeding, in-context generation, and automated quality control to produce realistic tasks paired with executable trajectories. This design decouples crawling from generation for greater efficiency, grounds tasks in the site graph to enforce compositionality, and ensures dense supervision through deterministic replays and systematic validation. We instantiate the pipeline on over 50 websites covering e-commerce, government, forums, and news, with multilingual and multi-hop coverage. The resulting benchmark reveals a significant human-agent performance gap and enables detailed diagnostics. Our contributions are three-fold: (i) formalizing multi-hop web-agent task generation, (ii) proposing an efficient and validated pipeline for automatic data creation, and (iii) releasing a dynamic benchmark with reproducible evaluation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c1c639452f0" data-article-url="https://arxiv.org/abs/2605.29225" data-article-title="BenchTrace: LLM エージェントのリフレクション能力と制御された進化をテストするためのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29225" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29225" target="_blank" rel="noopener">BenchTrace: LLM エージェントのリフレクション能力と制御された進化をテストするためのベンチマーク</a></h3>
      <p class="summary">自己進化エージェントは過去の失敗を反映することで時間の経過とともに改善しますが、既存の評価には 2 つの点で制限があります。1 つはタスク スコアのみを測定し、反映品質は不明のままにすること、もう 1 つはエージェント自身のエピソードの実行に依存しており、特定の失敗パターンを対象にするメカニズムを提供していないことです。 LLM エージェントの自己進化能力を評価するためのベンチマークである \textbf{BenchTrace} を紹介します。 BenchTrace は、6 つの多様なタスクにわたる 1,821 の注釈付きエピソードのスナップショット反映データセットに基づいて構築されており、ターゲットを絞った QA タスクを通じて障害の特定を調査する \textbf{反映評価} と、制御された自己進化シミュレーションで過去の障害経験が回避行動に変換されるかどうかをテストする \textbf{進化評価} で構成されます。 BenchTrace に基づいて、エージェントがターゲットの障害インスタンスを回避できたテスト ケースの割合を測定する新しい評価指標である \textbf{障害回避率 (FAR)} を提案します。 Qwen3-32B と GPT-4.1 を使った実験では、どちらのモデルもリフレクション評価でエンドツーエンドの合格率が 30\% を下回り、診断が主なボトルネックであることが明らかになりました。進化の評価では、自己進化手法は一般に非進化ベースラインよりもFARを改善しますが、エージェントはノイズエピソードが蓄積するにつれて初期のレッスンを忘れ、エージェントは特定のコンテキストを超えて反省を一般化することができず、タスクコンテキスト間で負の転移を引き起こすことが示されています。さらに、相関分析により、完全に正しい反射のみが高い FAR と強く関連していることが明らかになりました。 BenchTrace は、現在の自己進化アプローチの具体的な限界を明らかにし、対象を絞った評価のための制御されたモデルに依存しないフレームワークを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BenchTrace: A Benchmark for Testing Reflection Ability and Controlled Evolution in LLM Agents</p>
        <p class="orig-summary">Self-evolving agents improve over time by reflecting on past failures, but existing evaluation is limited in two ways: it measures only task scores, leaving reflection quality unknown, and it relies on agents&#x27; own episode runs, offering no mechanism to target specific failure patterns. We present \textbf{BenchTrace}, a benchmark for evaluating self-evolution ability in LLM agents. BenchTrace is built on a snapshot-reflection dataset of 1,821 annotated episodes spanning six diverse tasks, and comprises a \textbf{Reflection Evaluation} that probes failure identification through targeted QA tasks, and an \textbf{Evolution Evaluation} that tests whether past failure experience translates into avoidance behavior in a controlled self-evolution simulation. Building on BenchTrace, we propose \textbf{failure avoidance rate (FAR)}, a new evaluation metric measuring the fraction of test cases in which the agent successfully avoids the target failure instance. Experiments with Qwen3-32B and GPT-4.1 reveal that both models fall below a 30\% end-to-end pass rate on reflection evaluation, with diagnosis as the primary bottleneck. Evolution evaluation shows that self-evolution methods generally improve FAR over the non-evolving baseline, but agents forget early lessons as noise episodes accumulate, and agents fail to generalize their reflections beyond the specific context, causing negative transfer across task contexts. Our correlation analysis further reveals that only a fully correct reflection is strongly associated with higher FAR. BenchTrace exposes concrete limits of current self-evolution approaches and provides a controlled, model-agnostic framework for targeted evaluation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c30f52d3df79" data-article-url="https://arxiv.org/abs/2605.29229" data-article-title="カリキュラムの調整: 動的データモデル互換性による学生中心の推論の抽出" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29229" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29229" target="_blank" rel="noopener">カリキュラムの調整: 動的データモデル互換性による学生中心の推論の抽出</a></h3>
      <p class="summary">推論蒸留は、複雑な推論能力を大規模な言語モデル (LLM) から小規模な言語モデルに移行しますが、その成功はトレーニング データが学生モデルとどの程度一致するかによって決まります。このペーパーでは、スチューデント モデルでの推論蒸留に対するデータセットの適合性を評価するために使用できるデータ モデル互換性 (DMC) メトリクスを紹介します。 DMC は、データの品質、相対的な難易度、学生の能力を共同で考慮して評価を提供します。 DMC の有効性を 2 つの観点から検証しました。(1) DMC は推論蒸留パフォーマンスと強い相関を示します。 (2) データ選択の基準として DMC を使用すると、推論蒸留のパフォーマンスが向上します。どちらの発見も、複数の学生モデルとタスクにわたって一貫して実証されています。さらに、各データセットの DMC はトレーニング中に動的に変化するため、DMC に基づいてデータセットを動的に選択することでパフォーマンスがさらに向上することが実験で実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Tailoring the Curriculum: Student-Centered Reasoning Distillation via Dynamic Data-Model Compatibility</p>
        <p class="orig-summary">Reasoning distillation transfers complex reasoning abilities from large language models (LLMs) to smaller ones, yet its success depends on how well the training data align with the student model. This paper introduces the Data-Model Compatibility (DMC) metric, which can be used to assess the suitability of a dataset for reasoning distillation on a student model. DMC provides an assessment by jointly considering data quality, relative difficulty, and student capability. We validated the effectiveness of DMC from two perspectives: (1) DMC exhibits a strong correlation with reasoning distillation performance; and (2) using DMC as the criterion for data selection leads to improved reasoning distillation performance. Both findings are consistently demonstrated across multiple student models and tasks. Moreover, since the DMC of each dataset dynamically changes during training, our experiments demonstrate that dynamically selecting datasets based on DMC can further enhance performance.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="49f0057b3c33" data-article-url="https://arxiv.org/abs/2605.29234" data-article-title="文献検索の評価を再考する: 深い調査は役に立ちますが、人間の引用リストは根拠のある真実ではありません" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29234" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29234" target="_blank" rel="noopener">文献検索の評価を再考する: 深い調査は役に立ちますが、人間の引用リストは根拠のある真実ではありません</a></h3>
      <p class="summary">私たちは、検索パイプラインの改善と評価対象としての人による参照リストのストレステストという 2 つの相補的な角度から大規模な文献検索を研究しています。まず、完全なクエリ論文を処理し、取得した結果を文献目録に沿って幅優先で拡張する Deep Research パイプラインを実装します。このパイプラインが通常の API のみの検索を大幅に上回り、RollingEval-Jun25 (論文 250 件の文献検索ベンチマーク) の再現率が 20% 未満から 80% 以上に上昇することを示します。 2 番目に、中立的な LLM を判断者として使用して、人間の参照がタスクに対する健全な根拠であるかどうかを判断します。私たちは重大な限界を発見しました。人間による引用のうち、中等度以上の関連性があると判断されたのは 51% のみであったのに対し、最も強力な AI ベースの再ランカーでは 86 ～ 88% でした。 OpenAlex の共著グラフでこのギャップを調査したところ、人間は AI の再ランク付けを行う最も優れた人よりも直接の協力者を引用する可能性が 2.5 倍高いことがわかりました。まとめると、我々の結果は単一軸の文献検索評価に反対している。つまり、想起率、話題関連性スコアリング、ランクリストの多様性、および共著距離診断は、それぞれ引用の質の相補的な特性を測定するものであり、併せて報告されるべきである。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Rethinking Literature Search Evaluation: Deep Research Helps, and Human Citation Lists Are Not a Ground Truth</p>
        <p class="orig-summary">We study large-scale literature search from two complementary angles: improving the retrieval pipeline, and stress-testing the human reference list as an evaluation target. First, we implement a Deep Research pipeline that processes the full query paper and expands the retrieved results breadth-first along their bibliographies, and show that it substantially outperforms vanilla API-only search, raising recall on RollingEval-Jun25 (a 250-paper literature-search benchmark) from below 20% to above 80%. Second, we use a neutral LLM-as-a-judge to determine if human references are sound ground truth for the task. We find significant limitations: only 51% of human citations are judged moderately relevant or higher, against 86--88% for the strongest AI-based re-rankers. We study this gap on the OpenAlex co-authorship graph, finding that humans are 2.5x more likely than the best AI re-rankers to cite a direct collaborator. Together, our results argue against single-axis literature-search evaluation: recall, topical-relevance scoring, ranked-list diversity, and a co-authorship-distance diagnostic each measure complementary properties of citation quality and should be reported jointly.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="77dae2d1dc98" data-article-url="https://arxiv.org/abs/2605.29240" data-article-title="AI を使用した教師と生徒の間の結果に依存しないフィードバックの仲介により、孤立した学習者を表面化する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29240" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29240" target="_blank" rel="noopener">AI を使用した教師と生徒の間の結果に依存しないフィードバックの仲介により、孤立した学習者を表面化する</a></h3>
      <p class="summary">AI で拡張された教室では、採点結果が利用可能になる前に教師と生徒の豊富なフィードバックが生成されますが、これらの信号をタイムリーな指導上の決定に変換するのは難しい場合があります。私たちは、解釈可能な意思決定層、つまり、成績や事後の結果ラベルを使用せずに、注意が必要なコーストピックをランク付けする透明なメカニズムを提案します。このアプローチは、生徒の学習困難の蔓延、学習者の自己申告と観察された困難の間の不一致、未解決の教師の懸念という 3 つのシグナルを組み合わせています。出力は、各ランキングを説明するトピックごとの決定レコードを含む、ランク付けされたトピック優先度のセットです。ある卒業生 CS コースの提供 ($n=5$ の講師インタビュー、$n=279$ のアンケート回答) では、講師の懸念事項 (トップ 5 の重複 3/5、スピアマン $\rho=0.80$) と学生が報告したトピックの難易度 ($\rho=0.46$、$p=0.048$) に合わせてトピックの優先順位が付けられました。複数信号の統合により、個々の信号源だけでは識別されなかった学習者も明らかになりました (AUC $=0.96$ 対、ギャップ有病率のみの場合は $0.91$)。内省的思考、助けを求めること、自己効力感は、生徒の行動シグナルが学習関連の構成要素と一致しているというさらなる証拠を提供しました。予備的ではあるが、これらの発見は、フィードバックが不完全な場合、透明な調整メカニズムが人間と AI の共同エージェンシーをサポートするのに役立つ可能性があることを示唆している。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Surfacing Isolated Learners with Outcome-Independent Mediation of Feedback between Teachers and Students Using AI</p>
        <p class="orig-summary">AI-augmented classrooms generate rich teacher and student feedback before graded outcomes become available, yet these signals can be difficult to translate into timely instructional decisions. We propose an interpretable decision layer: a transparent mechanism that ranks course topics requiring attention without using grades or post-hoc outcome labels. The approach combines three signals: student learning difficulty prevalence, disagreement between learner self-reports and observed difficulties, and unresolved teacher concerns. The output is a ranked set of topic priorities with per-topic decision records explaining each ranking. In one graduate CS course offering ($n=5$ instructor interviews; $n=279$ survey responses), prioritized topics aligned with instructor concerns (top-5 overlap 3/5; Spearman $\rho=0.80$) and student-reported topic difficulty ($\rho=0.46$, $p=.048$). Multi-signal integration also surfaced learners not identified through individual signal sources alone (AUC $=0.96$ vs. $0.91$ for gap prevalence alone). Reflective thinking, help-seeking, and self-efficacy provided additional evidence that student behavioral signals align with learning-related constructs. While preliminary, these findings suggest that transparent coordination mechanisms may help support human-AI co-agency when feedback is incomplete.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b601b17024e5" data-article-url="https://arxiv.org/abs/2605.29247" data-article-title="DenseSteer: 小規模な言語モデルを高密度数学推論に向けて操作する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29247" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29247" target="_blank" rel="noopener">DenseSteer: 小規模な言語モデルを高密度数学推論に向けて操作する</a></h3>
      <p class="summary">大規模な言語モデル (LLM) は強力な思考連鎖 (CoT) 推論能力を示しますが、小規模なモデル (&lt;= 3B パラメーター) は、複数ステップの推論タスクでは著しくパフォーマンスが劣ります。数的推論ベンチマークにおける Qwen-2.5 モデル ファミリーの経験的分析に基づいて、より熟練した推論は、推論ステップが少なく、ステップごとの情報密度が高いことに関連していることがわかりました。この特性を、私たちは「高密度推論」と呼んでいます。この観察に動機付けられて、私たちは、内部表現を密な推論パターンに向けて調整することによって小規模モデル推論を強化する、トレーニング不要の推論時間ステアリング フレームワークである DenseSteer を提案します。実験では、私たちの方法がトークンレベルの負の対数尤度を増加させることなく一貫した精度の向上をもたらすことを示し、数学的問題解決への効果的な構造的アプローチとして密な推論を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DenseSteer: Steering Small Language Models towards Dense Math Reasoning</p>
        <p class="orig-summary">Large language models (LLMs) demonstrate strong chain-of-thought (CoT) reasoning abilities, while smaller models (&lt;= 3B parameters) significantly underperform on multi-step reasoning tasks. Based on empirical analyses of the Qwen-2.5 model family on math reasoning benchmarks, we find that more proficient reasoning is associated with fewer reasoning steps but higher information density per step, a property we term Dense Reasoning. Motivated by this observation, we propose DenseSteer, a training-free inference-time steering framework that enhances small-model reasoning by modulating internal representations toward dense reasoning patterns. Experiments show that our method yields consistent accuracy improvements without increasing token-level Negative Log-Likelihood, highlighting dense reasoning as an effective structural approach to mathematical problem solving.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ad15a952d60f" data-article-url="https://arxiv.org/abs/2605.29251" data-article-title="確実に安全なエージェント ガードレール" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29251" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29251" target="_blank" rel="noopener">確実に安全なエージェント ガードレール</a></h3>
      <p class="summary">大規模な言語モデルが、制限された生成エンジンから、拡張的な実行権限を持つエージェントに移行するにつれて、AI が制御不能になり、人工知能のセキュリティに根本的な危機が生じます。既存の防御アーキテクチャは、経験的なセマンティック ガードレールと確率的な大規模モデルの判定子に大きく依存しており、複雑なセマンティック シンボル デカップリング攻撃に直面した場合に決定論的なセキュリティの下限を提供できないメカニズムです。この経験的なセマンティック ガードレールのジレンマを克服するために、この論文では、論理的推論の基本的な制限に基づいたエージェントのための新しいセキュリティ パラダイムを提案します。このパラダイムに基づいて、ニューラル シンボリック分離アーキテクチャを備えた実行可能な Proof-Constrained Action (ePCA) フレームワークをさらに導入します。このフレームワークは自然言語の意味論的な信頼を放棄し、エージェントに物理的な操作を実行する前に意図を一次論理数学的制約にロスレスで形式化することを強制します。巨視的および微視的な二次元動的敵対的システムの経験的評価は、私たちの形式的検証メカニズムが、評価されたシナリオ全体でゼロの攻撃成功率とゼロの誤検知率を、極めて低い計算待ち時間で達成することを実証しています。この研究は、明示的なシステム仮定の下での条件付きの形式的基盤と、将来のインテリジェント システムの基礎となる防御基盤を構築するためのエンジニアリング パラダイムを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Provably Secure Agent Guardrail</p>
        <p class="orig-summary">As large language models transition from bounded generative engines to agents with expansive execution privileges, AI going out of control precipitates a fundamental crisis in artificial intelligence security. Existing defense architectures heavily rely on empirical semantic guardrails and probabilistic large model adjudicators, mechanisms that fail to provide deterministic security lower bounds when facing complex semantic symbol decoupling attacks. To overcome this empirical semantic guardrail dilemma, this paper proposes a new security paradigm for agents based on the fundamental limitations of logical reasoning. Based on this paradigm, we further introduce an executable Proof-Constrained Action (ePCA) framework with a neural symbolic isolation architecture. This framework abandons semantic trust in natural language, forcing agents to losslessly formalize their intentions into first-order logical mathematical constraints before performing physical operations. Empirical evaluations of macroscopic and microscopic two-dimensional dynamic adversarial systems demonstrate that our formal verification mechanism achieves zero attack success rate and zero false positive rate across the evaluated scenarios, with extremely low computational latency. This research provides a conditional formal foundation under explicit system assumptions and an engineering paradigm for constructing the underlying defense foundation for future intelligent systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8fc1dcf5a75a" data-article-url="https://arxiv.org/abs/2605.29253" data-article-title="OpenClawBench: 現実世界のエージェント実行軌跡におけるプロセス側の異常のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29253" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29253" target="_blank" rel="noopener">OpenClawBench: 現実世界のエージェント実行軌跡におけるプロセス側の異常のベンチマーク</a></h3>
      <p class="summary">タスクが成功すると、実際のエージェント実行におけるプロセスの異常が隠蔽される可能性があります。エージェントは、未解決のあいまいさ、安全でない外部書き込み、無視されたエラー、根拠の弱いコミットメント、または能力境界のオーバーコミットメントを蓄積したまま、最終タスクのオラクルを渡す可能性があります。私たちはこの不一致を結果とプロセスのギャップとして研究し、実際のエージェント実行プロセスにおけるプロセス側の異常を測定および監視するための大規模なデータセットである OpenClawBench を導入します。 OpenClawBench は、6 つのソース モデルによって生成された BFCL 駆動の OpenClaw セッションから構築されており、31,264 個の注釈付き軌跡が含まれています。タスクオラクルの結果を構造化されたプロセスの証拠と一致させます。 FullTax は、調整された軌跡を構造化された異常監視 (バイナリ ラベル、裏付け証拠、発生/期間の局所化、重大度、回復可能性、および 5 クラスの異常分類) に変換します。 OpenClawBench を使用して、結果とプロセスのギャップを測定可能にします。 31,135 件のオラクルパス実行のうち、2,904 件は依然として FullTax の下でプロセス異常のラベルが付けられています。これらの結果は、成功のみの評価では、実際のエージェント実行におけるプロセス側の失敗の具体的なクラスを見逃すことを示しています。 LoRA で微調整された Gemma 3 12B 検出器は、信頼性の高い FullTax 監視プールでトレーニングされ、クリーナー ラベル ホールドアウト テスト スプリットでバイナリ F1=0.729 に達します。 OpenClawBench は、実際のエージェント実行ログを、ランタイム エージェントの信頼性を調査、診断、運用上監視するための監査可能で再利用可能な監視に変換します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories</p>
        <p class="orig-summary">Task success can hide process anomalies in real-world agent executions. An agent may pass the final task oracle while still accumulating unresolved ambiguity, unsafe external writes, ignored errors, weakly grounded commitments, or capability-boundary overcommitment. We study this mismatch as the Outcome-Process Gap and introduce OpenClawBench, a large-scale dataset for measuring and supervising process-side anomalies in real agent execution processes. OpenClawBench is built from BFCL-driven OpenClaw sessions produced by 6 source models and contains 31,264 annotated trajectories. It aligns task-oracle outcomes with structured process evidence. FullTax converts the aligned trajectories into structured anomaly supervision: binary labels, supporting evidence, onset/span localization, severity, recoverability, and a 5-class anomaly taxonomy. Using OpenClawBench, we make the Outcome-Process Gap measurable. Among 31,135 oracle-passing executions, 2,904 are still labeled process-anomalous under FullTax. These results show that success-only evaluation misses a concrete class of process-side failures in real agent executions. A LoRA-fine-tuned Gemma 3 12B detector trained on the high-confidence FullTax supervised pool reaches binary F1=0.729 on the cleaner-labels held-out test split. Together, OpenClawBench turns real agent execution logs into auditable and reusable supervision for studying, diagnosing, and operationally monitoring runtime agent reliability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e679a7e0fde4" data-article-url="https://arxiv.org/abs/2605.29262" data-article-title="リアルタイムの制約と長期的な推論の調和: 動的スケジューリングのための非同期エージェント フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29262" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29262" target="_blank" rel="noopener">リアルタイムの制約と長期的な推論の調和: 動的スケジューリングのための非同期エージェント フレームワーク</a></h3>
      <p class="summary">動的フレキシブル ジョブ ショップ スケジューリング問題 (DFJSP) では、確率的外乱に対する即座の対応と生産目標の全体的な最適化の間のトレードオフが必要になります。従来の優先順位ルールは、複雑な中断に対処するには柔軟性が不十分ですが、学習ベースのアプローチでは、解釈可能性が損なわれたり、問題のスケール全体に一般化できないことがよくあります。 Large Language Model (LLM) は、このギャップを埋めるための高度な推論機能を提供しますが、その実質的な推論遅延は、産業用制御システムのミリ秒レベルの決定サイクルと互換性がありません。この競合を解決するために、デュアル ストリーム アーキテクチャを介してポリシーの実行を論理的推論から切り離す、非同期エージェント ベースのフレームワークである RACE-Sched を導入します。 Reactive Stream は低遅延のシンボリック ヒューリスティックを実行してリアルタイムのディスパッチを可能にし、並列 Deliberative Stream は LLM を利用してこれらのルールを合成、検証、進化させます。候補ルールはサンドボックスで厳格なテストを受け、アトミックな更新によって展開されるため、制御ループをブロックすることなく安全性が確保されます。さらに、セマンティック ルール リポジトリは、検索ベースの初期化のための検証済みのヒューリスティックにインデックスを付け、問題のスケール全体での移行性を高めます。 GEN-Bench、MK-Bench、および JMS-Bench の広範な評価により、RACE-Sched が主要な深層強化学習やその他の LLM ベースのベースラインよりも優れたパフォーマンスを発揮することが実証されています。このアプローチは、リアルタイムの制約と長期的な推論を調和させて、優れたソリューション品質と動的イベントへの堅牢な適応を実現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Harmonizing Real-Time Constraints and Long-Horizon Reasoning: An Asynchronous Agentic Framework for Dynamic Scheduling</p>
        <p class="orig-summary">The Dynamic Flexible Job Shop Scheduling Problem (DFJSP) necessitates a trade-off between instant reaction to stochastic disturbances and global optimization of production goals. Conventional priority rules are insufficiently flexible to handle complex disruptions, whereas learning-based approaches often compromise interpretability or fail to generalize across problem scales. Although Large Language Models (LLMs) offer advanced reasoning capabilities to bridge this gap, their substantial inference latency is incompatible with the millisecond-level decision cycles of industrial control systems. To resolve this conflict, we introduce RACE-Sched, an asynchronous agent-based framework that decouples policy execution from logical reasoning via a dual-stream architecture. The Reactive Stream executes low-latency symbolic heuristics to enable real-time dispatching, while the parallel Deliberative Stream leverages an LLM to synthesize, validate, and evolve these rules. Candidate rules undergo rigorous testing in a sandbox and are deployed via atomic updates, ensuring safety without blocking the control loop. Additionally, a semantic rule repository indexes validated heuristics for retrieval-based initialization which enhances transferability across problem scales. Extensive evaluations on GEN-Bench, MK-Bench, and JMS-Bench demonstrate that RACE-Sched outperforms leading Deep Reinforcement Learning and other LLM-based baselines. This approach harmonizes real-time constraints with long-horizon reasoning to achieve superior solution quality and robust adaptation to dynamic events.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9352747fc192" data-article-url="https://arxiv.org/abs/2605.29267" data-article-title="人間によるキュレーションがいつどのように裏目に出るか: マルチモデルの自己消費ループにおける嗜好の調整" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29267" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29267" target="_blank" rel="noopener">人間によるキュレーションがいつどのように裏目に出るか: マルチモデルの自己消費ループにおける嗜好の調整</a></h3>
      <p class="summary">基礎モデルは、実際のデータのみを使用するのではなく、以前のモデルの反復によって生成された合成データを使用してトレーニングされることが増えています。この自己消費的なトレーニング パラダイムは、モデルの崩壊、発散、またはバイアスの増幅につながる可能性があります。最近の研究 (Ferbach et al., 2024) では、人間によるキュレーションをループに組み込むことで、自己消費モデルを人間に合わせた行動に導くことができることが示されていますが、これらの分析は、独自の出力のみを消費する単一の孤立したモデルに焦点を当てています。ただし、実際には、モデルは他のモデルによって生成された入出力ペアで対話し、トレーニングすることがよくあります。この論文では、マルチモデル体制における自己消費型トレーニングについて研究します。まず、相互作用する自己消費型モデルのフレームワークを形式化し、結果として得られる動的システムがいつ安定点に収束するかを特徴付けます。次に、人間による 1 つのモデルのキュレーションがそのモデル自体の調整にどのような影響を与えるか (自己影響)、そのような効果が他のモデルにどのように伝播するか (相互影響) を調べます。人間によるキュレーションによってモデルの整合性が常に強化される孤立した設定とは異なり、モデル間の相互作用によってこの効果が弱められたり、逆転したりする可能性があり、最終的には長期的な整合性が低下する可能性があることを示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">When and How Human Curation Backfires: Preference Alignment under Multi-Model Self-Consuming Loop</p>
        <p class="orig-summary">Foundation models are increasingly trained on synthetic data generated by prior model iterations rather than exclusively on real data. This self-consuming training paradigm can lead to model collapse, divergence, or bias amplification. Recent work (Ferbach et al., 2024) shows that incorporating human curation into the loop can steer a self-consuming model toward human-aligned behavior, but these analyses focus on a single, isolated model that solely consumes its own outputs. In practice, however, models often interact and train on input-output pairs produced by other models. This paper studies self-consuming training in the multi-model regime. We first formalize a framework for interacting self-consuming models and characterize when the resulting dynamical system converges to a stable point. We then examine how human curation of one model affects its own alignment (self-influence) and how such effects propagate to other models (cross-influence). Unlike isolated settings where human curation always enhances model alignment, we show that cross-model interactions can dampen or even invert this effect, ultimately degrading long-term alignment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="01a4673b12d7" data-article-url="https://arxiv.org/abs/2605.29270" data-article-title="読み取り不可能なもののインデックス作成: LLM ネイティブの再帰的構築とサービス分類の検索" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29270" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29270" target="_blank" rel="noopener">読み取り不可能なもののインデックス作成: LLM ネイティブの再帰的構築とサービス分類の検索</a></h3>
      <p class="summary">Internet of Agents (IoA) の時代が具体化しつつあります。LLM エージェントは、急速に増加する Model Context Protocol (MCP) サーバー、Agent-to-Agent (A2A) エンドポイント、再利用可能なスキル、およびその他の LLM 呼び出し可能なサービスを調整することで、ユーザーの目標を達成することが期待されています。しかし、LLM はこの体制との構造的な不一致に直面しています。有効なコンテキストは、サービスの数に応じて拡張できない希少なリソースです。数千のサービス説明をプロンプトに連結すると、コンテキスト ウィンドウがオーバーフローし、ウィンドウが十分に大きい場合でも、モデルは長い入力の途中で情報に体系的に注意を向けることができなくなります。これは十分に文書化されている「Lost-in-the-Middle」現象です。これは基本的に、サービス検出のためのコンテキスト管理の問題です。これに対処するために、LLM ネイティブのプログレッシブ開示スキームとその具体的なインスタンス化である A2X (Agent-to-Anything サービス ディスカバリ) を提案します。これは、登録されたサービスを自動的に階層分類に編成し、クエリ時にレイヤーごとにたどる LLM 駆動のパイプラインです。これにより、すべての LLM 呼び出しでは、ユーザー クエリに関連性の高い小さな候補セットのみが表示されます。これにより、有効なコンテキストの不足がレジストリ サイズから切り離され、取得精度が向上しながらトークンの消費が大幅に削減されます。フルコンテキスト ダンピングと比較して、A2X はプロンプト トークン コストの 9 分の 1 で 6.2 ポイントのヒット率の向上を達成します。最先端のオープンソースの埋め込みベースのベースラインと比較して、A2X はヒット率を 20 ポイント以上改善します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Indexing the Unreadable: LLM-Native Recursive Construction and Search of Service Taxonomies</p>
        <p class="orig-summary">The era of the Internet of Agents (IoA) is taking shape: LLM agents are expected to fulfill user goals by orchestrating fast-growing populations of Model Context Protocol (MCP) servers, Agent-to-Agent (A2A) endpoints, reusable skills, and other LLM-callable services. Yet LLMs face a structural mismatch with this regime: effective context is a scarce resource that does not scale with the number of services. Concatenating thousands of service descriptions into a prompt overflows the context window, and even when the window is large enough, models systematically under-attend to information in the middle of long inputs, the well-documented Lost-in-the-Middle phenomenon. This is fundamentally a question of context management for service discovery. To address this, we propose an LLM-native progressive-disclosure scheme and its concrete instantiation, A2X (Agent-to-Anything service discovery): an LLM-driven pipeline that automatically organizes the registered services into a hierarchical taxonomy and walks it layer by layer at query time, so that every LLM call sees only a small candidate set highly relevant to the user query. This decouples effective-context scarcity from registry size and significantly reduces token consumption while improving retrieval accuracy. Compared to full-context dumping, A2X achieves a 6.2-point Hit Rate gain at one-ninth the prompt-token cost; compared to the state-of-the-art open-source embedding-based baseline, A2X improves Hit Rate by more than 20 points.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec5ab469f425" data-article-url="https://arxiv.org/abs/2605.29271" data-article-title="CoHyDE: ツール検索のための LLM リライタと高密度エンコーダの反復的共同トレーニング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29271" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29271" target="_blank" rel="noopener">CoHyDE: ツール検索のための LLM リライタと高密度エンコーダの反復的共同トレーニング</a></h3>
      <p class="summary">大規模な API カタログを介したツールの取得は、LLM エージェントにとって主要なボトルネックです。ユーザー クエリは口語的な、多くの場合、仕様が不十分な言語で到着しますが、カタログでは、固定エンコーダーが単独でブリッジできない技術的な API ボキャブラリーが使用されます。対照的なエンコーダの微調整と、フリーズ LLM を使用した HyDE スタイルのクエリ拡張という 2 つの主要なトレーニング アプローチは、この問題に反対側から対処し、相補的な方向で失敗します。微調整されたエンコーダは、クエリの表面形式がすでにカタログと一致する場合には優れていますが、一致しない場合は崩壊します。一方、ゼロショットの HyDE は、仕様が不十分なクエリに対してはより堅牢ですが、クエリが適切な形式である場合に検索を低下させるカタログを意識しない仮説的な記述を生成します。高密度エンコーダと LLM リライタを単一の共進化システムとしてトレーニングする反復手順である CoHyDE を導入します。エンコーダはリライタによって生成されたカタログ形式の仮説記述に基づいて InfoNCE で再トレーニングされ、リライタはエンコーダの検索スコアに対して DPO 経由で優先的に調整され、ループが始まる前にツール カタログで双方がウォーム スタートされます。 ToolBench カタログの約 10,000 のツール サブセットでは、CoHyDE の 3 ラウンドにより、最も強力な単一コンポーネントのベースラインよりも、標準クエリで NDCG@5 が +2.5 pp、保留された曖昧クエリで +6.3 pp 改善され、最も困難な曖昧層では +8 pp もの向上が見られます。アブレーションにより、共トレーニングが重要な要素であることが確認されました。いずれかのコンポーネントを単独で使用すると、整形式のクエリと曖昧なクエリの両方で CoHyDE に匹敵することができず、曖昧なクエリでは最大 -8 pp の損失が発生します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CoHyDE: Iterative Co-Training of LLM Rewriter &amp; Dense Encoder for Tool Retrieval</p>
        <p class="orig-summary">Tool retrieval over large API catalogs is a core bottleneck for LLM agents: user queries arrive in colloquial, often underspecified language, while the catalog uses technical API vocabulary that no fixed encoder can bridge on its own. The two dominant training approaches, contrastive encoder fine-tuning and HyDE-style query expansion with a frozen LLM, address this problem from opposite ends and fail in complementary directions: the fine-tuned encoder excels when the query&#x27;s surface form already matches the catalog but collapses when it does not, while zero-shot HyDE is more robust to underspecified queries yet generates catalog-unaware hypothetical descriptions that degrade retrieval when queries are well-formed. We introduce CoHyDE, an iterative procedure that trains the dense encoder and the LLM rewriter as a single co-evolving system: the encoder is retrained with InfoNCE on catalog-style hypothetical descriptions produced by the rewriter, and the rewriter is preference-aligned via DPO against the encoder&#x27;s retrieval scores, with both sides warm-started on the tool catalog before the loop begins. On a ~10k tool subset of the ToolBench catalog, three rounds of CoHyDE improve over the strongest single-component baseline by +2.5 pp NDCG@5 on standard queries and +6.3 pp on held-out vague queries, with gains as large as +8 pp on the hardest vague tier. Ablations confirm that co-training is the key ingredient: using either component in isolation fails to match CoHyDE on both well-formed and vague queries, with losses of up to -8 pp on vague queries.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="75c21f75688b" data-article-url="https://arxiv.org/abs/2605.29288" data-article-title="正解の長い CoT トレーニング トレースにおける有害な継続の診断" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29288" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29288" target="_blank" rel="noopener">正解の長い CoT トレーニング トレースにおける有害な継続の診断</a></h3>
      <p class="summary">長い思考連鎖 (CoT) トレースは、推論指向の LLM SFT の監視として広く使用されていますが、正解したトレースでも、著しく異なる微調整結果が得られる可能性があります。私たちは、答えが正しいロング CoT データにおける結論後の継続を研究します。これは、答えが十分に裏付けられているように見えますが、トレースは教師付きターゲットに残る追加の推論で継続するものです。トレーニング効果をテストするために、削除専用エディターを使用して応答を保持するサフィックス削除を構築し、元のトレースと処理されたトレースで CoT ベースの SFT を比較します。編集者が特定した結論後の継続を削除した後、SFT の結果が改善されたことが観察され、この継続が私たちの設定でのトレーニングに有害であることが示唆されています。したがって、私たちは経験的に裏付けられたこの現象を有害な継続と呼びます。この介入を超えて、不確実性と隠れた状態の進行を通じて削除された結論後の継続をさらに特徴付けます。持続的な局所的な不確実性と、最終方向への進行の弱まりが観察され、不確実性、つまり幾何学的不一致が形成されます。最後に、編集者が特定した結論後の継続境界を近似する軽量境界プロキシである Harmful Continuation Cut (HCC) をインスタンス化します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces</p>
        <p class="orig-summary">Long chain-of-thought (CoT) traces are widely used as supervision for reasoning-oriented LLM SFT, yet answer-correct traces can still lead to markedly different fine-tuning outcomes. We study post-conclusion continuation in answer-correct long-CoT data: a continuation where the answer appears sufficiently supported, but the trace continues with additional reasoning that remains in the supervised target. To test its training effect, we use a delete-only editor to construct answer-preserving suffix removal and compare CoT-based SFT on the original and processed traces. We observe improved SFT outcomes after removing the editor-identified post-conclusion continuation, suggesting that this continuation is harmful to training in our setting. We therefore refer to this empirically supported phenomenon as harmful continuation. Beyond this intervention, we further characterize the removed post-conclusion continuation through uncertainty and hidden-state progress. We observe persistent local uncertainty together with weakened terminal-directional progress, forming an uncertainty--geometry mismatch. Finally, we instantiate Harmful Continuation Cut (HCC), a lightweight boundary proxy that approximates the editor-identified post-conclusion continuation boundary.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5397e210d4f9" data-article-url="https://arxiv.org/abs/2605.29303" data-article-title="Entropy-KL Divergence ベースのトークン マスキング: 大規模な言語モデルを選択的に微調整するための新しいアプローチ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29303" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29303" target="_blank" rel="noopener">Entropy-KL Divergence ベースのトークン マスキング: 大規模な言語モデルを選択的に微調整するための新しいアプローチ</a></h3>
      <p class="summary">教師あり微調整 (SFT) とそれに続く強化学習 (RL) は、大規模な言語モデルの標準的なポストトレーニング パラダイムとなっています。このパラダイムは、RL 探索のコールド スタートを提供し、ポリシーに基づくサンプリングで不十分な陽性サンプルが得られるという純粋な RL の非効率性を回避します。ただし、実際には、既存のアプローチでは RL フェーズと比較して SFT 初期化に少量のデータを使用することが多く、そのためモデルが限られたサンプルに適合し、事前トレーニングされた分布からずれてしまう可能性があります。この分布の変化により、後続の RL トレーニング中にモデルが効果的に探索する能力が妨げられます。この課題に対処するために、データ量が少ない状況では、SFT が特定のコンテンツを記憶するのではなく、タスク関連機能のアクティブ化を優先する必要があることを提案します。これに沿って、参照モデルからの高いエントロピーまたは高い KL 発散を示すトークンを選択的にマスクする EKSFT (Entropy-KL Selective Fine-Tuning) を提案します。 EKSFT は、これらの不確実性が高く、分布を変化させるトークンを模倣から除外することで、モデルの事前トレーニングされた分布の整合性を維持しながら、タスク固有の知識を注入します。数学的推論ベンチマークの経験的評価は、EKSFT が標準の SFT を常に上回るパフォーマンスを示していることを示しています。 EKSFT モデルから RL をさらに微調整すると、RL 後のパフォーマンスが一貫して向上し、RL 段階の探索が改善されたことがわかります。コードとデータセットは https://github.com/MINE-USTC/EKSFT で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Entropy-KL Divergence-based Token Masking: A Novel Approach for Selective Fine-tuning of Large Language Models</p>
        <p class="orig-summary">Supervised fine-tuning (SFT) followed by reinforcement learning (RL) has become a standard post-training paradigm for large language models. This paradigm provides a cold-start for RL exploration, avoiding the inefficiency of pure RL where on-policy sampling yields insufficient positive samples. However, in practice, existing approaches often use a small amount of data for SFT initialization compared to the RL phase, which can cause the model to fit the limited samples and shift away from its pre-trained distribution. This distribution shift impedes the model&#x27;s ability to effectively explore during subsequent RL training. To address this challenge, we propose that in low-data regimes, SFT should prioritize activating task-relevant capabilities rather than memorizing specific content. Along this line, we propose EKSFT (Entropy-KL Selective Fine-Tuning), which selectively masks tokens that exhibit either high entropy or high KL divergence from a reference model. By excluding these high-uncertainty, distribution-shifting tokens from imitation, EKSFT injects task-specific knowledge while preserving the integrity of the model&#x27;s pre-trained distribution. Empirical evaluations on mathematical reasoning benchmarks demonstrate that EKSFT consistently outperforms standard SFT. Further RL fine-tuning from the EKSFT model yields consistently better post-RL performance, indicating improved exploration for the RL stage. Our codes and datasets are available at https://github.com/MINE-USTC/EKSFT.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ab41bc600db4" data-article-url="https://arxiv.org/abs/2605.29310" data-article-title="ステップワイズ モデル ルーティングに対するルーブリックに基づくプロセス報酬" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29310" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29310" target="_blank" rel="noopener">ステップワイズ モデル ルーティングに対するルーブリックに基づくプロセス報酬</a></h3>
      <p class="summary">段階的モデル ルーティングは、各推論ステップを適切なモデルに割り当てることで、大規模推論モデル (LRM) の効率を向上させます。最近の手法では、ルーティングを逐次的な意思決定プロセスとして定式化し、強化学習でルーターをトレーニングします。ただし、ルーティングをプロセスとしてモデル化しますが、結果の報酬によってルーターを監視します。このような報酬は最終的な回答の正しさを反映するだけであり、中間のルーティング決定を評価できないため、パフォーマンスと一般性が低下する可能性があります。このギャップに対処するために、段階的モデル ルーティングのためのルーブリックに基づくプロセス報酬フレームワークである RoRo を提案します。 RoRo はまず、さまざまなルーティングの軌跡を収集し、結果、コスト、プロセスの品質に基づいて優先順位のペアを構築します。次に、クエリ固有の評価ルーブリックを生成するようにルブリコールをトレーニングし、交互の最適化を通じてこのルーブリックに基づいてルーティングの軌跡をスコアリングするようにジャッジをトレーニングします。結果として得られるプロセス報酬は結果報酬と組み合わされて、GRPO を介してルーティング ポリシーを最適化します。同一ファミリー設定とクロスファミリー設定の両方で 5 つの推論ベンチマークを使用した実験では、RoRo が一貫して強力なベースラインを上回り、より優れた精度とコストのトレードオフを達成していることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Rubric-Guided Process Reward for Stepwise Model Routing</p>
        <p class="orig-summary">Stepwise model routing improves the efficiency of Large Reasoning Models (LRMs) by assigning each reasoning step to a suitable model. Recent methods formulate routing as a sequential decision process and train the router with reinforcement learning. However, although they model routing as a process, they still supervise the router with outcome rewards. Such rewards only reflect final answer correctness and fail to evaluate intermediate routing decisions, which can weaken performance and generalization. To address this gap, we propose RoRo, a rubric-guided process reward framework for stepwise model routing. RoRo first collects diverse routing trajectories and constructs preference pairs based on outcome, cost, and process quality. It then trains a Rubricor to generate a query-specific evaluation rubric and a Judge to score routing trajectories under this rubric through alternating optimization. The resulting process rewards are combined with outcome rewards to optimize the routing policy via GRPO. Experiments on five reasoning benchmarks under both same-family and cross-family settings show that RoRo consistently outperforms strong baselines and achieves better accuracy and cost trade-offs.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e6c6d45fd00e" data-article-url="https://arxiv.org/abs/2605.29350" data-article-title="ConMoE: MoE 圧縮のためのプロトタイプの再割り当てによるエキスパート プールの統合" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29350" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29350" target="_blank" rel="noopener">ConMoE: MoE 圧縮のためのプロトタイプの再割り当てによるエキスパート プールの統合</a></h3>
      <p class="summary">Mixture-of-Experts (MoE) 言語モデルでは、トークンごとの計算が削減されますが、それでもすべてのエキスパートを保存して提供する必要があるため、展開のメモリが大量に消費されます。既存のトレーニング後の圧縮方法は、主にエキスパートを枝刈りするか、重みをマージすることでこのコストを削減します。私たちは、トレーニング後の MoE 圧縮をエキスパート プールの統合として定式化します。つまり、事前トレーニングされたエキスパートの少数のセットを再利用可能なプロトタイプとして保持し、元の各エキスパート参照を 1 つの選択されたプロトタイプに決定論的に再マッピングします。このビューは、縮小されたエキスパート プールを元のエキスパート スロットを表す再利用構造から分離し、元のルータ インターフェイスを維持しながら、ローカル レイヤ スコープ内でプロトタイプを共有できるようにします。我々は、キャリブレーションベースの貢献と置換可能性信号を使用して保持されたエキスパートを選択し、その後、重みの更新や圧縮後の微調整を行わずに、元のエキスパートの呼び出しを選択されたプロトタイプにリダイレクトする、トレイン不要のプロトタイプ再マッピング フレームワークである ConMoE を提案します。 3 つの事前トレーニング済み MoE 言語モデルでの実験では、ConMoE がいくつかの設定で強力なプルーニングおよびマージ ベースラインと同等またはそれを上回り、25% および 50% のルーティング エキスパート削減で deepseek-moe-16b-base で最高の平均スコアを達成しながら、Qwen3-30B-A3B および OLMoE-1B-7B-0125 では競争力を維持していることが示されています。アブレーションは、決定論的な再割り当てが最も安定したコンポーネントであるのに対し、より広範な層間共有とポストホック重み融合はモデルに依存することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ConMoE: Expert-Pool Consolidation via Prototype Reassignment for MoE Compression</p>
        <p class="orig-summary">Mixture-of-Experts (MoE) language models reduce per-token computation but still require storing and serving all experts, making deployment memory-intensive. Existing post-training compression methods mainly shrink this cost by pruning experts or merging their weights. We formulate post-training MoE compression as expert-pool consolidation: retaining a smaller set of pretrained experts as reusable prototypes and deterministically remapping each original expert reference to one selected prototype. This view separates the reduced expert pool from the reuse structure that represents the original expert slots, and allows prototype sharing within local layer scopes while preserving the original router interface. We propose ConMoE, a train-free prototype remapping framework that selects retained experts using calibration-based contribution and replaceability signals, then redirects original expert calls to the selected prototypes without weight updates or post-compression fine-tuning. Experiments on three pretrained MoE language models show that ConMoE matches or outperforms strong pruning and merging baselines in several settings, achieving the best average score on deepseek-moe-16b-base at both 25% and 50% routed-expert reduction, while remaining competitive on Qwen3-30B-A3B and OLMoE-1B-7B-0125. Ablations indicate that deterministic reassignment is the most stable component, whereas broader cross-layer sharing and post-hoc weight fusion are model-dependent.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a27d414f9700" data-article-url="https://arxiv.org/abs/2605.29357" data-article-title="PassNet: グラフ コンパイラー パス生成のための大規模言語モデルのスケーリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29357" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29357" target="_blank" rel="noopener">PassNet: グラフ コンパイラー パス生成のための大規模言語モデルのスケーリング</a></h3>
      <p class="summary">TorchInductor などの最新の tensor コンパイラは、主流モデルで大幅な高速化を実現しますが、ロングテール ワークロードでは体系的なパフォーマンスの上限に直面しています。私たちのプロファイリングによると、デフォルトのコンパイルでは、現実世界のサブグラフの 43% でエンドツーエンドの速度低下が発生しています。 LLM は自動最適化への道を提供しますが、既存の取り組みはスタンドアロン カーネル生成に重点を置いています。私たちは、パス生成 (LLM がコンパイラー パイプラインに直接統合する構造化グラフ変換を作成する) がより適切な抽象化であると主張します。私たちは、LLM ベースのコンパイラ パス生成のための初の大規模エコシステムである PassNet を提案します。(1) PassNet-Dataset、100,000 の実世界モデルからの 18,000 を超える固有の計算グラフ。 (2) PassBench: 200 個の厳選されたロングテール可融性タスク (合計 2,060 個のサブグラフで構成) が、正確性、安定性、パフォーマンスを統合する指標であるエラー認識スピードアップ スコア (ES_t) に基づいて評価され、体系的な LLM 悪用に対する多層的な整合性防御が行われます。実験の結果、PassBench は識別力が高く、真に不飽和であることが明らかになりました。最高のフロンティア モデルは、合計で TorchInductor に 37% 及ばないものの、個々のサブグラフでは、LLM は同じコンパイラーと比較して最大 3 倍の高速化を達成しています。これは、ボトルネックが機能ではなく一貫性であることを示しています。わずか約 4K の PassNet 軌跡で小規模モデルを微調整すると、フロンティア モデルのパフォーマンスに迫る 2.67 倍の向上が得られ、相当なヘッドルームを実証し、LLM 駆動のコンパイラ最適化を進めるためのライブ トレーニング インフラストラクチャとして PassNet が検証されました。すべてのデータ、ベンチマーク、ツールは公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PassNet: Scaling Large Language Models for Graph Compiler Pass Generation</p>
        <p class="orig-summary">Modern tensor compilers such as TorchInductor deliver substantial speedups on mainstream models, yet face a systematic performance ceiling on long-tail workloads -- our profiling shows that 43% of real-world subgraphs experience end-to-end slowdowns under default compilation. While LLMs offer a path toward automated optimization, existing efforts focus on standalone kernel generation. We argue that pass generation -- where LLMs author structured graph transformations that integrate directly into compiler pipelines -- is the more appropriate abstraction. We propose PassNet, the first large-scale ecosystem for LLM-based compiler pass generation, comprising: (1) PassNet-Dataset, over 18K unique computational graphs from 100K real-world models; and (2) PassBench, 200 curated long-tail fusible tasks (comprising 2,060 subgraphs in total) evaluated under the Error-aware Speedup Score (ES_t) -- a metric unifying correctness, stability, and performance -- with layered integrity defenses against systematic LLM exploitation. Experiments reveal that PassBench is both highly discriminative and genuinely unsaturated: the best frontier model trails TorchInductor by 37% in aggregate, yet on individual subgraphs LLMs achieve up to 3x speedup over the same compiler -- indicating that the bottleneck is consistency, not capability. Fine-tuning a small model on merely ~4K PassNet trajectories yields a 2.67x improvement approaching frontier-model performance, demonstrating substantial headroom and validating PassNet as live training infrastructure for advancing LLM-driven compiler optimization. All data, benchmarks, and tooling are publicly available.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1f55b6ca7690" data-article-url="https://arxiv.org/abs/2605.29358" data-article-title="単一意味性のスケーリング: クロード 3 ソネットから解釈可能な特徴を抽出する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29358" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29358" target="_blank" rel="noopener">単一意味性のスケーリング: クロード 3 ソネットから解釈可能な特徴を抽出する</a></h3>
      <p class="summary">私たちは、スパース オートエンコーダーが実稼働規模の言語モデルである Claude 3 Sonnet から解釈可能な特徴を抽出できることを実証し、辞書学習方法が小規模なトランスフォーマーを超えて拡張できるかどうかという未解決の問題に対処します。私たちは、ハイパーパラメーターの選択をガイドするスケーリング則を使用して、モデルの中間層の残差ストリーム上で最大 3,400 万の特徴を備えたスパース オートエンコーダーをトレーニングしました。結果として得られる機能は、多言語およびマルチモーダル (テキストのみのトレーニングにもかかわらず画像に一般化) であり、具体的なインスタンスと概念の抽象的な議論の両方に応答し、解釈と一致する方法でモデルの動作を制御するために使用できます。有名なエンティティや場所に対応する特徴だけでなく、皮肉やコード内のエラーなどのより抽象的な概念も見つかります。また、言語モデルが危害を引き起こす可能性のある方法に関連する特徴 (欺瞞、権力追求、お調子者、偏見を表す特徴など) を特定し、これらの特徴が操作されたときにモデルの出力に因果的に影響を与えることを示します。さらに、特徴の解釈可能性、形状、計算機能の分析も行います。ただし、重大な制限が残っています。私たちの一連の機能は不完全であり、私たちの機能がモデルの計算を忠実に捉えているかどうかを評価するための厳密な方法がありません。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet</p>
        <p class="orig-summary">We demonstrate that sparse autoencoders can extract interpretable features from Claude 3 Sonnet, a production-scale language model, addressing the open question of whether dictionary learning methods scale beyond small transformers. We trained sparse autoencoders with up to 34 million features on the model&#x27;s middle layer residual stream, using scaling laws to guide hyperparameter selection. The resulting features are multilingual and multimodal (generalizing to images despite text-only training), respond to both concrete instances and abstract discussions of concepts, and can be used to steer model behavior in ways consistent with their interpretations. We find features corresponding to famous entities and locations, as well as more abstract concepts like sarcasm or errors in code. We also identify features relevant to ways in which language models might cause harm--including features representing deception, power-seeking, sycophancy, and bias--and show that these causally influence model outputs when manipulated. Additionally, we conduct analyses of feature interpretability, geometry, and computational function. However, significant limitations remain: our suite of features is incomplete, and we lack rigorous methods for evaluating whether our features faithfully capture model computations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="afe9a17115a6" data-article-url="https://arxiv.org/abs/2605.29360" data-article-title="MiraBench: ロボット世界モデルにおける動作条件付き信頼性の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29360" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29360" target="_blank" rel="noopener">MiraBench: ロボット世界モデルにおける動作条件付き信頼性の評価</a></h3>
      <p class="summary">アクション条件付き世界モデルは、ロボット学習用のスケーラブルなシミュレーターとしてますます使用されていますが、現在の評価では、条件付けされたアクションの下でその予測が信頼できるという限られた証拠が提供されています。既存のベンチマークは主に視覚的な忠実度を重視しており、予測される未来が物理的に妥当であるか、命令されたアクションに忠実であるか、アクションが成功しないはずのときに失敗するように調整されているかどうかが不明確なままです。 \emph{動作条件付き信頼性} をロボット世界モデルの中核的な評価目標として定義する階層型ベンチマークである \textsc{MiraBench} を紹介します。 MiraBench は、こ​​のターゲットを 3 つの段階的に要求の高いレベルに分解します。 \emph{Physics Adherence} は、リファレンスフリーの物理的一貫性を評価します。 \emph{Action-Following Fidelity}: 予測がタスク関連のアクション入力を考慮しているかどうかを測定します。 \emph{楽観主義バイアス検出} は、失敗を誘発する行動の下で成功した結果を予測する傾向を調査します。この評価をサポートするために、タスク、失敗カテゴリ、主要な世界モデルにわたる 16,000 件を超える判断を含む人間による注釈付きコーパスを厳選しました。ベクトル条件付きロボット ワールド モデル、テキスト条件付き生成ワールド モデル、オープンウェイト システム、クローズド ソース システム、および複数のモデル スケールにわたる 12 の代表的なモデル構成を評価します。この広範なモデル環境全体にわたって、MiraBench は 3 つの中心的な発見を明らかにしました。視覚的な忠実度は、アクションの忠実度の代用としては不十分です。モデルのスケールを大きくしても、アクションの追従性が確実に改善されるわけではありません。そして楽観主義バイアスは現在のシステム全体に蔓延しています。 MiraBench は、評価を外観から動作条件付きの信頼性に移行することで、ロボットの世界モデルを忠実なシミュレーターとして評価および改善するための診断基盤を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MiraBench: Evaluating Action-Conditioned Reliability in Robotic World Models</p>
        <p class="orig-summary">Action-conditioned world models are increasingly used as scalable simulators for robot learning, yet current evaluations provide limited evidence that their predictions are reliable under the actions they condition on. Existing benchmarks largely emphasize visual fidelity, leaving unclear whether predicted futures are physically plausible, faithful to commanded actions, and calibrated to failure when actions should not succeed. We introduce \textsc{MiraBench}, a hierarchical benchmark that defines \emph{action-conditioned reliability} as a core evaluation target for robotic world models. MiraBench decomposes this target into three progressively demanding levels: \emph{Physics Adherence}, which evaluates reference-free physical consistency; \emph{Action-Following Fidelity}, which measures whether predictions respect task-relevant action inputs; and \emph{Optimism Bias Detection}, which probes the tendency to predict successful outcomes under failure-inducing actions. To support this evaluation, we curate a human-annotated corpus with over 16,000 judgments across tasks, failure categories, and leading world models. We evaluate 12 representative model configurations spanning vector-conditioned robotic world models, text-conditioned generative world models, open-weight systems, closed-source systems, and multiple model scales. Across this broad model landscape, MiraBench reveals three central findings: visual fidelity is a poor proxy for action fidelity; increasing model scale does not reliably improve action following; and optimism bias is pervasive across current systems. By shifting evaluation from appearance to action-conditioned reliability, MiraBench provides a diagnostic foundation for assessing and improving robotic world models as faithful simulators.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c9450d3f2762" data-article-url="https://arxiv.org/abs/2605.29394" data-article-title="EvoMD-LLM: 反応性分子動力学における種の進化の言語を学ぶ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29394" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29394" target="_blank" rel="noopener">EvoMD-LLM: 反応性分子動力学における種の進化の言語を学ぶ</a></h3>
      <p class="summary">大規模言語モデル (LLM) は静的な科学的推論には優れていますが、動的な物理プロセスの時間構造をモデル化するのは困難です。我々は、種レベルの分子動力学を記号時間言語モデリング問題として再定式化するフレームワークである EvoMD-LLM (進化的分子動力学大規模言語モデル) を紹介します。反応性 MD 軌跡は分子イベントのシーケンスに離散化され、各トークンはその持続期間が増加した化学種を表し、標準的な自己回帰 LLM が効率的な微調整を通じて時間の経過に伴う組成の進化を学習できるようになります。 EvoMD-LLM の重要なコンポーネントは時間的足場です。これは、イベント期間を明示的な言語トークンとして扱い、構造化された誘導バイアスとして機能し、従来のシーケンス モデリング アプローチと比較して、無効または幻覚を引き起こす分子出力を大幅に削減します。複数の時間予測タスクで EvoMD-LLM を評価し、最大 66.14% の精度を達成し、逐次ニューラル ネットワークや言語ベースのベースラインを常に上回るパフォーマンスを示しました。定量的な改善を超えて、たとえペアの軌跡と説明のデータで明示的に監視されていなかったとしても、モデルが関連する化学知識を組み込むことによって独自の予測の解釈を生成できることが定性的に観察されました。これらの結果は、シンボリック時間言語モデリングが動的物理シミュレーションで LLM を基礎付けるための効果的なフレームワークを提供することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">EvoMD-LLM: Learning the Language of Species Evolution in Reactive Molecular Dynamics</p>
        <p class="orig-summary">While large language models (LLMs) excel at static scientific reasoning, they struggle to model the temporal structure of dynamic physical processes. We present EvoMD-LLM (Evolutionary Molecular Dynamics Large Language Model), a framework that reformulates species-level molecular dynamics as a symbolic temporal language modeling problem. Reactive MD trajectories are discretized into sequences of molecular events, where each token represents a chemical species augmented with its persistence duration, enabling standard autoregressive LLMs to learn compositional evolution over time through efficient fine-tuning. A key component of EvoMD-LLM is temporal scaffolding, which treats event duration as an explicit linguistic token and serves as a structured inductive bias, significantly reducing invalid or hallucinated molecular outputs compared to conventional sequence modeling approaches. We evaluate EvoMD-LLM on multiple temporal prediction tasks, achieving up to 66.14% accuracy and consistently outperforming sequential neural networks and language-based baselines. Beyond quantitative improvements, we qualitatively observe that the model is capable of generating interpretations for its own predictions by incorporating relevant chemical knowledge, even though it was not explicitly supervised with paired trajectory-explanation data. These results demonstrate that symbolic temporal language modeling provides an effective framework for grounding LLMs in dynamic physical simulations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d881124448b7" data-article-url="https://arxiv.org/abs/2605.29396" data-article-title="整列しているが壊れやすい: ゼロ次最適化による LLM の安全性の堅牢性の強化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29396" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29396" target="_blank" rel="noopener">整列しているが壊れやすい: ゼロ次最適化による LLM の安全性の堅牢性の強化</a></h3>
      <p class="summary">大規模言語モデル (LLM) の安全性調整は、一般的な実用性を維持しながら、有害または危険な動作を減らすことを目的としています。しかし、最近の調査結果では、アライメントの効果は脆弱である可能性があることが明らかになりました。パラメータ ノイズ、アクティベーション ノイズ、量子化などのアライメント後の軽量操作により、意図した安全動作が容易に弱まる可能性があります。堅牢性を向上させるためのこれまでの取り組みは、主にデータのキュレーション、修正された調整目標、安全性が重要なパラメータの特定に焦点を当てており、オプティマイザ自体の役割はほとんど解明されていませんでした。この論文では、私たちはベース オプティマイザーの観点から安全調整の堅牢性を初めて研究しました。このオプティマイザ中心の考え方は、当然のことながら 0 次最適化を指します。これは、摂動下での安全性調整を評価することによってロバスト性指向のシグナルを提供します。この洞察に基づいて、最初に標準的な 1 次の安全性調整を実行し、次に 0 次の改良を適用して堅牢性を向上させるハイブリッド フレームワークを提案します。理論的にも経験的にも、少数のゼロ次改良ステップだけで安全性の調整を維持しながらロバスト性を向上できることが示されています。 0 次リファインメントの固有の摂動ベースの評価を利用して層ごとのロバスト性感度を推定することで、0 次リファインメントの効率をさらに向上させ、リファインメント プロセスが適度なトレーニング オーバーヘッドでロバスト性が重要な層の更新を集中できるようにします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Aligned but Fragile: Enhancing LLM Safety Robustness via Zeroth-Order Optimization</p>
        <p class="orig-summary">Safety alignment for large language models (LLMs) aims to reduce harmful or unsafe behavior while preserving general utility. However, recent findings reveal that alignment effects can be fragile: lightweight post-alignment manipulations, such as parameter noise, activation noise, or quantization, can easily weaken the intended safety behavior. Prior efforts to improve robustness have primarily focused on data curation, modified alignment objectives, and safety-critical parameter identification, leaving the role of the optimizer itself largely unexplored. In this paper, we are the first to study the robustness of safety alignment from the perspective of the base optimizer. This optimizer-centric view naturally points to zeroth-order optimization, which provides a robustness-oriented signal by evaluating safety alignment under perturbations. Based on this insight, we propose a hybrid framework that first performs standard first-order safety alignment and then applies zeroth-order refinement to improve robustness. Both theoretically and empirically, we show that only a few zeroth-order refinement steps can enhance robustness while preserving safety alignment. We further improve the efficiency of zeroth-order refinement by exploiting its inherent perturbation-based evaluations to estimate layer-wise robustness sensitivity, enabling the refinement process to concentrate updates on robustness-critical layers with modest training overhead.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dfc05abcacf4" data-article-url="https://arxiv.org/abs/2605.29400" data-article-title="画面条件付きアクション予測のためのアーキテクチャに応じた監視付き微調整: PiSAR ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29400" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29400" target="_blank" rel="noopener">画面条件付きアクション予測のためのアーキテクチャに応じた監視付き微調整: PiSAR ベンチマーク</a></h3>
      <p class="summary">私たちは、PiSAR (ペルソナ、意図、画面、アクション、根拠) の 661 行のホールドアウト スライス上のフロンティア ゼロショット ベースラインに対して 3 つの教師付き微調整モデルをベンチマークします。PiSAR (ペルソナ、意図、画面、アクション、根拠) は、アプリストアの公開レビュー、ピュー アメリカン トレンド パネルの人口統計、および OPeRA の買い物客追跡から厳選された、画面に固定された行動理論の 12,929 タプル コーパスです。すべてのモデルは、フロンティアであっても微調整されていても、同じスコアリング パイプラインを使用して同じ 661 行のスライスで評価されます。 ２つの発見。まず、フロンティアのゼロショット ベースライン (Claude Opus 4.7 および GPT-5.5) は、それぞれ sem_sim 0.459 および 0.482 に達します。微調整された Qwen3-VL-8B-Instruct は 0.783 に達し、行の 79% で sem_sim &gt;= 0.7 をクリアします。これに対し、どちらのフロンティア ベースラインでも 1 ～ 2%、同じテスト セットでは絶対値 0.30 のギャップがあります。第二に、Gemma-4-26B-A4B-IT の同じトレーニング データとレシピのスコアはわずか 0.441 であり、微調整された Qwen ではなくフロンティアのゼロショット ベースラインと同じ帯域にあります。これはレシピとモデルの不一致であると考えられます。推論調整された高パラメーター モデルは変位に抵抗するため、より多くのデータまたはより強力な微調整方法が必要になる可能性があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Architecture-Sensitive Supervised Fine-Tuning for Screen-Conditioned Action Prediction: A PiSAR Benchmark</p>
        <p class="orig-summary">We benchmark three supervised fine-tuned models against frontier zero-shot baselines on a 661-row held-out slice of PiSAR (Persona, intent, Screen, Action, Rationale), a 12,929-tuple corpus of screen-anchored behavioural rationales curated from public app-store reviews, Pew American Trends Panel demographics, and the OPeRA shopper traces. Every model, frontier or fine-tuned, is evaluated on the same 661-row slice with the same scoring pipeline. Two findings. First, frontier zero-shot baselines (Claude Opus 4.7 and GPT-5.5) reach sem_sim 0.459 and 0.482 respectively; a fine-tuned Qwen3-VL-8B-Instruct reaches 0.783 and clears sem_sim &gt;= 0.7 on 79% of rows, against 1-2% for either frontier baseline, a gap of 0.30 absolute on the same test set. Second, the same training data and recipe on Gemma-4-26B-A4B-IT scores only 0.441, in the same band as the frontier zero-shot baselines rather than the fine-tuned Qwen. We read this as a recipe-vs-model mismatch: the reasoning-tuned high-parameter model resists displacement and would likely need either more data or a stronger fine-tuning method.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fedca1743760" data-article-url="https://arxiv.org/abs/2605.29420" data-article-title="ペルソナプロンプトが実際に役立つのはいつですか? LLM におけるエキスパート ロール インジェクションの取得とメトリクス分析" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29420" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29420" target="_blank" rel="noopener">ペルソナプロンプトが実際に役立つのはいつですか? LLM におけるエキスパート ロール インジェクションの取得とメトリクス分析</a></h3>
      <p class="summary">ペルソナ プロンプトは大規模な言語モデルを操作するために広く使用されていますが、その実用的な価値は依然として不明です。これまでの研究では、集計スコアを使用してペルソナのプロンプトを評価することが多く、専門家の役割によるプロンプトが一貫して応答の品質を向上させるのか、それとも異なる品質の側面に沿って応答を変化させるのかを判断することが困難でした。私たちは、38 のエキスパートの役割と 6 つのドメインにわたる 1,140 件の自由形式の質問にわたる 4 つのプロンプト条件の制御された比較を通じてこの質問を研究します。つまり、役割プロンプトなし、一般的なドメイン専門家プロンプト、埋め込みベースの役割検索、および埋め込み検索と LLM ベースの役割選択を組み合わせたハイブリッド検索方法です。集計結果では、条件間の全体的な差異はわずかしか示されません。ただし、指標レベルの分析では、集計平均ではわかりにくい一貫したトレードオフが明らかになります。役割のプロンプトは体系的に専門知識の深さを増す一方で、明確さは低下します。これらの効果は普遍的ではなく、非常に条件付きです。役割のプロンプトは、助言的な質問や、構造化された専門家の枠組みやリスクコミュニケーションが本質的に価値のある医学や心理学などの分野で最も効果を発揮します。対照的に、ベースラインのプロンプトは、簡潔で平易な言葉での説明がより重要である、金融、法律、科学、技術の分野における概念的な質問や説明的な質問に対してより効果的です。さらに、ハイブリッド検索は、埋め込みのみの役割選択よりも大幅に向上しますが、より適切な役割検索では、より広範な専門知識の深さと明確さのトレードオフが排除されないことを示します。全体として、私たちの調査結果は、ペルソナプロンプトは能力を大幅に向上させるのではなく、主に反応特性を再形成すること、そしてその効果を理解するには複数の指標による評価が必要であることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">When Does Persona Prompting Actually Help? A Retrieval and Metric Analysis of Expert Role Injection in LLMs</p>
        <p class="orig-summary">Persona prompting is widely used to steer large language models, yet its practical value remains unclear. Prior work often evaluates persona prompting using aggregate scores, making it difficult to determine whether expert-role prompting consistently improves response quality or instead changes responses along different quality dimensions. We study this question through a controlled comparison of four prompting conditions across 1,140 open-ended questions spanning 38 expert roles and six domains: no role prompt, a generic domain-expert prompt, embedding-based role retrieval, and a hybrid retrieval method combining embedding search with LLM-based role selection. Aggregate results show only small overall differences between conditions. However, metric-level analysis reveals a consistent tradeoff that aggregate averages obscure: role prompting systematically increases expertise depth while reducing clarity. These effects are highly conditional rather than universal. Role prompting performs best on advisory questions and in domains such as medicine and psychology, where structured expert framing and risk communication are intrinsically valuable. In contrast, baseline prompting performs better on conceptual and explanatory questions in finance, legal, science, and technology domains, where concise plain-language explanation is more important. We further show that hybrid retrieval significantly improves over embedding-only role selection, although better role retrieval does not eliminate the broader expertise-depth versus clarity tradeoff. Overall, our findings suggest that persona prompting primarily reshapes response characteristics rather than broadly improving capability, and that multi-metric evaluation is necessary for understanding its effects.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b6c6a588f7e5" data-article-url="https://arxiv.org/abs/2605.29425" data-article-title="ReasonLight: ゼロショット交通信号制御のためのマルチモーダル基盤モデル強化強化学習フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29425" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29425" target="_blank" rel="noopener">ReasonLight: ゼロショット交通信号制御のためのマルチモーダル基盤モデル強化強化学習フレームワーク</a></h3>
      <p class="summary">強化学習 (RL) は、交通信号制御 (TSC) において有望であることが示されています。ただし、事前定義された状態に依存しているため、トレーニング データに存在しない観察可能なオープンワールド イベントへの応答性が制限されます。 IoT 対応の交差点では、路側のセンサーやカメラから異種混合の観測が提供され、そのようなイベントに対する RL の適応性を向上させる機会が生まれます。この目的を達成するために、ゼロショット TSC 用のマルチモーダル基盤モデル強化 RL フレームワークである ReasonLight を提案します。 ReasonLight は、構造化されたトラフィック測定、マルチビュー カメラの観測、および事前トレーニングされた RL コントローラーからの候補フェーズの決定という 3 つの情報ソースを統合します。 RL が提案したフェーズを考慮すると、ReasonLight はマルチビュー画像から視覚的セマンティクスを抽出し、それらをコンパクトなセンサー由来のシーン記述と調整します。この調整により、セマンティック ガイド付き改良モジュールは、トラフィック ルールおよびイベント セマンティクスに従って、提案されたアクションを保存または調整できるようになります。運用の信頼性を確保するために、洗練されたアクションは利用可能なフェーズのセットによって制限されます。無効な決定は拒否され、システムは元の RL アクションに戻ります。私たちは、緊急車両の優先と一時的な交通規制という、RL トレーニング中には見ら​​れない 2 種類のまれなイベントについて ReasonLight を評価します。実験結果は、ReasonLight が再トレーニングなしでゼロショット適応を達成することを示しています。 RL のみのバックボーンと比較して、同等の日常交通パフォーマンスを維持しながら、緊急車両の待ち時間を最大 88.7% 削減します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ReasonLight: A Multimodal Foundation Model-Enhanced Reinforcement Learning Framework for Zero-Shot Traffic Signal Control</p>
        <p class="orig-summary">Reinforcement learning (RL) has shown promise in traffic signal control (TSC). However, its reliance on predefined states limits responsiveness to observable open-world events that are absent from training data. IoT-enabled intersections provide heterogeneous observations from roadside sensors and cameras, creating opportunities to improve RL adaptability to such events. To this end, we propose ReasonLight, a multimodal foundation model-enhanced RL framework for zero-shot TSC. ReasonLight integrates three sources of information: structured traffic measurements, multi-view camera observations, and candidate phase decisions from a pre-trained RL controller. Given an RL-proposed phase, ReasonLight extracts visual semantics from multi-view images and aligns them with compact sensor-derived scene descriptions. This alignment enables a semantic-guided refinement module to either preserve or adjust the proposed action according to traffic rules and event semantics. To ensure operational reliability, refined actions are constrained by the set of available phases. Any invalid decision is rejected, and the system falls back to the original RL action. We evaluate ReasonLight on two types of rare events not seen during RL training: emergency vehicle priority and temporary traffic regulation. Experimental results show that ReasonLight achieves zero-shot adaptation without retraining. It reduces emergency vehicle waiting time by up to 88.7% compared with the RL-only backbone while preserving comparable routine traffic performance.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c1654a3b1724" data-article-url="https://arxiv.org/abs/2605.29430" data-article-title="エージェントによる修正と意味評価による人間のような対話型音声認識を目指して" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29430" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29430" target="_blank" rel="noopener">エージェントによる修正と意味評価による人間のような対話型音声認識を目指して</a></h3>
      <p class="summary">自動音声認識 (ASR) は、人間とコンピューターの対話の中核コンポーネントであり、LLM ベースのアシスタントおよびエージェントにとってますます重要なフロントエンドです。しかし、現在のほとんどの ASR システムは依然としてシングルパス パラダイムに従っており、人間のコミュニケーションとの整合性が低く、誤解は繰り返しの明確化と改良によって解決されます。この不一致により、意味に関わる重大なエラーが発生すると、修正することが困難になります。一方、WER や CER などのトークンレベルの指標は、このような問題を適切に反映できません。これらの制限に対処するために、\emph{Interactive ASR} をマルチターン改良タスクとして定式化し、シングルパス ASR フロントエンドとセマンティック修正、インテント ルーティング、推論ベースの編集を組み合わせた閉ループ フレームワークである \textbf{Agentic ASR} を提案します。さらに、LLM ベースのセマンティック評価指標である \textbf{文レベルのセマンティック エラー率} ($S^2ER$) を、スケーラブルで再現可能なベンチマークのための \textbf{インタラクティブ シミュレーション システム} とともに導入します。多言語、名前付きエンティティ集中型、およびコードスイッチングのベンチマークに関する実験では、反復的な対話によりセマンティック エラーが一貫して減少し、従来のトークン レベルのメトリクスよりも $S^2ER$ が大幅に増加することが示されました。人間と AI のアライメントとアブレーションの研究により、意味判断の信頼性と提案されたフレームワークの堅牢性がさらに検証されました。コードは https://interactiveasr.github.io/ で入手でき、ライブ デモは https://i-asr.sjtuxlance.com/ で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation</p>
        <p class="orig-summary">Automatic speech recognition (ASR) is a core component of human--computer interaction and an increasingly important front-end for LLM-based assistants and agents. However, most current ASR systems still follow a single-pass paradigm, which is poorly aligned with human communication, where misunderstandings are resolved through iterative clarification and refinement. This mismatch makes it difficult to correct meaning-critical errors once they occur. Meanwhile, token-level metrics such as WER or CER cannot adequately reflect such a problem. To address these limitations, we formulate \emph{Interactive ASR} as a multi-turn refinement task and propose \textbf{Agentic ASR}, a closed-loop framework that combines a single-pass ASR front-end with semantic correction, intent routing, and reasoning-based editing. We further introduce the \textbf{Sentence-level Semantic Error Rate} ($S^2ER$), an LLM-based semantic evaluation metric, together with an \textbf{Interactive Simulation System} for scalable and reproducible benchmarking. Experiments on multilingual, named-entity-intensive, and code-switching benchmarks show that iterative interaction consistently reduces semantic errors, with much larger gains in $S^2ER$ than in conventional token-level metrics. Human--AI alignment and ablation studies further validate the reliability of the semantic judge and the robustness of the proposed framework. The code is available at: https://interactiveasr.github.io/ and the live demo is available at https://i-asr.sjtuxlance.com/</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c22f1bb8ffdf" data-article-url="https://arxiv.org/abs/2605.29446" data-article-title="CrystalXRD-Bench: 多様な結晶材料にわたる XRD ピークインデックスのための視覚言語モデルのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29446" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29446" target="_blank" rel="noopener">CrystalXRD-Bench: 多様な結晶材料にわたる XRD ピークインデックスのための視覚言語モデルのベンチマーク</a></h3>
      <p class="summary">粉末 XRD パターンからのミラー指数の同定には、既存のマルチモーダル ベンチマークではテストされていない機能が必要です。モデルは、レンダリングされた科学曲線から狭いピーク位置を読み取り、その観察を多段階の結晶学的推論に結び付ける必要があります。 CrystalXRD-Bench は、XRD パターンの最高強度ピークに寄与する HKL のフルセットを回復するという 1 つのタスクのために 10 の公開結晶学的データベースから構築された 250 サンプルのベンチマークです。各サンプルは、レンダリングされた XRD 画像とソース CIF テキストおよび化学式を組み合わせているため、視覚的な抽出エラーと推論エラーを並べて検査できます。私たちは 7 つの視覚言語モデルを評価します。最高の Jaccard スコアは 0.5888 (GPT-5.4) で、完全一致率は 37.6% ですが、7 つのモデルのうち 6 つは依然として Jaccard 0.50 を下回っています。課題は解決にはほど遠い。エラー パターンは体系的に変化します。ダブル ピークのケースは特に脆弱で、リコールの多いモデルは HKL を過剰予測することでカバレッジを獲得し、CIF テキストにアクセスしても結晶学的計算のギャップは埋まりません。このベンチマークは、モデルのランキングに加えて、現在の VLM が定量的な科学的数値に基づいて機能しない条件を特定します。すべてのデータと評価コードは公開されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CrystalXRD-Bench: Benchmarking Vision-Language Models for XRD Peak Indexing Across Diverse Crystalline Materials</p>
        <p class="orig-summary">Miller-index identification from powder XRD patterns requires capabilities untested by existing multimodal benchmarks: the model must read a narrow peak location from a rendered scientific curve and then connect that observation to multi-step crystallographic reasoning. We introduce CrystalXRD-Bench, a 250-sample benchmark built from 10 public crystallographic databases for a single task: recover the full set of HKLs contributing to the highest-intensity peak in an XRD pattern. Each sample pairs the rendered XRD image with the source CIF text and chemical formula, so visual extraction errors and reasoning errors can be examined side by side. We evaluate seven vision-language models. The best Jaccard score is 0.5888 (GPT-5.4) with an exact-match rate of 37.6%, yet six of seven models remain below Jaccard 0.50; the task is far from solved. Error patterns vary systematically: double-peak cases are especially brittle, recall-heavy models gain coverage by over-predicting HKLs, and access to CIF text does not close the gap in crystallographic calculation. Alongside model rankings, the benchmark identifies the conditions under which current VLMs fail on quantitative scientific figures. All data and evaluation code will be publicly available.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="973a1d2a2cbd" data-article-url="https://arxiv.org/abs/2605.29483" data-article-title="VitalAgent: ウェアラブル健康データに対する反応的および積極的な生理学的モニタリングのためのツール拡張エージェント" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29483" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29483" target="_blank" rel="noopener">VitalAgent: ウェアラブル健康データに対する反応的および積極的な生理学的モニタリングのためのツール拡張エージェント</a></h3>
      <p class="summary">ウェアラブル デバイスにより、ECG や PPG などの生理学的信号の継続的なモニタリングが可能になりますが、既存の mHealth システムは、タスク固有の予測パイプラインまたは静的な概要に対する反応的な質問応答に主に限定されています。これらには、時間的推論、永続的な生理学的コンテキスト、および長期的な信号ストリームにわたるプロアクティブなモニタリングをサポートする能力がありません。私たちは、事後的な質問応答とプロアクティブなモニタリングの両方をサポートする、ECG/PPG ベースの mHealth 用のツールを強化したエージェント フレームワークである VitalAgent を提案します。 VitalAgent は、長期的な生理学的メモリと、生の信号に対する動的な計算を可能にするツール拡張推論インターフェイスに基づいて構築されています。さらに、反応的な質問応答のための 1,862 の QA ペアと、心臓、身体活動、ストレス関連のタスクをカバーするプロアクティブなモニタリングのための 90.2 時間の連続 ECG/PPG 記録で構成される長期的な生理学的モニタリング ベンチマーク データセットである VitalBench を紹介します。実験では、VitalAgent が事後評価においてプロンプトベースおよび ReAct ベースラインと比較して 30% 以上の改善を達成し、長期の生理学的信号に対するプロアクティブなアラートモニタリングをサポートすることが実証されており、動的なツールの使用と長期の生理学的モニタリングの重要性が強調されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">VitalAgent: A Tool-Augmented Agent for Reactive and Proactive Physiological Monitoring over Wearable Health Data</p>
        <p class="orig-summary">Wearable devices enable continuous monitoring of physiological signals such as ECG and PPG, but existing mHealth systems are largely limited to task-specific prediction pipelines or reactive question answering over static summaries. They lack the ability to support temporal reasoning, persistent physiological context, and proactive monitoring over long-term signal streams. We propose VitalAgent, a tool-augmented agentic framework for ECG/PPG-based mHealth that supports both reactive question answering and proactive monitoring. VitalAgent is built on a longitudinal physiological memory and a tool-augmented reasoning interface that enables dynamic computation over raw signals. We further introduce VitalBench, a longitudinal physiological monitoring benchmark dataset comprising 1,862 QA pairs for reactive question answering and 90.2 hours of continuous ECG/PPG recordings for proactive monitoring, covering cardiac, physical activity, and stress-related tasks. Experiments demonstrate that VitalAgent achieves over 30% improvement over prompt-based and ReAct baselines in reactive evaluation and supports proactive alert monitoring over long-term physiological signals, highlighting the importance of dynamic tool use and long-term physiological monitoring.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b63b31422875" data-article-url="https://arxiv.org/abs/2605.29491" data-article-title="有用性の呪い: DistractionIF を介したディストラクタの指示に対するロバスト性の逆スケーリング則" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29491" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29491" target="_blank" rel="noopener">有用性の呪い: DistractionIF を介したディストラクタの指示に対するロバスト性の逆スケーリング則</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、エージェントおよび検索拡張生成 (RAG) システムに導入されることが増えており、外部から提供された参照テキストに対してユーザー指定のタスクを実行する必要があります。実際には、そのようなコンテキストは構造化されていないことが多く、編集コメントやシステム トレースなど、無害ではあるが指示のようなセマンティック ノイズで汚染されており、厳密にデータとして扱う必要があります。参照テキスト内のこのようなディストラクタ命令に対する堅牢性を評価するために設計されたベンチマークである DistractionIF を紹介します。幅広いモデルにわたって、一貫した逆スケーリング現象が観察されます。多くの場合、大きなモデルは堅牢性が低く、スケールが増加するにつれてパフォーマンスが最大 30 ポイント低下します。機構的には、私たちのパープレキシティ分析により、スケーリングによってロバストな動作と注意散漫な動作の間の確率的境界が侵食され、モデルがノイズを指示として過剰解釈する傾向がますます高まっていることが明らかになりました。これに対処するために、強化学習、特にグループ相対ポリシー最適化 (GRPO) がこの境界を回復し、一般的な命令追従能力を損なうことなく堅牢性を最大 15.5% 向上させることができることを実証します。私たちの調査結果は、参照に基づいたタスクにおける命令追従の堅牢性の重大なギャップを浮き彫りにし、大規模なデータと命令の厳密な分離を強制するための有望な道としての強化学習を確立します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Curse of Helpfulness: Inverse Scaling Law in Robustness to Distractor Instructions via DistractionIF</p>
        <p class="orig-summary">Large Language Models (LLMs) are increasingly deployed in agentic and retrieval-augmented generation (RAG) systems, where they must execute user-specified tasks over externally provided reference text. In practice, such context is often unstructured and contaminated with benign but instruction-like semantic noise, such as editorial comments and system traces, which should be treated strictly as data. We introduce DistractionIF, a benchmark designed to evaluate robustness against such distractor instructions in reference text. Across a broad range of models, we observe a consistent inverse scaling phenomenon: larger models are often less robust, with performance dropping by up to 30 points as scale increases. Mechanistically, our perplexity analysis reveals that scaling erodes the probabilistic boundary between robust and distracted behaviors, making models increasingly prone to over-interpreting noise as instructions. To address this, we demonstrate that reinforcement learning, specifically Group Relative Policy Optimization (GRPO), can restore this boundary, improving robustness by up to 15.5% without compromising general instruction-following capability. Our findings highlight a critical instruction-following robustness gap in reference-grounded tasks and establish reinforcement learning as a promising path for enforcing strict data-instruction separation at scale.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3d4390637f52" data-article-url="https://arxiv.org/abs/2605.29507" data-article-title="Xetrieval: 高密度検索を機械的に説明する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29507" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29507" target="_blank" rel="noopener">Xetrieval: 高密度検索を機械的に説明する</a></h3>
      <p class="summary">検索の決定は不透明な高次元の埋め込みを通じて行われるため、なぜ密な検索が高い関連性スコアを割り当てるのかを説明するのは依然として困難です。既存の説明は、語彙の一致、トークンの位置合わせ、事後のテキストの根拠などの表面的な信号に焦点を当てていることが多く、そのため、埋め込みレベルでの密な検索動作を形成する潜在的な要因についての洞察は限られています。我々は、高密度検索を説明するための埋め込みレベルのメカニズムフレームワークである \textit{Xetrieval} を提案します。 \textit{Xetrieval} はまず、単一の前方パスを使用して埋め込み空間で直接思考連鎖推論を近似する軽量推論インターナライザーを導入します。これにより、コストのかかる自己回帰生成を回避しながら、推論指向の情報で文の埋め込みを強化します。次に、これらの推論によって強化された埋め込みを、人間が解釈できるまばらな特徴に分解し、それぞれが一貫した自然言語記述に関連付けられます。 \textit{Xetrieval} は、複数のドキュメント側ビューにわたるまばらな特徴の重複を集約することにより、個々の検索決定の特徴レベルの説明を提供します。さまざまなレトリーバーとベンチマークに関する実験により、 \textit{Xetrieval} が一貫した解釈可能な特徴を明らかにし、より強力なペアレベルの介入効果を生み出し、タスクレベルの特徴ステアリングをサポートすることが示されています。プロジェクト ページとソース コードは https://hihiczx.github.io/Xetrieval で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Xetrieval: Mechanistically Explaining Dense Retrieval</p>
        <p class="orig-summary">Explaining why dense retrievers assign high relevance scores remains challenging because retrieval decisions are made through opaque high-dimensional embeddings. Existing explanations often focus on surface signals, such as lexical matches, token alignments, or post-hoc textual rationales, and thus provide limited insight into the latent factors that shape dense retrieval behavior at the embedding level. We propose \textit{Xetrieval}, an embedding-level mechanistic framework for explaining dense retrieval. \textit{Xetrieval} first introduces a lightweight reasoning internalizer that approximates Chain-of-Thought reasoning directly in the embedding space with a single forward pass, enriching sentence embeddings with reasoning-oriented information while avoiding expensive autoregressive generation. It then decomposes these reasoning-enhanced embeddings into sparse, human-interpretable features, each associated with a coherent natural language description. By aggregating sparse feature overlaps across multiple document-side views, \textit{Xetrieval} provides feature-level explanations of individual retrieval decisions. Experiments on diverse retrievers and benchmarks show that \textit{Xetrieval} uncovers coherent interpretable features, yields stronger pair-level intervention effects, and supports task-level feature steering. The project page and source code are available at https://hihiczx.github.io/Xetrieval .</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a55c03d79c9b" data-article-url="https://arxiv.org/abs/2605.29512" data-article-title="MINDGAMES: マルチエージェント LLM の社会的および戦略的推論を評価するためのライブ アリーナ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29512" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29512" target="_blank" rel="noopener">MINDGAMES: マルチエージェント LLM の社会的および戦略的推論を評価するためのライブ アリーナ</a></h3>
      <p class="summary">大規模言語モデル (LLM) は対話型エージェントとして導入されることが増えていますが、拡張された対話における社会的および戦略的推論の能力はまだ十分に理解されていません。既存の評価は、静的なビネットや単一ゲームのベンチマークに依存しており、現実世界のマルチエージェント設定で要求される持続的で多面的な推論を捉えることができません。我々は、「心の理論」に関連する補完的推論の要求を運用する、LLM エージェント向けのマルチゲームアリーナおよび評価プラットフォームである Mindgames を紹介します。これは、隠された情報の下での信念の帰属、繰り返される戦略的相互作用を通じた敵対者のモデル化、知識の非対称性の下での協力的な推論、および社会的演繹における継続的な欺瞞です。 TextArena 上に構築された Mindgames は、統合されたインタラクション インターフェイス、TrueSkill ベースの評価、および 4 つのゲーム環境にわたる完全な軌跡のログを提供します。私たちは、主要な AI カンファレンスで主催された 2025 年の競争サイクルを通じて Mindgames をインスタンス化しました。このカンファレンスでは、Colonel Blotto、Iterated Prisoner&#x27;s Dilemma、Codenames、Secret Mafia の 4 つのゲームにわたって 76 チームから提出された 944 人のエージェントが評価されました。私たちの分析では、エージェント レベルと評価レベルの両方の制限が明らかになりました。脆弱なルール遵守が依然として主要なボトルネックであり、最高パフォーマンスのシステムは明示的な構造足場に繰り返し依存しており、リーダーボードの有効性は環境によって大きく異なります。特に、失敗の多い環境では、戦略的能力と同じくらい相手のエラーに対する堅牢性が評価される可能性があり、シークレット マフィアはこのサイクルで顕著なエラーと生存の混乱を示します。私たちは、ターンレベルの観察、アクション、報酬を含む 29,571 のマルチエージェント ゲームのデータセットをリリースします。MG-Ref は、この分析で使用したのと同じエラー帰属レンズの下で、トップランクの低エラー Stage~II 提出物の凍結された参照プールに対して新しいエージェントを採点する決定論的なオフライン トーナメント プロトコルです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs</p>
        <p class="orig-summary">Large language models (LLMs) are increasingly deployed as interactive agents, yet their capacity for social and strategic reasoning over extended interaction remains poorly understood. Existing evaluations rely on static vignettes or single-game benchmarks that cannot capture the sustained, multi-faceted reasoning that real-world multi-agent settings demand. We introduce Mindgames, a multi-game arena and evaluation platform for LLM agents that operationalizes complementary reasoning demands relevant to ``theory of mind&#x27;&#x27;: belief attribution under hidden information, opponent modeling through repeated strategic interaction, cooperative inference under knowledge asymmetries, and sustained deception in social deduction. Built on TextArena, Mindgames provides a unified interaction interface, TrueSkill-based rating, and full trajectory logging across four game environments. We instantiate Mindgames through a 2025 competition cycle hosted at a major AI conference, which assessed 944 submitted agents from 76 teams across four games: Colonel Blotto, Iterated Prisoner&#x27;s Dilemma, Codenames, and Secret Mafia. Our analysis surfaces both agent-level and evaluation-level limitations: brittle rule adherence remains a major bottleneck, top-performing systems repeatedly rely on explicit structural scaffolding, and leaderboard validity differs sharply across environments. In particular, failure-heavy environments can reward robustness to opponent errors as much as strategic ability, with Secret Mafia exhibiting a pronounced error-survival confound in this cycle. We release a dataset of 29,571 multi-agent games with turn-level observations, actions, and rewards, together with MG-Ref, a deterministic offline tournament protocol that scores new agents against a frozen reference pool of top-ranked, low-error Stage~II submissions under the same error-attribution lens used in this analysis.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d81c4ee3103c" data-article-url="https://arxiv.org/abs/2605.29522" data-article-title="DeepSurvey: 自動アンケート生成における分析の深さと引用の信頼性を強化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29522" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29522" target="_blank" rel="noopener">DeepSurvey: 自動アンケート生成における分析の深さと引用の信頼性を強化</a></h3>
      <p class="summary">科学文献が急速に増加するにつれて、自動調査生成は AI 科学者や人間の研究者にとって重要な機能になりました。しかし、既存のシステムは、抄録や孤立した論文処理に依存しているため分析の深さが限られており、不正確な検索や事後の根拠による信頼性の低い引用が原因で表面的な調査が生じ、研究者を誤解させる可能性があります。私たちは、両方に対処するエージェント システムである DeepSurvey を紹介します。深みを高めるために、DeepSurvey は論文全文から構造化された基調講演を抽出し、クラスタリングと比較分析を通じて論文間の関係をモデル化し、コード リポジトリ分析を統合して実装レベルの詳細を復元します。信頼性を強化するために、トピックに焦点を当てた検索のために引用グラフ拡張とハイブリッド フィルタリングを組み合わせ、証拠に制約された引用割り当てを強制し、引用とクレームの整合性を検証するための複数粒度のエージェント的洗練を展開します。実験によると、DeepSurvey は最高のコンテンツ スコア (8.644/10) と引用品質 (最も強力なベースラインに対して 12.3% と 9.3% の再現率と精度の向上) を達成し、ドメイン全体でより堅牢に一般化され (0.14 対 0.22 ～ 0.69 CS 対非 CS の低下)、ドメイン専門家による人間による手書きの調査よりも好まれている (全体の品質 83.3%、コンテンツ 100%) ことが示されています。深さ）。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DeepSurvey: Enhancing Analytical Depth and Citation Reliability in Automated Survey Generation</p>
        <p class="orig-summary">As scientific literature grows rapidly, automated survey generation has become a key capability for AI scientists and human researchers. However, existing systems suffer from limited analytical depth due to reliance on abstracts and isolated paper processing, and unreliable citations from imprecise retrieval and post-hoc grounding, producing superficial surveys and may mislead researchers. We present DeepSurvey, an agentic system that addresses both. To enhance depth, DeepSurvey extracts structured keynotes from full-text papers, models cross-paper relationships through clustering and comparative analysis, and integrates code-repository analysis to recover implementation-level details. To fortify reliability, it combines citation-graph expansion with hybrid filtering for topic-focussed retrieval, enforces evidence-constrained citation assignment, and deploys multi-granularity agentic refinement to validate citation-claim alignment. Experiments show that DeepSurvey achieves the highest content score (8.644/10) and citation quality (12.3% and 9.3% recall and precision gains over the strongest baseline), generalizes more robustly across domains (0.14 vs 0.22 to 0.69 CS-to-non-CS drop), and is preferred over human-written surveys by domain experts (83.3% overall quality, 100% content depth).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="89a2f940e653" data-article-url="https://arxiv.org/abs/2605.29534" data-article-title="UI-KOBE: 軽量のグラフガイド付き GUI エージェントのための知識指向の動作探索" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29534" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29534" target="_blank" rel="noopener">UI-KOBE: 軽量のグラフガイド付き GUI エージェントのための知識指向の動作探索</a></h3>
      <p class="summary">モバイル GUI エージェントの最近の進歩により、モバイル タスクを自動化する強力な可能性が示されていますが、最も効果的なシステムは、依然としてスクリーンショットの理解と長期的な計画のために大規模なビジョン言語モデルに依存しています。モバイル デバイスに直接展開できる小型の GUI エージェントは、推論コストが低く、デバイス上の機密情報の保護が強化されているため、実用的にはより魅力的です。ただし、モデルの容量が限られているため、スクリーンショットだけから GUI タスクをエンドツーエンドで計画および実行する場合、このような軽量エージェントの信頼性は依然として低いままです。私たちは、再利用可能なアプリ固有のグラフ知識を備えた軽量モバイル GUI エージェントを改善するフレームワークである、Knowledge-Oriented Behavior Exploration (\textbf{UI-KOBE}) を提案します。 UI-KOBE は、まずモバイル アプリケーションを自律的に探索し、ノードが個別の UI 状態を表し、エッジが実行可能な遷移を表すアプリ ナレッジ グラフを構築します。実行時に、軽量 GUI エージェントは外部ガイダンスとしてグラフを使用します。ユーザー タスクと現在のスクリーンショットが与えられると、現在のグラフ ノードを識別し、自己ループ アクション、隣接する遷移、タスクの完了、またはそのノードに関連付けられたフォールバック フリー アクションの中から選択します。 UI-KOBE は、アプリ固有のグラフ ガイダンスで実行時の意思決定をサポートすることで、エンドツーエンドの GUI 計画の負担を軽減し、軽量モデルがモバイル GUI タスクをより効果的に実行できるように支援し、効率的で解釈可能でプライバシーに配慮したオンデバイス GUI エージェントに向けた実用的なステップを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">UI-KOBE: Knowledge-Oriented Behavior Exploration for Lightweight Graph-Guided GUI Agents</p>
        <p class="orig-summary">Recent advances in mobile GUI agents have shown strong potential for automating mobile tasks, but most effective systems still depend on large vision-language models for screenshot understanding and long-horizon planning. Small GUI agents that can be deployed directly on mobile devices are more attractive for practical use, offering lower inference cost and better protection of sensitive on-device information. However, due to limited model capacity, such lightweight agents remain unreliable when planning and executing GUI tasks end-to-end from screenshots alone. We propose Knowledge-Oriented Behavior Exploration (\textbf{UI-KOBE}), a framework that improves lightweight mobile GUI agents with reusable app-specific graph knowledge. UI-KOBE first autonomously explores a mobile application and constructs an app knowledge graph, where nodes represent distinct UI states and edges represent executable transitions. At runtime, a lightweight GUI agent uses the graph as external guidance: given a user task and the current screenshot, it identifies the current graph node and selects among self-loop actions, neighboring transitions, task completion, or fallback free actions associated with that node. By supporting runtime decisions with app-specific graph guidance, UI-KOBE reduces the burden of end-to-end GUI planning and helps lightweight models perform mobile GUI tasks more effectively, offering a practical step toward efficient, interpretable, and privacy-conscious on-device GUI agents.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3a8b0ae797ba" data-article-url="https://arxiv.org/abs/2605.29556" data-article-title="Opt-Verifier: 両面検証による最適化モデリングのための LLM の力を解き放つ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29556" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29556" target="_blank" rel="noopener">Opt-Verifier: 両面検証による最適化モデリングのための LLM の力を解き放つ</a></h3>
      <p class="summary">数学的最適化モデルの構築はオペレーションズ リサーチ (OR) において重要ですが、人間のかなりの専門知識が必要です。最近の進歩では、大規模言語モデル (LLM) を利用してこのモデリング プロセスを自動化しています。しかし、既存の研究では、制約や変数の合理性、あるいは生成されたモデルに対する解の妥当性をチェックすることなく、生成された最適化モデルの正確性を検証するのに苦労することがよくあります。これにより、後続の検証と修正のステップが妨げられ、モデリングの精度が著​​しく損なわれます。この課題に対処するために、構造とソリューションの両方の観点からデュアルサイド検証 (Opt-Verifier) を備えた新しい LLM ベースのフレームワークを提案し、それによってモデリングの精度を向上させます。構造側の検証により、生成された最適化モデルのモデリング構造が元の問題の説明と一致し、問題の制約と要件が正確に把握されることが保証されます。一方、ソリューション側の検証では、ソリューションの妥当性を解釈して評価し、最適化モデルが論理的および数学的に適切であることを確認します。一般的なベンチマークでの実験により、私たちのアプローチにより精度が 20\% 以上向上することが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Opt-Verifier: Unleashing the Power of LLMs for Optimization Modeling via Dual-Side Verification</p>
        <p class="orig-summary">Building mathematical optimization models is critical in operations research (OR), while it requires substantial human expertise. Recent advancements have utilized large language models (LLMs) to automate this modeling process. However, existing works often struggle to verify the correctness of the generated optimization models, without checking the rationality of the constraints and variables or the validity of solutions to the generated models. This hampers the subsequent verification and correction steps, and thus it severely hurts the modeling accuracy. To address this challenge, we propose a novel LLM-based framework with Dual-side Verification (Opt-Verifier) from both structure and solution perspectives, thereby improving the modeling accuracy. The structure-side verification ensures that the modeling structure of the generated optimization models aligns with the original problem description, accurately capturing the problem&#x27;s constraints and requirements. Meanwhile, the solution-side verification interprets and evaluates the solutions&#x27; validity, confirming that the optimization models are logically and mathematically sound. Experiments on popular benchmarks demonstrate that our approach achieves over 20\% improvement in accuracy.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3b65bff9cdc4" data-article-url="https://arxiv.org/abs/2605.29560" data-article-title="Battery-Sim-Agent: LLM-Agent を活用した逆バッテリ パラメータ推定" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29560" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29560" target="_blank" rel="noopener">Battery-Sim-Agent: LLM-Agent を活用した逆バッテリ パラメータ推定</a></h3>
      <p class="summary">バッテリーの忠実度の高い「デジタル ツイン」のパラメーター化は、バッテリーの革新のペースを妨げる、重要かつ困難な逆問題です。一般的な手法では、これをブラック ボックス最適化 (BBO) タスクとして定式化し、サンプル効率が低く、基礎となる物理学を認識しないアルゴリズムを採用します。この研究では、逆問題を推論タスクとして再構成する新しいパラダイムを導入し、忠実度の高いバッテリー シミュレーターを備えた閉ループで大規模言語モデル (LLM) エージェントを展開する最初のフレームワークである Battery-Sim-Agent を紹介します。このエージェントは人間の科学者のワークフローを模倣します。シミュレーターからの豊富なマルチモーダルなフィードバックを解釈し、矛盾を説明するために物理的に根拠のある仮説を形成し、構造化されたパラメーターの更新を提案します。さまざまなバッテリーの化学的性質、動作条件、難易度レベルにまたがる体系的に構築されたベンチマーク スイートでは、当社のエージェントは、正確なパラメーターを特定する点で、ベイジアン最適化などの強力な BBO ベースラインを大幅に上回ります。さらに、複雑な長期劣化フィッティングタスクにおけるフレームワークの機能を実証し、現実世界のバッテリーデータセットに対するその実用的な適用可能性を検証します。私たちの結果は、科学的発見とバッテリーパラメータ推定のための推論ベースのオプティマイザーとしての LLM エージェントの可能性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Battery-Sim-Agent: Leveraging LLM-Agent for Inverse Battery Parameter Estimation</p>
        <p class="orig-summary">Parameterizing high-fidelity &quot;digital twins&quot; of batteries is a critical yet challenging inverse problem that hinders the pace of battery innovation. Prevailing methods formulate this as a black-box optimization (BBO) task, employing algorithms that are sample-inefficient and blind to the underlying physics. In this work, we introduce a new paradigm that reframes the inverse problem as a reasoning task, and present Battery-Sim-Agent, the first framework to deploy a Large Language Model (LLM) agent in a closed loop with a high-fidelity battery simulator. The agent mimics a human scientist&#x27;s workflow: it interprets rich, multi-modal feedback from the simulator, forms physically-grounded hypotheses to explain discrepancies, and proposes structured parameter updates. On a systematically constructed benchmark suite spanning diverse battery chemistries, operating conditions, and difficulty levels, our agent significantly outperforms strong BBO baselines like Bayesian optimization in identifying accurate parameters. We further demonstrate the framework&#x27;s capability in complex long-horizon degradation fitting tasks and validate its practical applicability on real-world battery datasets. Our results highlight the promise of LLM-agents as reasoning-based optimizers for scientific discovery and battery parameter estimation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6473b77133f3" data-article-url="https://arxiv.org/abs/2605.29561" data-article-title="ParaTool: ツール表現をコンテキストからパラメータに移行" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29561" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29561" target="_blank" rel="noopener">ParaTool: ツール表現をコンテキストからパラメータに移行</a></h3>
      <p class="summary">ツール呼び出しは、外部実行可能インターフェイスとの接地された対話を可能にすることで大規模言語モデル (LLM) を拡張し、それによって環境に連動した問題解決をサポートします。ただし、主流のインコンテキスト学習 (ICL) アプローチでは、通常、詳細なツールのドキュメントと使用例がコンテキストに直接組み込まれています。その結果、コンテキストの長さが長くなるにつれて、推論のオーバーヘッドが大きくなり、幻覚のリスクが高まります。逆に、チューニングベースの方法は一般的なツール呼び出し機能を向上させますが、多くの場合、以前に表示されたツールの特定の詳細を効果的に内部化することができないため、コンテキスト内のドキュメントへの依存関係が残ります。これらの制限に対処するために、各ツールを専用の読み込み可能なパラメーターのセットに投影するフレームワークである ParaTool を提案します。これらのパラメータ化されたツールの動的統合を装備することにより、LLM はコンテキスト内のドキュメントやサンプルに依存せずにツール呼び出しを実行できます。具体的には、私たちのアプローチは 3 つの段階で構成されます。(1) パラメトリック ツールの事前トレーニングでは、さまざまなツールの知識を独立したパラメーター モジュールにカプセル化します。 (2) ソフトツールの選択では、ゲートネットワークを使用して、関連するツールパラメータを動的に重み付けし、集計します。 (3) パラメトリック ツールの微調整では、トレーニングと推論のプロセスを調整するためにツール パラメーターを共同で更新します。 Stable ToolBench と BFCL の実験では、ParaTool が強力な ICL ベースのベースラインを大幅に上回り、計算の複雑さを軽減しながら優れたパフォーマンスを達成することが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ParaTool: Shifting Tool Representations from Context to Parameters</p>
        <p class="orig-summary">Tool calling extends large language models (LLMs) by enabling grounded interaction with external executable interfaces, thereby supporting environment-coupled problem solving. However, mainstream in-context learning (ICL) approaches typically incorporate detailed tool documentation and usage examples directly into the context. This results in substantial inference overhead and heightened risks of hallucination as the context length grows. Conversely, while tuning-based methods improve general tool-calling capabilities, they often fail to effectively internalize the specific details of previously seen tools, thereby retaining a dependency on in-context documentation. To address these limitations, we propose ParaTool, a framework that projects each tool into a dedicated, loadable set of parameters. By equipping a dynamic integration of these parameterized tools, the LLM can perform tool calling without relying on in-context documents or examples. Specifically, our approach consists of three stages: (1) parametric tool pre-training encapsulates the knowledge of different tools into independent parameter modules; (2) soft tool selection employs a gating network to dynamically weigh and aggregate relevant tool parameters; and (3) parametric tool fine-tuning jointly updates tool parameters to align the training and inference processes. Experiments on Stable ToolBench and BFCL demonstrate that ParaTool significantly outperforms strong ICL-based baselines, achieving superior performance while reducing computational complexity.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cc6fb2ae822b" data-article-url="https://arxiv.org/abs/2605.29563" data-article-title="シーンの自己探索による視点をもとに計画を立てる" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29563" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29563" target="_blank" rel="noopener">シーンの自己探索による視点をもとに計画を立てる</a></h3>
      <p class="summary">VLM は、各カメラの動きによってビューがどのように変化するかを予測し、事前にそのような動きを多数計画することができますか?私たちはこれを機能ビュー計画と呼びます。これには、(1) 単一のアクションがビューをどのように変換するかを理解すること、(2) ターゲット ビューを特定するために複数ターンの計画にわたってそのような変換を多数構成することが必要です。私たちは、実際の ScanNet シーン上の 3D ポイントクラウド環境である、私たちが提案する ViewSuite で両方の機能を調査します。 13 のフロンティア VLM にわたって、重大な計画のギャップが生じています。VLM は基本的なビューとアクションの知識を持っていますが、それを複数ターンの計画にわたって構成することができず、視点の距離が長くなるにつれてギャップが拡大します。このギャップを埋めるために、自己探索とビュー グラフの蒸留を交互に行う反復フレームワークを提案します。重要な洞察は、結果に関係なく、すべての探索軌跡が集合的にビュー グラフを形成し、シーン全体で視点がどのように接続されているかをコンパクトに捉えるということです。このグラフをさまざまな教師ありタスクに抽出すると、ポリシーの分布が再形成され、純粋な RL を遅らせる希薄な報酬が克服されます。これにより、インタラクティブ ビュー プランニングで Qwen2.5-VL-7B が 2.5% から 47.8% に向上し、GPT-5.4 Pro (18.5%) や Gemini 3.1 Pro (21.4%) を上回りました。自己探索は、3D 空間で積極的に推論して計画できる VLM への有望な道として浮上しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Planning with the Views via Scene Self-Exploration</p>
        <p class="orig-summary">Can VLMs predict how each camera move changes the view, and plan many such moves ahead? We call this capability view planning, requiring (1)understanding how a single action transforms the view, and (2)composing many such transformations across multi-turn plans to identify a target view. We probe both abilities in our proposed ViewSuite, a 3D point-cloud environment on real ScanNet scenes. Across 13 frontier VLMs, a critical planning gap emerges: they possess basic view-action knowledge but fail to compose it across multi-turn plans, with the gap widening as viewpoint distance grows. To close this gap, we propose an iterative framework that alternates self-exploration with view graph distillation. The key insight is that all exploration trajectories, regardless of their outcome, collectively form a view graph that compactly captures how viewpoints connect across a scene. Distilling this graph into diverse supervised tasks reshapes the policy distribution and overcomes the sparse rewards that stall pure RL. This improves Qwen2.5-VL-7B from 2.5% to 47.8% on interactive view planning, surpassing GPT-5.4 Pro (18.5%) and Gemini 3.1 Pro (21.4%). Self-exploration emerges as a promising path toward VLMs that can actively reason and plan in 3D space.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d8f8e846658c" data-article-url="https://arxiv.org/abs/2605.29568" data-article-title="DeepTool: プロセス教師あり強化学習によるツール統合推論におけるインターリーブ審議の拡張" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29568" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29568" target="_blank" rel="noopener">DeepTool: プロセス教師あり強化学習によるツール統合推論におけるインターリーブ審議の拡張</a></h3>
      <p class="summary">Tool-Integrated Reasoning (TIR) は、外部環境を活用して LLM 機能を拡張します。しかし、既存の方法には、戦略計画や自己修正に必要なツールの連続呼び出し中の熟慮が欠けています。 RL はこれを軽減しますが、ツール統合推論の従来のアプローチは、結果ベースの報酬がまばらであるために妨げられ、中間の推論ステップとツールの呼び出しを監視できません。これに対処するために、私たちは DeepTool を提案します。DeepTool は、各時点での思考、行動、観察の織り交ぜられたプロセス内で意図的な思考を拡張する新しいフレームワークです。 DeepTool では、まず、拡張思考をインターリーブ軌道に進化させ、敵対的な摂動を統合して堅牢性と自己修正を確保する合成パイプラインを導入します。次に、GRPO に基づくプロセス教師あり強化学習を考案します。これは、アクション中心のプロセス報酬を利用して、中間のインターリーブ思考を強化し、あらゆる場面で正確なツールの呼び出しを強制します。広範な実験により、DeepTool が優れたパフォーマンスを達成し、6 つのベンチマーク全体で Qwen2.5-7B を大幅に向上させることが実証されました (例: AIME24: 3.2% -&gt; 40.4%、HMMT25: 0.0% -&gt; 28.6%)。さらに、トークンの費用対効果分析により、インターリーブ思考の有用性が確認され、DeepTool のパフォーマンスとトークン効率の最適なバランスが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DeepTool: Scaling Interleaved Deliberation in Tool-Integrated Reasoning via Process-Supervised Reinforcement Learning</p>
        <p class="orig-summary">Tool-Integrated Reasoning (TIR) extends LLM capabilities by leveraging external environments. However, existing methods lack the deliberation during sequential tool invocation required for strategic planning and self-correction. While RL mitigates this, conventional approaches for Tool-Integrated Reasoning are hindered by sparse outcome-based rewards, failing to supervise intermediate reasoning steps and tool invocations. To address this, we propose DeepTool, a novel framework that scales deliberate thinking within the interleaved process of thinking, action, and observation at each turn. In DeepTool, we first introduce a synthesis pipeline that evolves extended thinking into interleaved trajectories, integrating adversarial perturbations to ensure robustness and self-correction. Secondly, we devise Process-Supervised Reinforcement Learning based on GRPO, which utilizes an Action-Centric Process Reward to reinforce intermediate interleaved thinking and enforce precise tool invocation at every turn. Extensive experiments demonstrate that DeepTool achieves superior performance, boosting Qwen2.5-7B significantly across six benchmarks (e.g., AIME24: 3.2% -&gt; 40.4% and HMMT25: 0.0% -&gt; 28.6%). Furthermore, the token cost-effectiveness analysis confirms the utility of interleaved thinking, demonstrating DeepTool&#x27;s optimal balance between performance and token efficiency.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c1e26017ef6" data-article-url="https://arxiv.org/abs/2605.29578" data-article-title="季節空間事前分布と LLM ベースのアクティビティ チェーン生成を使用した GPS 強化型観光モビリティ モデリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29578" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29578" target="_blank" rel="noopener">季節空間事前分布と LLM ベースのアクティビティ チェーン生成を使用した GPS 強化型観光モビリティ モデリング</a></h3>
      <p class="summary">観光客の移動は、都市交通計画にとって明らかな課題となっています。居住者の通勤とは異なり、観光客の旅行は主に非日常的で、魅力を重視しており、旅行の目的、旅行の季節、旅行メンバーの構成に非常に敏感です。既存のアプローチは、個別のスケジュールを生成せずに集合的な観光客の空間パターンを測定するか、旅行期間の条件付け、月ごとに異なるアトラクションの需要、家庭の共同旅行ルールなどの観光客固有の構造を持たずにモビリティを統合するかのいずれかです。これらの課題に対処するために、GPS と調査データから導出された月条件付き空間事前分布、観光客人口統計からの旅行範囲予測、距離的に実行可能な病棟順序の割り当て、および世帯と空間の制約の下での LLM ベースのアクティビティ チェーン生成を組み合わせた 4 段階のシミュレーション フレームワークを提案します。 GPS データは、月条件付けされた空間事前情報としてプライバシーを保護する集約形式でのみ使用され、個々の痕跡は保持または公開されません。東京の観光に関する実験では、GPS ベースの観光客コホート抽出により、調査参照と一致する空間訪問シグネチャが復元され、私たちのフレームワークは、人口統計的に調整された合成スケジュールを生成し、その区レベルの訪問シェアが調査分布と滞在ポイントから得られる月次訪問パターンの両方と密接に一致することが実証されました。この結果は、観光客の移動モデリングに対する地理的根拠に基づいた、人口統計を意識したアプローチとしてのフレームワークの有効性を示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GPS-Enhanced Tourist Mobility Modeling with Seasonal Spatial Priors and LLM-Based Activity Chain Generation</p>
        <p class="orig-summary">Tourist mobility poses a distinct challenge for urban transportation planning. Unlike resident commuting, tourist travel is largely non-routine, attraction driven, and highly sensitive to trip purpose, travel season, and trip member composition. Existing approaches either measure aggregate tourist spatial patterns without generating individual schedules, or synthesize mobility without tourist specific structure such as trip duration conditioning, month varying attraction demand, and household co-travel rules. To address these challenges, we propose a four stage simulation framework combining month conditioned spatial priors derived from GPS and survey data, trip extent prediction from tourist demographics, distance feasible ward sequence assignment, and LLM-based activity chain generation under household and spatial constraints. GPS data are used only in privacy preserving aggregated form as month conditioned spatial priors, with no individual traces retained or exposed. Experiments on tourism in Tokyo demonstrate that the GPS based tourist cohort extraction recovers spatial visitation signatures consistent with survey references, and our framework produces demographically aligned synthetic schedules whose ward-level visitation shares align closely with both survey distributions and staypoint derived monthly visitation patterns. The results demonstrate the framework&#x27;s effectiveness as a geographically grounded, demographically aware approach to tourist mobility modeling.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2e7c57576206" data-article-url="https://arxiv.org/abs/2605.29586" data-article-title="FinVerBench: 大規模言語モデル財務諸表検証におけるベンチマークの妥当性とキャリブレーション" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29586" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29586" target="_blank" rel="noopener">FinVerBench: 大規模言語モデル財務諸表検証におけるベンチマークの妥当性とキャリブレーション</a></h3>
      <p class="summary">財務諸表検証のためのベンチマークおよび妥当性調査である FinVerBench を紹介します。これは、モデルに示された情報から一連の企業財務諸表が数値的に一貫しているかどうかを判断するためです。 FinVerBench は、S&amp;P 500 企業 43 社の SEC 10-K XBRL 申告に基づいて構築されており、算術演算、ステートメント間のリンケージ、前年比、および規模の変動をカバーする 4 つのカテゴリの誤差分類法を定義しています。私たちは 15 の現代的な LLM 評価を試み、14 の完全な実行を報告します。 Gemini 2.5 Pro の実行は、40/108 ゲートウェイ呼び出しが失敗したため、主な比較から除外されています。すべてのバイナリ メトリクスでは、摂動されたラインアイテムがレンダリングされない過小判定のポジティブ インスタンスが除外され、105 個の観察可能な診断サブセット (クリーン 43 個、エラー挿入 62 個) が残ります。丸められていない診断サブセットに対する元のガイド付きチェックリスト プロンプトでは、14 回の完全な LLM 実行のうち 9 回でクリーン ステートメントに対して 95 ～ 100% の誤検知が発生しましたが、1 回の実行では観察された誤検知が 0% に達しました。ベンチマーク レンダリングの選択は、測定された再現率に重大な影響を与えます。同じ観察可能なサブセットの現実的な丸められたバリアントでは、調整されたモデルの再現率は 79.0% で、観察された FPR は 0% でしたが、丸められていない診断バリアントでは再現率が 100.0% でした。これらの結果は、最終的なリーダーボードではなく構成妥当性の結論を裏付けています。財務諸表の検証は、単なる算術検出ではなく、不完全な観察可能性、即座に誘発される仮定、および現実的な数値レンダリングの下で​​調整された判断です。 FinVerBench とすべてのコードは公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">FinVerBench: Benchmark Validity and Calibration in Large Language Model Financial Statement Verification</p>
        <p class="orig-summary">We introduce FinVerBench, a benchmark and validity study for financial statement verification: determining whether a set of corporate financial statements is numerically consistent from the information shown to the model. FinVerBench is built from SEC 10-K XBRL filings for 43 S&amp;P 500 companies and defines a four-category error taxonomy covering arithmetic, cross-statement linkage, year-over-year, and magnitude perturbations. We attempt fifteen contemporary LLM evaluations and report fourteen complete runs; a Gemini 2.5 Pro run is excluded from the main comparison because 40/108 gateway calls failed. All binary metrics exclude underdetermined positive instances whose perturbed line item is not rendered, leaving a 105-instance observable diagnostic subset (43 clean, 62 error-injected). Under the original guided-checklist prompt on the unrounded diagnostic subset, nine of fourteen complete LLM runs produce 95-100% false positives on clean statements, while one run achieves 0% observed false positives. Benchmark rendering choices materially affect measured recall: on a realistic rounded variant of the same observable subset, the calibrated model&#x27;s recall is 79.0% with 0% observed FPR, compared with 100.0% recall on the unrounded diagnostic variant. These results support a construct-validity conclusion rather than a final leaderboard: financial statement verification is not merely arithmetic detection, but calibrated judgment under incomplete observability, prompt-induced assumptions, and realistic numerical rendering. FinVerBench and all code are publicly available.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a14dc96d50de" data-article-url="https://arxiv.org/abs/2605.29591" data-article-title="Mind-Omni: 離散拡散による脳・視覚・言語モデリングのための統合マルチタスク フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29591" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29591" target="_blank" rel="noopener">Mind-Omni: 離散拡散による脳・視覚・言語モデリングのための統合マルチタスク フレームワーク</a></h3>
      <p class="summary">外部刺激と内部神経表現の間の相互作用のモデル化は、ブレイン コンピューター インターフェイス (BCI) にとって極めて重要な研究分野です。これまでの研究の主な制限は、汎用性が制限され、タスク間の相乗効果が無視されている、特化された単一タスク モデルの一般的なパラダイムです。これに対処するために、私たちは、離散拡散パラダイムを通じて 7 つの異なるエンコードおよびデコード タスクを統合する初の多用途フレームワークである Mind-Omni を提案します。その核となるのは、異種の連続的な脳信号を標準化された個別のトークンに変換する新しい Brain Tokenizer です。これにより、共有セマンティック空間内の任意の 2 つ以上のモダリティ間の相互理解と生成のための直接的なトークンレベルの対話が可能になります。高度な推論機能を解放するために、私たちは特化した Brain Question Answering (BQA) 命令チューニング データセットをさらに厳選しました。私たちのモデルは、マルチタスクの統合フレームワーク間で新しい最先端を確立するだけでなく、マルチタスクの相乗効果の強力な証拠も提供します。大規模な特殊モデルと競合し、時にはそれを上回るパフォーマンスを実証することで、私たちの研究はニューラル モデリングの強力な新しいパラダイムを提供し、ニューラル活動の基礎モデルへの道を切り開きます。コードは https://github.com/ReedOnePeck/Mind-Omni で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Mind-Omni: A Unified Multi-Task Framework for Brain-Vision-Language Modeling via Discrete Diffusion</p>
        <p class="orig-summary">Modeling the interplay between external stimuli and internal neural representations is a pivotal research area for Brain-Computer Interfaces (BCIs). A major limitation of prior work is the prevailing paradigm of specialized, single-task models, which curtails versatility and neglects inter-task synergies. To address this, we propose Mind-Omni, the first versatile framework that unifies seven distinct encoding and decoding tasks through a discrete diffusion paradigm. At its core is a novel Brain Tokenizer that transforms heterogeneous, continuous brain signals into standardized, discrete tokens. This enables direct, token-level interactions for mutual understanding and generation between any two or more modalities within a shared semantic space. To unlock advanced reasoning capabilities, we further curate a specialized Brain Question Answering (BQA) instruction-tuning dataset. Our model not only establishes a new state-of-the-art among multi-task unified frameworks but also provides strong evidence for multi-task synergy. By demonstrating performance competitive with, and at times superior to, larger specialized models, our work offers a powerful new paradigm for neural modeling and paves the way for foundation models of neural activity. The code is publicly available at https://github.com/ReedOnePeck/Mind-Omni.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a51a6ef537a2" data-article-url="https://arxiv.org/abs/2605.29606" data-article-title="HiKEY: オープンドメイン文書の質問応答のための階層型マルチモーダル検索" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29606" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29606" target="_blank" rel="noopener">HiKEY: オープンドメイン文書の質問応答のための階層型マルチモーダル検索</a></h3>
      <p class="summary">大規模産業コーパスにおける文書ベースのオープンドメイン質問応答 (ODQA) の検索拡張生成 (RAG) は、2 つの重大なボトルネックに直面しています。それは、正しい文書を見つける際のルーティングの失敗と、分散した情報を統合する際の証拠の断片化です。フラット テキスト チャンクまたはページ レベルの画像に依存する既存のアプローチでは、本質的に、(i) 数千の候補の中からターゲット ドキュメントを正確に特定すること、(ii) 限られたトークンの予算内で表や図などのマルチモーダルな証拠を有機的に結び付けることが困難です。これらの課題に対処するために、文書階層を第一級の検索信号にまで高める階層ツリーベースのマルチモーダル検索フレームワークである HiKEY を提案します。 HiKEY は、単純なチャンク化の代わりに、ドキュメント階層解析 (DHP) を介して論理的な異種グラフを再構築し、親子関係を明示的にエンコードします。階層的な粗いものから細かいものへの戦略を採用するこのフレームワークは、(1) グローバル ルーティングを実行して階層インデックスを使用して検索空間を迅速にプルーニングし、(2) 最も識別的な証拠を捕捉するマルチモーダル融合戦略を採用することにより、きめの細かい検索を実行してセクションをランク付けします。最後に、HiKEY は、ハイブリッド構造セマンティック パッキング戦略を通じて、トークン効率の高い証拠サブグラフを組み立てます。 ODQA ベンチマークの実験では、HiKEY がページベースおよびチャンクベースのベースラインを大幅に上回り、検索再現率が最大 12.9%、エンドツーエンドの QA パフォーマンスが最大 6.8% 向上することが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">HiKEY: Hierarchical Multimodal Retrieval for Open-Domain Document Question Answering</p>
        <p class="orig-summary">Retrieval-augmented generation (RAG) for document-based Open-domain Question Answering (ODQA) on large-scale industrial corpora faces two critical bottlenecks: routing failure in locating the correct document and evidence fragmentation in integrating scattered information. Existing approaches relying on flat text chunks or page-level images inherently struggle to (i) precisely pinpoint the target document among thousands of candidates and (ii) organically connect multimodal evidence, such as tables and figures, within a limited token budget. To address these challenges, we propose HiKEY, a hierarchical tree-based multimodal retrieval framework that elevates document hierarchy to a first-class retrieval signal. Instead of simple chunking, HiKEY reconstructs a logical heterogeneous graph via Document Hierarchical Parsing (DHP), explicitly encoding parent-child relationships. Adopting a hierarchical coarse-to-fine strategy, the framework (1) performs global routing to rapidly prune the search space using hierarchical indexing, and (2) conducts fine-grained retrieval to rank sections by employing a multimodal fusion strategy that captures the most discriminative evidence. Finally, HiKEY assembles a token-efficient evidence subgraph via a hybrid structural-semantic packing strategy. Experiments on ODQA benchmarks demonstrate that HiKEY significantly outperforms page- and chunk-based baselines, improving retrieval recall by up to 12.9% and end-to-end QA performance by up to 6.8%.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="06e7d884a422" data-article-url="https://arxiv.org/abs/2605.29625" data-article-title="大規模な言語モデルに基づくマルチエージェント フレームワークによる共同ストーリーテリングの向上" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29625" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29625" target="_blank" rel="noopener">大規模な言語モデルに基づくマルチエージェント フレームワークによる共同ストーリーテリングの向上</a></h3>
      <p class="summary">共創、つまり AI エージェントが人間と対話して出力 (アートなど) を生成するというテーマは、最近大きな注目を集めています。ただし、ほとんどの研究は、デジタル環境における成人と人間の相互作用に焦点を当てています。この論文では、子供たちと大規模言語モデル (LLM) が物理的なボード ゲームを通じて相互作用して書かれた物語を作成する、新しいばかばかしい共創シナリオを検討します。私たちの目標は、若いプレイヤーに適した高品質の物語を生成できるマルチエージェント フレームワークを開発することです。私たちのアプローチの中核は、ある LLM がストーリーを生成し、別の LLM がストーリーを評価して改良のためのフィードバックを提供する、反復的なライターとエディターのプロセスです。複数の LLM を含むシミュレーション研究を通じて、この反復的な相互作用により、連続するループ全体で生成されたストーリーの知覚品質が一貫して向上することがわかりました。この結果は、インタラクティブなストーリーテリング システムで高品質の出力を達成するには、少数の改良ステップで十分である可能性があることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Improving Collaborative Storytelling with a Multi-Agent Framework Based on Large Language Models</p>
        <p class="orig-summary">The topic of Co-creation, i.e., AI agents interacting with humans to generate outputs (e.g., art), has gained significant attention recently. However, most studies focus on adult-human interactions in a digital setting. This paper explores a novel ludic co-creation scenario involving children and Large Language Models (LLMs) interacting through a physical board game to create written stories. Our goal is to develop a multi-agent framework capable of producing high-quality narratives suitable for young players. At the core of our approach is an iterative Writer-Editor process in which one LLM generates stories while another evaluates them and provides feedback for refinement. Through a simulation study involving multiple LLMs, we show that this iterative interaction consistently improves the perceived quality of generated stories across successive loops. The results indicate that a small number of refinement steps may be sufficient to achieve high-quality outputs in interactive storytelling systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="957f42f6c279" data-article-url="https://arxiv.org/abs/2605.29629" data-article-title="攻撃の成功率を超えて: LLM の安全性の失敗に対する時間ロジットの観測可能性" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29629" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29629" target="_blank" rel="noopener">攻撃の成功率を超えて: LLM の安全性の失敗に対する時間ロジットの観測可能性</a></h3>
      <p class="summary">攻撃成功率 (ASR) は、生成の最後に各脱獄を単一の「はい/いいえ」ラベルで評価し、失敗が発生したかどうかを示しますが、失敗がどのように展開したかは示しません。同様に有害な出力を生成する 2 つの攻撃は、まったく異なる経路をたどった可能性があり、ASR ではそれらを区別できません。これらの隠されたパスをロジットだけから観察できるようにします。 Temporal Logit Observability (TLO) は、デコード中にコンプライアンス拒否マージンを監視し、各モデル攻撃条件をキャリブレーションされた 2D 平面上に配置する、トレーニング不要の診断です。設計上、このプレーンは、まったく異なる理由で成功する攻撃の中で、ASR が最も有益でない場合に最も有益です。 4 つの調整された LLM と 3 つのジェイルブレイク パラダイムにわたって、ほぼ同一の ASR による攻撃は、平面上の明らかに異なるポイントに到達します。同じモデルでも、異なる時間的パターンによって失敗する可能性があります。ジオメトリは、ほとんどの条件で隠れ状態からの拒否方向プローブと一致します。1 つのモデルは、固定語彙アプローチの限界を示しています。 TLO から派生したシンプルな早期停止ルールにより、単純な無害なクエリで誤った警告が発生することなく、ジェイルブレイクの成功率が半分以上削減されます。安全性評価では、障害が発生したかどうかだけでなく、障害がいつどのように展開したかを報告する必要があります。 TLO により、最初の 2 つはロジットのみから観察可能になります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond Attack Success Rate: Temporal Logit Observability for LLM Safety Failures</p>
        <p class="orig-summary">Attack Success Rate (ASR) evaluates each jailbreak with a single yes/no label at the end of generation, telling us whether a failure happened but not how it unfolded. Two attacks that produce equally harmful outputs may have followed completely different paths, and ASR cannot tell them apart. We make those hidden paths observable from logits alone. Temporal Logit Observability (TLO) is a training-free diagnostic that watches a compliance-refusal margin during decoding and places each model-attack condition on a calibrated 2D plane. By design, this plane is most informative exactly where ASR is least informative: among attacks that succeed for genuinely different reasons. Across four aligned LLMs and three jailbreak paradigms, attacks with nearly identical ASR land at clearly different points on the plane: the same model can fail through different temporal patterns. The geometry matches refusal-direction probes from hidden states on most conditions, with one model showing the limit of our fixed-lexicon approach. A simple early-stop rule derived from TLO cuts successful jailbreaks by more than half, without false alarms on plain benign queries. Safety evaluation should report when and how a failure unfolds, not only whether it occurred. TLO makes the first two observable from logits alone.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0346709079e6" data-article-url="https://arxiv.org/abs/2605.29640" data-article-title="バイキングメム: ステートフル LLM ベースのアプリケーション用のメモリ ベース管理システム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29640" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29640" target="_blank" rel="noopener">バイキングメム: ステートフル LLM ベースのアプリケーション用のメモリ ベース管理システム</a></h3>
      <p class="summary">大規模言語モデルは対話型アプリケーションに革命をもたらしました。ただし、コンテキスト ウィンドウが有限であるため、ステートフルで長期的な対話を維持する上で重要なデータ管理の課題が生じます。既存の記憶アプローチは、多くの場合、不完全な記憶につながる単純な抽出方法に依存しているか、チャットボットなど、単一のユースケースに合わせて調整された厳格な単一目的の記憶抽出プロンプトを使用しています。その結果、汎用性に欠け、さまざまな下流タスクにわたってパフォーマンスが低下します。このギャップを埋めるために、長期的なインタラクションの永続的な状態を管理するための新しいデータ管理パラダイムであるメモリ ベースを導入します。これは 3 つの核となる原則によって特徴付けられます。生の情報ストリームから価値の高い記憶を選択的に抽出することです。固有のステートフルネスと進化。メモリ内容が徐々に要約、修正され、時間的に重み付けされて最近のインタラクションを優先します。そして、教育、推奨、エージェントの記憶など、さまざまなアプリケーションにわたる堅牢な転送性を実現するために設計された一般化可能な抽象化パラダイム。この基盤に基づいて、VikingDB ベクトル エンジン上に実装されたエンドツーエンドのメモリ ベース管理システム、VikingMem を紹介します。バイキングメムは、相互接続されたイベントとエンティティの抽象化を通じてこのパラダイムを具体化します。エンティティはイベントによって動的に更新され、ステートフルな進化を実現しながら、複雑な情報ストリームを選択的に処理するイベント中心のメモリ抽出を特徴としています。トピックごとのタイムラインと時間加重リコールによる時間圧縮を使用して、システムは高レベルの要約記憶を段階的に生成し、最近の項目を優先し、古い項目を圧縮してフェードします。長期メモリベンチマークの広範な評価により、VikingMem は対話型アプリケーションに不可欠な低レイテンシを維持しながら、メモリ取得効率においてベースラインを最大 30% 上回っていることが実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">VikingMem: A Memory Base Management System for Stateful LLM-based Applications</p>
        <p class="orig-summary">Large Language Models have revolutionized interactive applications; however, their finite context windows pose a critical data management challenge for maintaining stateful, long-term interactions. Existing memory approaches often rely on simplistic extraction methods that lead to incomplete memories or use rigid, single-purpose memory extraction prompts tailored to a single use case, such as chatbots. Consequently, they lack generalizability and perform poorly across diverse downstream tasks. To bridge this gap, we introduce the Memory Base, a novel data management paradigm for managing the persistent state of long-term interactions. It is characterized by three core principles: selective extraction of high-value memories from raw information streams; inherent statefulness and evolution, where memory content is progressively summarized, corrected, and temporally weighted to prioritize recent interactions; and a generalizable abstraction paradigm designed for robust transferability across diverse applications, including education, recommendation, and agent memory. Building on this foundation, we present VikingMem, an end-to-end Memory Base Management System implemented on the VikingDB vector engine. VikingMem materializes this paradigm through interconnected event and entity abstractions. It features event-centric memory extraction to selectively handle complex information streams, while entities are dynamically updated by events to achieve stateful evolution. Using temporal compression via a topic-wise timeline and time-weighted recall, the system progressively produces high-level summary memories, prioritizes recent items, and compresses and fades older ones. Extensive evaluations on long-term memory benchmarks demonstrate that VikingMem outperformes baselines by up to 30% in memory retrieval effectiveness while maintaining the low latency essential for interactive applications.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="383e7e54e5ea" data-article-url="https://arxiv.org/abs/2605.29649" data-article-title="LLM が進化したシンボリック AI プランニングのためのドメインに依存しないヒューリスティック" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29649" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29649" target="_blank" rel="noopener">LLM が進化したシンボリック AI プランニングのためのドメインに依存しないヒューリスティック</a></h3>
      <p class="summary">ヒューリスティック検索は、シンボリック AI 計画における主要なパラダイムであり、最も強力なヒューリスティックは、計画研究者による数十年の研究の結果です。最近の研究では、大規模言語モデル (LLM) が個々の計画ドメインのヒューリスティックを設計できることが示されていますが、これまでのところ、LLM によって生成されたヒューリスティックが任意の計画タスクに機能することはありません。この論文では、進化的探索を使用して、手作業でエンジニアリングされた最先端技術を超える、LLM によって生成された初めてのドメインに依存しないヒューリスティックを生成します。 C++ で書かれた親ヒューリスティックを LLM に変更させ、情報とスピードを重視した MAP-Elites アーカイブに候補を保存し、カバレッジと解決時間をブレンドすることで適合性スコアを計算します。進化したプログラムを状況に合わせて配置するために、情報と速度のトレードオフに関して手作業で設計された広範なヒューリスティックのベンチマークをさらに行いました。これは、私たちの知る限りではこれまでに行われたことがありません。目に見えないテスト領域では、当社の最も進化したヒューリスティックは、最強のベースラインよりも多くのタスクを解決し、当社の完全なヒューリスティック スイートは、上記のトレードオフのパレート フロンティアにまたがります。また、結果として得られるプログラム自体が FF バリアントである場合でも、些細なブラインド ヒューリスティックからのシード進化は、強力な FF ヒューリスティックからのシードよりも優れたパフォーマンスを示し、LLM 推論の努力は、候補の品質よりも候補がコンパイルする頻度にはるかに影響を与えることもわかりました。進化したプログラムはプレーンな C++ であるため、既存のプランナーにドロップイン置換として組み込まれ、基礎となる検索の健全性と完全性の保証を継承します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LLM-Evolved Domain-Independent Heuristics for Symbolic AI Planning</p>
        <p class="orig-summary">Heuristic search is the dominant paradigm in symbolic AI planning, and the strongest heuristics are the result of decades of work by planning researchers. Recent work has shown that large language models (LLMs) can design heuristics for individual planning domains, but no LLM-generated heuristic has so far worked on arbitrary planning tasks. In this paper, we use evolutionary search to produce the first LLM-generated domain-independent heuristics that exceed the hand-engineered state of the art. We let an LLM mutate parent heuristics written in C++, store candidates in a MAP-Elites archive keyed on informedness and speed and calculate fitness scores by blending coverage with solving time. To place the evolved programs in context, we additionally benchmark a broad set of hand-engineered heuristics on their informedness-speed tradeoff, which to our knowledge has not been done before. On unseen testing domains, our best evolved heuristic solves more tasks than even the strongest baseline, with our full heuristic suite spanning the Pareto frontier of said tradeoff. We also find that seeding evolution from the trivial blind heuristic outperforms seeding from the strong FF heuristic, even when the resulting program is itself an FF variant, and that LLM reasoning effort affects how often candidates compile much more than the quality of those that do. Because the evolved programs are plain C++, they slot into existing planners as drop-in replacements and inherit the soundness and completeness guarantees of the underlying search.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1c69f0e11c6b" data-article-url="https://arxiv.org/abs/2605.29652" data-article-title="素早く考え、スマートに話す: 構造化された健康テキスト生成のための決定論的計算とニューラル計算の分割" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29652" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29652" target="_blank" rel="noopener">素早く考え、スマートに話す: 構造化された健康テキスト生成のための決定論的計算とニューラル計算の分割</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、ウェアラブル時系列、バイオマーカー、バイタル、ケア管理ログなどの構造化された記録から健康テキストを生成するために使用されることが増えています。定期的な健康出力の場合、流暢さだけでは十分ではありません。システムはソース データに忠実であり、入手可能な証拠で説明的主張を根拠付け、規定されたポリシーに従い、機械可読出力を出力し、繰り返し使用できるほど安価に実行する必要があります。私たちは、構造化された健康生成におけるどの責任を、実行時の LLM プロンプトではなく決定論的な計算にするべきかを尋ねます。 Think Fast, Talk Smart という睡眠と健康に関する洞察パイプラインを導入します。このパイプラインでは、1 回の制限された LLM ライター呼び出しの前に、決定論的なコードが繰り返し分析を実行します。 280 のユーザー泊と 6 つのモデルにわたって、構造化されたゼロショットおよび少数ショットのワンコール ベースラインよりも低い数値エラー、より低い指示コンプライアンス エラー、およびより低いエンドツーエンド コストを実現します。レイヤの置換により、コントラクト固有の障害が明らかになります。LLM の比較により数値エラーが発生し、LLM のランキングによりポリシーの選択が低下し、LLM の帰属によりサポートされていない因果関係のある言語が増加し、上流の事実が決定的になった後でも、LLM で生成されたライター インターフェイスによりエラーが再導入されます。この結果は、より広範な設計ルールをサポートします。つまり、コードに繰り返しの分析を持たせ、LLM に制限されたインターフェイス内で検証済みの事実を表現させます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Think Fast, Talk Smart: Partitioning Deterministic and Neural Computation for Structured Health Text Generation</p>
        <p class="orig-summary">Large language models (LLMs) are increasingly being used to generate health text from structured records such as wearable time series, biomarkers, vitals, and care-management logs. For recurring health outputs, fluency is not enough: systems must remain faithful to source data, ground explanatory claims in available evidence, follow stated policies, emit machine-readable outputs, and run cheaply enough for repeated use. We ask which responsibilities in structured health generation should be deterministic computation rather than runtime LLM prompting. We introduce Think Fast, Talk Smart, a sleep-health insight pipeline in which deterministic code performs recurring analysis before one bounded LLM writer call. Across 280 user-nights and six models, achieves lower numeric error, lower instruction-compliance error, and lower end-to-end cost than structured zero-shot and few-shot one-call baselines. Layer replacement reveals contract-specific failures: LLM comparison raises numeric error, LLM ranking degrades policy selection, LLM attribution increases unsupported causal language, and an LLM-generated writer interface reintroduces errors even after upstream facts are deterministic. The results support a broader design rule: let code own recurring analysis, and let LLMs express verified facts within bounded interfaces.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="25683607bba0" data-article-url="https://arxiv.org/abs/2605.29653" data-article-title="PTCG ベンチ: LLM エージェントはポケモン トレーディング カード ゲームをマスターできますか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29653" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29653" target="_blank" rel="noopener">PTCG ベンチ: LLM エージェントはポケモン トレーディング カード ゲームをマスターできますか?</a></h3>
      <p class="summary">戦略的に複雑なボード ゲームを考えると、人間のプレイヤーは数ラウンドをプレイした後、すぐに戦略を考案することを学びます。自律型エージェントは、現実的な対話型環境でも同様の機能を必要としますが、既存のエージェントのベンチマークでは、そのような戦略的で進化する意思決定シナリオを完全に把握できないことがよくあります。我々は、ポケモン トレーディング カード ゲーム (PTCG) に基づいて構築されたベンチマークである PTCG ベンチを紹介します。このベンチマークは、(1) 単一の複雑な環境内での意思決定パフォーマンス、(2) 蓄積された経験を通じて自己進化する能力という 2 つの相補的なレベルで LLM エージェントを評価します。さらに、モデルの能力と混同することなくエージェントのパフォーマンスをより適切に解釈するためのモジュラー ハーネス アブレーションも含まれています。私たちの実験では、LLM エージェントは重要なゲームプレイ パフォーマンスを達成できるものの、持続的かつ安定した自己進化は依然として困難であり、パフォーマンスはハーネスの設計に影響されることが示されました。 PTCG-Bench によって、現実的なインタラクティブ環境におけるハーネス認識型の自己進化エージェントに関する将来の研究が促進されることを期待しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PTCG-Bench: Can LLM Agents Master Pok\&#x27;emon Trading Card Game?</p>
        <p class="orig-summary">Given a strategically complex board game, human players can quickly learn to devise strategies after playing a few rounds. Autonomous agents require similar capabilities in realistic interactive environments, yet existing agent benchmarks often fail to fully capture such strategic and evolving decision-making scenarios. We present PTCG-Bench, a benchmark built on the Pok&#x27;{e}mon Trading Card Game (PTCG) that evaluates LLM agents at two complementary levels: (1) their decision-making performance within a single complex environment, and (2) their ability to self-evolving through accumulated experience. We further include a modular harness ablation to better interpret agent performance without conflating it with model capability. Our experiments show that, although LLM agents can achieve non-trivial gameplay performance, sustained and stable self-evolution remains challenging, and performance is sensitive to harness design. We hope that PTCG-Bench will facilitate future research on harness-aware and self-evolving agents in realistic interactive environments.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9766da43f584" data-article-url="https://arxiv.org/abs/2605.29656" data-article-title="TRACE: LLM CoT 評価の構成要素によるトゥールミンベースの推論評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29656" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29656" target="_blank" rel="noopener">TRACE: LLM CoT 評価の構成要素によるトゥールミンベースの推論評価</a></h3>
      <p class="summary">大規模言語モデル (LLM) からのオープンエンドの出力を評価することは、グランド トゥルースがないため依然として困難です。既存の指標は、最終的な答えの精度や表面レベルの統計に依存しており、推論プロセス自体は検討されていません。思考連鎖 (CoT) 推論プロセスを分析する指標である TRACE (Toulmin-based Reasoning Assessment through Constructive Elements) を紹介します。 TRACE は、結果を判断するのではなく、トゥールミンの議論理論とフラベルのメタ認知フレームワークを統合して推論の構造を評価することにより、議論がどのように構築されるかを検査します。 7 つの推論モデルにわたる 26.3K の QA サンプルの実験では、ベンチマーク精度 (r=0.74) との強い相関関係が示されています。さらに、TRACE は強化学習の報酬信号として効果的であり、精度のみのベースラインを上回ります。これらの結果を総合すると、論理的に健全な推論がより質の高い答えにつながることを示しています。したがって、TRACE は、オープンエンド出力を評価するための補足的なメトリックとして機能します。コードは https://github.com/hyyangkisti/trace で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TRACE: Toulmin-based Reasoning Assessment through Constructive Elements for LLM CoT Evaluation</p>
        <p class="orig-summary">Evaluating open-ended outputs from large language models (LLMs) remains challenging due to the absence of ground truth. Existing metrics rely on final-answer accuracy or surface-level statistics, leaving the reasoning process itself unexamined. We introduce TRACE (Toulmin-based Reasoning Assessment through Constructive Elements), a metric that analyzes Chain-of-Thought (CoT) reasoning processes. Rather than judging outcomes, TRACE inspects how arguments are constructed by integrating Toulmin&#x27;s argumentation theory with Flavell&#x27;s metacognitive framework to assess reasoning structure. Experiments on 26.3K QA samples across 7 reasoning models show strong correlation with benchmark accuracy (r=0.74). Furthermore, TRACE is effective as a reinforcement learning reward signal, outperforming accuracy-only baselines. Together, these results indicate that logically sound reasoning leads to higher-quality answers. TRACE thus serves as a complementary metric for evaluating open-ended outputs. Code is available at https://github.com/hyyangkisti/trace.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b470f6ee89fb" data-article-url="https://arxiv.org/abs/2605.29668" data-article-title="GRASP: 自己改善型 LLM エージェントのためのゲート回帰認識スキル提案者" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29668" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29668" target="_blank" rel="noopener">GRASP: 自己改善型 LLM エージェントのためのゲート回帰認識スキル提案者</a></h3>
      <p class="summary">構造化された環境で動作する LLM エージェントは、会話的な方法ではなく操作的な方法で失敗し、信頼性は環境の手順に関する知識に依存します。以前の自己改善方法では、新しい項目が以前の正しい動作を保持しているかどうかを確認せずに自然言語ガイダンスを蓄積するため、ある軌道を修正したメモが静かに別の軌道に後退する可能性があります。 GRASP (Gated Regression-Aware Skill Proposer) を導入します。これは、エージェントの改善を制限されたスキル ライブラリへの一連の編集として扱い、ハード回帰バジェットの下でバランスのとれたホールドアウト プローブで純改善が得られた場合にのみ各候補者を許可します。 2 つの FHIR ベースの臨床ベンチマークで 5 つの基本モデル (gpt-oss-120b、DeepSeek V4 Flash、Gemini 3.1 Flash Lite、GPT-4.1、GPT-5.4) にわたって GRASP を評価します。 MedAgentBench では、GRASP は gpt-oss-120b を 40.6% から 88.8% に引き上げ、5 つの自己改善ベースラインのうち最も強力なものを 21.0 ポイント上回り、他のすべてのベース モデルを 17.2 から 40.3 ポイント改善しました。アブレーションでは、スキル ライティング自体によるものではなく、比較提案の生成、承認ゲート、およびハード リグレッション バジェットによって利益が得られると考えられます。検証がなければ、スキルを使用しないのと同じです。このメカニズムは臨床領域を超えて一般化され、4 つの非臨床環境のうち 3 つで薬剤を改善し、アクション スペースがオープンエンドである場合にのみフラットなままになります。凍結されたライブラリはモデル間で転送され、より強力なモデルからのスキルは弱い実行者を自ら学習した以上に向上させますが、その逆はそうではなく、ゲートされていないベースラインでは再現できない非対称性です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GRASP: Gated Regression-Aware Skill Proposer for Self-Improving LLM Agents</p>
        <p class="orig-summary">LLM agents acting in structured environments fail in operational rather than conversational ways, and reliability depends on procedural knowledge of the environment. Prior self-improvement methods accumulate natural-language guidance without checking that each new item preserves previously correct behavior, so a note that fixes one trajectory can silently regress another. We introduce GRASP (Gated Regression-Aware Skill Proposer), which treats agent improvement as a sequence of edits to a bounded skill library, admitting each candidate only if it produces a net improvement on a balanced held-out probe under a hard regression budget. We evaluate GRASP across five base models (gpt-oss-120b, DeepSeek V4 Flash, Gemini 3.1 Flash Lite, GPT-4.1, GPT-5.4) on two FHIR-based clinical benchmarks. On MedAgentBench, GRASP lifts gpt-oss-120b from 40.6% to 88.8%, exceeds the strongest of five self-improvement baselines by 21.0 points, and improves every other base model by 17.2 to 40.3 points. Ablations attribute the gain to comparative proposal generation, the acceptance gate, and the hard regression budget rather than to skill writing itself, which without validation is no better than using no skills. The mechanism generalizes beyond the clinical domain, improving agents on three of four non-clinical environments and remaining flat only where the action space is open-ended. Frozen libraries transfer across models, where skills from a stronger model improve weaker executors beyond what they learn for themselves while the reverse does not, an asymmetry that no ungated baseline reproduces.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="85206179e749" data-article-url="https://arxiv.org/abs/2605.29676" data-article-title="表記法が重要: Agentic AI システムにおけるトークン最適化フォーマットのベンチマーク調査" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29676" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29676" target="_blank" rel="noopener">表記法が重要: Agentic AI システムにおけるトークン最適化フォーマットのベンチマーク調査</a></h3>
      <p class="summary">Agentic AI システムの大規模な言語モデルは、ツール スキーマと実行結果を消費し、ツール呼び出しを構造化データとして出力します。その交換のデフォルト言語である JSON は、トークンの効率性ではなくアプリケーション間の交換を目的として設計されているため、その構造要素により相当のトークン オーバーヘッドが生じます。最近の研究では、よりコンパクトな代替として TOON (Token-Oriented Object Notation) や TRON (Token Reduced Object Notation) などのトークンに最適化された代替案が提案されていますが、これらの形式は分離された理解または生成タスクでのみ評価されています。したがって、トークン削減がエンドツーエンドのエージェント ループ内で保持されるかどうかは未解決の問題のままです。私たちは、4 つのエージェント ベンチマーク (BFCL、MCPToolBenchPP、MCP-Universe、StableToolBench) と 5 つのオープンウェイト LLM で TOON と TRON を評価し、入力圧縮を出力圧縮から分離して、理解と生成を独立して測定します。 TRON は、JSON ベースラインの 14pp 以内の精度でトークンを最大 27% 削減します。 TOON は、同様の 9pp の精度コストで最大 18% の削減を達成しますが、さらにマルチターン解析失敗がカスケードし、ほとんどのモデルの並列ツール呼び出し出力が崩壊します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems</p>
        <p class="orig-summary">Large language models in Agentic AI systems consume tool schemas and execution results and emit tool invocations as structured data. The default language for that exchange, JSON, was designed for application-to-application interchange rather than token efficiency, so its structural elements impose substantial token overhead. Recent work proposes token-optimized alternatives such as TOON (Token-Oriented Object Notation) and TRON (Token Reduced Object Notation) as more compact replacements, but these formats have been evaluated only on isolated comprehension or generation tasks. Whether their token reductions hold inside end-to-end agentic loops therefore remains an open question. We evaluate TOON and TRON on four agentic benchmarks (BFCL, MCPToolBenchPP, MCP-Universe, StableToolBench) and five open-weight LLMs, decoupling input compression from output compression to measure comprehension and generation independently. TRON reduces tokens by up to 27% with accuracy within 14pp of the JSON baseline. TOON achieves up to 18% reduction at a similar 9pp accuracy cost, but additionally cascades on multi-turn parsing failures and collapses parallel tool-call output for most models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="78f0ee743681" data-article-url="https://arxiv.org/abs/2605.29685" data-article-title="NICE: LLM のソーシャル インテリジェンスのための理論に基づいた診断ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29685" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29685" target="_blank" rel="noopener">NICE: LLM のソーシャル インテリジェンスのための理論に基づいた診断ベンチマーク</a></h3>
      <p class="summary">大規模言語モデル (LLM) が感情的な交友関係や顧客サービスなどの社会的コンテキストに適用されることが増えているため、人間と AI の対話の品質と安全性にとって、LLM の社会的知性を測定することが重要になっています。しかし、既存のソーシャルインテリジェンスベンチマークには、社会的能力を統一的な構造に整理する統一的なフレームワークが欠けているため、きめ細かい診断を行うことができません。社会理論に基づいた初の総合的な診断評価を構築するために、私たちはまず、心理測定の原則に基づいた文献レビューと多段階の専門家による検証を通じて、社会的インテリジェンスのフレームワークを構築します。結果として得られるフレームワークには 4 つのカテゴリと 11 のディメンションが含まれており、それぞれが詳細な機能ファセットによってさらに指定されます。このフレームワークに基づいて、代表的な中国の文脈を通じて運用される 137 項目の診断ベンチマークである NICE (規範、相互作用、認知、経験) を紹介します。 5 つのフロンティア LLM と人間の参照グループ全体で、モデルは総合精度でより高いスコアを示していますが、コミュニケーションにおいて一貫した弱点を示しており、フレームワークはこれを 3 つの特定の能力面 (マルチターン コミュニケーション、非言語コミュニケーション、同期性) に限定しています。したがって、NICE は、LLM の社会的に重大な弱点の理論に基づいた診断に向けて、社会的インテリジェンスの評価を再構築します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">NICE: A Theory-Grounded Diagnostic Benchmark for Social Intelligence of LLMs</p>
        <p class="orig-summary">As large language models (LLMs) are increasingly applied in social contexts such as emotional companionship and customer service, measuring their social intelligence has become critical to the quality and safety of human-AI interaction. However, existing social intelligence benchmarks lack a unified framework that organizes social abilities into a unified structure, and therefore cannot enable fine-grained diagnosis. To build the first holistic diagnostic evaluation grounded in social theory, we first construct a social intelligence framework through a literature review and multi-stage expert validation guided by psychometric principles. The resulting framework includes 4 categories and 11 dimensions, each further specified by fine-grained capability facets. Building on this framework, we introduce NICE (Norm, Interaction, Cognition, Experience), a diagnostic benchmark of 137 items operationalized through representative Chinese contexts. Across 5 frontier LLMs and a human reference group, models score higher in aggregate accuracy yet show a consistent weakness in Communication, which the framework localizes to 3 specific capability facets: multi-turn communication, nonverbal communication, and synchrony. NICE thus reframes social intelligence evaluation toward theory-grounded diagnosis of socially consequential weaknesses in LLMs.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8bb761224cac" data-article-url="https://arxiv.org/abs/2605.29687" data-article-title="好みに基づく最大満足度による大規模言語モデルによる信頼性の高い推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29687" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29687" target="_blank" rel="noopener">好みに基づく最大満足度による大規模言語モデルによる信頼性の高い推論</a></h3>
      <p class="summary">大規模言語モデル (LLM) は自然言語の理解には優れていますが、ロボット工学などの分野でよく発生する、複数の制約やユーザー定義の設定を伴う最適化タスクには苦労します。我々は、LLM がコード生成を通じて推論を外部化するハイブリッド推論アプローチを提案します。自然言語の問題の記述が与えられると、LLM はユーザー定義の制約と設定を設定ベースの最大満足度 (MaxSAT) 問題としてエンコードする Python コードを生成し、これは正確な MaxSAT ソルバーによって解決されます。正確性を保証するために、モデル生成コードによって返されるソリューションは、標準的な MaxSAT エンコーディングに対して実行可能性と最適性が個別に検証され、異なるエンコーディングと複数の最適なソリューションが可能になります。私たちは、好みに基づく推論タスクの 3 つのファミリーに対して、オープンソースとクローズドアクセスの LLM の両方を使用してアプローチを評価し、同じモデルを使用する直接応答ベースライン、思考連鎖ベースライン、および思考プログラムベースラインと比較します。これらのベースラインが実現可能なソリューションを生み出すことはほとんどありませんが、MaxSAT ベースのパイプラインは大幅に高い承認率を達成し、場合によっては 80% を超えます。私たちの結果は、LLM 駆動のコード生成と設定ベースの MaxSAT を組み合わせることで、生成されたエンコーディングに関してソルバー検証可能な最適化が可能になり、独立して検証された参照セマンティクスの下での正確性が大幅に向上することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Reliable Reasoning with Large Language Models via Preference-Based Maximum Satisfiability</p>
        <p class="orig-summary">Large Language Models (LLMs) excel at understanding natural language but struggle with optimisation tasks involving multiple constraints and user-defined preferences, which commonly arise in domains such as robotics. We propose a hybrid reasoning approach in which LLMs externalise reasoning through code generation. Given a natural language problem description, an LLM generates Python code that encodes user-defined constraints and preferences as a preference-based Maximum Satisfiability (MaxSAT) problem, which is then solved by an exact MaxSAT solver. To ensure correctness, solutions returned by the model-generated code are independently verified for feasibility and optimality against a canonical MaxSAT encoding, allowing for different encodings and multiple optimal solutions. We evaluate our approach using both open-source and closed-access LLMs on three families of preference-based reasoning tasks, and compare it against direct-answer, chain-of-thought, and program-of-thought baselines using the same models. While these baselines rarely produce feasible solutions, the MaxSAT-based pipeline achieves substantially higher acceptance rates, in some cases exceeding 80%. Our results demonstrate that LLM-driven code generation combined with preference-based MaxSAT enables solver-verifiable optimisation with respect to generated encodings, and substantially improves correctness under independently verified reference semantics.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5b048b50dd32" data-article-url="https://arxiv.org/abs/2605.29695" data-article-title="FHRFormer: 胎児心拍数の時系列修復と予測のための自己監視型マスクトランスフォーマーフレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29695" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29695" target="_blank" rel="noopener">FHRFormer: 胎児心拍数の時系列修復と予測のための自己監視型マスクトランスフォーマーフレームワーク</a></h3>
      <p class="summary">新生児の約 10% は出生時に呼吸を開始するために補助を必要とし、約 5% は換気補助を必要とします。胎児心拍数（FHR）モニタリングは、出生前ケア中の胎児の健康状態を評価する上で重要な役割を果たし、異常なパターンの検出を可能にし、分娩中の胎児のリスクを軽減するためのタイムリーな産科介入をサポートします。人工知能 (AI) 手法を適用して、さまざまな結果を伴う継続的な FHR モニタリングエピソードの大規模なデータセットを分析すると、呼吸補助や介入が必要になるリスクを予測する上で新たな洞察が得られる可能性があります。ウェアラブル FHR モニターの最近の進歩により、母体の移動性を損なうことなく継続的に胎児をモニタリングできるようになりました。ただし、母体の移動中のセンサーの変位や、胎児または母体の位置の変化により信号のドロップアウトが発生し、記録された FHR データにギャップが生じることがよくあります。このような欠落データにより、有意義な洞察の抽出が制限され、自動 (AI ベース) 分析が複雑になります。単純な補間技術など、欠損データを処理する従来のアプローチでは、信号のスペクトル特性を保存できないことがよくあります。この論文では、データのローカルな時間成分と周波数成分の両方をキャプチャすることで欠落した FHR 信号を再構築する、マスクされたトランスフォーマー ベースのオートエンコーダー アプローチを提案します。提案された方法は、欠損データのさまざまな期間にわたる堅牢性を実証し、信号の修復と予測に使用できます。提案されたアプローチは、AI ベースのリスク アルゴリズムの開発をサポートするために、調査データセットに遡及的に適用できます。将来的には、提案された方法をウェアラブル FHR モニタリング デバイスに統合して、より早期かつより堅牢なリスク検出を実現できる可能性があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">FHRFormer: A Self-Supervised Masked Transformer Framework for Fetal Heart Rate Time-Series Inpainting and Forecasting</p>
        <p class="orig-summary">Approximately 10% of newborns require assistance to initiate breathing at birth, and around 5% need ventilation support. Fetal heart rate (FHR) monitoring plays a crucial role in assessing fetal well-being during prenatal care, enabling the detection of abnormal patterns and supporting timely obstetric interventions to mitigate fetal risks during labor. Applying artificial intelligence (AI) methods to analyze large datasets of continuous FHR monitoring episodes with diverse outcomes may offer novel insights into predicting the risk of needing breathing assistance or interventions. Recent advances in wearable FHR monitors have enabled continuous fetal monitoring without compromising maternal mobility. However, sensor displacement during maternal movement, as well as changes in fetal or maternal position, often lead to signal dropout, resulting in gaps in recorded FHR data. Such missing data limits the extraction of meaningful insights and complicates automated (AI-based) analysis. Traditional approaches to handling missing data, such as simple interpolation techniques, often fail to preserve the spectral characteristics of the signals. In this paper, we propose a masked transformer-based autoencoder approach to reconstruct missing FHR signals by capturing both local temporal and frequency components of the data. The proposed method demonstrates robustness across varying durations of missing data and can be used for signal inpainting and forecasting. The proposed approach can be applied retrospectively to research datasets to support the development of AI-based risk algorithms. In the future, the proposed method could be integrated into wearable FHR monitoring devices to achieve earlier and more robust risk detection.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c0cf43ad1258" data-article-url="https://arxiv.org/abs/2605.29697" data-article-title="軌跡報酬を超えて: グラフ モデリングによるエージェント検索のためのステップレベルのクレジット割り当て" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29697" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29697" target="_blank" rel="noopener">軌跡報酬を超えて: グラフ モデリングによるエージェント検索のためのステップレベルのクレジット割り当て</a></h3>
      <p class="summary">Agentic Search では、既存のステップレベルの報酬手法は通常、コストのかかるツリー サンプリングに依存しているのに対し、軌跡レベルの結果報酬では個々のステップの行動の寄与を定量化できません。私たちは、世界の知識を潜在的な世界グラフとして捉え、各 IS タスクを潜在的なタスク グラフ内の検索として捉えます。効果的なステップにより、グラフは答えのノードに向かって進歩するはずです。この事前の説明に基づいて、トレーニング時のエンティティ リレーション (ER) グラフ内の回答ノードまでの距離によって、新たに取得および新たに引用されたエンティティをスコアリングするステップレベルのプロセス報酬である、グラフ距離貢献報酬 (GDCR) を提案します。さらに、GDCR をステップレベルの利点に変換し、それらを軌道レベルの結果の利点と組み合わせるステップ アドバンテージ ポリシー最適化 (SAPO) を提案します。 4 つの困難なベンチマークでの実験により、私たちの手法の有効性が検証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond Trajectory Rewards: Step-level Credit Assignment for Agentic Search via Graph Modeling</p>
        <p class="orig-summary">In Agentic Search, trajectory-level outcome rewards fail to quantify the behavioral contributions of individual steps, while existing step-level reward methods typically rely on costly tree sampling. We view world knowledge as a latent world graph and each IS task as search within a latent task graph, where effective steps should make graph progress toward the answer node. Based on this prior, we propose Graph-Distance Contribution Reward (GDCR), a step-level process reward that scores newly-retrieved and newly-cited entities by their distance to the answer node in a training-time Entity-Relation (ER) graph. We further propose Step Advantage Policy Optimization (SAPO), which converts GDCR into step-level advantages and combines them with trajectory-level outcome advantages. Experiments on four challenging benchmarks validate the effectiveness of our method.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="236c18e80582" data-article-url="https://arxiv.org/abs/2605.29705" data-article-title="BitTP: エッジデバイス向けの BitLLM を使用した軽量軌道予測モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29705" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29705" target="_blank" rel="noopener">BitTP: エッジデバイス向けの BitLLM を使用した軽量軌道予測モデル</a></h3>
      <p class="summary">軌道予測は自律システムの基本的なタスクであり、マルチエージェントの相互作用と意図についての複雑な推論が必要です。最近、大規模言語モデル (LLM) がこのタスクに採用されています。これは、強力な文脈上の推論と、解釈可能な言語ベースの軌跡表現を提供するためです。ただし、これらの LLM ベースの予測子はメモリと計算量が非常に多いため、自律ロボットのオンボード コンピューターなど、リソースに制約のあるエッジ デバイスに導入することが困難になります。このギャップを埋めるために、LLM ベースの軌道予測器を軽量のビット線形アーキテクチャに変換する BitTP を提案します。 1.58 ビット (BitTP-Weight) への重みのみの量子化が最適であることを示します。重要なのは、アクティベーションを量子化すると時空間推論の深刻な劣化と不安定性につながるため、アクティベーションは完全な精度を維持する必要があります。経験的に、BitTP-Weight は、完全精度 (BF16) LLM ベースラインを超える予測品質を維持するだけでなく改善し、平均して ADE を 14.29%、FDE を 20.97% 削減し、同時に他の量子化方法と比較してメモリ使用量と推論遅延を削減します。これらの結果は、慎重に設計された量子化が効果的な正則化機能として機能し、洗練された LLM ベースの推論をエッジ デバイス上で実際に展開できることを示しています。コードは https://github.com/MintCat98/BitTP で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BitTP: The Lightweight Trajectory Prediction Model with BitLLM for Edge-Devices</p>
        <p class="orig-summary">Trajectory prediction is a fundamental task for autonomous systems, requiring complex reasoning about multi-agent interactions and intents. Large language models (LLMs) have recently been adopted for this task, as they provide strong contextual reasoning and interpretable, language-based trajectory representations. However, these LLM-based predictors are extremely memory- and compute-intensive, making them difficult to deploy on resource-constrained edge devices such as on-board computers in autonomous robots. To bridge this gap, we propose BitTP, which converts an LLM-based trajectory predictor into a lightweight bitlinear architecture. We demonstrate that weight-only quantization to 1.58-bit (BitTP-Weight) is optimal. Crucially, activations must remain in full precision, as quantizing them leads to severe degradation and instability in spatio-temporal reasoning. Empirically, BitTP-Weight not only preserves but improves prediction quality over the full-precision (BF16) LLM baseline, reducing ADE by 14.29% and FDE by 20.97% on average, while simultaneously reducing memory usage and inference latency relative to other quantization methods. These results demonstrate that carefully designed quantization acts as an effective regularizer, enabling the practical deployment of sophisticated LLM-based reasoning on edge devices. Code is available at: https://github.com/MintCat98/BitTP.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ae8d9ae800e0" data-article-url="https://arxiv.org/abs/2605.29716" data-article-title="NaRA: 拡散 LLM のパラメータ効率の高い微調整のためのノイズを考慮した LoRA" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29716" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29716" target="_blank" rel="noopener">NaRA: 拡散 LLM のパラメータ効率の高い微調整のためのノイズを考慮した LoRA</a></h3>
      <p class="summary">拡散大規模言語モデル (dLLM) は、有望な非自己回帰生成パラダイムとして浮上しています。完全な微調整には法外な計算コストがかかるため、パラメータ効率の良い微調整 (PEFT) が標準的なアプローチになっています。ただし、既存の PEFT 手法 (LoRA など) は、もともと自己回帰モデル用に調整されており、ノイズ レベルに依存しない静的パラメータに依存しています。その結果、拡散プロセスの固有のダイナミクスが無視され、入力分布と生成の難易度がノイズ除去の軌道に沿って大幅にシフトし、dLLM にとって最適ではなくなります。これに対処するために、我々は、ノイズを考慮した低ランク適応 (NaRA) を提案します。これは、ノイズ レベルに条件付けされた、軽量でグローバルに共有されるハイパーネットワークによって生成される低ランク コア マトリックスを導入します。この設計により、パラメータとレイテンシーのオーバーヘッドを無視できる程度に保ちながら、更新行列を拡散プロセスに沿って継続的に変化させることができます。私たちは、提案されている NaRA フレームワークの理論的正当性を示し、常識的推論、数学的推論、およびコード生成ベンチマークにわたって、ノイズに依存しないベースラインに対する一貫した改善を経験的に実証します。私たちのコードは https://github.com/generaldi/NaRA で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">NaRA: Noise-Aware LoRA for Parameter-Efficient Fine-Tuning of Diffusion LLMs</p>
        <p class="orig-summary">Diffusion Large Language Models (dLLMs) have emerged as a promising non-autoregressive generative paradigm. Given the prohibitive computational cost of full fine-tuning, Parameter-Efficient Fine-Tuning (PEFT) has become the standard approach. However, existing PEFT methods (e.g., LoRA), originally tailored for autoregressive models, rely on static parameters that are agnostic to the noise level. Consequently, they ignore the intrinsic dynamics of the diffusion process, where input distributions and generation difficulty shift significantly along the denoising trajectory, rendering them suboptimal for dLLMs. To address this, we propose Noise-aware Low-Rank Adaptation (NaRA), which introduces a low-rank core matrix generated by a lightweight, globally shared hypernetwork conditioned on the noise level. This design enables the update matrices to vary continuously along the diffusion process while keeping parameter and latency overhead negligible. We provide a theoretical justification for the proposed NaRA framework and empirically demonstrate consistent improvements over noise-agnostic baselines across commonsense reasoning, mathematical reasoning, and code generation benchmarks. Our code is available at https://github.com/generaldi/NaRA.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="405a2b97f28f" data-article-url="https://arxiv.org/abs/2605.29733" data-article-title="建物間のエネルギー予測のための不確実性を意識した転移学習: 堅牢でスケーラブルな地区レベルのエネルギー管理に向けて" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29733" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29733" target="_blank" rel="noopener">建物間のエネルギー予測のための不確実性を意識した転移学習: 堅牢でスケーラブルな地区レベルのエネルギー管理に向けて</a></h3>
      <p class="summary">データに基づくエネルギー予測を地区レベルまで拡張するには、最小限の対象領域データと正直な不確実性推定を備えた建物全体で再利用できるモデルが必要です。我々は、時間融合変換器 (TFT) に基づく建物間エネルギー予測のための不確実性を考慮した転移学習 (TL) フレームワークを紹介します。このフレームワークは、新しくリリースされた高解像度の実サブメーター データセット、つまりデンマークのオールボー大学の教育棟 (ソース) とスイスの EMPA にあるマルチ類型 NEST 棟 (ターゲット) で評価されます。ドメインギャップ全体にわたる汎化品質を定量化するためのアーキテクチャに依存しない指標である Transfer Robustness Index (TRI) を導入します。 4 つの戦略によるレイヤー フリージング アブレーションは、806K のうち 455 個の出力層パラメーターのみを更新するプローブのみの微調整が最高の転送品質 (TRI = 3,097) を達成し、完全な微調整を上回るパフォーマンスを示し、TFT エンコーダーが転送可能な時間表現を学習することを示唆しています。モンテカルロ ドロップアウトにより、予測区間のカバレッジ確率は 93.2% となり、名目目標の 95% に近づきます。さらに、データ不足分析では、対象領域のデータが増加するにつれて単調に改善することが示されており、地域のエネルギー展開に対する実践的なガイダンスが提供されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Uncertainty-Aware Transfer Learning for Cross-Building Energy Forecasting: Toward Robust and Scalable District-Level Energy Management</p>
        <p class="orig-summary">Scaling data-driven energy forecasting to district level requires models that can be re-used across buildings with minimal target-domain data and honest uncertainty estimates. We present an uncertainty-aware transfer learning (TL) framework for cross-building energy forecasting based on the Temporal Fusion Transformer (TFT), evaluated on a newly released high-resolution real sub-meter dataset: an educational building at Aalborg University, Denmark (source) and the multi-typology NEST building at EMPA, Switzerland (target). We introduce the Transfer Robustness Index (TRI), an architecture-agnostic metric for quantifying generalization quality across domain gaps. A four-strategy layer-freezing ablation shows that Probe-Only fine-tuning, updating only 455 output-layer parameters out of 806K, achieves the best transfer quality (TRI = 3,097), outperforming full fine-tuning and suggesting that TFT encoders learn transferable temporal representations. Monte Carlo Dropout yields a prediction interval coverage probability of 93.2%, close to the nominal 95% target. A data-scarcity analysis further shows monotonic improvement with increasing target-domain data, providing practical guidance for district energy deployment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a19b07a13c73" data-article-url="https://arxiv.org/abs/2605.29742" data-article-title="実際の規制順守のための質問応答のための引用閉鎖検索とルールごとの帰属" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29742" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29742" target="_blank" rel="noopener">実際の規制順守のための質問応答のための引用閉鎖検索とルールごとの帰属</a></h3>
      <p class="summary">規制遵守のために大規模言語モデル (LLM) を導入するには、多層の権限構造にわたる包括的な引用による厳密なトレーサビリティが必要です。従来のマルチホップや法的 QA とは異なり、このタスクでは、エンティティの解決や判例法の推論ではなく、構造化された手順の検索と証拠セットのクロージャが必要です。既存の RAG システムは、平坦化された引用エッジ、断片化された検索拡張、および脆弱な事後帰属のために、ここで苦戦しています。当社は、複雑な国内研究開発規制から派生した運用ナレッジ グラフを特徴とする新しいベンチマークである RegOps-Bench を使用して、規制順守 QA を形式化しています。これらのボトルネックに対処するために、共有トピック アンカーによって駆動される統合フレームワークである RefWalk を提案します。 RefWalk は、文書間の引用を横断し、最大ベースの集計によってマルチビューの候補を融合し、ルールごとの帰属を強制してクレームをソースに明示的にマッピングします。私たちは、検索再現率と引用精度を大幅に向上させる強力なベースラインを確立します。最後に、米国の健康コンプライアンス データセット (HIPAA) の対照的な評価により、既存のシステムがフラット構造ルールで飽和状態にあることが明らかになり、RegOps-Bench の必要性が強調されます。私たちのコードは https://github.com/yangjoonJu/RefWalk で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Citation-Closure Retrieval and Per-Rule Attribution for Real-World Regulatory Compliance Question Answering</p>
        <p class="orig-summary">Deploying Large Language Models (LLMs) for regulatory compliance demands rigorous traceability via comprehensive citations across multi-tiered authority structures. Unlike traditional multi-hop or legal QA, this task requires structured procedural lookups and evidence-set closure rather than entity resolution or case-law reasoning. Existing RAG systems struggle here due to flattened citation edges, fragmented retrieval expansions, and fragile post-hoc attribution. We formalize Regulatory Compliance QA with RegOps-Bench, a novel benchmark featuring an Operational Knowledge Graph derived from complex national R\&amp;D regulations. To address these bottlenecks, we propose RefWalk, a unified framework driven by a shared topic anchor. RefWalk traverses cross-document citations, fuses multi-view candidates via max-based aggregation, and enforces per-rule attribution to explicitly map claims to sources. We establish a strong baseline with substantial improvements in retrieval recall and citation accuracy. Finally, a contrastive evaluation on a U.S. health compliance dataset (HIPAA) reveals that existing systems exhibit saturation on flat-structure rules, underscoring the need for RegOps-Bench. Our code is available at https://github.com/yeongjoonJu/RefWalk.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="025901644b64" data-article-url="https://arxiv.org/abs/2605.29744" data-article-title="スペシャリスト モデルが依然として重要な理由: 医療用人工知能のための異種マルチエージェント パラダイム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29744" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29744" target="_blank" rel="noopener">スペシャリスト モデルが依然として重要な理由: 医療用人工知能のための異種マルチエージェント パラダイム</a></h3>
      <p class="summary">医療分野における GPT や Claude などの汎用大規模言語モデル (LLM) の優れたパフォーマンスは、領域固有の医療専門家モデルは時代遅れになるのだろうかという重大な疑問を引き起こしています。私たちは、医療用人工知能 (AI) の将来は、モノリシックな医療基盤モデルの構築や人間の専門知識の置き換えにあるのではなく、ジェネラリストの LLM、領域固有の専門家モデル、および臨床医の間のコラボレーションを調整することにあると主張します。我々は、矛盾を認識した証拠の融合、不確実性に基づく臨床医の介入トリガー、および適応閾値キャリブレーションを可能にする異種医療マルチエージェントフレームワークである HetMedAgent を提案します。 3 つの実際の臨床意思決定タスクに関する実験では、ジェネラリスト LLM と領域固有の専門家モデルの間の相乗効果が、どちらかのタイプのモデルを単独で使用した場合よりも大幅に優れていることが実証され、モダリティ固有の分析における専門家モデルのかけがえのない価値が検証されました。 HetMedAgent は、医療 LLM または基盤モデルの構築から複数エージェントのコラボレーションへの移行を表し、一般的な推論機能とドメイン固有の精度のバランスを実現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Why Specialist Models Still Matter: A Heterogeneous Multi-Agent Paradigm for Medical Artificial Intelligence</p>
        <p class="orig-summary">The impressive performance of generalist large language models (LLMs) such as GPT and Claude in healthcare raises a critical question: will domain-specific medical specialist models become obsolete? We argue that the future of medical artificial intelligence (AI) lies not in building monolithic medical foundation models, nor in replacing human expertise, but in orchestrating collaboration among generalist LLMs, domain-specific specialist models, and clinicians. We propose HetMedAgent, a heterogeneous medical multi-agent framework that enables conflict-aware evidence fusion, uncertainty-based clinician intervention triggering, and adaptive threshold calibration. Experiments on three real-world clinical decision-making tasks demonstrate that the synergy between generalist LLMs and domain-specific specialist models significantly outperforms using either type of model alone, validating the irreplaceable value of specialist models in modality-specific analysis. HetMedAgent represents a shift from building medical LLMs or foundation models to multi-agent collaboration, achieving a balance between general reasoning capabilities and domain-specific precision.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="69c10311796e" data-article-url="https://arxiv.org/abs/2605.29754" data-article-title="トランスベースの EEG 基礎モデルの位置エンコーディング戦略のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29754" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29754" target="_blank" rel="noopener">トランスベースの EEG 基礎モデルの位置エンコーディング戦略のベンチマーク</a></h3>
      <p class="summary">脳波検査 (EEG) は、ブレイン コンピューター インターフェイス (BCI) アプリケーションで脳活動を測定するために広く使用されている非侵襲的技術です。教師あり EEG デコード モデルは、タスク、被験者、データセット全体で一般化するのに苦労することが多く、自己教師あり学習で訓練されたトランスフォーマーベースの EEG 基礎モデルの動機となります。トランスフォーマーは順列不変であるため、明示的な位置情報が必要です。テキストのトークンとは異なり、EEG 電極は頭皮全体に空間的に分布しているため、トランスベースの EEG モデルで電極の位置をどのようにエンコードすべきかという問題が生じます。この研究では、CBraMod バックボーン内の 5 つの位置エンコーディング戦略をベンチマークし、運動イメージ分類と感情認識に関する線形プローブおよび微調整プロトコルの下でそれらを評価します。私たちの結果は、複数のタスクにわたって一貫して優れた単一の戦略はないことを示しています。球面位置エンコーディング (SPE) は運動イメージの強力な表現を生成しますが、感情認識ではパフォーマンスが低下しますが、非対称条件付き位置エンコーディング (ACPE) はタスク全体でより一貫したパフォーマンスを示します。これらの発見は、最適な位置エンコード戦略はタスクに依存しており、EEG デコード シナリオ全体にわたる普遍的な解決策はないことを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Benchmarking Positional Encoding Strategies for Transformer-Based EEG Foundation Models</p>
        <p class="orig-summary">Electroencephalography (EEG) is a widely used non-invasive technique for measuring brain activity in brain-computer interface (BCI) applications. Supervised EEG decoding models often struggle to generalize across tasks, subjects, and datasets, motivating transformer-based EEG foundation models trained with self-supervised learning. Since transformers are permutation-invariant, they require explicit positional information. Unlike textual tokens, EEG electrodes are spatially distributed across the scalp, raising the question of how electrode positions should be encoded in transformer-based EEG models. In this study, we benchmark five positional encoding strategies within the CBraMod backbone and evaluate them under linear probing and fine-tuning protocols on motor imagery classification and emotion recognition. Our results show that no single strategy consistently outperforms across tasks. Spherical Positional Encoding (SPE) yields strong representations for motor imagery but underperforms on emotion recognition, while Asymmetric Conditional Positional Encoding (ACPE) demonstrates more consistent performance across tasks. These findings suggest that the optimal positional encoding strategy is task-dependent, with no universal solution across EEG decoding scenarios.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f5397f00d49c" data-article-url="https://arxiv.org/abs/2605.29756" data-article-title="LFQ: 低ビット量子化 LLM の生成品質を向上させるためのロジットを意識した最終ブロック量子化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29756" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29756" target="_blank" rel="noopener">LFQ: 低ビット量子化 LLM の生成品質を向上させるためのロジットを意識した最終ブロック量子化</a></h3>
      <p class="summary">大規模な言語モデルがスケールし続けるにつれて、低ビット重みのみのポストトレーニング量子化 (PTQ) は、メモリ効率の高い展開に対する実用的なソリューションを提供します。ブロック単位の PTQ は、基本的な言語モデリングと理解に関して完全精度 (FP) ベースラインと一致することができますが、生成タスク、特にタスクの精度を高める上で重要な、より長い応答や思考の連鎖が長くなった場合、その品質は低下します。この不足の原因は 2 つの要因であると考えられます。(i) ブロック単位の最適化における非埋め込み層 (LM ヘッド) の省略、および (ii) 平均二乗誤差 (MSE) 目標への依存。両方の要因により、量子化モデルのトークン確率分布が FP モデルのトークン確率分布と不整合になり、テキスト生成ベンチマークで顕著な精度の低下が生じます。この不一致を修正するために、ロジットを意識した最終ブロック量子化 (LFQ) を導入します。これは、FP モデルのロジットと量子化された対応物のロジット間のクロス エントロピーを最小限に抑えることで、最終的な Transformer ブロックを量子化するブロック単位 PTQ のシンプルかつ効果的な拡張機能です。最終ブロックのロジットレベルでトークン確率を調整することにより、LFQ は、言語モデリングと理解に関して FP ベースラインとの同等性を維持しながら、多様なモデルファミリーにわたって最先端のブロックごとの PTQ よりも複雑な生成タスクの精度を一貫して向上させます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LFQ: Logit-aware Final-block Quantization for Boosting the Generation Quality of Low-Bit Quantized LLMs</p>
        <p class="orig-summary">As large language models continue to scale, low-bit weight-only post-training quantization (PTQ) offers a practical solution to their memory-efficient deployment. Although block-wise PTQ is capable of matching the full-precision (FP) baseline on basic language modeling and understanding, its quality is degraded for generative tasks -- especially at longer responses and extended chains of thought, which is critical in boosting task accuracy. We attribute this shortfall to two factors: (i) the omission of the unembedding layer (the LM head) in block-wise optimization and (ii) the reliance on the mean squared error (MSE) objective. Both factors cause the token probability distribution of the quantized model to misalign with that of the FP model, yielding notable accuracy drops on text generation benchmarks. To rectify the discrepancy, we introduce Logit-aware Final-block Quantization (LFQ), a simple yet effective enhancement to block-wise PTQ that quantizes the final Transformer block by minimizing the cross-entropy between the logits of the FP model and those of its quantized counterpart. By aligning token probabilities at the logit level in the final block, LFQ consistently improves the accuracy of complex generation tasks over state-of-the-art block-wise PTQ across diverse model families, while maintaining parity with FP baselines on language modeling and understanding.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c5f6b92957eb" data-article-url="https://arxiv.org/abs/2605.29768" data-article-title="XLTraffic から EvoXXLTraffic へ: トラフィック予測をセンサー進化ネットワークに拡張" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29768" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29768" target="_blank" rel="noopener">XLTraffic から EvoXXLTraffic へ: トラフィック予測をセンサー進化ネットワークに拡張</a></h3>
      <p class="summary">既存の交通予測ベンチマークは固定センサー セットを前提としていますが、実際の道路センサー ネットワークは、道路網が年々変化するにつれて継続的に成長しています。最大 27 年間にわたるカリフォルニア PeMS とニューサウスウェールズ州交通局のデータを網羅する XLTraffic データセット ファミリを紹介します。 XLTraffic の固定センサー サブセットは、複数年にわたるギャップを伴う非常に長期の予測と、標準的な時間単位/日単位の長期予測をサポートします。これを EvoXXLTraffic に拡張します。EvoXXLTraffic は、9 つ​​の PeMS 地区にわたる年間アクティブ センサー、年間交通流マトリックス、および年間グラフ スナップショットを公開するセンサー進化型再編成であり、成長率は +305% から +10,000% 以上の範囲にあります。私たちは EvoXXLTraffic 上で各暦年が継続的なタスクとなる年間ストリーミング予測プロトコルを定義し、静的な時空間 GNN、素朴なオンライン スキーム、進化するグラフの継続的手法、取得/テスト時間手法から抽出された幅広い代表的なベースラインをベンチマークします。私たちの超大規模な進化的データセットは現実世界をよりよく反映しており、多くの最先端 (SOTA) の結果は機能しなくなっていることがわかります。私たちのデータセットは、超長期にわたる進化した道路ネットワークの下でより現実的な予測を可能にすることで、既存のベンチマークを補完します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From XXLTraffic to EvoXXLTraffic: Scaling Traffic Forecasting to Sensor-Evolving Networks</p>
        <p class="orig-summary">Existing traffic forecasting benchmarks assume a fixed sensor set, but real road-sensor networks grow continuously as the road network changes year by year. We introduce the XXLTraffic dataset family, which spans up to 27 years of California PeMS and Transport for NSW data. The fixed-sensor subsets of XXLTraffic support extremely long forecasting with multi-year gaps and standard hourly / daily long-horizon forecasting. We extend it to EvoXXLTraffic, a sensor-evolving reorganization that exposes per-year active sensors, yearly traffic-flow matrices, and yearly graph snapshots across nine PeMS districts, with growth ratios ranging from +305% to over +10,000%. We define a yearly streaming forecasting protocol on EvoXXLTraffic in which each calendar year is a continual task, and benchmark a wide range of representative baselines drawn from static spatio-temporal GNNs, na\&quot;ive online schemes, evolving-graph continual methods, and retrieval / test-time methods. We find that our ultra-large evolutionary dataset better reflects the real world, and many state-of-the-art (SOTA) results no longer work. Our dataset complements existing benchmarks by enabling more realistic forecasting under ultra-long evolutionary road networks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c55edc975743" data-article-url="https://arxiv.org/abs/2605.29786" data-article-title="クロワッサン タスク: 再現可能な機械学習評価のためのメタデータ形式" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29786" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29786" target="_blank" rel="noopener">クロワッサン タスク: 再現可能な機械学習評価のためのメタデータ形式</a></h3>
      <p class="summary">再現性は科学的手法の基本ですが、機械学習においては依然として重要な課題です。原因としては、実行詳細の指定不足や脆弱なソフトウェア環境などが挙げられます。チェックリストや手動検証などの人間中心の救済策は役立ちますが、集中的な努力が必要であり、拡張することができません。これに対処するために、Croissant Tasks を導入します。これは、低レベルの実装の詳細を高レベルの仕様に抽象化する、宣言的でマシンアクション可能なメタデータ形式です。この形式により、概念的な再現性が可能になります。つまり、脆弱なソース コードの複製ではなく、独立したエージェント生成の実装を通じて主張を検証できます。私たちは以下に貢献しています。(1) Croissant Tasks 仕様。タスクの問題を解決策から正式に切り離します。 (2) 既存のベンチマークをこの形式に改良する自動 LLM パイプライン。 (3) 自律エージェントがこれらの仕様を取り込んで、機能的で正確な再現パイプラインを最初から生成できることを示す経験的検証。私たちはこの形式を、機械学習における自動化された概念的な再現性のための新しい基盤として構想しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Croissant Tasks: A Metadata Format for Reproducible Machine Learning Evaluations</p>
        <p class="orig-summary">Reproducibility is fundamental to the scientific method, yet remains a critical challenge in machine learning. Contributing factors include underspecified execution details and brittle software environments. Human-centric remedies, such as checklists and manual verification, help but require intensive effort and fail to scale. To address this, we introduce Croissant Tasks: a declarative, machine-actionable metadata format that abstracts low-level implementation details into high-level specifications. This format enables conceptual reproducibility: verifying claims via independent, agent-generated implementations rather than brittle source code replication. We contribute: (1) the Croissant Tasks specification, formally decoupling task problem from solution; (2) an automated LLM pipeline that retrofits existing benchmarks into this format; and (3) empirical validation showing autonomous agents can ingest these specifications to generate functional, accurate reproduction pipelines from scratch. We envision this format as a new foundation for automated and conceptual reproducibility in machine learning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cb76b353e51c" data-article-url="https://arxiv.org/abs/2605.29788" data-article-title="PAC-Bayes リスクによるネストされた因果的バンディットに対する認定ポリシーの最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29788" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29788" target="_blank" rel="noopener">PAC-Bayes リスクによるネストされた因果的バンディットに対する認定ポリシーの最適化</a></h3>
      <p class="summary">重要な一連の決定が単一の時間スケールで行われることはほとんどありません。戦略的決定は、その後のすべての戦術的選択が行われる状況を因果的に形成します。標準的なバンディット理論と強化学習理論では、タイムスケール間のこの因果関係を捉えていません。我々は問題クラスを、各レベルのアクションが次のレベルのコンテキスト分布を設定する階層型 SCM である Nested Contextual Causal Bandits (NCCB) として形式化し、エピソードごとに 1 つのメカニズム因数分解された信念を抽出し、その下で再帰的に動作する Nested Causal Thompson Sampling (NCTS) を提案します。私たちの主な理論的結果は、過去のデータのみから、ポリシー外いつでも、あらゆる候補展開ポリシーを証明する因果関係のある PAC ベイジアンの超過リスク限界であり、このエージェントをここで信頼できますか、またどのようなリスクがあるかという展開の質問に答えます。階層型 SCM の実験では、同じ関数クラスの一致する RFF-GP 結合回帰に対して、因数分解された SCM メカニズムの事後転送が外因性分散シフトの下で大幅に優れたゼロショットを転送し、再帰的なメタから内部へのコミットが分散における共同コミットの代替を大幅に支配し、オフライン データが蓄積するにつれて証明書が大幅に縮小することを示しています。これらの結果を組み合わせて、安全な導入方法であるプログレッシブ認定ハンドオーバーを確立します。ゲインが認定されると、各タイムスケールが他のものとは独立してレガシー コントローラから NCTS に切り替わります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Certified Policy Optimisation for Nested Causal Bandits via PAC-Bayes Risk</p>
        <p class="orig-summary">Critical sequential decisions are rarely single-timescale: a strategic decision causally shapes the context in which every subsequent tactical choice is made; standard bandit and reinforcement-learning theory does not capture this causal coupling between timescales. We formalise the problem class as Nested Contextual Causal Bandits (NCCBs), a hierarchical SCM where each level&#x27;s action sets the next level&#x27;s context distribution, and propose Nested Causal Thompson Sampling (NCTS), which draws one mechanism-factorised belief per episode and acts recursively under it. Our main theoretical result is a causal PAC-Bayesian excess-risk bound that certifies any candidate deployment policy from historic data alone, off-policy and anytime, answering the deployment question: can we trust this agent here, and at what risk? Experiments on a hierarchical SCM show that, against a matched RFF-GP joint regression on the same function class, the factorised SCM-mechanism posterior transfers significantly better zero-shot under exogenous distribution shifts, the recursive meta-to-inner commit significantly dominates the joint-commit alternative in distribution, and the certificate significantly contracts as offline data accumulates. Combining these results, we establish progressive certified handover, a safe-deployment method: each timescale flips from a legacy controller to NCTS when gains can be certified, independently of the others.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fd9af95e7205" data-article-url="https://arxiv.org/abs/2605.29794" data-article-title="SkillsInjector: LLM エージェントの動的なスキル コンテキストの構築" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29794" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29794" target="_blank" rel="noopener">SkillsInjector: LLM エージェントの動的なスキル コンテキストの構築</a></h3>
      <p class="summary">LLM エージェントは、増大するスキル ライブラリを利用して複雑なタスクを処理できるようになりました。ただし、より多くのスキルを投入しても、必ずしもタスクの完了が向上するとは限らず、タスクの完了が低下する可能性もあります。既存の手法は依然としてスキルの注入を静的なステップとして扱い、固定基準でスキルを選択し、事前に予算を固定し、説明を変更しないままにします。どのスキルが公開されるか、いくつ含まれるか、およびそれらがどのように提示されるかはすべて、下流のパフォーマンスに影響を与えるため、この静的な処理はスキルの有用性を損なう可能性があると私たちは主張します。私たちは、これらの決定に共同で対処する 2 段階の適応手法である SkillsInjector を提案します。まず、コンテキスト プランナーは、実行に基づいたスキルの好みを学習し、タスクごとに適応可能な数のスキルを許可します。次に、セット対応レンダラーは、選択された説明が、同時に挿入された近隣のものと比較してどのように表示されるかを調整します。 tau2-bench、SkillsBench、ALFWorld 全体で、SkillsInjector が最高のスコアを達成し、最も強力なベースラインをそれぞれ 3.9、6.1、7.3 パーセントポイント改善しました。アブレーション研究では、スキルの選択、適応的な予算設定、およびセットアウェアなレンダリングがそれぞれ利益に貢献していることが示されています。これらの結果は、スキル拡張エージェントが、注入されたコンテキスト自体を最適化することで恩恵を受けることを示しています。コードは公開され次第公開されます</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SkillsInjector: Dynamic Skill Context Construction for LLM Agents</p>
        <p class="orig-summary">LLM agents now draw on growing skill libraries to handle complex tasks. However, injecting more skills does not always improve task completion and can even degrade it. Existing methods still treat skill injection as a static step, selecting skills with fixed criteria, fixing the budget in advance, and leaving descriptions unchanged. We argue that this static treatment can undermine the utility of skills, because which skills are exposed, how many are included, and how they are presented all affect downstream performance. We propose SkillsInjector, a two-stage adaptive method that jointly addresses these decisions. First, a context planner learns execution-grounded skill preferences and admits an adaptive number of skills for each task. A set-aware renderer then tailors how selected descriptions are presented relative to their co-injected neighbors. Across tau2-bench, SkillsBench, and ALFWorld, SkillsInjector achieves the highest score, improving over the strongest baseline by 3.9, 6.1, and 7.3 percentage points, respectively. Ablation studies show that skill selection, adaptive budgeting, and set-aware rendering each contribute to the gain. These results show that skill-augmented agents benefit from optimizing the injected context itself. Code will be released upon publication</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ded7fe81e3aa" data-article-url="https://arxiv.org/abs/2605.29795" data-article-title="メモ: 低データ ドメインの学習信号として Web を活用する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29795" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29795" target="_blank" rel="noopener">メモ: 低データ ドメインの学習信号として Web を活用する</a></h3>
      <p class="summary">現実世界のタスクには大規模なラベル付きデータセットが不足していることが多く、低データ領域での学習に対する広範な作業が動機付けられます。ただし、少数ショット プロンプト、命令チューニング、合成データ生成などの既存のアプローチは、引き続きラベル付きデータまたは擬似ラベル付きデータを主要な学習信号として扱います。対照的に、人間の実務者は、オープン Web との繰り返しの自主的な対話を通じて専門知識を獲得し、ドメイン知識と検索戦略の両方を徐々に洗練させます。私たちは、Web をステートレスな検索インターフェイスではなく学習信号として扱うフレームワークである MEMENTO を提案します。 MEMENTO は 2 つのレベルで動作します。各セッション内で、タスクを進化する質問に分解し、中間結果を反映するアダプティブ探索ツリー (AET) を介して反復的な Web 探索を実行します。セッション全体にわたって、デュアルチャネル記憶を通じて経験を蓄積し、宣言的知識 (事実) を手続き的知識 (検索戦略) から分離します。この設計により、エージェントは追加のモデル トレーニングを行わずに、Web インタラクションの軌跡から再利用可能な調査戦略とドメインの専門知識を学習できるようになります。私たちは、販売自動化と法律調査という 2 つのローデータ専門分野で MEMENTO を評価しています。当社の実証結果では、ReAct ベースのベースラインと比較してパフォーマンスが一貫して向上していることが示され (セールス オートメーションで 25.6%、法律調査で 36.5% 増加)、Web がデータ不足の状況でタスク固有の専門知識を獲得するためのスケーラブルな学習ソースとして機能できることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MEMENTO: Leveraging Web as a Learning Signal for Low-Data Domains</p>
        <p class="orig-summary">Real-world tasks often lack large labeled datasets, motivating extensive work on learning in low-data regimes. However, existing approaches such as few-shot prompting, instruction tuning, and synthetic data generation, continue to treat labeled or pseudo-labeled data as the primary learning signal. In contrast, human practitioners acquire expertise through repeated, self-directed interaction with the open web, progressively refining both domain knowledge and search strategies. We propose MEMENTO, a framework that treats the web as a learning signal rather than a stateless retrieval interface. MEMENTO operates at two levels: within each session, it conducts iterative web exploration via an Adaptive Exploration Tree (AET) that decomposes tasks into evolving questions and reflects on intermediate findings; across sessions, it accumulates experience through dual-channel memory, separating declarative knowledge (facts) from procedural knowledge (search strategies). This design enables agents to learn reusable research strategies and domain expertise from trajectories of web interaction without additional model training. We evaluate MEMENTO on two low-data professional domains: sales automation and legal research. Our empirical results show consistent improvements in performance over ReAct based baselines (+25.6% on sales automation and 36.5% on legal research), demonstrating that the web can serve as a scalable learning source for acquiring task-specific expertise in data-scarce settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="661f0f88226b" data-article-url="https://arxiv.org/abs/2605.29796" data-article-title="SAAS: エージェント検索における過剰検索を軽減するための自己認識強化学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29796" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29796" target="_blank" rel="noopener">SAAS: エージェント検索における過剰検索を軽減するための自己認識強化学習</a></h3>
      <p class="summary">エージェント検索により、LLM は反復推論と外部検索を通じて複雑なマルチホップの質問を解決できます。これらのシステムは有効であるにもかかわらず、実際には重大な制限に悩まされることがよくあります。エージェントは自分自身の知識の境界を認識できず、内部の知識が十分な場合でもやみくもに検索を開始し、十分な証拠が収集されている場合でも検索を終了できません。自己認識の欠如は深刻な \textbf{過剰検索} につながり、かなりの推論遅延と法外な計算コストが発生します。この目的を達成するために、精度を損なうことなく検索動作を正確に制御する動的な自己認識を育成するように設計された新しい RL フレームワークである SAAS を提案します。 SAAS では、次の 3 つの主要コンポーネントが導入されています。(i) 検索境界モデリング メカニズム。検索が無効なロールアウトと検索が有効なロールアウトを対比することで、進化するポリシーに基づいて検索境界を識別します。 (ii) 境界認識報酬モジュール。この境界認識を軌道レベルのペナルティに変換し、不必要で冗長な検索を抑制します。 (iii) 段階的な最適化戦略。これは、一連のカリキュラムを活用して、検索の正規化よりも推論を優先し、それによって報酬のハッキングを回避します。広範な実験により、SAAS が精度を維持しながら過剰検索を大幅に削減することが実証されました。私たちのコードは https://github.com/XMUDeepLIT/SAAS で匿名で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search</p>
        <p class="orig-summary">Agentic search enables LLMs to solve complex multi-hop questions through iterative reasoning and external search. Despite the effectiveness, these systems often suffer from a critical limitation in practice: agents fail to recognize their own knowledge boundaries, blindly triggering searches when internal knowledge suffices and failing to terminate search even when adequate evidence has been collected. The lack of self-awareness leads to severe \textbf{over-search}, incurring substantial inference latency and prohibitive computational cost. To this end, we propose SAAS, a novel RL framework designed to cultivate dynamic self-awareness that precisely regulates search behavior without compromising accuracy. SAAS introduces three key components: (i) a search boundary modeling mechanism, which identifies the search boundary under the evolving policy by contrasting search-disabled and search-enabled rollouts; (ii) a boundary-aware reward module, which translates this boundary awareness into trajectory-level penalties, suppressing unnecessary and redundant searches; and (iii) a stage-wise optimization strategy, which leverages a sequential curriculum to prioritize reasoning over search regularization, thereby avoiding reward hacking. Extensive experiments demonstrate that SAAS substantially reduces over-search, while maintaining accuracy. Our code is anonymously released at https://github.com/XMUDeepLIT/SAAS.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4e4c8d66caa1" data-article-url="https://arxiv.org/abs/2605.29801" data-article-title="AgentDoG 1.5: AI エージェントの安全性とセキュリティのための軽量でスケーラブルな調整フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29801" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29801" target="_blank" rel="noopener">AgentDoG 1.5: AI エージェントの安全性とセキュリティのための軽量でスケーラブルな調整フレームワーク</a></h3>
      <p class="summary">OpenClaw などの最新のオープンワールド エージェントは、強力な環境間実行機能を示しますが、広範な新しい安全リスク源をもたらします。その一方で、高度なフロンティア AI モデルは攻撃障壁を大幅に下げ、現在のエージェント調整フレームワークが現実世界の展開には不適切になっています。これらの新たな脅威に対処するために、私たちは軽量でスケーラブルなエージェントの安全性調整フレームワークを提案します。具体的には、Codex および OpenClaw の実行シナリオからの緊急リスクに対応するために、エージェントの安全性分類を更新します。さらに、わずか約 1,000 個のサンプルを使用して軽量の AgentDoG 1.5 バリアント (0.8B、2B、4B、および 8B パラメーター) をトレーニングするための影響関数の精製を備えた分類に基づくデータ エンジンを構築し、主要なクローズド ソース モデル (GPT-5.4 など) と同等のパフォーマンスを達成します。 AgentDoG 1.5 に基づいて、高効率のエージェント安全性 SFT および RL トレーニング環境を構築します。これにより、Docker レベルの環境での導入オーバーヘッドが 2 桁削減されます。最後に、リアルタイムの安全管理のためのトレーニング不要のオンライン ガードレールとして AgentDoG 1.5 を導入します。広範な実験結果は、AgentDoG 1.5 が多様で複雑な対話型エージェント シナリオにおいて最先端のパフォーマンスを達成することを示しています。すべてのモデルとデータセットは公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security</p>
        <p class="orig-summary">Modern open-world agents such as OpenClaw exhibit powerful cross-environment execution capabilities yet introduce broad new safety risk sources. Meanwhile, advanced frontier AI models drastically lower attack barriers, rendering current agent alignment frameworks inadequate for real-world deployment. To tackle these emerging threats, we propose a lightweight and scalable agent safety alignment framework. Specifically, we update the agent safety taxonomy to accommodate emergent risks from Codex and OpenClaw execution scenarios. We further build a taxonomy-guided data engine with influence-function purification to train lightweight AgentDoG 1.5 variants (0.8B, 2B, 4B, and 8B parameters) using only around 1k samples, achieving comparable performance with leading closed-source models (e.g., GPT-5.4). Based on AgentDoG 1.5, we construct a highly efficient agentic safety SFT and RL training environment, which reduces deployment overhead in Docker-level environments by two orders of magnitude. Finally, we deploy AgentDoG 1.5 as a training-free online guardrail for real-time safety moderation. Extensive experimental results indicate that AgentDoG 1.5 achieves state-of-the-art performance in diverse and complex interactive agentic scenarios. All models and datasets are openly released.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3252d568d491" data-article-url="https://arxiv.org/abs/2605.29815" data-article-title="PRAIB: LLM 支援レビューの動作に関する査読 AI ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29815" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29815" target="_blank" rel="noopener">PRAIB: LLM 支援レビューの動作に関する査読 AI ベンチマーク</a></h3>
      <p class="summary">提出論文数の増加により、特に速度とスケーラビリティの向上という観点から、査読プロセスをサポートおよび強化する手段として大規模言語モデル (LLM) の探求が促進されています。しかし、LLM が人間の査読者と同じ方法で科学論文に取り組むのか、それとも単に査読者に見える文章を作成するだけなのかは不明のままです。これに対処するために、レビューの特異性、スタイル、エンゲージメントの動作を測定する、徹底的に定義された指標で構成される新しいフレームワークである Peer Review AI Benchmark (PRAIB) を導入します。 PRAIB フレームワークを補完するために、1,000 件の ICLR および NeurIPS 論文について 5 つの独自のオープンソース モデルによって生成された 11,000 件のレビューのデータセットを活用して、大規模な実証研究を実施しています。 2021 年から 2025 年の期間にわたって、これらの機械によって生成されたレビューが、体系的な行動の相違を特定するために、さまざまな促進戦略にわたる元の人間のフィードバックと比較されます。私たちの分析では、生成されたレビューが人間のレビュー担当者によって提供されたフィードバックから大きく乖離していることが明らかになりました。LLM 評価は変動が少なく、ポジティブなバイアスがあり、自信過剰であり、その相互参照パターンはモデルに依存しており、人間の基準とは異なります。さらに、PRAIB を通じて評価すると、LLM はより長く複雑なレビューを生成する傾向があるにもかかわらず、人間のレビュー担当者が指摘した基本的な弱点を頻繁に見落とすことがわかりました。 PRAIB は、LLM のレビュー動作が人間の規範からどこでどのように逸脱しているかを特徴付けることで、レビュー プロセスのどの側面を LLM が現在確実にサポートでき、どの側面を展開前にさらなる開発が必要かを特定するための診断ツールをコミュニティに提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PRAIB: Peer Review AI Benchmark of Behaviour of LLM-Assisted Reviewing</p>
        <p class="orig-summary">The growing number of submitted papers has motivated the exploration of Large Language Models (LLMs) as a means to support and augment the peer review process, particularly in terms of improving its speed and scalability. Yet, it remains unknown whether LLMs engage with scientific manuscripts in the same manner as human reviewers, or whether they merely produce review-looking text. To address this, we introduce the Peer Review AI Benchmark (PRAIB), a novel framework comprising thoroughly defined metrics that measure review specificity, style, and behavior of engagement. To complement the PRAIB framework, we conduct a large-scale empirical study leveraging a dataset of 11,000 reviews generated by five proprietary and open-source models for 1,000 ICLR and NeurIPS papers. Spanning the 2021--2025 period, these machine-generated reviews are compared against original human feedback across diverse prompting strategies to identify systematic behavioral divergences. Our analysis reveals that the generated reviews diverge significantly from feedback provided by human reviewers: LLM ratings are less variable, positively biased, and overconfident, and their cross-reference patterns are model-dependent and distinct from human norms. Furthermore, when evaluated through PRAIB, we observe that LLMs tend to generate longer, more complex reviews, yet frequently overlook the atomic weaknesses noted by human reviewers. By characterizing where and how LLMs reviewing behavior departs from human norms, PRAIB provides the community with a diagnostic tool for identifying which aspects of the review process LLMs can reliably support today and which require further development before deployment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="98b9646400ce" data-article-url="https://arxiv.org/abs/2605.29816" data-article-title="大規模な言語モデルで非敵対的な堅牢性を活用する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29816" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29816" target="_blank" rel="noopener">大規模な言語モデルで非敵対的な堅牢性を活用する</a></h3>
      <p class="summary">この研究は、意味的には似ているがテキストが異なるプロンプトによって引き起こされる変更や潜在的なエラーに対する大規模言語モデル (LLM) の堅牢性の課題に対処するためのアプローチを示しています。最近の研究では、この種のプロンプトの変動がタスクに対する LLM のパフォーマンスに大きな影響を与える可能性があることが示されています。中心的な疑問は、意味的に中立なプロンプト変更に対する LLM の堅牢性は、モデル全体の高価な再トレーニングなしで獲得できるかということです。私たちは理論と実験の両方を通じてこの疑問に取り組みます。私たちの理論的分析により、モデルの堅牢性に影響を与える重要な要因、つまりニューラル ネットワーク モジュール出力における系統的な予想されるシフトまたは摂動によって引き起こされるバイアスが明らかになりました。この分析を動機として、我々は、単純な微調整プロセス、つまりロバスト性のためのバイアス除去によってロバスト性を達成できることを示します。私たちは、バイアス緩和が役立つ場合とそうでない場合の条件を特定し、理論と広範な実験の両方を通じて、ロバスト性を高めるためのバイアス緩和が実際にロバスト性を強化し、ランダムなプロンプト摂動に対する認証を提供するための迅速かつ効率的なツールである可能性があることを実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Harnessing non-adversarial robustness in large language models</p>
        <p class="orig-summary">The work presents an approach for addressing the challenge of robustness in Large Language Models (LLMs) to alterations and potential errors caused by semantically similar but textually different prompts. Recent works have shown that these kinds of prompt variations can significantly impact the performance of LLMs on tasks. The central question is: can LLMs&#x27; robustness to semantically-neutral prompt alterations be acquired without expensive retraining of the entire model? We address this question both theoretically and through experiments. Our theoretical analysis reveals a crucial factor impacting model robustness - a systematic expected shift or perturbation-induced bias in neural network module outputs. Motivated by this analysis, we show that robustness can be achieved via a simple fine-tuning process: debiasing for robustness. We identify conditions when debiasing helps and when it does not, and demonstrate, through both theory and extensive experiments, that debiasing for robustness may indeed be a quick and efficient tool to enhance robustness and provide certification against random prompt perturbations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="36291005dfa1" data-article-url="https://arxiv.org/abs/2605.29823" data-article-title="多項式表現による単純性の定量化と最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29823" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29823" target="_blank" rel="noopener">多項式表現による単純性の定量化と最適化</a></h3>
      <p class="summary">深いネットワークは「単純な」ソリューションを好むことが多く、そのような単純さのバイアスが一般化において重要な役割を果たすと広く考えられています。しかし、単純さを広く適用できる定量的な尺度は依然としてとらえどころがありません。ニューラル関数の分布を意識した低次元サロゲートとして多項式表現を導入します。直交多項式基底を使用して、データ依存の内挿パスに沿ってネットワークの予測動作を近似し、コンパクトな関数表現を生成します。この表現の有効度が、タスクやアーキテクチャ全体にわたる一般化を予測する実用的な単純さの指標として機能し、シャープネスなどの既存の一般化プロキシよりも一貫して優れていることを示します。最後に、多項式表現は微分可能な単純性正則化を自然に生成し、画像とテキストの分類、対照的な視覚言語モデルの微調整、および強化学習における一般化を一貫して向上させます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Quantifying and Optimizing Simplicity via Polynomial Representations</p>
        <p class="orig-summary">Deep networks often exhibit a preference for &quot;simple&quot; solutions, and such a simplicity bias is widely believed to play a key role in generalization. Yet a broadly applicable, quantitative measure of simplicity remains elusive. We introduce polynomial representations as a distribution-aware, low-dimensional surrogate for neural functions: we approximate a network&#x27;s predictive behavior along data-dependent interpolation paths using orthogonal polynomial bases, yielding a compact functional representation. We show that the effective degree of this representation serves as a practical simplicity metric that is predictive of generalization across tasks and architectures, and consistently outperforms existing generalization proxies such as sharpness. Finally, polynomial representations naturally yield a differentiable simplicity regularizer, which consistently improves generalization in image and text classification, fine-tuning contrastive vision-language models, and reinforcement learning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d6f0b263eb40" data-article-url="https://arxiv.org/abs/2605.29829" data-article-title="OptSkills: クラスターベースの蒸留を介して問題の原型から一般化可能な最適化スキルを学習する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29829" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29829" target="_blank" rel="noopener">OptSkills: クラスターベースの蒸留を介して問題の原型から一般化可能な最適化スキルを学習する</a></h3>
      <p class="summary">大規模言語モデル (LLM) を活用して、自然言語から最適化問題を自動的に定式化し、解決することが、自動最適化の効率的なパラダイムとして浮上しています。しかし、既存の手法はまだ一般化が限られています。表面的な物語の変化に敏感で、主に事例レベルで経験を再利用し、変化した問題や新たな問題の種類に適応するのに苦労しています。私たちは、最適化モデリングと解決のための原型中心のスキル学習および推論エージェント システムである OptSkills を提案します。堅牢な一般化を向上させるために、私たちのシステムは、表面的な物語ではなく、その根底にある原型によって問題をクラスター化します。ディストリビューション内の一般化を改善するために、各クラスター内の多様なモデリング パラダイムとソルバー構成を調査し、成功した軌跡を再利用可能なワークフロー レベルのスキルに抽出します。分布外の一般化を改善するために、既存のスキルを改良するか、新しく取得した軌道を使用してスキル ライブラリを拡張します。当社のシステムは、さまざまな問題の種類とシナリオを含むデータセットで 68.27% という最先端のミクロ平均精度を達成しています。さらに、難易度の高い大規模かつ高次元のベンチマークである MIPLIB-NL では、26.91% の精度を達成し、DeepSeek-V3.2-Thinking を 4.53% 上回っています。 Nano-CO でスキルを学習すると、OOD NLCO ベンチマークで 72.79% に達します。コードとスキルは https://github.com/fujiwaranoM0kou/OptSkills で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">OptSkills: Learning Generalizable Optimization Skills from Problem Archetypes via Cluster-Based Distillation</p>
        <p class="orig-summary">Leveraging Large Language Models (LLMs) to automatically formulate and solve optimization problems from natural language has emerged as an efficient paradigm for automated optimization. However, existing methods still exhibit limited generalization: they are sensitive to superficial narrative variations, reuse experience mainly at the case level, and struggle to adapt to shifted or emerging problem types. We propose OptSkills, an archetype-centric skill learning and reasoning agent system for optimization modeling and solving. To improve robust generalization, our system clusters problems by their underlying archetypes rather than surface narratives. To improve in-distribution generalization, it explores diverse modeling paradigms and solver configurations within each cluster, then distills successful trajectories into reusable workflow-level skills. To improve out-of-distribution generalization, it refines existing skills or expands the skill library using newly obtained trajectories. Our system achieves a state-of-the-art micro-averaged accuracy of 68.27% on datasets encompassing diverse problem types and scenarios. In addition, on MIPLIB-NL, a highly challenging large-scale and high-dimensional benchmark, it achieves 26.91% accuracy, outperforming DeepSeek-V3.2-Thinking by 4.53%. After skill learning on Nano-CO, it reaches 72.79% on the OOD NLCO benchmark. Code and skills are available at https://github.com/fujiwaranoM0kou/OptSkills.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ed4d43d028f" data-article-url="https://arxiv.org/abs/2605.29833" data-article-title="OmniMatBench: 19 の材料科学サブフィールドにわたって人間が調整したマルチモーダル推論ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29833" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29833" target="_blank" rel="noopener">OmniMatBench: 19 の材料科学サブフィールドにわたって人間が調整したマルチモーダル推論ベンチマーク</a></h3>
      <p class="summary">科学研究においてマルチモーダル言語モデルの役割がますます重要になる中、材料科学はその学際的、マルチモーダル、そしてアプリケーション主導型の性質により重要なテストベッドを提供します。しかし、既存の材料ベンチマークは主に特性予測、知識 QA、または特性評価の理解に焦点を当てており、材料の知識から応用までのより広範な推論プロセスは十分に検討されていません。このギャップを埋めるために、人間が調整した材料科学用のマルチモーダル推論ベンチマークである OmniMatBench を紹介します。 OmniMatBench には、基本的な材料知識、構造材料および工学材料、材料の加工および製造、機能材料および応用材料に及ぶ 19 の材料科学サブ分野にわたって、専門家が厳選した 3,171 件の QA および計算問題が含まれています。私たちは 13 のオープンソースおよびクローズドソースの MLLM を評価し、最良のモデルが全体スコア 0.372 しか達成していないことがわかり、現在の材料科学推論に大きなギャップがあることが明らかになりました。さらに分析を進めると、サブフィールド間の大きなばらつき、固定された推論ヒューリスティック、不均一な材料知識、および数式、検索、およびコード支援設定下での高度な知識の適用が制限されていることが示されています。 OmniMatBench は、現在の MLLM の機能と限界についての重要な洞察を提供し、材料科学研究における信頼できる AI アシスタントの基盤を確立します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">OmniMatBench: A Human-Calibrated Multimodal Reasoning Benchmark Across 19 Materials Science Subfields</p>
        <p class="orig-summary">As multimodal language models play an increasingly important role in scientific research, materials science offers a critical testbed due to its interdisciplinary, multimodal, and application-driven nature. However, existing materials benchmarks mainly focus on property prediction, knowledge QA, or characterization understanding, leaving the broader reasoning process from materials knowledge to application underexplored. To fill this gap, we present OmniMatBench, a human-calibrated multimodal reasoning benchmark for materials science. OmniMatBench contains 3,171 expert-curated QA and calculation problems across 19 materials-science subfields, spanning fundamental materials knowledge, structural and engineering materials, materials processing and manufacturing, and functional and applied materials. We evaluate 13 open-source and closed-source MLLMs and find that the best model achieves only a 0.372 overall score, revealing a substantial gap in current materials-science reasoning. Further analysis shows strong variation across subfields, fixed reasoning heuristics, uneven materials knowledge, and limited high-level knowledge application under formula-, retrieval-, and code-assisted settings. OmniMatBench provides crucial insights into the capabilities and limitations of current MLLMs and establishes a foundation for reliable AI assistants in materials-science research.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6470d756b1bb" data-article-url="https://arxiv.org/abs/2605.29873" data-article-title="Moment-KV: 長期生成のための運動量ベースのデコード時間 KV キャッシュ圧縮" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29873" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29873" target="_blank" rel="noopener">Moment-KV: 長期生成のための運動量ベースのデコード時間 KV キャッシュ圧縮</a></h3>
      <p class="summary">Key-Value (KV) キャッシュは、長期世代のタスクで大規模言語モデル (LLM) を展開する際の大きなボトルネックのままです。以前の作業では、プレフィル キャッシュとデコード キャッシュの両方に均一な圧縮が適用されることがよくありましたが、プレフィル キャッシュを圧縮すると重要なコンテキストが破損するため、パフォーマンスが低下します。プレフィル キャッシュを保存することは不可欠ですが、デコード段階の圧縮はまだ研究されておらず、既存の方法は厳密な最新ウィンドウまたは瞬間的な注意に依存しています。私たちが注目のダイナミクスを分析したところ、強力な時間的パターンが明らかになりました。つまり、重要なトークンは長期にわたって持続的な注目を受け取るのに対し、局所的な推論には短期間のバーストが含まれます。静的ヒューリスティックではこの動作を捕捉できないため、重要なトークンが時期尚早に削除されたり、古いトークンが保持されたりする可能性があります。我々は、運動量駆動型の時間的注意集約に基づく復号時 KV キャッシュ圧縮法である Moment-KV を提案します。私たちの手法では、トークンの重要性を継続的に進化する状態としてモデル化し、注目が衰退とともに集約され、長期的な影響力と最近の関連性の両方を捉えます。実験では、Moment-KV がデコード レイテンシーを維持しながら、長い世代のタスクにおける生成忠実度を大幅に向上させる (2.3 ～ 3.2 %) ことが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Moment-KV: Momentum-Based Decode-Time KV Cache Compression for Long Generation</p>
        <p class="orig-summary">Key-Value (KV) cache remains a major bottleneck for deploying Large Language Models (LLMs) in long-generation tasks. Prior work often applies uniform compression across both prefill and decoding caches, but compressing the prefill cache degrades performance by corrupting critical context. While preserving the prefill cache is essential, decoding-phase compression remains underexplored, with existing methods relying on rigid recency windows or instantaneous attention. Our analysis of attention dynamics reveals strong temporal patterns: critical tokens receive sustained attention over long horizons, while local reasoning involves short-lived bursts. Static heuristics fail to capture this behavior, leading to premature eviction of important tokens or retention of stale ones. We propose Moment-KV, a decoding-time KV cache compression method based on momentum-driven temporal attention aggregation. Our method models token importance as a continuously evolving state, where attention is aggregated with decay, capturing both long-term influence and recent relevance. Experiments show that Moment-KV significantly improves generation fidelity in long-generation tasks (2.3-3.2 %) while maintaining decoding latency.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c61e8a024f4c" data-article-url="https://arxiv.org/abs/2605.29893" data-article-title="冗長ですか、それとも必要ですか?エージェントの軌跡における冗長なステップを検出するためのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29893" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29893" target="_blank" rel="noopener">冗長ですか、それとも必要ですか?エージェントの軌跡における冗長なステップを検出するためのベンチマーク</a></h3>
      <p class="summary">LLM ベースのエージェントは、複数ステップの推論とツールの使用を通じて複雑なタスクを解決する強力な機能を実証しています。しかし、既存の評価プロトコルは主にタスクの成功に焦点を当てており、エージェントの動作の重要な側面である実行効率を見落としています。実際には、エージェントの軌跡には、タスクの完了にはほとんど寄与しないものの、大量のリソースを消費する冗長なステップが含まれることがよくあります。この研究では、エージェントの軌跡に対する \textbf{冗長ステップ検出} という新しい研究領域を提案し、定式化します。この取り組みをサポートするために、\textbf{RedundancyBench} を導入します。これは、慎重に注釈が付けられた軌跡を持つ多様なタスクを含む新しいベンチマークであり、タスクの完了への貢献度に応じて各ステップにラベルが付けられます。 RedundancyBench を使用して、軌道内のステップが冗長であるか必要であるかを答えるための 3 つの代表的な方法を開発および評価します。私たちの結果は、最もパフォーマンスの高い方法でも冗長ステップの検出で 24.88\% のスコアしか達成できず、一部の方法ではランダムな推測よりもパフォーマンスが悪いことがわかりました。これらの結果は、このタスクの複雑さと、この分野におけるさらなる研究の必要性を浮き彫りにしています。 \footnote{この論文のコードとデータセットはどちらも \href{https://anonymous.4open.science/r/RedundancyBench}{https://anonymous.4open.science/r/RedundancyBench} で入手できます。}</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Redundant or Necessary? A Benchmark for Detecting Redundant Steps in Agent Trajectories</p>
        <p class="orig-summary">LLM-based agents have demonstrated strong capabilities in solving complex tasks through multi-step reasoning and tool use. However, existing evaluation protocols primarily focus on task success, overlooking a critical aspect of agent behavior: execution efficiency. In practice, agent trajectories often contain redundant steps that consume substantial resources while contributing little to task completion. In this work, we propose and formulate a new research area: \textbf{redundant step detection} for agent trajectories. To support this initiative, we introduce \textbf{RedundancyBench}, a new benchmark that contains diverse tasks with carefully annotated trajectories, where each step is labeled according to its contribution to task completion. Using RedundancyBench, we develop and evaluate 3 representative methods to answer whether a step within trajectory is redundant or necessary. Our results show that even the best-performing method achieves only 24.88\% score in detecting redundant steps, while some methods perform worse than random guessing. These results highlight the task&#x27;s complexity and the need for further research in this area. \footnote{Code and dataset in this paper are both available in \href{https://anonymous.4open.science/r/RedundancyBench}{https://anonymous.4open.science/r/RedundancyBench}.}</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8ee78c21253c" data-article-url="https://arxiv.org/abs/2605.29919" data-article-title="ゲームのジオメトリとそのソルバーについて" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29919" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29919" target="_blank" rel="noopener">ゲームのジオメトリとそのソルバーについて</a></h3>
      <p class="summary">ゲーム理論や GAN などの学習システムにおける中心的な課題は、どのアルゴリズムがゲームの異種混合環境全体で均衡を効率的に計算できるかを理解することです。平衡計算は通常、ソルバーごと、ゲーム クラスごとに研究され、強力な局所保証が得られますが、ソルバーの動作については断片的なビューが得られます。既存の離散分類法では、アルゴリズムがどこで成功するかについて不完全な説明が提供されることがよくあります。私たちは、ゲームを効果的なソルバー ダイナミクスにリンクするソルバー ゲーム マップを通じてこの問題を研究します。古典的な理論では、このマップの孤立した領域が特定されていますが、中間または重複する領域についての洞察は限られており、可解性はゲームのソルバーに合わせた連続ジオメトリを定義する潜在的な構造特性によって支配されることが示唆されています。私たちは、構造を意識したソルバー合成を通じてこの視点を形式化します。学習された構造認識器は各ゲームを低次元のソルバーに合わせた表現にマッピングし、ポリシーはこの表現を効果的な原始メカニズムにマッピングし、レジーム全体でソルバーの動作を適応させます。これにより、特定のソルバー ダイナミクスが効果的である領域と、単一の主要なソルバーではなくプリミティブの混合が必要な領域が明らかになります。有界残差は、不完全なソルバー ベースまたは表現に対するローカル補正および診断信号として機能します。このフレームワークは、適応ソルバーと分析レンズの両方を提供します。同様の最適化ダイナミクスを持つゲームがクラスター化され、アルゴリズムの有効性の連続領域と重複するソルバーの動作が明らかになります。経験的に、固定プリミティブは体系的なレジームの不一致を示す一方で、学習された表現はゲーム空間をソルバーの動作に合わせた構造化地図に組織化することを示します。これらの結果は、平衡計算をソルバーメカニズムの学習と可解性の幾何学的マッピングの共同問題として見ることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">On the Geometry of Games and their Solvers</p>
        <p class="orig-summary">A central challenge in game theory and learning systems such as GANs is understanding which algorithms can efficiently compute equilibria across the heterogeneous landscape of games. Equilibrium computation is typically studied solver by solver and game class by game class, yielding strong local guarantees but a fragmented view of solver behaviour. Existing discrete taxonomies often provide an incomplete account of where algorithms succeed. We study this problem through a solver-game map linking games to effective solver dynamics. Classical theory identifies isolated regions of this map but provides limited insight into intermediate or overlapping regimes, suggesting that solvability is governed by latent structural properties defining a continuous solver-aligned geometry of games. We formalise this perspective through structure-aware solver synthesis. A learned structure recogniser maps each game to a low-dimensional solver-aligned representation, and a policy maps this representation to effective primitive mechanisms, adapting solver behaviour across regimes. This reveals regions where particular solver dynamics are effective and where mixtures of primitives are required rather than a single dominant solver. A bounded residual acts as a local corrector and diagnostic signal for incomplete solver bases or representations. The framework yields both an adaptive solver and an analytical lens: games with similar optimisation dynamics cluster together, revealing continuous regions of algorithmic validity and overlapping solver behaviour. Empirically, we show that fixed primitives exhibit systematic regime mismatch, while the learned representation organises game space into a structured cartography aligned with solver behaviour. These results suggest viewing equilibrium computation as the joint problem of learning solver mechanisms and mapping the geometry of solvability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fee1a6a5f029" data-article-url="https://arxiv.org/abs/2605.29930" data-article-title="自己と他者を理解する AI システムに向けて: 人間の認知の多様性と世界モデルの整合のための多段階推論フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29930" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29930" target="_blank" rel="noopener">自己と他者を理解する AI システムに向けて: 人間の認知の多様性と世界モデルの整合のための多段階推論フレームワーク</a></h3>
      <p class="summary">現代社会における相互誤解は、単に意見や価値観の違いだけで生じるものではありません。同じ観察のもとでも、異なる主体は異なる推論ターゲット、状態表現、予測誤差、更新優先度を形成する可能性があります。この論文では、マルチフェーズ推論フレームワークを提案し、その中核となる内部メカニズムをマルチフェーズ推論メカニズム (MIM) として定義します。 MIM は、位相形成空間、前景フィールド、対象固有のプロファイル状態、および状態表現間の位置合わせマップを通じて、異種世界モデルがどのように生じるかを形式化します。これに基づいて、この論文は世界モデルの調整を、単一の価値体系への合意や収束を強制するのではなく、異種表現を相互に処理可能にする問題として再構成します。さらに、この形式主義を哲学的不一致、認知類型論、社会的断片化、AI の調整と結びつけます。その目的は、意味、価値、予測誤差の違いを可視化し、比較し、変換可能にすることで、人間が自己と他者を理解するのに役立つ建設的な語彙を AI システムに提供することです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Toward AI Systems That Understand Self and Others: A Multi-Phase Inference Framework for Human Cognitive Diversity and World-Model Alignment</p>
        <p class="orig-summary">Mutual misunderstanding in contemporary society does not arise merely because people hold different opinions or values. Even under the same observations, different subjects may form different inferential targets, state representations, prediction errors, and update priorities. This paper proposes a multi-phase inference framework and defines its core internal mechanism as the Multi-Phase Inference Mechanism (MIM). MIM formalizes how heterogeneous world models arise through a phase-formation space, a foregrounding field, subject-specific profile states, and alignment maps between state representations. On this basis, the paper reframes world-model alignment as the problem of making heterogeneous representations mutually processable, rather than forcing agreement or convergence to a single value system. It further connects this formalism to philosophical disagreements, cognitive typology, social fragmentation, and AI alignment. The aim is to provide a constructive vocabulary for AI systems that can help humans understand self and others by making differences in meaning, value, and prediction error visible, comparable, and transformable.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5f37af8e737a" data-article-url="https://arxiv.org/abs/2605.29931" data-article-title="重要なのはスピード: AI が音楽制作のワークフローに与える影響" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29931" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29931" target="_blank" rel="noopener">重要なのはスピード: AI が音楽制作のワークフローに与える影響</a></h3>
      <p class="summary">この論文では、音楽制作ワークフローに対する AI と自動化ツールの影響に関する民族誌的研究の結果を紹介します。特にレコーディング エンジニア、ミキサー、プロデューサーを名乗るプロの参加者に焦点を当て、彼らの一般的な AI や自動化ソフトウェアの使用法、およびこれらのツールの普及に対する彼らの感情について話し合います。速度と効率、制御性、創造的主体性の維持などの重要な分野でユーザーと自動化ツールの間に生じる可能性のある緊張と、ツールの設計を通じてこれらの緊張をどのように軽減できるかについて説明します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">It`s All About Speed: AI`s Impact on Workflow in Music Production</p>
        <p class="orig-summary">In this paper, we present the results of an ethnographic study into the impact of AI and automated tools on music production workflow. Focusing specifically on professional participants who identified as recording engineers, mixers, and producers, we discuss their usage of common AI and automated software, as well as their sentiments on the proliferation of these tools. We discuss tensions that may be created between users and automated tools in key areas such as the need for speed and efficiency, controllability, and maintaining creative agency, and how these tensions may be alleviated through tool design.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="12b68d6905ff" data-article-url="https://arxiv.org/abs/2605.29940" data-article-title="LLM にフィードバックを通じてストリーミング エクスペリエンスから合成する方法を学習させる" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29940" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29940" target="_blank" rel="noopener">LLM にフィードバックを通じてストリーミング エクスペリエンスから合成する方法を学習させる</a></h3>
      <p class="summary">大規模言語モデル (LLM) は合成データの生成に広く採用されており、アノテーションのコストが大幅に削減されています。しかし、既存の研究のほとんどは合成を一連の独立したタスクとして扱い、モデルが過去のタスクからの経験を蓄積し、それを将来のタスクに転送することによって合成を学習できるかどうかという、より基本的な問題を見落としています。この作業では、合成タスクが順番に到着し、過去のタスクからの経験が将来の合成に有益な信号を提供する新しい設定である StreamSynth を導入します。この設定に対処するために、合成モデルがタスク ストリームを通じて再利用可能な合成エクスペリエンスを取得できるようにする一般的なフレームワークである SynLearner を提案します。 SynLearner は、タスクごとに個別にデータを生成するのではなく、モデルが多様な合成パターンを探索し、フィードバックから学習し、タスクの進化に応じてサンプルの品質とセットレベルの多様性のバランスをとることを奨励します。複数のベンチマークにわたる広範な実験により、SynLearner が以前のタスクの経験を効果的に活用して後のタスクの合成パフォーマンスを向上させ、一貫したタスク間の移行性を示していることがわかりました。これらの発見は、StreamSynth の実現可能性の証拠を提供し、タスク ストリームから恩恵を受けることができるエクスペリエンス主導のプロセスとしての合成データ生成を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Make LLM Learn to Synthesize from Streaming Experiences through Feedback</p>
        <p class="orig-summary">Large language models (LLMs) have been widely adopted for synthetic data generation, significantly reducing annotation costs. However, most existing studies treat synthesis as a set of isolated tasks and overlook a more fundamental question: whether a model can learn to synthesize by accumulating experience from past tasks and transferring it to future ones. In this work, we introduce StreamSynth, a new setting in which synthesis tasks arrive sequentially and experience from historical tasks provides informative signals for future synthesis. To address this setting, we propose SynLearner, a general framework that enables synthesis models to acquire reusable synthesis experience over a task stream. Instead of generating data independently for each task, SynLearner encourages the model to explore diverse synthesis patterns, learn from feedback, and balance sample quality with set-level diversity as tasks evolve. Extensive experiments across multiple benchmarks show that SynLearner effectively leverages experience from earlier tasks to improve synthesis performance on later ones, exhibiting consistent cross-task transferability. These findings provide evidence for the feasibility of StreamSynth and highlight synthetic data generation as an experience-driven process that can benefit from task streams.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5b82df70b0b6" data-article-url="https://arxiv.org/abs/2605.29951" data-article-title="MuPHI: 意味的に根拠のある報酬の最適化による暗黙的なマルチモーダル危害推論の学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29951" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29951" target="_blank" rel="noopener">MuPHI: 意味的に根拠のある報酬の最適化による暗黙的なマルチモーダル危害推論の学習</a></h3>
      <p class="summary">本来は無害な画像とテキストのペア間の相互作用からどのように害が生じるかを理解するには、表面レベルの特徴を超えた、意図を認識したクロスモーダル推論が必要です。既存の視覚言語モデル (VLM) は、知覚的手がかりに対する文字通りの推論には優れていますが、暗黙的な文脈依存の推論に依存する有害なセマンティクスを導き出すことができないことがよくあります。構成的な危害の検出と推論に関する VLM を評価するために、危害が微妙なマルチモーダルな手がかりでエンコードされている画像とテキストのペアを含むデータセットである Multimodal Pragmatic Harm Interpretation (MuPHI) を導入します。 MuPHI はさまざまな危害カテゴリにまたがっており、VLM 推論チェーンを評価するための注釈付きの危害根拠が含まれています。 VLM の検出と推論の両方を改善するために、マルチパースペクティブ報酬を最適化することで共同セマンティクスを学習する推論強化トレーニング フレームワークである MuPHIRM を提案します。 MuPHIRM は、VLM の危害検出と推論の両方の品質を向上させると同時に、トレーニング済みベースラインと推論時間ベースラインの両方と比較して優れた配布外堅牢性を実証します。私たちの調査結果は、推論指向の報酬最適化が、ベンチマーク固有のショートカットを超えて一般化するマルチモーダル システムの構築に向けて有望な方向性を提供することを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MuPHI: Learning Implicit Multimodal Harm Reasoning via Semantically Grounded Reward Optimization</p>
        <p class="orig-summary">Understanding how harm emerges from interaction between otherwise benign image-text pairs requires intent-aware cross-modal reasoning beyond surface-level features. Existing vision-language models (VLMs) excel at literal reasoning over perceptual cues but often fail to derive harmful semantics that rely on implicit, context-dependent reasoning. To evaluate VLMs on compositional harm detection and reasoning, we introduce Multimodal Pragmatic Harm Interpretation (MuPHI), a dataset containing image-text pairs where harm is encoded in subtle multimodal cues. MuPHI spans diverse harm categories and includes annotated harm rationales for assessing VLM reasoning chains. To improve both detection and reasoning in VLMs, we propose MuPHIRM, a reasoning-augmented training framework which learns joint semantics by optimizing multi-perspective rewards. MuPHIRM improves both harm detection and reasoning quality of VLMs while demonstrating superior out-of-distribution robustness compared to both trained and inference-time baselines. Our findings suggest that reasoning-oriented reward optimization offers a promising direction towards building multimodal systems that generalize beyond benchmark-specific shortcuts.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1df9a99c5c1a" data-article-url="https://arxiv.org/abs/2605.29955" data-article-title="大規模な数学の形式化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29955" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29955" target="_blank" rel="noopener">大規模な数学の形式化</a></h3>
      <p class="summary">Lean 4 で Autoformalized Textbook Library At Scale (Atlas) を構築するためのマルチエージェント システムである AutoformBot を紹介します。 AutoformBot は、形式的な検証ツール、依存関係を意識したタスク スケジューリング、協調的なバージョン管理を備えた数千の LLM エージェントを調整し、非公式な教科書の散文を機械チェックされた定義と証明に変換します。私たちは、解析、代数、トポロジー、組合せ論、確率に及ぶ 26 冊のオープンアクセス教科書のコーパスに私たちの手法を適用し、45,000 を超えるリーン 4 宣言と 500,000 行を超えるコードの検証済みライブラリである Atlas を作成します。私たちは 2 つのアーティファクトをリリースします。(i) AutoformBot、オープンソースのマルチエージェント フレームワーク。 (ii) Atlas、結果として得られる正式なライブラリ。私たちの結果は、大学院レベルの数学の中核的な内容を大規模に自動形式化することが経済的かつ技術的に実現可能であることを示唆しています。これにより、人間が生成した数学と機械が生成した数学の両方を研究レベルで自動検証する扉が開かれます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Formalizing Mathematics at Scale</p>
        <p class="orig-summary">We present AutoformBot, a multi-agent system for building an Autoformalized Textbook Library At Scale (Atlas) in Lean 4. AutoformBot orchestrates thousands of LLM agents, equipped with formal verification tools, dependency-aware task scheduling, and collaborative version control, to translate informal textbook prose into machine-checked definitions and proofs. We apply our methods to a corpus of 26 open-access textbooks spanning analysis, algebra, topology, combinatorics, and probability, producing Atlas: a verified library of over 45,000 Lean 4 declarations and 500 thousand lines of code. We release two artifacts: (i) AutoformBot, the open-source multi-agent framework; and (ii) Atlas, the resulting formal library. Our results suggest that autoformalizing the core content of graduate-level mathematics at scale is now economically and technically feasible. This opens the door to the automated verification of both human- and machine-generated mathematics at a research level.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="52dda39941bb" data-article-url="https://arxiv.org/abs/2605.29965" data-article-title="線形時間の時間的解答セットプログラミングのためのメタプログラミング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29965" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29965" target="_blank" rel="noopener">線形時間の時間的解答セットプログラミングのためのメタプログラミング</a></h3>
      <p class="summary">Answer Set Programming (ASP) の時間的拡張の開発により、非単調線形時間 (TEL)、動的 (DEL)、およびメトリック (MEL) の時間平衡ロジックが出現しました。ただし、高度に最適化された ASP システムに固有の剛性により、代替論理設計の迅速な探索と実装が妨げられることがよくあります。この研究では、統一された宣言型フレームワークを通じてさまざまな時相論理のセマンティクスを操作できる柔軟なメタプログラミング フレームワークを提案します。私たちのアプローチは、 clingo の理論文法を形式的な型仕様とネスト機能で強化することにより、標準 ASP メタプログラミングを拡張します。セマンティックな正確性を確保するために、グラウンディング中の安定モデルベースの単純化からネストされたモダリティを保護する変換パイプラインを導入します。 TEL、MEL、および DEL のメタエンコーディングを実装することにより、フレームワークの拡張性を示します。 TEL の包括的な説明を提供し、MEL の間隔制約と DEL のフィッシャー・ラドナー閉包を管理するための主要な機能に焦点を当てます。最後に、このワークフローをカプセル化する多用途ツール、metasp システムを紹介します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Meta-Programming for Linear-time Temporal Answer Set Programming</p>
        <p class="orig-summary">The development of temporal extensions of Answer Set Programming (ASP) has led to the emergence of non-monotonic linear-time (TEL), dynamic (DEL), and metric (MEL) temporal equilibrium logics. However, the inherent rigidity of highly optimized ASP systems often hinders the rapid exploration and implementation of alternative logical designs. In this work, we propose a flexible meta-programming framework that operationalizes the semantics of varied temporal logics through a unified, declarative framework. Our approach extends standard ASP meta-programming by augmenting clingo&#x27;s theory grammar with formal type specifications and nesting capabilities. To ensure semantic correctness, we introduce a transformation pipeline that protects nested modalities from stable-model-based simplifications during grounding. We demonstrate the extensibility of our framework by implementing meta-encodings for TEL, MEL, and DEL. We provide a comprehensive account of TEL and highlight the key features for managing the interval constraints of MEL and the Fischer-Ladner closure in DEL. Finally, we introduce the metasp system, a versatile tool that encapsulates this workflow.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a8eeb539d0cc" data-article-url="https://arxiv.org/abs/2605.29966" data-article-title="Compass: 専門家のガイドによる LLM エージェントによる世界的な海洋リードデータの統合のナビゲート" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29966" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29966" target="_blank" rel="noopener">Compass: 専門家のガイドによる LLM エージェントによる世界的な海洋リードデータの統合のナビゲート</a></h3>
      <p class="summary">海洋鉛 (Pb) とその同位体は、海洋循環と人為的汚染の重要なトレーサーですが、現場での観察は依然として費用がかかり、まばらです。膨大な歴史的記録が存在する一方で、それらは学術論文の非構造化コンテンツの中に埋もれており、包括的な分析にアクセスできない「データサイロ」を生み出しています。手動による抽出には拡張性がなく、汎用の大規模言語モデル (LLM) には必要なドメイン固有の知識が不足しているため、幻覚や科学的に無効な出力が発生します。これに対処するために、LLM が微調整せずに厳密な科学データ抽出を実行できるようにする、専門家主導の適応アプローチを導入します。当社は、海洋科学者と共同設計したナレッジ ツリーによって強化された LLM エージェント フレームワークである Compass を通じてこのアプローチを運用しています。これは、複雑なタスクを検証可能なステップに分解し、科学的妥当性を確保するためにエージェントの推論を導きます。 230,000 件を超える関連するオープンアクセス論文のコーパス全体に Compass を導入することで、これまで組み込まれていなかった 3,751 件の Pb レコードを抽出することに成功しました。この取り組みにより、これまでで最大の統合海洋 Pb データベースが確立されました。標準的な指標を超えて、Compass は多層検証を通じて優れた信頼性を実証し、専門家の手動検証で確認されたとおり 92% の精度を達成しています。新たに統合されたデータは、東シナ海や南極海など、これまでサンプリングが不十分だった地域のカバー範囲を拡大し、将来の科学的発見のための充実したデータ基盤を提供します。私たちは、オープンな科学的アクセスを促進するために、インタラクティブな視覚化プラットフォームをリリースします。私たちの研究は、専門家がガイドするエージェントが汎用 LLM と一か八かの科学領域の間のギャップを効果的に埋め、地球科学におけるスケーラブルなデータ発見を可能にすることを実証しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Compass: Navigating Global Marine Lead Data Integration through Expert-Guided LLM Agent</p>
        <p class="orig-summary">Marine lead (Pb) and its isotopes are critical tracers for ocean circulation and anthropogenic pollution, yet in-situ observations remain costly and sparse. While vast historical records exist, they lie buried within the unstructured content of academic papers, creating &quot;data silos&quot; inaccessible to comprehensive analysis. Manual extraction is unscalable, while general-purpose Large Language Models (LLMs) lack the necessary domain-specific knowledge, leading to hallucinations and scientifically invalid outputs. To address this, we introduce an expert-guided adaptation approach that enables LLMs to perform rigorous scientific data extraction without fine-tuning. We operationalize this approach through Compass, an LLM agent framework enhanced by a Knowledge Tree co-designed with marine scientists, which decomposes complex tasks into verifiable steps, guiding the agent&#x27;s reasoning to ensure scientific validity. Deploying Compass across a corpus of over 230,000 relevant open-access papers, we successfully extract 3,751 previously unincorporated Pb records. This effort establishes the largest integrated marine Pb database to date. Beyond standard metrics, Compass demonstrates superior reliability through multi-layered validation, achieving 92% accuracy as confirmed through expert manual verification. The newly integrated data expand coverage in previously under-sampled regions such as the East China Sea and the Southern Ocean, providing an enriched data foundation for future scientific discoveries. We release an interactive visualization platform to facilitate open scientific access. Our work demonstrates that expert-guided agents can effectively bridge the gap between general-purpose LLMs and high-stakes scientific domains, enabling scalable data discovery in geosciences.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="59913df8db78" data-article-url="https://arxiv.org/abs/2605.29986" data-article-title="トークンスペース圧縮による制約付きデコードの高速化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29986" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29986" target="_blank" rel="noopener">トークンスペース圧縮による制約付きデコードの高速化</a></h3>
      <p class="summary">LLM の出力が指定された構造に準拠していることを保証するために、文脈自由文法 (CFG) デコード エンジンは、指定された CFG に準拠する文字列を生成する次のトークンの選択を強制します。現在の CFG 制約付きデコード エンジンは高度に最適化されていますが、ステップごとの膨大な検索スペース (つまり、トークン語彙全体) から生じる固有のコストにより、より複雑な CFG では手に負えないほど高いオーバーヘッドが発生します。これはまさに CFG エンジンが最も役立つ状況です。このペーパーでは、トークン検索スペースを圧縮するためのオフライン技術である CFGzip を紹介します。これにより、CFG エンジンのオーバーヘッドが大幅に削減されます。実験では、CFGzip を SoTA 文法エンジンとともに使用すると、レイテンシーが最大 2 桁削減され、制約付き生成時間の合計が最大 7.5 倍高速化されることが報告されています。CFGzip を使用すると、複雑な CFG に対して大規模な制約付きデコードが実現可能になります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Accelerating Constrained Decoding with Token Space Compression</p>
        <p class="orig-summary">To guarantee that an LLM&#x27;s outputs conform to a specified structure, context-free grammar (CFG) decoding engines force the selection of next tokens that produce strings that conform to a given CFG. While current CFG-constrained decoding engines are highly optimized, the inherent costs arising from the massive per-step search space -- i.e. the entire token vocabulary -- result in intractably high overhead for more complex CFGs: precisely the situation where CFG engines are most useful. In this paper, we introduce CFGzip, an offline technique for compressing the token search space, which massively reduces CFG engine overhead. In experiments, we report latency reduction of up to two orders of magnitude when CFGzip is used with a SoTA grammar engine, yielding an up to 7.5x speedup in total constrained generation time: with CFGzip, constrained decoding is now feasible at scale for complex CFGs.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1c174e47c432" data-article-url="https://arxiv.org/abs/2605.30000" data-article-title="Cookie-Bench: Web 生成のための継続的なオンスクリーンキーインタラクション評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30000" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30000" target="_blank" rel="noopener">Cookie-Bench: Web 生成のための継続的なオンスクリーンキーインタラクション評価</a></h3>
      <p class="summary">フロントエンドの Web コードは、すべてのフロンティア LLM リリースの中核的な製品面となっていますが、アリーナのような人間が判断するリーダーボードは拡張できないため、これらのインタラクティブ アプリケーションを開発スピードで評価することは依然としてコストがかかります。既存の自動プロキシは通常、リファレンス実装、テスト スイート、または厳密なチェックリストに依存しており、人間のレビュー担当者がライブ セッションで実行する合理的な合成を見逃す傾向があります。私たちは、同時に参照フリーで、自律的に駆動され、総合的に推論される新しい評価体制を明確にし、2 つの成果物を通じてそれをインスタンス化します。 \textbf{\dataname} は、静的プレゼンテーション タスクと対話型アプリケーション タスクの両方にまたがる 11 ドメイン、54 リーフ、1,000 クエリの WebDev ベンチマークであり、3 つの難易度層と 3 つのターゲット言語グループにわたってバランスが取れており、回覧されたプロンプトから思い出せないようにブリーフが書き直されています。 \textbf{\framename} は、Flavell のメタ認知モニタリングに基づいており、証拠の蓄積と判断を 3 つの段階にわたって分離します。静的な知覚は受動的な観察から第一印象を形成します。エージェント駆動のインタラクションは、連続画面のビデオ、音声、およびステップごとのスクリーンショットをキャプチャしながら、アプリケーションを自律的に探索します。動的スコアリングは、証拠チェーンが完了した後にのみ、構造化された失敗の帰属を伴う全体的な機能性と美的判断を発行します。 \dataname では、\framename は専門家による評価と厳密に一致しており、インタラクティブな Web 生成に関して 13 のフロンティア LLM 全体でかなりのヘッドルームを表面化しています。 \noindenthttps://anonymous.4open.science/r/Cookie-3CE/</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Cookie-Bench: Continuous On-screen Key Interaction Evaluation for Web Generation</p>
        <p class="orig-summary">Front-end web code has become a core product surface for every frontier LLM release, yet evaluating these interactive applications at development speed remains costly because human-judged leaderboards like Arena do not scale. Existing automated proxies typically lean on reference implementations, test suites, or rigid checklists, and tend to miss the reasoned synthesis a human reviewer performs over a live session. We articulate a new evaluation regime that is simultaneously reference-free, autonomously driven, and holistically reasoned, and instantiate it through two artifacts. \textbf{\dataname} is an 11-domain, 54-leaf, 1,000-query WebDev benchmark spanning both static-presentation and interactive-application tasks, balanced across three difficulty tiers and three target-language groups, with briefs rewritten to resist recall from circulated prompts. \textbf{\framename}, grounded in Flavell&#x27;s metacognitive monitoring, separates evidence accumulation from judgment across three stages: Static Perception forms a first impression from passive observation; Agent-Driven Interaction explores the application autonomously while capturing continuous screen video, audio, and per-step screenshots; Dynamic Scoring issues holistic functionality and aesthetics verdicts with structured failure attribution only after the evidence chain is complete. On \dataname, \framename aligns closely with expert human ratings while surfacing substantial headroom across 13 frontier LLMs on interactive web generation. \noindenthttps://anonymous.4open.science/r/Cookie-3CE/</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d15a23889caa" data-article-url="https://arxiv.org/abs/2605.30002" data-article-title="KairosAgent: 融合されたセマンティック推論を使用したエージェント時系列予測" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30002" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30002" target="_blank" rel="noopener">KairosAgent: 融合されたセマンティック推論を使用したエージェント時系列予測</a></h3>
      <p class="summary">クロスドメインのマルチモーダル時系列予測は困難なタスクであり、正確な数値的理解、クロスドメインの意味論的理解、効果的なマルチモーダル融合を統合するモデルが必要です。既存のアプローチでは、Time Series Foundation Model (TSFM) を最初から構築するか、事前トレーニングされた Large Language Model (LLM) を活用します。しかし、TSFM は意味の理解を見逃していることが多く、未来志向の意味論的推論を実行する能力に欠けており、LLM は数値的な理解と正確な定量的予測に苦労しています。これらの制限を克服するために、LLM ベースの推論機能と TSFM ベースの予測機能を含む、マルチモーダル時系列予測のための新しいエージェント フレームワークである KairosAgent を提案します。 KairosAgent は、分析ツールを動的に呼び出してテキスト推論と数値予測を統合し、LLM の数値理解と意味論的推論機能を強化します。その後、推論の結果が TSFM パイプラインに融合され、より正確で信頼性の高い将来予測が可能になります。推論をさらに改善するために、マルチターンの改良とターンレベルの単位の割り当てを備えた予測パラダイムからの強化学習と並行して、高品質の軌道の大規模なコーパスを厳選しました。実験では、KairosAgent が事前トレーニングされた LLM と TSFM の有用性を最大化しながら優れたゼロショット予測パフォーマンスを達成することを実証し、効率的で解釈可能な時系列エージェントの有望な方向性を示しています。プロジェクト ページは https://foundation-model-research.github.io/KairosAgent にあります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">KairosAgent: Agentic Time Series Forecasting with Fused Semantic Reasoning</p>
        <p class="orig-summary">Cross-domain multimodal time series forecasting is a challenging task, requiring models to integrate precise numerical comprehension, cross-domain semantic understanding, and effective multimodal fusion. Existing approaches either build Time Series Foundation Models (TSFMs) from scratch or leverage pretrained Large Language Models (LLMs). However, TSFMs often overlook semantic understanding and lack the ability to perform future-oriented semantic reasoning, and LLMs struggle with numerical comprehension and accurate quantitative forecasting. To overcome these limitations, we propose KairosAgent, a novel agentic framework for multimodal time series forecasting, including an LLM-based reasoner and a TSFM-based forecaster. KairosAgent unifies textual reasoning and numerical forecasting by dynamically invoking analytical tools to enhance the numerical understanding and semantic reasoning capabilities of LLMs. The reasoning results are subsequently fused into the TSFM pipeline, enabling more accurate and reliable future predictions. To further improve the reasoning, we curate a large-scale corpus of high-quality trajectories, alongside a reinforcement learning from forecasting paradigm with multi-turn refinement and turn-level credit assignment. Experiments demonstrate that KairosAgent achieves superior zero-shot forecasting performance while maximizing the utility of pretrained LLMs and TSFMs, presenting a promising direction for efficient and interpretable time series agents. The project page is at https://foundation-model-research.github.io/KairosAgent .</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a61ce3a804e1" data-article-url="https://arxiv.org/abs/2605.30014" data-article-title="GPS ポイントから移動パターンまで: LLM による柔軟でセマンティックな軌道生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30014" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30014" target="_blank" rel="noopener">GPS ポイントから移動パターンまで: LLM による柔軟でセマンティックな軌道生成</a></h3>
      <p class="summary">都市の軌跡は、都市ダイナミクスをモデル化し、さまざまなスマート シティ アプリケーションをサポートする上で重要な役割を果たします。ただし、プライバシー上の懸念により、大規模で高品質の軌道データセットへのアクセスは制限されています。軌道生成は、現実的なデータを合成してプライバシー リスクを軽減する、有望な代替手段を提供します。しかし、既存の方法では移動パターンを明示的に捉えることができず、単一の条件下で固定長の軌道しか生成できません。これらの制限に対処するために、\textbf{HTP} を提案します。これは、GPS ポイントを直接生成するのではなく、\textbf{H} が最初に \textbf{T}ravel パターンを階層的に生成し、次に大規模言語モデル (LLM) を使用して GPS \textbf{P} ポイントを生成します。まず、ミクロレベルの GPS 軌道を粗いから細かい方法でコンパクトなマクロレベルの移動パターン トークンに量子化する、軌道固有の残差量子化変分オートエンコーダ (RQ-VAE) を設計します。これらのトークンは、交通状況によって引き起こされるポイント密度の変動など、リッチ セグメントの空間的不規則性をキャプチャします。次に、LLM ボキャブラリを移動パターン トークンで拡張して、軌道表現を LLM 入力と整合させ、教師あり微調整 (SFT) を適用して LLM を軌道生成タスクと整合させ、さまざまな条件下で移動パターン シーケンスを生成できるようにします。 2 つの現実世界のデータセットに対する広範な実験により、HTP は生成品質の点で最も強力なベースラインを平均 29.78\% 上回っていることが示されています。私たちのコードは https://github.com/slzhou-xy/HTP で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From GPS Points to Travel Patterns: Flexible and Semantic Trajectory Generation with LLMs</p>
        <p class="orig-summary">Urban trajectories play a crucial role in modeling urban dynamics and supporting various smart city applications. However, privacy concerns restrict access to large-scale and high-quality trajectory datasets. Trajectory generation provides a promising alternative by synthesizing realistic data to mitigate privacy risks. However, existing methods fail to explicitly capture travel patterns and can only generate fixed-length trajectories under a single condition. To address these limitations, we propose \textbf{HTP}, which \textbf{H}ierarchically generates \textbf{T}ravel patterns first and then generates GPS \textbf{P}oints by using large language models (LLMs), rather than directly generating GPS points. We first design a trajectory-specific residual quantization variational autoencoder (RQ-VAE) that quantizes micro-level GPS trajectories into compact, macro-level travel pattern tokens in a coarse-to-fine manner. These tokens capture rich segment spatial irregularities, such as point density variations caused by traffic conditions. Then, we extend the LLM vocabulary with travel pattern tokens to align trajectory representations with the LLM input, and apply supervised fine-tuning (SFT) to align the LLM with the trajectory generation task, enabling generation of travel pattern sequences under various conditions. Extensive experiments on two real-world datasets show that HTP outperforms the strongest baseline by an average of 29.78\% in terms of generation quality. Our code is available at https://github.com/slzhou-xy/HTP.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dbc7a880ddf0" data-article-url="https://arxiv.org/abs/2605.30029" data-article-title="RAISE: アーキテクチャ検索問題としての RAG 設計" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30029" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30029" target="_blank" rel="noopener">RAISE: アーキテクチャ検索問題としての RAG 設計</a></h3>
      <p class="summary">検索拡張生成 (RAG) システムでは、クエリの書き換え、チャンキング、検索の深さ、再ランキング、およびコンテキスト圧縮に及ぶ数多くの設計上の選択肢が明らかになります。実際には、これらの選択はヒューリスティックによって構成されることが多く、設定全体での体系的な評価と再現性が妨げられます。私たちは、この課題は RAG アーキテクチャの検索として定式化するのが最適であると主張します。この問題の制御された再現可能な研究をサポートするために、RAG ハイパーパラメータ最適化の包括的なフレームワークおよびベンチマークである RAG Intelligence Search Engine (RAISE) を導入します。これは、標準化された検索スペースと予算の下で RAG パイプラインの最適化方法を評価します。 RAISE は 13 の検索アルゴリズムを実装し、3 つのランダム シードを使用して 7 つのパブリック テキストおよびマルチモーダル データセットにわたってそれらを評価します。私たちの実験は、最適化のパフォーマンスがタスクに大きく依存することを示しています。つまり、あるデータセットで優れたパフォーマンスを発揮する手法が、他のデータセットでは一貫して一般化できない可能性があり、集計されたランキングを普遍的に優れた戦略の証拠として解釈することには注意が必要です。 RAISE は、RAG ハイパーパラメータの最適化に関する公正で再現性のある体系的な研究のための共通の実験基盤を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">RAISE: RAG Design as an Architecture Search Problem</p>
        <p class="orig-summary">Retrieval-augmented generation (RAG) systems expose numerous design choices spanning query rewriting, chunking, retrieval depth, reranking, and context compression. In practice, these choices are often configured through heuristics, hindering systematic evaluation and reproducibility across settings. We argue that this challenge is best formulated as RAG architecture search. To support controlled and reproducible study of this problem, we introduce the RAG Intelligence Search Engine (RAISE), a comprehensive framework and benchmark for RAG hyperparameter optimization, which evaluates optimization methods for RAG pipelines under standardized search spaces and budgets. RAISE implements 13 search algorithms and evaluates them across seven public text and multimodal datasets using three random seeds. Our experiments show that optimization performance is highly task-dependent: methods that perform strongly on one dataset may not generalize consistently across others, cautioning against interpreting aggregate rankings as evidence of universally superior strategies. RAISE provides a common experimental substrate for fair, reproducible, and systematic research on RAG hyperparameter optimization.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4cdd57de1820" data-article-url="https://arxiv.org/abs/2605.30036" data-article-title="機械に値を教える: LLM で人間のような動作をシミュレートする" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30036" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30036" target="_blank" rel="noopener">機械に値を教える: LLM で人間のような動作をシミュレートする</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、さまざまなペルソナや役割を採用する驚くべき能力を示しています。ただし、彼らが一貫した人間のような価値観に準拠した行動を示すことができるかどうかは依然として不明です。この研究では、確立された心理的価値理論を利用して、LLM に人間のような価値を誘導し、人間の研究で観察されたパターンとの整合性を評価します。私たちは、検証済みの心理学的アンケートを使用して、主要な LLM の価値観構造と価値観と行動の関係を評価し、人間と比較するために、500 万件を超える大規模な実験を実施しています。私たちの調査結果は、価値を重視する LLM と人間の間の両方の側面における強い一致を明らかにしています。さらに、人間の価値分布を組み込むことで、価値誘導 LLM による集団レベルのシミュレーションが強化されます。これらの発見は、人間の行動をシミュレートするための効果的で心理的に根拠のあるツールとしての価値誘導型 LLM の可能性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Teaching Values to Machines: Simulating Human-Like Behavior in LLMs</p>
        <p class="orig-summary">Large Language Models (LLMs) demonstrate a remarkable capacity to adopt different personas and roles; however, it remains unclear whether they can manifest behavior that adheres to a coherent, human-like value structure. In this work, we draw on established psychological value theory to induce human-like values in LLMs and assess their alignment with patterns observed in human studies. Using validated psychological questionnaires, we conduct large-scale experiments -- over 5 million questions -- to evaluate value structures and value-behavior relationships in leading LLMs and compare them to humans. Our findings reveal strong agreement between value-prompted LLMs and humans across both dimensions. Moreover, incorporating human value distributions enhances population-level simulations with value-induced LLMs. These findings highlight the potential of value-induced LLMs as effective, psychologically grounded tools for simulating human behavior.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7a20b53c6305" data-article-url="https://arxiv.org/abs/2605.30039" data-article-title="最小限の十分表現学習による LLM のドメイン固有のデータ合成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30039" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30039" target="_blank" rel="noopener">最小限の十分表現学習による LLM のドメイン固有のデータ合成</a></h3>
      <p class="summary">大規模言語モデルは汎用機能において目覚ましい進歩を示しており、ドメイン固有のデータを微調整することで特定のドメインで強力なパフォーマンスを達成できます。ただし、対象ドメインの高品質データを取得することは依然として大きな課題です。既存のデータ合成アプローチは演繹的パラダイムに従っており、自然言語で表現された明示的なドメイン記述と注意深くプロンプト エンジニアリングに大きく依存しており、ドメインを説明したり形式的に表現したりすることが難しい現実のシナリオへの適用性が制限されています。この研究では、帰納的パラダイムを通じてドメイン固有のデータ合成という未解明な問題に取り組みます。このパラダイムでは、特にドメインの特性を自然言語で表現することが難しい場合に、ターゲット ドメインが一連の参照例を通じてのみ定義されます。私たちは、参照サンプルから最小限の十分なドメイン表現を学習し、それを活用してドメインが調整された合成データの生成をガイドする新しいフレームワーク DOMINO を提案します。 DOMINO は、サンプル固有のノイズからドメインレベルのパターンを分離し、コアドメインの特性を維持しながらオーバーフィッティングを軽減するために、コントラストのもつれを解く目的とプロンプトチューニングを統合します。理論的には、DOMINO が合成データ配布のサポートを拡張し、より大きな多様性を確保することを証明します。経験的に、ドメイン定義が暗黙的である困難なコーディング ベンチマークでは、DOMINO によって合成されたデータを微調整すると、強力な命令調整されたバックボーンに比べて Pass@1 の精度が最大 4.63\% 向上し、その有効性と堅牢性が実証されました。この取り組みは、ドメイン固有のデータ合成のための新しいパラダイムを確立し、手動のプロンプト設計や自然言語ドメイン仕様を必要とせずに、実用的でスケーラブルなドメイン適応を可能にします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Domain-Specific Data Synthesis for LLMs via Minimal Sufficient Representation Learning</p>
        <p class="orig-summary">Large Language Models have demonstrated remarkable progress in general-purpose capabilities and can achieve strong performance in specific domains through fine-tuning on domain-specific data. However, acquiring high-quality data for target domains remains a significant challenge. Existing data synthesis approaches follow a deductive paradigm, heavily relying on explicit domain descriptions expressed in natural language and careful prompt engineering, limiting their applicability in real-world scenarios where domains are difficult to describe or formally articulate. In this work, we tackle the underexplored problem of domain-specific data synthesis through an inductive paradigm, where the target domain is defined only through a set of reference examples, particularly when domain characteristics are difficult to articulate in natural language. We propose a novel framework, DOMINO, that learns a minimal sufficient domain representation from reference samples and leverages it to guide the generation of domain-aligned synthetic data. DOMINO integrates prompt tuning with a contrastive disentanglement objective to separate domain-level patterns from sample-specific noise, mitigating overfitting while preserving core domain characteristics. Theoretically, we prove that DOMINO expands the support of the synthetic data distribution, ensuring greater diversity. Empirically, on challenging coding benchmarks where domain definitions are implicit, fine-tuning on data synthesized by DOMINO improves Pass@1 accuracy by up to 4.63\% over strong, instruction-tuned backbones, demonstrating its effectiveness and robustness. This work establishes a new paradigm for domain-specific data synthesis, enabling practical and scalable domain adaptation without manual prompt design or natural language domain specifications.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7edb3ae4cf83" data-article-url="https://arxiv.org/abs/2605.30042" data-article-title="選択の学習: 適応的な方法選択のためのセマンティック通信を備えたエンパワーメントに基づくマルチエージェント システム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30042" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30042" target="_blank" rel="noopener">選択の学習: 適応的な方法選択のためのセマンティック通信を備えたエンパワーメントに基づくマルチエージェント システム</a></h3>
      <p class="summary">科学技術計算のワークフローを自動化するには、実行可能コードを生成するだけでは不十分です。自律システムは、適切な計算戦略を選択し、忠実に実装し、結果として得られる結果が、その結果を生み出した意思決定に因果的に帰属することを保証する必要もあります。マルチエージェント パイプラインでは、このプロセスは特に脆弱です。エージェントの意図とアクションの間の小さな不一致がセマンティック ドリフトを引き起こす可能性があり、最終的に実行される手順が最初に選択された戦略を反映しなくなり、下流の評価と適応が損なわれます。この研究では、ATHENA フレームワーク (Toscano et al., 2025; Toscano et al., 2026) とエンパワーメントの概念 (Yiu et al., 2025) を動機として、コンテキスト バンディットと構造化されたエージェント間コミュニケーション、そして最も重要なことに、パイプライン全体でアクションと結果の忠実度を維持するセマンティック チェックポイントを組み合わせたマルチエージェント フレームワークを導入します。このシステムは、適応型意思決定アーキテクチャ内に、特殊なラージ言語モデル (LLM) エージェント、根拠のあるコード生成、自己修復実行ループを統合します。エンパワーメントのレンズを通してフレームワークを解釈すると、信頼性の高い自律学習には、高品質のアクションを特定するだけでなく、エージェント全体への伝播の完全性を維持することも必要であることがわかります。代表的なケーススタディとして感度分析と不確実性の定量化ワークフローを使用して、チェックされていないセマンティックドリフトが政策学習を低下させるのに対し、提案されたフレームワークは収束性、堅牢性、および新しい問題コンテキストへの適応を向上させることを実証します。これらの結果は、科学マルチエージェント システムのより広範な設計原則を示唆しています。つまり、適応的な意思決定は、意味の一貫性と計算パイプライン全体にわたる信頼性の高い情報フローを保証する明示的なメカニズムと組み合わせる必要があります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Learning to Choose: An Empowerment-Guided Multi-Agent System with semantic communication for Adaptive Method Selection</p>
        <p class="orig-summary">Automating scientific computing workflows requires more than generating executable code: autonomous systems must also select appropriate computational strategies, implement them faithfully, and ensure that the resulting outcomes remain causally attributable to the decisions that produced them. In multi-agent pipelines, this process is particularly fragile, as small inconsistencies between agent intentions and actions can lead to semantic drift, where the eventually executed procedure no longer reflects the originally selected strategy, thereby corrupting downstream evaluation and adaptation. In this work, motivated by the ATHENA framework (Toscano et al., 2025; Toscano et al., 2026) and the concept of empowerment (Yiu et al., 2025), we introduce a multi-agent framework that combines contextual bandits with structured inter-agent communication and, most importantly, semantic checkpoints that preserve action-outcome fidelity throughout the pipeline. The system integrates specialized large language model (LLM) agents, grounded code generation, and self-healing execution loops within an adaptive decision-making architecture. Interpreting the framework through the lens of empowerment, we show that reliable autonomous learning requires not only identifying high-quality actions, but also preserving the integrity of their propagation across agents. Using sensitivity analysis and uncertainty quantification workflows as representative case studies, we demonstrate that unchecked semantic drift degrades policy learning, whereas the proposed framework improves convergence, robustness, and adaptation to novel problem contexts. These results suggest a broader design principle for scientific multi-agent systems: adaptive decision-making must be coupled with explicit mechanisms that guarantee semantic consistency and reliable information flow across the computational pipeline.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="668c20f6e2b6" data-article-url="https://arxiv.org/abs/2605.30049" data-article-title="テキストから画像への拡散変換のための堅牢かつ一般化可能な安全ステアリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30049" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30049" target="_blank" rel="noopener">テキストから画像への拡散変換のための堅牢かつ一般化可能な安全ステアリング</a></h3>
      <p class="summary">拡散トランスフォーマーはテキストから画像への生成の強力なバックボーンとなっていますが、その階層化されたクロスモーダル生成プロセスにより、安全制御はプロンプトレベルのフィルタリングや出力レベルの検出とは根本的に異なります。有害なセマンティクスは、テキスト表現では弱く表現され、徐々に視覚的な潜在力と結びつき、最終的にはレンダリング ダイナミクスと絡み合う可能性があります。その結果、固定層での安全ステアリングが不安定になる可能性があり、既知のリスクから学習したステアリングメカニズムが、シフトされたターゲットリスクドメインに確実に移行しない可能性があります。我々は、DiT 安全適応を位置認識の疎な特徴転送として定式化する安全ステアリング フレームワークである SafeDIG を提案します。 SafeDIG はまず、機能的に異なる DiT 介入位置にスパース オートエンコーダを構築し、ロバスト性を意識した事前トレーニング ルーティングを使用して、ソースとターゲットのリスク シフトの下でも安定を維持すると予想される介入部位を優先します。次に、SAE エンコーダを再利用可能なスパース安全ディクショナリとしてフリーズし、デコーダのみをターゲット ドメインのアクティベーション マニホールドに適応させることで、転送可能な安全機能をドメイン固有のアクティベーション ジオメトリから分離します。推論中、SafeDIG はブレンド操作と反発操作を組み合わせて、安全でないアクティベーションを転送された安全マニホールドに向けて誘導するか、有害なまばらな方向から遠ざけます。 FLUX.1 Dev と Stable Diffusion 3.5 Large の実​​験では、SafeDIG がソース ドメインの安全性と画質を維持しながら、ターゲット ドメインと全体的な安全でない生成率を一貫して削減することが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Robust and Generalizable Safety Steering for Text-to-Image Diffusion Transformers</p>
        <p class="orig-summary">Diffusion Transformers have become a powerful backbone for text-to-image generation, but their layered and cross-modal generation process makes safety control fundamentally different from prompt-level filtering or output-level detection. Harmful semantics may be weakly expressed in text representations, progressively bound to visual latents, and finally entangled with rendering dynamics. As a result, safety steering at a fixed layer can be unstable, and a steering mechanism learned from known risks may not transfer reliably to a shifted target risk domain. We propose SafeDIG, a safety steering framework that formulates DiT safety adaptation as position-aware sparse feature transfer. SafeDIG first constructs Sparse Autoencoders over functionally distinct DiT intervention positions and uses robustness-aware pre-training routing to prioritize intervention sites that are expected to remain stable under source-target risk shift. It then separates transferable safety features from domain-specific activation geometry by freezing the SAE encoder as a reusable sparse safety dictionary and adapting only the decoder to the target-domain activation manifold. During inference, SafeDIG combines Blend and Repel operations to steer unsafe activations toward transferred safety manifolds or away from harmful sparse directions. Experiments on FLUX.1 Dev and Stable Diffusion 3.5 Large show that SafeDIG consistently reduces target-domain and overall unsafe generation rates while preserving source-domain safety and image quality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2496efc85743" data-article-url="https://arxiv.org/abs/2605.30085" data-article-title="推論トレースプレフィックスの正式な認証" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30085" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30085" target="_blank" rel="noopener">推論トレースプレフィックスの正式な認証</a></h3>
      <p class="summary">言語モデル推論トレースが全か無であることはほとんどありません。多くの場合、重大なエラーが発生する前の有効な中間ステップが含まれています。既存の不確実性を定量化する方法は、通常、最終的な回答または全体的な回答を証明するものであり、安全に保持できる連続したトレースの割合について統計的な保証を提供できません。これに対処するために、クリーン プレフィックス認証のための検証者に依存しない校正手順である CROP (Conformal Reasoning Output Prefixes) を導入します。ステップレベルのリスクプロキシが与えられると、CROP は調整済みのしきい値を選択し、ステップリスクプロキシがその下に残る最長の連続プレフィックスを返し、未認定のサフィックスを下流のレビューまたは修復のためにルーティングします。 CROP は交換可能性を前提として、返されるプレフィックスに注釈付きエラーが含まれる限界確率を厳密に制御します。 6 つのプロセスラベル付き推論データセットにわたって、AUROC などの標準的なステップレベルのメトリクスがプレフィックスの有用性を完全には捉えていないことを実証し、検証者は代わりに認定されたプレフィックス長によって評価されるべきであることを示唆しています。さらに、CROP は過大な源泉徴収と過小な源泉徴収のバランスをとり、誤解を招く接尾辞を破棄しながら有効な中間推論を保持することで下流の修復精度を向上させます。最終的に、この取り組みは、プレフィックス認証を、プロセスの監督、棄権、修復の間の厳格で実用的な橋渡しとして位置付けています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Conformal Certification of Reasoning Trace Prefixes</p>
        <p class="orig-summary">Language model reasoning traces are rarely all-or-nothing; they frequently contain valid intermediate steps before a critical error occurs. Existing uncertainty quantification methods typically certify final answers or entire responses, failing to provide statistical guarantees for the proportion of a sequential trace that can be safely retained. To address this, we introduce CROP (Conformal Reasoning Output Prefixes), a verifier-agnostic calibration procedure for clean-prefix certification. Given any step-level risk proxy, CROP selects a calibrated threshold and returns the longest contiguous prefix whose step risk proxies remain below it, routing the uncertified suffix for downstream review or repair. Assuming exchangeability, CROP rigorously controls the marginal probability that the returned prefix contains an annotated error. Across six process-labeled reasoning datasets, we demonstrate that standard step-level metrics such as AUROC do not fully capture prefix utility, suggesting verifiers should instead be evaluated by certified prefix length. Furthermore, CROP balances over- and under-withholding, improving downstream repair accuracy by preserving valid intermediate reasoning while discarding misleading suffixes. Ultimately, this work positions prefix certification as a rigorous, practical bridge between process supervision, abstention, and repair.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9e748c20f57b" data-article-url="https://arxiv.org/abs/2605.30087" data-article-title="矛盾する複数ソースの個人記憶に対する選択的 QA: 診断テストベッドと手法の比較" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30087" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30087" target="_blank" rel="noopener">矛盾する複数ソースの個人記憶に対する選択的 QA: 診断テストベッドと手法の比較</a></h3>
      <p class="summary">新興のパーソナル AI エージェントは、永続的なマルチソース メモリに移行しています。これにより、評価上の問題が生じます。システムは、矛盾する証拠や不完全な証拠をどのように使用するかを決定する必要があります。 1 つのきれいな歴史から事実を引き出すことはできません。既存のベンチマークでは、エラーがメソッドに与えられた証拠に起因するのか、メソッドの競合解決ステップに起因するのかを示すことはほとんどありません。私たちはこれを、矛盾する複数ソースの個人記憶に対する選択的 QA として研究しています。システムは、矛盾する、場合によっては不完全なソースに基づいて回答するか、証拠が不十分な場合は棄権します。 8 つの推論タイプにわたる 18 の質問テンプレート、480 のペルソナ、4 つのランダム シード、および 34,560 のインスタンスを含むベンチマークを、制御されたソースの歪みと決定論的なグラウンド トゥルースを使用して開発しました。ソースへのアクセスなし、単一ソースへのアクセス、構造化融合手法、およびフロンティア LLM のベースラインのパフォーマンスを評価します。最もよく訓練されたフュージョン リゾルバーの精度は 80.3% に達し、最も強力なプロンプトのみの LLM ベースラインは 70.0% に達します。棄権すると、同じリゾルバはカバレッジ 78.3% で選択精度 85.3% に達し、最良の LLM はカバレッジ 95.4% で選択精度 71.0% に達します。モデルが異なれば、推論タイプごとに異なる強みがあります。データ、コード、キャッシュされたモデル出力、およびデータ生成プロセスを再利用のためにリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Selective QA over Conflicting Multi-Source Personal Memory: A Diagnostic Testbed and Method Comparison</p>
        <p class="orig-summary">Emerging personal AI agents are moving toward persistent, multi-source memory. This creates an evaluation problem: systems must decide how to use conflicting or incomplete evidence; they cannot just retrieve facts from one clean history. Existing benchmarks rarely show whether an error came from the evidence given to a method or from the method&#x27;s conflict-resolution step. We study this as selective QA over conflicting multi-source personal memory: systems answer based on conflicting, sometimes incomplete sources, or abstain when evidence is insufficient. We develop a benchmark containing 18 question templates across 8 reasoning types, 480 personas, 4 random seeds, and 34,560 instances, with controlled source distortions and deterministic ground truth. We evaluate the performance of baselines without access to any source, access to a single source, structured fusion methods, and frontier LLMs. The best trained fusion resolver reaches 80.3% accuracy, while the strongest prompt-only LLM baseline reaches 70.0%. With abstention, the same resolver reaches 85.3% selective accuracy at 78.3% coverage and the best LLM reaches 71.0% selective accuracy at 95.4% coverage. Different models have different strengths across reasoning types. We release the data, code, cached model outputs, and data-generating process for reuse.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="795c4126792b" data-article-url="https://arxiv.org/abs/2605.30094" data-article-title="ポーカースキル: LLM はトレーニングやソルバーなしでエキスパート レベルのポーカーをプレイできます" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30094" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30094" target="_blank" rel="noopener">ポーカースキル: LLM はトレーニングやソルバーなしでエキスパート レベルのポーカーをプレイできます</a></h3>
      <p class="summary">ポーカーは人工知能にとって画期的な挑戦です。主流のアプローチは、反事実的後悔の最小化に基づいて構築された均衡ソルバーに依存しており、何百万ものコア時間のトレーニングが必要です。大規模言語モデル (LLM) はポーカーに関する広範な知識を備えていますが、直接プレイするよう求められた場合、ソルバーベースのエージェントよりもはるかに低いパフォーマンスを発揮します。従来のルールベースのポーカー エージェントは解釈可能でトレーニング不要ですが、その戦略的上限は依然として均衡プレイをはるかに下回っています。私たちは \textbf{PokerSkill} を導入します。これはトレーニング不要でソルバー不要のフレームワークであり、LLM の構造化されたアクション基礎インターフェイスとして詳細なルールベースのポーカー スキルを使用することで、このギャップを埋めることができます。決定論的コンテキスト エンジンは現在の状態を分析し、人間のポーカー専門家によって完全に設計された階層化スキル ライブラリから関連するフラグメントのみを取得し、LLM の選択を合理的なアクションに制限します。最先端の GTO ベンチマークである GTOWizard に対して、PokerSkill を使用した GPT-5.5 XHigh は $-57 \pm 21$ mbb/ハンドを達成し、Claude Opus 4.6 は $-80 \pm 29$ mbb/ハンドを達成し、Claude Opus 4.7 は $-87\pm 64$ mbb/ハンドを達成し、損失を 49 ～ 61\% 削減しました。デフォルトのプロンプトベースラインを備えており、強力なボットである Slumbot を上回っています。私たちの重要な発見は、ルールベースのスキルだけでは強力な戦略を構成せず、LLM だけではうまく機能できないが、それらを組み合わせることで、トレーニングもソルバーへのアクセスも必要とせず、しかも数百万コア時間の計算で構築されたシステムと競合できるエージェントが得られるということです。私たちの知る限り、これは、ゲーム固有のトレーニングやソルバー クエリを使用せずに、複雑な不完全情報ゲームで競争力のあるパフォーマンスを達成する LLM の最初のデモンストレーションです。コードは https://github.com/lbn187/PokerSkill で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PokerSkill: LLMs Can Play Expert-Level Poker without Training or Solvers</p>
        <p class="orig-summary">Poker is a landmark challenge for artificial intelligence. The dominant approach relies on equilibrium solvers built on counterfactual regret minimization, requiring millions of core-hours of training. Large Language Models (LLMs) possess extensive poker knowledge but perform far below solver-based agents when asked to play directly. Traditional rule-based poker agents are interpretable and training-free, but their strategic ceiling remains far below equilibrium play. We introduce \textbf{PokerSkill}, a training-free and solver-free framework that bridges this gap by using detailed rule-based poker skills as a structured action-grounding interface for LLMs. A deterministic context engine analyzes the current state and retrieves only the relevant fragments from a layered skill library, which is entirely designed by human poker experts, constraining the LLM&#x27;s choice to reasonable actions. Against GTOWizard, a state-of-the-art GTO benchmark, GPT-5.5 XHigh with PokerSkill achieves $-57 \pm 21$ mbb/hand, Claude Opus 4.6 achieves $-80 \pm 29$ mbb/hand and Claude Opus 4.7 achieves $-87\pm 64$ mbb/hand, reducing losses by 49--61\% compared to default-prompt baselines and outperforming the strong bot Slumbot. Our key finding is that rule-based skills alone do not constitute a strong strategy, and LLMs alone cannot play well, but their combination yields an agent that requires neither training nor solver access yet competes with systems built on millions of core-hours of computation. To our knowledge, this is the first demonstration of an LLM achieving competitive performance in a complex imperfect-information game without game-specific training or solver queries. Code is available at https://github.com/lbn187/PokerSkill.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d083a665f4f3" data-article-url="https://arxiv.org/abs/2605.30117" data-article-title="VLA-Trace: 表現と行動のトレースによる視覚-言語-行動モデルの診断" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30117" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30117" target="_blank" rel="noopener">VLA-Trace: 表現と行動のトレースによる視覚-言語-行動モデルの診断</a></h3>
      <p class="summary">Vision-Language-Action (VLA) モデルがマルチモーダルな知識を具体化された制御にどのように変換するかを理解することは、依然として未解決の課題です。我々は、表現力学から因果関係の帰属と行動発現に至るまでの統一された証拠チェーンを通じて VLA モデルを分析する進歩的な診断フレームワークである VLA-Trace を紹介します。具体的には、表現の進化を追跡するためのクロスモーダルおよびチェックポイントドリフト中心のカーネル アライメント (CKA)、モダリティ固有の制御経路を特定するための注意ノックアウト介入、グラウンディング、ショートカット依存性、およびセマンティック フォローを調査するためのロールアウト レベルの行動プローブを組み合わせています。 $\pi_{0.5}$ と OpenVLA の実験により、3 つの重要な発見が明らかになりました。まず、2 つのモデルは、VLA 微調整中に異なるモダリティ固有の適応ダイナミクスを示します。第 2 に、アクションのデコード中に、さまざまなマルチモーダル ルーティング戦略と層ごとの依存関係に依存します。第三に、VLA ポリシーは視覚的に根拠のある軌道の生成には優れていますが、きめの細かいセマンティックの追跡には依然として限界があります。これらの発見は、表現保存適応、因果的 VLA 回路、および構成的意味制御の将来の方向性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">VLA-Trace: Diagnosing Vision-Language-Action Models through Representation and Behavior Tracing</p>
        <p class="orig-summary">Understanding how Vision-Language-Action (VLA) models transform multimodal knowledge into embodied control remains an open challenge. We present VLA-Trace, a progressive diagnostic framework that analyzes VLA models through a unified evidence chain from representation dynamics to causal control attribution and behavioral manifestation. It specifically combines cross-modal and checkpoint-drift centered kernel alignment (CKA) to trace representation evolution, attention knockout interventions to identify modality-specific control pathways, and rollout-level behavioral probes to examine grounding, shortcut dependence, and semantic following. Experiments on $\pi_{0.5}$ and OpenVLA reveal three key findings. First, the two models exhibit distinct modality-specific adaptation dynamics during VLA finetuning. Second, they rely on different multimodal routing strategies and layer-wise dependencies during action decoding. Third, although VLA policies excel at visually grounded trajectory generation, they remain limited in fine-grained semantic following. These findings highlight future directions for representation-preserving adaptation, causal VLA circuits, and compositional semantic control.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fba44c51fc8a" data-article-url="https://arxiv.org/abs/2605.30136" data-article-title="コンテキスト関連性による注意ステアリングによるマルチエージェントのコミュニケーションの強化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30136" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30136" target="_blank" rel="noopener">コンテキスト関連性による注意ステアリングによるマルチエージェントのコミュニケーションの強化</a></h3>
      <p class="summary">LLM ベースのマルチエージェント システムは、協調的な推論を通じて複雑なタスクで優れたパフォーマンスを実証しました。ただし、これらのシステムは、対話中に非常に長い会話履歴を急速に蓄積する傾向があります。会話が長くなるにつれて、関連性のある情報が無関係なコンテキストによってますます希薄になり、パフォーマンスの低下につながります。この研究では、新しい時間的および空間的減衰メカニズムを使用して、各エージェントの注意を関連するコンテキストに動的に向ける、トレーニング不要のコンテキスト管理手法である Agent-Radar を紹介します。私たちの実験では、Agent-Radar が 5 つの異なるベンチマークにわたって最先端の手法を上回り、最大 7.64 絶対ポイントのゲインが得られることが実証されました。さらに、私たちの分析は、エージェントと対話ラウンドの数が増加しても、エージェントレーダーが引き続き効果的で堅牢であることを示しています。最後に、アブレーション研究は、Agent-Radar のコア コンポーネントがパフォーマンスにとって重要であり、さまざまな設定で汎用化できることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Enhancing Multi-Agent Communication through Attention Steering with Context Relevance</p>
        <p class="orig-summary">LLM-based multi-agent systems have demonstrated remarkable performance on complex tasks through collaborative reasoning. However, these systems tend to rapidly accumulate extremely long conversation histories during interaction. As conversations lengthen, relevant information is increasingly diluted by irrelevant context, leading to degraded performance. In this work, we present Agent-Radar, a training-free context management method that dynamically steers each agent&#x27;s attention toward relevant context with a novel temporal and spatial decay mechanism. Our experiments demonstrate that Agent-Radar outperforms state-of-the-art methods across five different benchmarks, yielding gains of up to 7.64 absolute points. Furthermore, our analysis shows that Agent-Radar remains effective and robust as the number of agents and interaction rounds increases. Finally, the ablation study shows that core components in Agent-Radar are crucial to performance and generalizable in different settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="172d55e3d297" data-article-url="https://arxiv.org/abs/2605.30144" data-article-title="AgentSchool: LLM を利用した教育用マルチエージェント シミュレーション" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30144" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30144" target="_blank" rel="noopener">AgentSchool: LLM を利用した教育用マルチエージェント シミュレーション</a></h3>
      <p class="summary">LLM の教室への導入が急速に進んでいるにもかかわらず、教育 AI の検証は依然として独特の扱いが難しいものです。介入は、認知的および社会的軌道が不可逆的に形成される学習者の成長に影響を及ぼしますが、現実世界の試験は時間がかかり、倫理的に制約され、制度的にロックされています。 LLM ベースの教育シミュレーターが潜在的な救済策として浮上していますが、多くは依然として学習を個人に条件付けされたロールプレイに崩壊させており、既存の教室を再現するためだけに最適化された場合、教育改革に必要な制度上の新規性が構造的に不利になる可能性があります。この作業では、プロンプトによる動作ではなく状態遷移として学習をモデル化する、LLM 駆動のマルチエージェント シミュレーターである AgentSchool を紹介します。 AgentSchool は、重み付けされた教科知識グラフ、思考ワークフロー プール、明示的な誤解を備えた認知的に成長可能な学生エージェントと、近接発達ゾーンに沿って計画、足場を築き、反映する適応型教師エージェントを組み合わせます。適応型教師エージェントは、公式および非公式の両方の学習フィールド内で指導を位置付ける構成可能なシーナリー ジェネレーターに埋め込まれており、インタラクション スケール、時間的粒度、およびシミュレーション期間を分離するマルチスケール シミュレーターです。実験によれば、構造化された学生エージェントは、ベースラインシミュレータよりもより差別化された習熟と誤解の痕跡を生成する一方、教師とエージェントの比較では、ZPD情報に基づいた適応と一致するバックボーン依存のパターンが示されています。さらに、AgentSchool は、教室の社会理論と一致する、周辺参加、派閥の形成、攻撃者による結束、オピニオンリーダーの出現のもっともらしい痕跡を生成します。 AgentSchool は、教育研究手段としての役割を超えて、長期記憶、マルチエージェントの調整、組織の圧力下での将来の制度的推論のための社会的に有意義なテストベッドとして教育を組み立てています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AgentSchool: An LLM-Powered Multi-Agent Simulation for Education</p>
        <p class="orig-summary">Despite the rapid deployment of LLMs into classrooms, validating educational AI remains uniquely intractable: interventions act on developing learners whose cognitive and social trajectories are irreversibly shaped, while real-world trials are slow, ethically constrained, and institutionally locked. LLM-based educational simulators have emerged as a potential remedy, but many still collapse learning into persona-conditioned role-play and, when optimized only to reproduce existing classrooms, can structurally penalize the institutional novelty that pedagogical reform requires. In this work, we introduce AgentSchool, an LLM-driven multi-agent simulator that models learning as state transition rather than prompted behavior. AgentSchool couples cognitively growable student agents -- equipped with weighted subject knowledge graphs, thinking-workflow pools, and explicit misconceptions -- with adaptive teacher agents that plan, scaffold, and reflect along the Zone of Proximal Development, embedded in a configurable scenery generator that situates instruction within both formal and informal learning fields, and a multi-scale simulator that decouples interaction scale, temporal granularity, and simulation duration. Experiments show that structured student agents produce more differentiated mastery and misconception traces than a baseline simulator, while teacher-agent comparisons show backbone-dependent patterns consistent with ZPD-informed adaptation. Further, AgentSchool generates plausible traces of peripheral participation, clique formation, aggressor-induced cohesion, and opinion-leader emergence consistent with classroom social theories. Beyond its role as an educational research instrument, AgentSchool frames education as a socially meaningful testbed for long-horizon memory, multi-agent coordination, and future institutional reasoning under organizational pressure.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="32829ea64474" data-article-url="https://arxiv.org/abs/2605.30150" data-article-title="並列 LLM アイデアのためのアンカーレス多様化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30150" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30150" target="_blank" rel="noopener">並列 LLM アイデアのためのアンカーレス多様化</a></h3>
      <p class="summary">LLM は、広範な探索が重要な創造的なタスクのための候補アイデア プールを生成するために使用されることが増えています。この設定では、品質とコスト効率を維持しながらプールを拡大できる並列推論が魅力的です。私たちは候補者プールの多様化のための推論時間制御を研究し、アンカーレス手法が観察されたシードアイデアに依存する手法に匹敵するかどうかを検討します。 3 つのクリエイティブ タスク ファミリにわたって、中立および母集団参照の発散命令の下で、独立した生成と意味論的方向の層別化を、自己、ピア、および代表アンカー ベースラインと比較します。集団参照の相違は強力で低コストのベースラインであり、品質のプロキシを維持しながら意味論的な多様性を高めます。セマンティック方向の層別化が強化されています。単一のプランニング コールで幅広いセマンティック方向にわたって世代が編成され、最高の多様性、品質、コンピューティング フロンティアが得られます。アンカー再生成は、最終プールの多様性においては強力ですが、フルパイプラインのトークン アカウンティングではその利点が縮小します。これらの結果は、オープンエンドの LLM アイデアの実用的なアンカーレス ベースラインを確立します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Anchorless Diversification for Parallel LLM Ideation</p>
        <p class="orig-summary">LLMs are increasingly used to generate candidate-idea pools for creative tasks where broad exploration is valuable. Parallel inference can be attractive in this setting when it broadens the pool while retaining quality and cost efficiency. We study inference-time controls for candidate-pool diversification, asking whether anchorless methods can rival methods that depend on observed seed ideas. Across three creative task families, we compare independent generation and semantic direction stratification with self-, peer-, and representative-anchor baselines, under neutral and population-referential divergent instructions. Population-referential divergence is a strong low-cost baseline, increasing semantic diversity while preserving quality proxies. Semantic direction stratification is stronger: a single planning call organizes generations across broad semantic directions, yielding the best diversity--quality--compute frontier. Anchored regeneration can be strong in final-pool diversity, but its advantage shrinks under full-pipeline token accounting. These results establish practical anchorless baselines for open-ended LLM ideation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9775936b223e" data-article-url="https://arxiv.org/abs/2605.30151" data-article-title="数学タスクの評価における時間的安定性と少数のプロンプト" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30151" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30151" target="_blank" rel="noopener">数学タスクの評価における時間的安定性と少数のプロンプト</a></h3>
      <p class="summary">AI ツールが教育現場にますます統合されるにつれて、その長期にわたる安定性と、迅速なエンジニアリング技術に対する応答性の両方について疑問が生じます。この縦断的研究は、タスク分析ガイド (TAG; Stein \&amp; Smith、1998) を使用して数学タスクの認知要求を分類するさまざまな AI ツールの機能に焦点を当てました。特に、この分類能力が、(1) 時間の経過に伴うモデル バージョンの更新、および (2) サンプル タスクを使用した少数ショット プロンプトによって変化するかどうかを調べました。汎用 AI ツール (Gemini) と教育特化型 AI ツール (Coteach) をテストしました。特定のツールが選択されたのは、関連する公開されたベンチマークと以前のタスク固有のテストで比較的高いパフォーマンスが得られたためです。モデルはベースラインでテストされ、モデルのバージョン更新で再テストされ、その後、少数ショット プロンプト (認知要求カテゴリごとに 2 つの模範タスク) を使用して再度テストされました。結果から、新しいモデル バージョンだけではさまざまな影響が生じることが明らかになりました。Gemini の精度は 58\% で安定していましたが、Coteach の精度は 75\% から 50\% に低下しました。ただし、少数ショット プロンプトにより両方のモデルのパフォーマンスが向上しました。Gemini の精度は 67\% に向上し、Coteach の精度は 75\% に回復しました。これらの発見は、迅速なエンジニアリング手法が受動的モデルの改善よりも大きく信頼性の高い効果をもたらす可能性があること、およびバージョンの更新が専門的な教育タスクのパフォーマンスを必ずしも向上させるとは限らないことを示しています。この研究は、教育者や研究者が教育現場で AI ツールの選択、評価、実装にどのようにアプローチすべきかについて重要な意味を持ちます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Temporal Stability and Few-Shot Prompting in Math Task Assessment</p>
        <p class="orig-summary">As AI tools become increasingly integrated into educational contexts, questions arise about both their stability over time and their responsiveness to prompt engineering techniques. This longitudinal study focused on different AI tools&#x27; ability to use the Task Analysis Guide (TAG; Stein \&amp; Smith, 1998) to classify the cognitive demand of mathematics tasks. In particular, it examined whether this classification ability changed with (1) model version updates over time and (2) few-shot prompting using exemplar tasks. We tested a general-purpose AI tool (Gemini) and an education-specific AI tool (Coteach). The specific tools were selected because of their relatively high performance on relevant published benchmarks and prior task-specific tests. Models were tested at baseline, retested with model version updates, and then tested again using few-shot prompting (two exemplar tasks for each cognitive demand category). Results revealed that newer model versions alone produced mixed effects: Gemini&#x27;s accuracy remained stable at 58\%, while Coteach&#x27;s accuracy decreased from 75\% to 50\%. However, few-shot prompting improved both models&#x27; performance: Gemini increased to 67\% and Coteach recovered to 75\% accuracy. These findings demonstrate that prompt engineering techniques can have larger and more reliable effects than passive model improvements, and that version updates may not always improve performance on specialized educational tasks. The study has important implications for how educators and researchers should approach AI tool selection, evaluation, and implementation in educational contexts.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2aced33924ad" data-article-url="https://arxiv.org/abs/2605.30159" data-article-title="Long-Horizo​​n LLM エージェント向けのメタ認知メモリ ポリシーの最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30159" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30159" target="_blank" rel="noopener">Long-Horizo​​n LLM エージェント向けのメタ認知メモリ ポリシーの最適化</a></h3>
      <p class="summary">メモリ拡張 LLM エージェントは、インタラクションの軌跡をコンパクトなメモリに再帰的に要約することで、複雑な長期タスクに取り組みます。ただし、既存のアプローチは通常、結果ベースの強化学習を使用してこれらの記憶ポリシーをトレーニングするため、中間の記憶品質が低下する場所を特定できません。インタラクションが展開されるにつれて、曖昧な再帰的要約はタスク関連の情報を徐々に破棄し、意味論的なノイズを導入します。これは信念の逸脱を悪化させ、潜在的なタスク状態のエージェントの推定を曖昧にし、最終的には長期的な推論を狂わせます。したがって、記憶の最適化は単に軌跡レベルの成功だけではなく、中間的な要約によって引き起こされる信念の明瞭さに焦点を当てる必要があると主張します。この目的を達成するために、現在のメモリを考慮した潜在的なタスクの状態についてモデルがどの程度不確実性を保っているかを調査する自己教師ありプロキシである信念エントロピーを導入します。このプロキシに基づいて、メタ認知メモリ ポリシー最適化 (MMPO) を提案します。 MMPO は、まばらな結果ベースの信号のみに依存するのではなく、高い認識論的不確実性を引き起こす明示的にペナルティを課す要約を通じて、きめの細かいメモリ固有の監視を提供します。実験の結果、MMPO は長期にわたる多様なタスクにおいて既存の手法を常に上回っており、175 万トークンのコンテキストに拡張した場合でも 97.1% のパフォーマンスを維持することが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents</p>
        <p class="orig-summary">Memory-augmented LLM agents tackle complex long-horizon tasks by recursively summarizing interaction trajectories into compact memory. However, existing approaches typically train these memory policies using outcome-based reinforcement learning, failing to localize where intermediate memory quality degrades. As interactions unfold, ambiguous recursive summaries progressively discard task-relevant information and introduce semantic noise. This exacerbates belief deviation, obscuring the agent&#x27;s estimate of the latent task state and ultimately derailing long-horizon reasoning. We therefore argue that memory optimization should focus not merely on trajectory-level success, but on the clarity of the belief induced by intermediate summaries. To this end, we introduce Belief Entropy, a self-supervised proxy that probes how uncertain the model remains about the latent task state given its current memory. Based on this proxy, we propose Metacognitive Memory Policy Optimization (MMPO). Instead of relying only on sparse outcome-based signals, MMPO provides fine-grained, memory-specific supervision via explicitly penalizing summaries that induce high epistemic uncertainty. Experiments show that MMPO consistently outperforms existing methods on diverse long-horizon tasks, maintaining 97.1% performance even when scaled to 1.75M-token contexts.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e10bc4d68e65" data-article-url="https://arxiv.org/abs/2605.30162" data-article-title="BioRefusalAudit: 一般およびドメイン微調整されたスパース オートエンコーダーを使用したバイオセキュリティ拒否の深さの監査" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30162" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30162" target="_blank" rel="noopener">BioRefusalAudit: 一般およびドメイン微調整されたスパース オートエンコーダーを使用したバイオセキュリティ拒否の深さの監査</a></h3>
      <p class="summary">言語モデルのバイオセキュリティ評価では通常、モデルが危険な出力を生成するかどうかが問われます。この論文は補足的な質問をします。モデルが拒否した場合、その拒否は構造的に正しいのでしょうか、それともフレーミング、フォーマット、または出力長を促すための適度な変更で消えるのでしょうか? 5 つのアーキテクチャにわたって、無害性と危険性を明確に区別したモデルはありませんでした。 Gemma 2 2B-IT は、75 件のプロンプトにわたって真に拒否することはなく、危険に隣接するすべてのクエリを回避しました。 Gemma 4 E2B-IT は、チャット テンプレート形式を使用した場合は 65/75 件のプロンプトを拒否し、チャット テンプレート形式を使用しない場合は 0/75 件のプロンプトを拒否しました。両方の Gemma モデルは、80 トークンの上限の下で 0% に崩壊しました。 Qwen 2.5 1.5B と Phi-3-mini は過剰に拒否され、良性生物学の 83 ～ 87% が危険であると警告されました。 Llama 3.2 1B は唯一の意味のある Tier 勾配 (61 ポイントの広がり) を示しました。何がそのような過剰な拒否を引き起こすのかを調査するために、我々はスケジュールIであるが生物学的に無毒な化合物（特にFDA画期的治療法のステータスを持つシロシビン培養）のパネルをテストしました。一部のモデルは、真に有害な生物学を超える割合でこれらを拒否しており、拒否がCBRNの危険性に対する合法性と文化的顕著性を追跡していることを示唆しています。内部側を測定するために、モデルの表面応答ラベルを内部のスパース オートエンコーダー (SAE) 特徴のアクティベーションと比較する発散スコア D を導入します。フル D は、Gemma 2 2B-IT (Gemma Scope 1) および Gemma 4 E2B-IT (著者が訓練したバイオ SAE) で計算されました。 2 つの微調整された Gemma 2 ドメイン SAE がリリースされました。 Gemma 4 では、狭いカタログ、サンプル内キャリブレーション、および Gemma ファミリーのみの SAE 範囲を使用して、重複なし (n=75) で 0.647 ポイントのギャップで応答と拒否の応答が分離されますが、これは暫定的なものです。消費者向けハードウェア (GTX 1650 Ti Max-Q、および SAE トレーニング用の Colab T4) での 1 つのハッカソン週末にわたって構築されたこの予備的な証拠は、アクティベーション レベルの監査によって、アーキテクチャ間で大幅に異なる、動作評価では見えない障害モードが表面化する可能性があることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BioRefusalAudit: Auditing Biosecurity Refusal Depth Using General and Domain-Fine-Tuned Sparse Autoencoders</p>
        <p class="orig-summary">Biosecurity evaluations of language models typically ask whether models produce hazardous output. This paper asks a complementary question: when a model refuses, is that refusal structurally sound, or does it disappear under modest changes to prompt framing, formatting, or output length? Across five architectures, no model cleanly discriminated benign from hazard. Gemma 2 2B-IT never genuinely refused across 75 prompts, hedging on every hazard-adjacent query. Gemma 4 E2B-IT refused 65/75 prompts with chat-template formatting and 0/75 without it. Both Gemma models collapsed to 0% under an 80-token cap. Qwen 2.5 1.5B and Phi-3-mini over-refused, flagging 83-87% of benign biology as hazardous. Llama 3.2 1B showed the only meaningful tier gradient (61-point spread). To probe what drives such over-refusal, we tested a panel of Schedule I but biologically non-toxic compounds (notably psilocybin cultivation, with FDA Breakthrough Therapy status). Some models refused these at rates exceeding genuinely hazardous biology, suggesting refusal tracks legality and cultural salience over CBRN hazard. To measure the internal side, we introduce a divergence score D comparing a model&#x27;s surface response label to its internal sparse autoencoder (SAE) feature activations. Full D was computed on Gemma 2 2B-IT (Gemma Scope 1) and Gemma 4 E2B-IT (author-trained bio SAE). Two fine-tuned Gemma 2 domain SAEs were released. On Gemma 4, comply and refuse responses separated by a 0.647-point gap with zero overlap (n=75), though this is preliminary, with a narrow catalog, within-sample calibration, and Gemma-family-only SAE coverage. Built over one hackathon weekend on consumer hardware (GTX 1650 Ti Max-Q, plus Colab T4 for SAE training), this preliminary evidence suggests activation-level auditing may surface failure modes invisible to behavioral evaluation, with substantial variation across architectures.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="61fb4d534a15" data-article-url="https://arxiv.org/abs/2605.30187" data-article-title="責任ある学習支援を促進するための教育 LLM-Agency のモジュール化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30187" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30187" target="_blank" rel="noopener">責任ある学習支援を促進するための教育 LLM-Agency のモジュール化</a></h3>
      <p class="summary">AI チャットボットが教育現場に広く導入されると、学習が劇的に変化し、責任ある導入が重大な懸念事項となります。大規模言語モデル (LLM) は、教育科学からの洞察を議論する情報源にアクセスできるかもしれませんが、特に教育学的概念に固執する傾向はなく、伝達能力、批判的思考、創造性の喪失など、学習プロセスに悪影響を及ぼす危険があります。このペーパーでは、教育におけるより責任ある AI の使用に貢献するために特別に設計された、生徒の演習問題解決を支援するエージェント型 AI チャットボット アーキテクチャを紹介します。私たちは、責任ある LLM ベースの教育システムに対するいくつかの要望の特定に基づいて概念的な開発を行い、モノリシックなすぐに使えるソリューションに固有の構造的欠点を主張し、代わりにエージェント アーキテクチャのモジュール化を提案します。私たちは、演習問題を解くさまざまな段階に応じた特定のモジュールを提案し、的を絞った教育的アドバイスを組み込むことを可能にし、より制御可能、透明性、監視可能な方法で学習プロセスを生徒に導きます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Modularizing Educational LLM-Agency for Fostering Responsible Learning Assistance</p>
        <p class="orig-summary">The widespread adoption of AI chatbots in education will drastically change learning, making responsible deployment a critical concern. While large language models (LLMs) might have access to sources discussing insights from educational sciences, they are not particularly inclined to adhere to pedagogical concepts, risking negative effects on the learning process, such as a loss of transfer capabilities, critical thinking, or creativity. In this paper, we introduce an agentic AI chatbot architecture assisting students with exercise solving, specifically designed to contribute to more responsible AI use in education. We base our conceptual development on the identification of several desiderata for responsible LLM-based educational systems, argue for the structural shortcomings inherent in monolithic, out-of-the-box solutions, and instead suggest modularizing the agentic architecture. We propose specific modules for different stages of exercise solving, enabling incorporation of targeted pedagogical advice, guiding students through the learning process in a more controllable, transparent, and overseeable manner.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="076e41eb6eca" data-article-url="https://arxiv.org/abs/2605.30200" data-article-title="両刃の剣、それとも鋭利な道具?幼稚園から高等学校までの大規模なライティングのための Triadic LLM と教師のコラボレーションの設計と評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30200" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30200" target="_blank" rel="noopener">両刃の剣、それとも鋭利な道具?幼稚園から高等学校までの大規模なライティングのための Triadic LLM と教師のコラボレーションの設計と評価</a></h3>
      <p class="summary">大規模言語モデル (LLM) の統合には諸刃の剣があり、特に幼稚園から高校までの教育では、LLM、教師、生徒の間で効果的な 3 つの協力メカニズムが必要です。この論文は、K-12 のライティング学習をサポートする 3 極のコラボレーション システム、系統機能言語学に基づいた多次元評価フレームワーク、および提案軌跡追跡パイプラインを開発することにより、2 年間で 120 ドルの学校の 10,195 ドルの生徒からの 57,954 ドルの作文を含む大規模な実証データセットに貢献します。私たちの調査結果は、戦略的な分業を通じてライティングの質を向上させるこのシステムの有効性を裏付けています。LLM は教師の燃え尽き症候群を軽減する生成エンジンとして機能し、教師は教育上の門番および橋渡しとしてフィードバックの質を保証します。 LLM と教師の両方がスキル向上には不可欠ですが、過度の言語拡張が限界効用の減少をもたらす天井効果を明らかにしました。これらは、生徒の習熟度が向上するにつれて、動的に適応的な LLM と教師のコラボレーションを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Double-Edged Sword or Sharp Tool? Designing and Evaluating Triadic LLM-Teacher Collaboration for K-12 Writing at Scale</p>
        <p class="orig-summary">The double-edged sword of integrating Large Language Models (LLMs) requires an effective triadic collaboration mechanism among LLMs, teachers and students, especially for K-12 education. By developing a triadic collaboration system to support K-12 writing learning, a multidimensional evaluation framework grounded in Systemic Functional Linguistics and the suggestion trajectory tracing pipeline, this paper contributes a large-scale empirical dataset involving $57,954$ essays from $10,195$ students across $120$ schools over two years. Our findings confirm the efficacy of this system in improving writing quality through a strategic labor division: the LLM serves as a generative engine to mitigate teacher burnout, and the teacher acts as a pedagogical gatekeeper and bridge to guarantee feedback quality. While both LLM and teacher are critical for skill improvement, we uncover a ceiling effect where excessive linguistic expansion yields diminishing marginal utility. These suggest a dynamically adaptive LLM-teacher collaboration as student proficiency increases.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="63fed736868a" data-article-url="https://arxiv.org/abs/2605.30207" data-article-title="検索拡張コマーシャルチャットにおけるブランド推奨のペルソナコンディショニング: 知名度に応じた階層化されたクロスプロバイダー監査" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30207" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30207" target="_blank" rel="noopener">検索拡張コマーシャルチャットにおけるブランド推奨のペルソナコンディショニング: 知名度に応じた階層化されたクロスプロバイダー監査</a></h3>
      <p class="summary">「最高の CRM ソフトウェア」という同じプロンプトが、個人の創業者、企業の副社長、英国の SMB オーナーなど、大きく異なる状況にある購入者の AI アシスタントに届きます。私たちは、その文脈上の変化がモデルが推奨するブランドをどの程度強く再形成するかを監査します。監査サンプルは、10 ペルソナ x 8 プロンプト x 3 モデル構成 x N=10 レップの設計空間で 2,000 回実行され、2 つの OpenAI セルは 8 プロンプトを完全にカバーし、Anthropic Sonnet-4.6 / low セルは 4 プロンプトをカバーしました。ユーザー メッセージの前にペルソナを付けると、推奨セットの類似度 (Jaccard) が同じペルソナ ベースラインと比較して デルタ = -0.12 ～ -0.20 低下します (クラスター化された 95% CI では、3 つの測定セルすべてでゼロが除外されます。ソネット セルの CI は 4 つのプロンプト クラスターのみに基づいており、それに応じて幅が広くなります)。その効果は顕著に階層化されています。カテゴリーリーダーはペルソナ耐性がありますが（ペルソナ間で最大 80% の同じブランドの一貫性）、中堅ブランドはペルソナの変化に応じて推奨セットの最大 75% を交換します。 Anthropic モデルは、OpenAI 構成よりも大きな点推定効果を示していますが、クラスター化された CI が重なっているため、よりコントラストが強くなります (ソネット対 OpenAI/高)。この非対称性は、Anthropic のより検索に帰属しない生成ルートと一致しています (検索層の証拠が観察されていない推奨が 43 ～ 52% であるのに対し、OpenAI の 8 ～ 29%、Jack 2026 に文書化されています)。 AI ブランド認識の測定は、クエリを提供する購入者のペルソナを条件とする必要があります。同じプロンプトでも、モデルが誰に質問していると考えるかに応じて実質的に異なる推奨セットが生成されます。また、ペルソナ全体を集約する測定プロトコルにより、その変動が体系的に隠蔽されます。この効果は中間市場に集中しており、当社の監査では事前分布に最も依存する生成ルートで最大となっており、モデルがトレーニング データの事前分布とより豊富なコンテキスト統合に依存するにつれてペルソナの応答性が高まっていることと一致しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Persona Conditioning of Brand Recommendations in Retrieval-Augmented Commercial Chat: A Prominence-Stratified Cross-Provider Audit</p>
        <p class="orig-summary">The same prompt -- &quot;best CRM software&quot; -- reaches AI assistants from buyers in widely different contexts: a solo founder, an enterprise VP, a UK SMB owner. We audit how strongly that contextual variation reshapes which brands the model recommends. The audit samples 2,000 runs over a design space of 10 personas x 8 prompts x 3 model configurations x N=10 reps, with the two OpenAI cells at full 8-prompt coverage and the Anthropic sonnet-4.6 / low cell at 4-prompt coverage. Prefixing the user message with a persona drops the recommendation-set similarity (Jaccard) by Delta = -0.12 to -0.20 relative to a same-persona baseline (clustered 95% CIs exclude zero on all three measured cells; the sonnet cell&#x27;s CI rests on only 4 prompt clusters and is correspondingly wider). The effect is sharply prominence-stratified: category leaders are persona-resistant (~80% same-brand consistency across personas), but mid-market brands swap up to 75% of the recommendation set as the persona changes. The Anthropic model shows a larger point-estimate effect than the OpenAI configurations, though clustered CIs overlap for the closer contrast (sonnet vs. OpenAI/high); the asymmetry is consistent with Anthropic&#x27;s more retrieval-unattributed generation route (43-52% recommendations without observed retrieval-layer evidence, vs OpenAI&#x27;s 8-29%, documented in Jack 2026). Any measurement of AI brand perception must condition on the buyer persona supplying the query: the same prompt produces materially different recommendation sets depending on who the model thinks is asking, and a measurement protocol that aggregates across personas systematically obscures that variation. The effect concentrates at mid-market and is largest on the most priors-reliant generation route in our audit, consistent with persona responsiveness growing as models lean more on training-data priors and richer context integration.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c4e2a50511ea" data-article-url="https://arxiv.org/abs/2605.30219" data-article-title="モデルはいつ考えを変えるべきでしょうか?大規模言語モデルにおける文脈に基づく信念の管理" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30219" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30219" target="_blank" rel="noopener">モデルはいつ考えを変えるべきでしょうか?大規模言語モデルにおける文脈に基づく信念の管理</a></h3>
      <p class="summary">長期的な対話では、状態をいつ更新するか、いつ状態を保存するか、何を無視するかなど、蓄積される情報を管理する言語モデルが必要です。私たちはこの課題を \textbf{文脈的信念管理 (CBM)} として研究します。つまり、タスクに無関係なノイズを分離しながら、正式な証拠に合わせて予測された信念状態を維持することです。 CBM を測定可能にするために、Rule Discovery と Circuit Diagnosis にまたがるクローズドワールド ベンチマークである BeliefTrack を導入します。このベンチマークでは、有限の信念空間とシンボリック ベリファイアーによって正確なターンレベルの評価が可能になります。 BeliefTrack は、「Stay の失敗」、「Update の失敗」、「Isolation の失敗」という 3 つの失敗を診断します。複数の LLM にわたって、バニラ モデルは重大な CBM 障害を示しますが、明示的な信念追跡プロンプトでは限定的な利益が得られます。対照的に、信念状態報酬を使用した強化学習では、失敗率が平均 70.9\% 減少します。さらに詳しく調べると、これらの失敗の背後にある潜在的な信念状態のダイナミクスが明らかになり、表現レベルのステアリングにより、2 つのタスク全体で失敗率が 46.1\% 減少します\脚注{コードは、https://github.com/zjunlp/CBM で近日公開されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">When Should Models Change Their Minds? Contextual Belief Management in Large Language Models</p>
        <p class="orig-summary">Long-horizon interactions require language models to manage accumulating information: when to update their state, when to preserve their state, and what to ignore. We study this challenge as \textbf{Contextual Belief Management (CBM)}: maintaining a predicted belief state aligned with formal evidence while isolating task-irrelevant noise. To make CBM measurable, we introduce BeliefTrack, a closed-world benchmark spanning Rule Discovery and Circuit Diagnosis, where a finite belief space and symbolic verifiers enable exact turn-level evaluation. BeliefTrack diagnoses three failures: Failed Stay, Failed Update, and Failed Isolation. Across multiple LLMs, vanilla models exhibit severe CBM failures, while explicit belief-tracking prompts provide limited gains. In contrast, reinforcement learning with belief-state rewards reduces failure rates by 70.9\% on average. Further probing reveals latent belief-state dynamics behind these failures, and representation-level steering reduces failure rates by 46.1\% across two tasks\footnote{Code is coming soon at https://github.com/zjunlp/CBM.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c991f84c5c8" data-article-url="https://arxiv.org/abs/2605.30283" data-article-title="mcp-proto-okn: モデル コンテキスト プロトコルを介したオープン科学知識グラフへの自然言語アクセス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30283" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30283" target="_blank" rel="noopener">mcp-proto-okn: モデル コンテキスト プロトコルを介したオープン科学知識グラフへの自然言語アクセス</a></h3>
      <p class="summary">MCP Server Proto-OKN (mcp-proto-okn) は、AI アシスタントが自然言語を通じて科学知識グラフを検出、検査、クエリ、統合できるようにする Python ベースのモデル コンテキスト プロトコル サーバーです。このサーバーは、グラフ ルーティング、スキーマ検査、SPARQL 実行、オントロジー拡張、マルチグラフ クエリ、トランスクリプト生成を提供し、生物医学および科学ユーザーのクロスドメイン ナレッジ グラフ分析への障壁を下げます。 mcp-proto-okn は、FastMCP フレームワークを使用して Python で実装されており、https://github.com/sbl-sdsc/mcp-proto-okn で入手できます。ドキュメント、クライアント構成手順、分析トランスクリプトの例は、GitHub リポジトリで提供されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">mcp-proto-okn: Natural-language access to open scientific knowledge graphs through the Model Context Protocol</p>
        <p class="orig-summary">MCP Server Proto-OKN (mcp-proto-okn) is a Python-based Model Context Protocol server that enables AI assistants to discover, inspect, query and integrate scientific knowledge graphs through natural language. The server provides graph routing, schema inspection, SPARQL execution, ontology expansion, multi-graph querying, and transcript generation, lowering the barrier to cross-domain knowledge graph analysis for biomedical and scientific users. mcp-proto-okn is implemented in Python using the FastMCP framework and is available at https://github.com/sbl-sdsc/mcp-proto-okn. Documentation, client configuration instructions, and example analysis transcripts are provided in the GitHub repository.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fd6578021e67" data-article-url="https://arxiv.org/abs/2605.30284" data-article-title="ProjectionBench: 漸進的な情報開示の下での LLM における科学的仮説生成の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30284" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30284" target="_blank" rel="noopener">ProjectionBench: 漸進的な情報開示の下での LLM における科学的仮説生成の評価</a></h3>
      <p class="summary">科学的発見は本質的に創造的かつ不確実なプロセスであり、既知の知識を思い出す以上の推論が必要です。マルチホップ検索による深い研究タスクにおける大規模言語モデル (LLM) のパフォーマンスを評価するベンチマークが数多く提案されていますが、真の科学的発見に不可欠な革新的な推論能力はほとんどテストされていません。生の問題から古典的な帰無仮説検定までを構築し、科学的発見と推論におけるモデルのパフォーマンスを評価するためのベンチマーク フレームワークを紹介します。私たちのフレームワークでは、モデルは最初は最近の論文からのトピックと研究上の質問のみを受け取り、技術的な詳細は徐々に明らかになります。情報開示の各段階で、モデルは研究課題に対処する仮説を生成する役割を果たします。仮説は元の論文の結論と比較され、構成要素の原子的クレームの自動化された意味的類似性によって評価されます。グラウンドトゥルースの結論からの意味的乖離のこの漸進的な評価により、(最小限の情報の下で) モデルの革新性から (完全な実験の詳細の下で) 根拠のある推論能力の評価が可能になり、どちらも科学的発見の目的で LLM を使用する場合に重要です。私たちのフレームワークは、次世代の AI 科学者/共同科学者システムの開発を進めるために重要な、LLM の科学的推論と発見能力を体系的に評価するための基盤を提供します。具体的には、ここでは生物活性材料、機械材料、ナノ材料にわたる 45 の論文にわたって GPT-5、GPT-5.4、Gemini 2.5 pro、および Gemini 3.1 pro プレビューを評価します。 GPT-5.4 と Gemini 3.1 pro は予想どおり前世代の対応製品よりも優れたパフォーマンスを示し、特に GPT-5.4 は最小限のコンテキストでもグラウンド トゥルースの結論と 0.7 の F1 スコアの一致を維持していることがわかりました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ProjectionBench: Evaluating Scientific Hypothesis Generation in LLMs Under Progressive Information Disclosure</p>
        <p class="orig-summary">Scientific discovery is an inherently creative and uncertain process, requiring reasoning beyond the recall of known knowledge. While many benchmarks have been proposed to evaluate large language model (LLM) performance on deep research tasks via multi-hop retrieval, their innovative reasoning abilities essential for true scientific discovery remain largely untested. We introduce a benchmark framework for evaluating model performance in scientific discovery and reasoning, building up from a raw problem to the classical null hypothesis test. In our framework, models initially receive only the topic and research question from a recent paper, with technical details progressively revealed. At each stage of information disclosure, the model is tasked with generating hypotheses that address the research question, which is compared with the conclusions from the original paper and evaluated via automated semantic similarity of constituent atomic claims. This progressive evaluation of semantic divergence from ground-truth conclusions enables assessment of a model&#x27;s innovativeness (under minimal information) to grounded reasoning capabilities (under full experimental details), both critical for using LLMs for scientific discovery purposes. Our framework provides a foundation for systematically evaluating scientific reasoning and discovery capabilities in LLMs, crucial for advancing the development of next-generation AI scientist/co-scientist systems. Specifically, here we evaluate GPT-5, GPT-5.4, Gemini 2.5 pro, and Gemini 3.1 pro preview across 45 papers spanning bioactive materials, mechanical materials, and nanomaterials. We find that GPT-5.4 and Gemini 3.1 pro outperform their previous generation counterparts as expected, and GPT-5.4 in particular maintains 0.7 F1 score alignment with ground truth conclusions even under minimal context.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="95e0216336dc" data-article-url="https://arxiv.org/abs/2605.30288" data-article-title="MIRA: ソースを意識したデータ選択のためのトレーニング中のルーブリック アンカーリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30288" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30288" target="_blank" rel="noopener">MIRA: ソースを意識したデータ選択のためのトレーニング中のルーブリック アンカーリング</a></h3>
      <p class="summary">トレーニング中期は、最新の LLM 開発において重要な段階となっており、最終的なトレーニング後の能力を強化するために大規模に厳選された混合物を使用します。データ選択の問題は独特です。データは、事前トレーニングに近い規模で事前トレーニング スタイルの目標に基づいて最適化されますが、下流の機能に向けて厳選され、形式やトレーニングの役割が異なる異種ソースから抽出されます。その結果、効果的な選択には、スケーラビリティとソース適応型のセマンティック基準の両方が必要になります。既存のモデルベースの手法は拡張性に優れていますが、暗黙的な品質信号しか提供しません。セマンティック選択方法はより強力な判断を提供しますが、通常は固定ルーブリックまたは標準化されたデータ形式を前提としています。この不一致に対処するために、自己アンカー型ルーブリック ディスカバリに基づくソース認識フィルタリング フレームワークである MIRA を提案します。重要なアイデアは、ルーブリック構築をデータ選択の一部にすることです。MIRA はまず各ソース グループに対して何を評価すべきかを発見し、次にそれらの判断をスケーラブルな学生スコアラーに抽出して、コーパス全体をフィルタリングします。 21 のソースと 5 つのソース グループを使用したコード指向の中間トレーニングでは、MIRA は 9 つのコード ベンチマーク全体で選択ベースラインを上回り、トークンの半分のみを使用しながら完全なコーパスの実行と一致しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MIRA: Mid-training Rubric Anchoring for Source-Aware Data Selection</p>
        <p class="orig-summary">Mid-training has become an important stage in modern LLM development, using large-scale curated mixtures to strengthen capabilities before final post-training. Its data selection problem is distinct: the data are optimized under a pretraining-style objective at near-pretraining scale, but are curated toward downstream capabilities and drawn from heterogeneous sources with different formats and training roles. As a result, effective selection requires both scalability and source-adaptive semantic criteria. Existing model-based methods scale well, but provide only implicit quality signals. Semantic selection methods offer stronger judgments, but usually assume fixed rubrics or standardized data formats. To address this mismatch, we propose MIRA, a source-aware filtering framework based on self-anchored rubric discovery. The key idea is to make rubric construction part of data selection: MIRA first discovers what should be evaluated for each source group, then distills those judgments into scalable student scorers for full-corpus filtering. On code-oriented mid-training with 21 sources and 5 source groups, MIRA outperforms selection baselines across nine code benchmarks and matches the full-corpus run while using only half the tokens.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a7dc99f6b432" data-article-url="https://arxiv.org/abs/2605.30334" data-article-title="強化された LLM トレーニングのためのデータ構成の謎を解く" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/microsoft/" data-entity="microsoft">Microsoft</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30334" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30334" target="_blank" rel="noopener">強化された LLM トレーニングのためのデータ構成の謎を解く</a></h3>
      <p class="summary">大規模言語モデル (LLM) はさまざまな分野に革命をもたらしましたが、そのトレーニング効率は効果的なデータ キュレーションに大きく依存しています。データの選択は広く研究されていますが、特に現在の LLM は 1 つまたは数エポックのみでトレーニングされることが多いため、トレーニングを強化するための戦略的なデータ編成はまだ研究されていない領域です。この論文では、もともとデータ効率のために生成された、事前に計算されたサンプルレベルのスコアを再利用することで、追加の計算オーバーヘッドを最小限に抑え、LLM トレーニングに対するデータ構成の影響を体系的に調査します。私たちは、データ構成を最適化するための 4 つの主要なガイドライン (境界の鮮明化、周期的スケジューリング、カリキュラムの継続性、およびローカルの多様性) を特定し、形式化します。これらに基づいて、STR と SAW と呼ばれる 2 つの新しいデータ順序付け方法を導入します。事前トレーニング段階と SFT 段階の両方を含む、さまざまなモデル スケールとデータ サイズにわたる広範な実験により、要約されたガイドラインの有効性が検証されます。また、LLM トレーニングの安定性とパフォーマンスを向上させる上で、私たちが提案するデータ順序付け方法の堅牢性も示しています。 Github リンク: https://github.com/microsoft/data-effficacy/</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Demystifying Data Organization for Enhanced LLM Training</p>
        <p class="orig-summary">Large Language Models (LLMs) have revolutionized various fields, yet their training efficiency is heavily reliant on effective data curation. While data selection has been widely studied, the strategic data organization for enhanced training remains an underexplored area, particularly since current LLMs are often trained for only one or a few epochs. This paper systematically explores the influence of data organization on LLM training by reusing pre-computed sample-level scores originally generated for data efficiency, thereby incurring minimal additional computational overhead. We identify and formalize four key guidelines for optimizing data organization: Boundary Sharpening, Cyclic Scheduling, Curriculum Continuity, and Local Diversity. Guided by them, we introduce two novel data ordering methods termed STR and SAW. Extensive experiments across different model scales and data sizes, encompassing both pre-training and SFT stages, validate the effectiveness of our summarized guidelines. They also demonstrate the robustness of our proposed data ordering methods in enhancing the stability and performance of LLM training. Github Link: https://github.com/microsoft/data-efficacy/</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a66c8f810e8" data-article-url="https://arxiv.org/abs/2605.30335" data-article-title="局所的には一貫性があるが、全体的には一貫性がない: 複数コンポーネントの LLM エージェントにおける境界構成上の一貫性のなさ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30335" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30335" target="_blank" rel="noopener">局所的には一貫性があるが、全体的には一貫性がない: 複数コンポーネントの LLM エージェントにおける境界構成上の一貫性のなさ</a></h3>
      <p class="summary">複数コンポーネントの LLM エージェントは、それぞれが共同問題の一部のみを認識するコンポーネントから確率的クレームを組み立てます。すべてのコンポーネントが局所的に一貫している場合でも、合成は基本的な確率公理に違反する可能性があります。この局所的にコヒーレントでグローバルにインコヒーレントな障害を、構成残差 eps*、構成された引用から結合コヒーレント ポリトープまでの L2 距離を介して形式化し、システム出力と宣言されたコンポーネント間の結合制約から実行時に計算できます。積構造の二分法は、局所的なコヒーレンスが十分である場合を特徴付け、レイリー商予測は 4 つの関係クラスのうち 3 つで観察された残差と 7% 以内で一致します。階層的なボイル・ディクストラ図法は、構成を決定論的に修復します。いつでも有効な電子プロセスにより、連続的なコヒーレンス監視が可能になります。 4 つの LLM 中間層パネル (セクション 5.5 でフロンティアパネルを再実行) 上の 1,876 個のアンサンブル クリーク全体で、クリークの 33 ～ 94% で eps* &gt; 0 となり、比例配分ルールに基づく 1,770 の解決されたベットに対する後悔のベットあたり +0.115 ナットに換算されます (ベッター自身が依存する場合、ゲインは +0.006 に減少します)一貫性を持たせます）。 3 つの直感的な LLM 側の緩和策 (取得、パーティション認識プロンプト、アグリゲーター LLM) はそれぞれ失敗するか退行します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Locally Coherent, Globally Incoherent: Bounding Compositional Incoherence in Multi-Component LLM Agents</p>
        <p class="orig-summary">Multi-component LLM agents assemble probabilistic claims from components that each see only part of a joint problem; the composition can violate basic probability axioms even when every component is locally coherent. We formalise this locally coherent, globally incoherent failure via the compositional residual eps*, the L2 distance from the composed quote to the joint coherent polytope, computable at runtime from system output and the declared cross-component coupling constraints. A product-structure dichotomy characterises when local coherence suffices, and a Rayleigh-quotient prediction matches the observed residual within 7% on three of four relation classes. A hierarchical Boyle-Dykstra projection repairs the composition deterministically; an anytime-valid e-process gives sequential coherence monitoring. Across 1,876 ensemble cliques on a four-LLM mid-tier panel (frontier-panel rerun in Section 5.5), eps* &gt; 0 on 33-94% of cliques, translating to +0.115 nats per bet of regret on 1,770 resolved bets under the proportional allocation rule (the gain collapses to +0.006 under bettors that themselves coherentise). Three intuitive LLM-side mitigations(retrieval, partition-aware prompting, aggregator-LLM) each fail or regress.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5eaf6b1c0693" data-article-url="https://arxiv.org/abs/2605.30344" data-article-title="小さいながらも信頼できる: 時系列異常検出のための効率的な視覚言語推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30344" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30344" target="_blank" rel="noopener">小さいながらも信頼できる: 時系列異常検出のための効率的な視覚言語推論</a></h3>
      <p class="summary">視覚言語モデル (VLM) の最近の進歩により、多くのタスクにわたって優れたパフォーマンスが達成されましたが、これまでの研究では、大規模な言語モデルやマルチモーダル モデルを適用して連続データ内の異常なパターンを検出する場合、満足のいくパフォーマンスが得られないと報告されています。公開されている異常検出ベンチマークは通常、間隔の注釈を提供しますが、自然言語の理論的根拠は提供しないため、根拠のある解釈可能な決定を生成するために VLM を微調整することが困難になります。このギャップに対処するために、公開時系列データセットから構築され、きめ細かいタスク固有の報酬を使用して複数の大規模な VLM から選択された高品質の異常説明で強化された厳選されたベンチマークである VisAnomBench を構築します。このベンチマークを微調整することで、時系列異常検出のためのパラメーター効率の高い VLM である VisAnomReasoner を開発します。 VisAnomBench の実験結果では、VisAnomReasoner がより正確な異常位置特定を実現し、すべてのベースラインを常に上回り、精度と F1 がそれ​​ぞれ少なくとも 21.23 パーセント ポイントと 23.87 パーセント ポイント向上したことが示されています。 TSB-AD-U ベンチマークに関する追加の実験では、VisAnomReasoner によって精度と F1 がそれ​​ぞれ 9.57 パーセント ポイントと 13.39 パーセント ポイント改善され、ベンチマーク間の強力な一般化が実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection</p>
        <p class="orig-summary">Recent advances in Vision-Language Models (VLMs) have achieved impressive performance across many tasks, yet prior studies report unsatisfactory performance when applying large language or multimodal models to finding abnormal patterns in sequential data. Public anomaly detection benchmarks typically provide interval annotations but not natural-language rationales, making it difficult to fine-tune VLMs to produce grounded, interpretable decisions. To address this gap, we construct VisAnomBench, a curated benchmark built from public time-series datasets and augmented with high-quality anomaly explanations selected from multiple large VLMs using fine-grained, task-specific rewards. Through fine-tuning on this benchmark, we develop VisAnomReasoner, a parameter-efficient VLM for time-series anomaly detection. Experimental results on VisAnomBench show that VisAnomReasoner achieves more accurate anomaly localization and consistently outperforms all baselines, with improvements of at least 21.23 and 23.87 percentage points in precision and F1, respectively. Additional experiments on the TSB-AD-U benchmark demonstrate strong cross-benchmark generalization, with VisAnomReasoner improving precision and F1 by 9.57 and 13.39 percentage points, respectively.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4588493c6578" data-article-url="https://arxiv.org/abs/2605.30345" data-article-title="SchGen: セマンティックに基づいたコード表現による PCB 回路図の生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30345" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30345" target="_blank" rel="noopener">SchGen: セマンティックに基づいたコード表現による PCB 回路図の生成</a></h3>
      <p class="summary">プリント基板 (PCB) の回路図設計は、ほぼすべての電子ハードウェアを定義しますが、依然として手作業と専門知識が必要です。生成 AI は高度なデジタルおよびアナログ IC 設計を実現しましたが、自然言語の意図からの PCB 回路図の生成はほとんど解明されていません。この文書では、自然言語リクエストから編集可能な PCB 回路図を生成する初の大規模言語モデルである SchGen について説明します。主要な課題は、LLM に適した表現と大規模なデータセットが不足していることです。現在の回路図フォーマットは、冗長なツール固有の構文とジオメトリを多用する記述が大半を占めており、確実に生成することが困難になっています。相対配置とピン名ベースの配線を使用して回路図編集プリミティブをエンコードする意味論的に根拠のあるコード表現を導入し、ジオメトリ主導の生成問題を LLM に適したセマンティクス主導のマッチング タスクに変換します。さらに、オープンソースのハードウェア設計を私たちの表現に変換するヒューマン エージェントの協調パイプラインを介して、ユーザー プロンプトと組み合わせた PCB 回路図の大規模なデータセットを構築します。実験の結果、SchGen は、ワイヤ接続の精度と機能の正確性において、代替表現やさらに大規模な汎用 LLM よりも大幅に優れていることが示されています。私たちの結果は、複雑なハードウェア設計タスクの生成モデルを可能にする上での表現設計の重要な役割を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SchGen: PCB Schematic Generation with Semantic-Grounded Code Representations</p>
        <p class="orig-summary">Printed circuit board (PCB) schematic design defines nearly all electronic hardware, but it remains manual and expertise-intensive. While generative AI has advanced digital and analog IC design, PCB schematic generation from natural-language intent is largely unexplored. This paper presents SchGen, the first large language model that generates editable PCB schematics from natural-language requests. The key challenge lies in the lack of an LLM-suited representation and a large-scale dataset. Current schematic formats are dominated by verbose, tool-specific syntax and geometry-heavy descriptions, making them difficult to generate reliably. We introduce a semantically grounded code representation that encodes schematic editing primitives with relative placement and pin-name-based wiring, transforming a geometry-driven generation problem into a semantics-driven matching task amenable to LLMs. We further construct a large-scale dataset of PCB schematics paired with user prompts via a human-agent collaborative pipeline that converts open-source hardware designs into our representation. Experiments show that SchGen significantly outperforms alternative representations and even larger general-purpose LLMs on wire connectivity accuracy and functional correctness. Our results highlight the critical role of representation design in enabling generative models for complex hardware design tasks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9b2997503ec3" data-article-url="https://arxiv.org/abs/2605.30353" data-article-title="必要なのは物理学だけですか?物理学者が監視する科学ソフトウェアの AI 開発のケーススタディ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30353" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30353" target="_blank" rel="noopener">必要なのは物理学だけですか?物理学者が監視する科学ソフトウェアの AI 開発のケーススタディ</a></h3>
      <p class="summary">AI エージェントはツールですか、共著者ですか、それとも研究者ですか?定量化されたケース スタディ ($N=1$) を紹介します。物理学者が 12 勤務日と 57 セッションにわたって AI コーディング エージェント (クロード コード、ソネット、オーパス モデル) を監督し、JAX の微分可能な 1 ループ摂動理論モジュールである CLAX-PT を構築しました。私たちは、介入レベルごとに 15 の監督イベントを文書化し、分類しました。エージェントは、Oracle テストに対して反復処理を行うことで、10 件を自律的に解決しました。あと 2 つは物理学者の専門知識によるものです。できなかった 3 件はすべてオラクルの検出を回避したもので、エージェントが症状の軽減を根本原因の解決として扱ったという共通の特性があります。 57 のセッションのうち 33 は、ターゲットの物理を表現できないコード アーキテクチャ内の係数の調整に費やし、再検討を求められても CLASS-PT 分岐の選択を再評価できませんでした。注入された物理概念 (異方性 BAO 減衰) のみが再設計のきっかけとなりました。これとは別に、エージェントはすべてのオラクル テストに合格したが、理論上のどの量にも対応せず、他の宇宙論で誤った値を予測する校正済みの修正を実行しました。ファッジ要素が検出され、同じセッション内で置き換えられました。オラクルテストが見逃したものを発見するには、3 つの監督実践が重要であることが判明しました。共有変更ログにより、セッション全体での探索の停滞が表面化しました。そして非物理的な数値パッチに対する明示的なルール。この場合、エージェントの出力が信頼できるかどうかは、モデルの能力ではなく監視設計によって決まりました。ギャップを埋めるには、特定の構造内で最適化するのではなく、アーキテクチャ上の代替案を提案し、予測の妥当性と説明の正しさを区別するエージェントが必要になります。この機能はここでは示されておらず、スケーリングだけでは明らかに対処されていません。 [要約]</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Physics Is All You Need? A Case Study in Physicist-Supervised AI Development of Scientific Software</p>
        <p class="orig-summary">Are AI agents tools, co-authors, or researchers? We present a quantified case study ($N=1$): a physicist supervising an AI coding agent (Claude Code, Sonnet and Opus models) over 12 work days and 57 sessions to build CLAX-PT, a differentiable one-loop perturbation theory module in JAX. We documented and classified 15 supervision events by intervention level. The agent resolved ten autonomously by iterating against oracle tests. Two more by the physicist&#x27;s domain knowledge. The three it could not -- all evaded oracle detection -- share a common property: the agent treated symptom reduction as root-cause resolution. It spent 33 of the 57 sessions adjusting coefficients within a code architecture that could not represent the target physics, and could not re-evaluate its CLASS-PT branch choice even when prompted to reconsider; only an injected physics concept (anisotropic BAO damping) triggered the redesign. Separately, the agent committed a calibrated correction that passed all oracle tests but corresponded to no quantity in the theory, predicting wrong values at any other cosmology. The fudge factor was caught and replaced within the same session. Three supervision practices proved critical for catching what oracle tests missed: testing at diverse parameter points beyond the fiducial calibration; shared changelogs that surfaced stalled exploration across sessions; and an explicit rule against unphysical numerical patches. In this case, supervision design, not model capability, determined whether the agent&#x27;s output was trustworthy. Closing the gap would require agents that propose architectural alternatives rather than optimize within a given structure, and distinguish predictive adequacy from explanatory correctness -- capabilities not exhibited here, not obviously addressed by scaling alone. [Abridged.]</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6492973d6f75" data-article-url="https://arxiv.org/abs/2605.28828" data-article-title="ミクロマクロ検索: 大規模言語モデルにおける長文幻覚の軽減" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28828" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28828" target="_blank" rel="noopener">ミクロマクロ検索: 大規模言語モデルにおける長文幻覚の軽減</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、多くのタスクにわたって優れたパフォーマンスを実現しますが、特に冗長な取得コンテキストと長い推論チェーンにより事実の誤りが増幅される長い形式の生成では依然として幻覚が発生しやすい傾向があります。最近の研究では、重要な現象が明らかになりました。重要な情報がモデルの出力に近ければ近いほど、事実の精度が高くなります。ただし、既存の検索拡張言語モデル (RALM) には、この近接性を確保するための効果的なメカニズムがありません。外部証拠は複数回の検索を通じて推論に挿入されますが、これでは重要な情報が出力の近くに留まることを保証できません。私たちは、このギャップを埋めるための、生成しながら取得する新しいフレームワークである Micro-Macro Retrieval (M2R) を提案します。マクロレベルでは、M2R は外部ソースから大まかな証拠を取得します。ミクロレベルでは、推論中に構築された重要な情報リポジトリから重要な結果を抽出し、答えを生成する際にそれらを再利用します。この設計は、重要な情報と出力の近接性のボトルネックに直接対処し、長時間のタスクにおける幻覚を効果的に軽減します。 M2Rは、カスタマイズされたルールベースの報酬を使用したカリキュラム学習ベースの強化学習戦略でトレーニングされており、検索スキルとグラウンディングスキルの安定した習得を可能にします。さまざまなベンチマークにわたる広範な実験により、特に長いコンテキスト設定における M2R の有効性が実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Micro-Macro Retrieval: Reducing Long-Form Hallucination in Large Language Models</p>
        <p class="orig-summary">Large Language Models (LLMs) achieve impressive performance across many tasks but remain prone to hallucination, especially in long-form generation where redundant retrieved contexts and lengthy reasoning chains amplify factual errors. Recent studies highlight a critical phenomenon: the closer key information appears to the model outputs, the higher the factual accuracy. However, existing retrieval-augmented language models (RALMs) lack effective mechanisms to ensure this proximity - external evidence is injected into reasoning via multi-turn retrieval, but this cannot ensure key information stays close to the outputs. We propose Micro-Macro Retrieval (M2R), a novel retrieve-while-generate framework to fill this gap. At the macro level, M2R retrieves coarse-grained evidence from external sources; at the micro level, it extracts essential results from a key information repository built during reasoning and reuses them while generating answers. This design directly addresses the key-information-to-output proximity bottleneck, effectively reducing hallucination in long-form tasks. M2R is trained with a curriculum learning-based reinforcement learning strategy using customized rule-based rewards, enabling stable acquisition of retrieval and grounding skills. Extensive experiments across different benchmarks demonstrate the effectiveness of M2R, especially in lengthy-context settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5145b89469ba" data-article-url="https://arxiv.org/abs/2605.28829" data-article-title="アリヤバータ 2: 高度な STEM 推論のための強化学習のスケーリング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28829" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28829" target="_blank" rel="noopener">アリヤバータ 2: 高度な STEM 推論のための強化学習のスケーリング</a></h3>
      <p class="summary">JEE や NEET などの競争力のある STEM 試験では、複数段階の記号的推論、正確な数値計算、物理、化学、数学にわたる深い概念的理解が必要です。最近の大規模な言語モデルは、共通の推論ベンチマークでは優れたパフォーマンスを発揮しますが、大規模に展開することは依然として困難であり、学生の何百万もの疑問がドメイン固有の一貫した構造の問題解決を必要としています。 Aryabhata 2 は、トレーニング後の強化学習によってトレーニングされた、競争力のある STEM 試験用の推論に焦点を当てた言語モデルです。 PhysicsWallah の内部質問バンクを使用して、高品質のトレーニング カリキュラムを構築し、検証可能な報酬を伴う強化学習を通じて GPT-OSS-20B のポストトレーニングを構築します。トレーニングでは、長期にわたる強化学習と、段階的にロールアウト グループのサイズが大きくなることで広がる探索を組み合わせます。 JEE Main、JEE Advanced、NEET などの競合試験ベンチマークと、AIME、HMMT、MMLU-Pro、MMLU-Redux 2.0、GPQA などの配布外推論データセットで Aryabhata 2 を評価します。結果は、Aryabhata 2 が競合 STEM 推論において基本モデル GPT-OSS-20B を上回るパフォーマンスを示しながら、必要な出力トークンが大幅に少なくなる (最大 64\% 少ない) ことを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning</p>
        <p class="orig-summary">Competitive STEM examinations such as JEE and NEET require multi-step symbolic reasoning, precise numerical computation, and deep conceptual understanding across physics, chemistry, and mathematics. Recent large language models perform strongly on common reasoning benchmarks, yet they remain difficult to deploy at scale, where millions of student doubts demand domain-specific, consistently structured problem solving. We introduce Aryabhata 2, a reasoning-focused language model for competitive STEM examinations, trained via reinforcement-learning post-training. Using PhysicsWallah&#x27;s internal question banks, we construct a high-quality training curriculum and post-train GPT-OSS-20B through reinforcement learning with verifiable rewards. Training combines prolonged reinforcement learning with broadened exploration via progressively larger rollout group sizes. We evaluate Aryabhata 2 on competitive examination benchmarks, including JEE Main, JEE Advanced, and NEET, as well as out-of-distribution reasoning datasets such as AIME, HMMT, MMLU-Pro, MMLU-Redux 2.0, and GPQA. Results show that Aryabhata 2 outperforms its base model GPT-OSS-20B on competitive STEM reasoning while requiring substantially fewer output tokens (up to 64\% fewer).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d9c0ad3bfbc8" data-article-url="https://arxiv.org/abs/2605.28830" data-article-title="オープンソースの安全ガード モデルのベンチマーク: 包括的な評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28830" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28830" target="_blank" rel="noopener">オープンソースの安全ガード モデルのベンチマーク: 包括的な評価</a></h3>
      <p class="summary">安全性が重要なアプリケーションに大規模言語モデル (LLM) が導入されることが増えているため、堅牢なコンテンツ モデレーションが不可欠になっています。 NIST AI リスク フレームワークの 8 つの安全カテゴリにまたがる 79,331 サンプルの厳選されたベンチマークに基づく 14 のオープンソース安全ガード モデルの包括的な評価を示します。当社のベンチマークは 4 つの多様なデータセット (HarmBench、StrongREJECT、RealToxicityPrompts、BeaverTails) を集約し、安全関連のコンテンツ (暴力、ヘイトスピーチ、嫌がらせ、性的コンテンツ、自殺/自傷行為、冒涜、脅迫、健康上の誤った情報) のみに焦点を当てるようにフィルタリングされています。有害なコンテンツの欠落は誤検知よりも大きなリスクをもたらすため、リコールは安全性アプリケーションにとって重要な指標であることがわかりました。私たちの評価では、驚くべき結果が明らかになりました。Qwen Guard (4B パラメーター) は最高の再現率 (83.97%) を達成しましたが、Llama Guard (12B) や GPT-OSS Safeguard (20B) などのより大きなモデルは保守的な動作を示し、安全でないコンテンツを最大 75% 見逃しました。我々は、モデルのサイズが安全検出のパフォーマンスと相関しないこと、および汎用のガード モデルが特殊なガード モデルよりも優れていることを実証します。これらの調査結果は、実稼働環境での安全装置モデルを選択するための実践的なガイダンスを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Benchmarking Open-Source Safety Guard Models: A Comprehensive Evaluation</p>
        <p class="orig-summary">As Large Language Models (LLMs) are increasingly deployed in safety-critical applications, robust content moderation becomes essential. We present a comprehensive evaluation of 14 open-source safety guard models on a curated benchmark of 79,331 samples spanning 8 NIST AI Risk Framework safety categories. Our benchmark aggregates four diverse datasets (HarmBench, StrongREJECT, RealToxicityPrompts, and BeaverTails), filtered to focus exclusively on safety-relevant content (violence, hate speech, harassment, sexual content, suicide/self-harm, profanity, threats, and health misinformation). We find that recall is the critical metric for safety applications, as missing harmful content poses greater risk than false positives. Our evaluation reveals surprising results: Qwen Guard (4B parameters) achieves the highest recall (83.97%) while larger models like Llama Guard (12B) and GPT-OSS Safeguard (20B) exhibit conservative behavior, missing up to 75% of unsafe content. We demonstrate that model size does not correlate with safety detection performance and that general-purpose guard models outperform specialized ones. These findings provide practical guidance for selecting safety guard models in production deployments.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="77a5cdfb400c" data-article-url="https://arxiv.org/abs/2605.28831" data-article-title="S3Mem: 長期対話型質​​問応答のための構造化時空間シーン-イベント記憶" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28831" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28831" target="_blank" rel="noopener">S3Mem: 長期対話型質​​問応答のための構造化時空間シーン-イベント記憶</a></h3>
      <p class="summary">長期にわたる対話型エージェントは、多くの場合、大規模な軌跡履歴を蓄積しますが、以前のイベントに関する質問に確実に答えることができません。私たちは、主なボトルネックはコンテキストの長さだけではなく、長期記憶の軌跡と答えのインターフェースにあると主張します。履歴がプレーンテキストのチャンクとして保存され、標準の検索拡張生成 (RAG) でクエリされる場合、システムは多くの場合、特に空間的、時間的、繰り返しイベント、およびマルチホップ状態の質問について、ローカルに関連するが連鎖的に不完全な証拠を取得します。我々は、長期対話型質​​問応答 (QA) のための構造化されたシーンイベントエピソード記憶フレームワークである S3MEM を提案します。 S3MEM は、構造化メモリ ユニットに軌跡を書き込み、アンカーに応じた検索を通じて証拠を取得し、応答時間推論のためのコンパクトなトークンバジェット認識証拠インターフェイスを公開します。この意味で、S3MEM は、エージェントの軌跡をクエリに合わせたサポートに変換する、構造化された証拠ハーネスです。 2 つの内部ヘッドライン環境 (Craafter、Jericho) と 2 つのファミリー外環境 (SciWorld、ALFWorld) で S3MEM を評価します。共有凍結応答時間プロトコルの下では、S3MEM は 4 つの環境すべてで一貫して Vanilla RAG を上回り、Crafter、Jericho、ALFWorld では Graph-NoReader を上回り、劇的に少ない証拠トークンを使用しながら SciWorld でも同等のパフォーマンスを発揮します。 A-MEM にインスピレーションを得た、MemoryOS に適応した、LightMem に適応した 3 つの最近のベースラインは、いくつかの設定において Vanilla RAG よりも改善されていますが、S3MEM の全体的な精度効率の最前線に匹敵するものはありません。全体として、証拠は限定された結論を裏付けています。つまり、現在の凍結された応答時間プロトコルの下では、構造化された書き込みとアンカーに応じた証拠のルーティングは、より一般的なメモリ インターフェイスよりも長期の対話型 QA に強力な精度効率のフロンティアを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">S3Mem: Structured Spatiotemporal Scene-Event Memory for Long-Horizon Interactive Question Answering</p>
        <p class="orig-summary">Long-horizon interactive agents often accumulate large trajectory histories yet still fail to answer questions about earlier events reliably. We argue that the main bottleneck is not context length alone, but the trajectory-to-answer interface of long-term memory. When histories are stored as plain-text chunks and queried with standard retrieval-augmented generation (RAG), systems often retrieve locally relevant but chain-incomplete evidence, especially for spatial, temporal, repeated-event, and multi-hop state questions. We propose S3MEM, a structured scene-event episodic memory framework for long-horizon interactive question answering (QA). S3MEM writes trajectories into structured memory units, retrieves evidence through anchor-sensitive retrieval, and exposes a compact token-budget-aware evidence interface for answer-time inference. In this sense, S3MEM is a structured evidence harness that converts agent trajectories into query-aligned support. We evaluate S3MEM on two internal headline environments (Crafter, Jericho) and two out-of-family environments (SciWorld, ALFWorld). Under a shared frozen answer-time protocol, S3MEM consistently outperforms Vanilla RAG across all four environments, surpasses Graph-NoReader on Crafter, Jericho, and ALFWorld, and matches it on SciWorld while using dramatically fewer evidence tokens. Three adapted recent baselines -- A-MEM-inspired, MemoryOS-adapted, and LightMem-adapted -- improve over Vanilla RAG in several settings, but none matches S3MEM&#x27;s overall accuracy-efficiency frontier. Overall, the evidence supports a bounded conclusion: under the current frozen answer-time protocol, structured writing and anchor-sensitive evidence routing provide a stronger accuracy-efficiency frontier for long-horizon interactive QA than more generic memory interfaces.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="08afb17b9da9" data-article-url="https://arxiv.org/abs/2605.28832" data-article-title="トピックの一貫性のためのトランスフォーマーベースの埋め込みの比較研究" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28832" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28832" target="_blank" rel="noopener">トピックの一貫性のためのトランスフォーマーベースの埋め込みの比較研究</a></h3>
      <p class="summary">トピック モデリングは自然言語処理 (NLP) の一分野であり、単語の共起パターンに従ってテキストの大規模なコレクションを一貫したグループに編成することを目的としています。潜在ディリクレ割り当て (LDA) は依然として最も広く使用されており、解釈可能な確率的アプローチの 1 つです。 NLP、特にトランスフォーマーベースの言語モデルの最近の進歩により、文書表現が改善されました。モデルのサイズ (パラメーターの数の点で) が、さまざまな事前定義タスクでの言語モデルのパフォーマンスに大きな影響を与えることも知られています。この研究では、さまざまなコーパスに対する BERTopic パイプライン内の 7 つのトランスフォーマーベースの言語モデル (MiniLM などの小規模なモデルから LLaMA-2 などの大きなモデルまで) のパフォーマンスを分析することにより、トピックの品質に対するモデル サイズの影響を体系的に調べます。トピックの品質は、R{\&quot;o}der et al. (2015) に従って一貫性と発散のメトリクスを使用して評価されます。私たちの結果は、2,200 万から 130 億のパラメーターの範囲にあるモデル サイズがトピックの品質に与える影響はごくわずかであることを示しており、より小さなモデルでもより大きなモデルと同等のパフォーマンスを達成できることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A comparative study of transformer-based embeddings for topic coherence</p>
        <p class="orig-summary">Topic modeling is a branch of Natural Language Processing (NLP) that aims to organize large collections of texts into coherent groups according to word co-occurrence patterns, with Latent Dirichlet Allocation (LDA) remaining one of the most widely used and interpretable probabilistic approaches. Recent advances in NLP, particularly transformer-based language models, offer improved document representations. It is also known that the size of the model (in terms of number of parameters) has a significant impact in the performance of the language models on different pre-defined tasks. In this study, we systematically examine the effect of model size on topic quality by analyzing the performances of seven transformer-based language models (from small models such as MiniLM to large ones such as LLaMA-2) in a BERTopic pipeline on a variety of corpora. Topic quality is evaluated using coherence and divergence metrics following R{\&quot;o}der et al. (2015). Our results indicate that model size, ranging from 22 million to 13 billion parameters, has a negligible impact on the quality of the topic, suggesting that smaller models can achieve comparable performance to larger models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bdb8c827aa30" data-article-url="https://arxiv.org/abs/2605.28833" data-article-title="子どものスピーチの文字起こし: ASR のパフォーマンスと信頼性の高い正書法文字起こしの取得" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28833" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28833" target="_blank" rel="noopener">子どものスピーチの文字起こし: ASR のパフォーマンスと信頼性の高い正書法文字起こしの取得</a></h3>
      <p class="summary">自動音声認識 (ASR) は、自動文字起こしを生成することにより、子供の音声研究における手動の注釈の労力を大幅に削減する可能性があります。ただし、子供固有の事前トレーニング済みモデルが限られており、ノイズ条件が非常に多様であるため、リソースが少ない言語では、子供の音声に対して確実に高品質の ASR 文字起こしを取得することは依然として困難です。この研究では、オランダの 2 つの児童音声データセット、JASMIN と DART で 3 つのモデル ファミリー (Whisper、Parakeet、Wav2Vec2) からの 9 つの ASR モデルを評価することにより、2 つの研究質問を通じて児童音声に対する最先端の ASR モデルの有効性を調査します。研究課題 1 では、子供の発話に適用された ASR モデルのパフォーマンスを調査します。微調整された Whisper-medium モデルは、JASMIN で 5.54%、DART で 70.37% の WER で最高の全体的なパフォーマンスを達成し、ノイズの多い DART データの方が明らかに困難であることを示しています。研究課題 2 では、手動による検証を必要とせずに、信頼できる正投影転写が自動的に取得できるサブセットをどの程度選択できるかを検討します。 ASR 出力と元の読み上げプロンプトを比較する発話レベルの選択方法を使用して、正しく発音された録音を識別します。提案された選択方法を使用すると、発話の 42.0% (JASMIN の場合) と 18.1% (DART の場合) が高い信頼度で正しく発音されていると自動的に識別され、その結果、発話レベルでのエラー率が非常に低くなり (精度は 98.3% 以上)、手動検証の必要性が減ります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Transcribing Children&#x27;s Speech: ASR Performance and Obtaining Reliable Orthographic Transcriptions</p>
        <p class="orig-summary">Automatic speech recognition (ASR) has the potential to substantially reduce manual annotation effort in child speech research by generating automatic transcriptions. However, obtaining reliably high-quality ASR transcriptions for child speech remains challenging in low-resource languages due to limited child-specific pre-trained models and highly diverse noise conditions. This study investigates the effectiveness of state-of-the-art ASR models on child speech through two research questions, by evaluating nine ASR models from three model families (Whisper, Parakeet, and Wav2Vec2) on two Dutch child speech datasets, JASMIN and DART. Research question 1 examines the performance of ASR-models applied to child speech. The fine-tuned Whisper-medium model achieves the best overall performance, with a WER of 5.54% on JASMIN and 70.37% on DART, showing that the noisy DART data are clearly more challenging. Research question 2 examines to what extent it is possible to select a subset for which reliable orthographic transcriptions can be obtained automatically, without the need for manual verification. We use an utterance-level selection method that compares ASR output with the original read prompt to identify correctly pronounced recordings. Using the proposed selection method, 42.0% [for JASMIN] and 18.1% [for DART] of the utterances can be automatically identified as correctly pronounced with high confidence, resulting in very low error rates on an utterance level (precisions of 98.3% and higher) and reducing the need for manual verification.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f62b709a9df" data-article-url="https://arxiv.org/abs/2605.28834" data-article-title="オランダ語の音節化アルゴリズムを評価し、深層学習を通じて音声情報と正書法情報を組み合わせることで精度を向上する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28834" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28834" target="_blank" rel="noopener">オランダ語の音節化アルゴリズムを評価し、深層学習を通じて音声情報と正書法情報を組み合わせることで精度を向上する</a></h3>
      <p class="summary">音節化は、単語を音節に分割するタスクを表します。多くの規則と例外があるため、高精度で音節化を実行するアルゴリズムをトレーニングすることは依然として課題です。過去数十年にわたり、オランダ語の音節化に関してさまざまなアルゴリズムが提案されてきましたが、包括的な比較評価はまだ行われていません。さらに、近年、深層学習は NLP 内で非常に人気が高まっていますが、オランダ語正書音節化用の最新の深層学習ベースのフレームワークは開発されていません。最後に、音声および正書法の音節化アルゴリズムは個別に検討されましたが、組み合わせて検討されたわけではありません。現在の研究の目的は 2 つあります: (a) 既存のオランダ語の音節化アルゴリズムのパフォーマンスを調べること、(b) 音声情報と正書法情報を単一のモデルに組み合わせることで音節化のパフォーマンスが向上するかどうかを調査すること。アルゴリズムのパフォーマンスを比較するために、4 つのアルゴリズム (Brandt Corstius、Liang、Trogkanis-Elkan (CRF)、および新しく考案された深層学習モデル) を 3 つの異なるデータセット (辞書単語、外来語、擬似単語) に適用しました。アルゴリズムはデータセット間でパフォーマンスが異なり、1 つの条件を除くすべての条件でデータ駆動型アルゴリズムが知識ベースのアルゴリズムを上回っています。開発された新しいディープラーニング手法により、文献で見つかった最高の手法と比較してパフォーマンスが向上しました (単語精度 99.65%、0.14% 向上)。音声情報を追加することで音節化のパフォーマンスが向上した単語を分析したところ、これらは発音に関する情報によって正書法の曖昧さを解決できた単語であることがわかりました。将来の研究では、音声情報が正書法処理に役立つ他の分野も調査される可能性があります。さらに、新しく開発された深層学習フレームワークは、オランダ語以外の言語にも適用できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Assessing Dutch Syllabification Algorithms and Improving Accuracy by Combining Phonetic and Orthographic Information through Deep Learning</p>
        <p class="orig-summary">Syllabification describes the task of dividing words into syllables. Due to many rules and exceptions, training an algorithm to perform syllabification with high accuracy remains a challenge. Throughout the last decades, different algorithms have been put forth for Dutch syllabification, yet a comprehensive comparative assessment has not been done. Additionally, deep learning has gained significant popularity within NLP in recent years, yet no modern deep-learning based framework has been developed for Dutch orthographic syllabification. Finally, phonetic and orthographic syllabification algorithms have been examined separately, but not in combination. The aim of the current research was twofold: (a) to examine the performance of existing Dutch syllabification algorithms, and (b) to investigate whether combining phonetic and orthographic information into a single model can increase syllabification performance. To compare the performance of algorithms, four algorithms (Brandt Corstius, Liang, Trogkanis-Elkan (CRF), and a newly conceived deep-learning model) were applied to three different datasets (dictionary words, loanwords, pseudowords). The algorithms show varying performance across datasets, with the data-driven algorithms outperforming a knowledge-based algorithm in all but one condition. The new deep-learning methods developed led to increased performance compared to the best found in the literature (99.65% word accuracy, a 0.14% improvement). An analysis of the words for which adding phonetic information improved syllabification performance indicates that these were words in which the orthographic ambiguity could be resolved by information on pronunciation. Future research could examine other areas where phonetic information can benefit orthographic processing. In addition, the newly developed deep learning frameworks can be applied to other languages than Dutch.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="af3e21c2846b" data-article-url="https://arxiv.org/abs/2605.28835" data-article-title="GenesisFunc: 正確かつ一般化可能な関数呼び出しのためのマルチエージェント データ生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28835" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28835" target="_blank" rel="noopener">GenesisFunc: 正確かつ一般化可能な関数呼び出しのためのマルチエージェント データ生成</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、関数呼び出し (FC) を通じて機能を拡張します。FC は、高品質、多様性、および幅広いシナリオをカバーするトレーニング データに依存します。ただし、実際の関数呼び出しデータを取得して注釈を付けるのは困難ですが、既存のパイプラインからの合成データは、多くの場合、信頼性の低い API、限られたツールのスケーラビリティ、不十分な多様性、弱い品質管理に悩まされます。これらに対処するために、FC トレーニング データを生成する自動パイプラインである GenesisFunc を紹介します。当社の GenesisFunc は、広く使用されている公開ベンチマークの信頼性の高いツールから始まり、マルチエージェント フレームワークを採用して、プロセス全体を通じて多様性と品質の両方を維持しながら、多様なシナリオにわたる会話を生成する対話生成システムをサポートします。データの精度は多段階の評価システムによってさらに強化されます。私たちは合成データセット上で 8B LLM を微調整し、広範な実験を通じて、ドメイン内の FC パフォーマンスとドメイン外の汎化において同様のサイズのオープンソース モデルを上回るパフォーマンスを示し、同時に最新の API ベースのモデルの一部と同等の FC 機能に達していることを示しました。さらに、私たちの方法は、下流のツール間で効果的に拡張できる強力な可能性を示しており、現実世界への適用可能性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GenesisFunc: Multi-Agent Data Generation for Accurate and Generalizable Function-Calling</p>
        <p class="orig-summary">Large Language Models (LLMs) extend their capabilities through function-calling (FC), which relies on training data with high quality, diversity, and broad coverage of scenario. However, obtaining and annotating real function-calling data is challenging, while synthetic data from existing pipelines often suffers from unreliable APIs, limited tool scalability, insufficient diversity, and weak quality control. To address these, we present GenesisFunc, an automated pipeline for generating FC training data. Starting from reliable tools in widely used public benchmarks, our GenesisFunc employs a multi-agent framework to support a dialogue generation system that produces conversations spanning diverse scenarios, while maintaining both diversity and quality throughout the process. The accuracy of the data is further reinforced through a multi-stage evaluation system. We fine-tune an 8B LLM on the synthetic dataset and show through extensive experiments that it outperforms similarly sized open-source models in in-domain FC performance and out-of-domain generalization, while reaching FC capabilities comparable to some of the latest API-based models. In addition, our method demonstrates strong potential to scale effectively across downstream tools, underscoring its real-world applicability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4b889e9d014" data-article-url="https://arxiv.org/abs/2605.28836" data-article-title="読者を取り残さない: 誰もが理解できるマルチエージェントの概要" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28836" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28836" target="_blank" rel="noopener">読者を取り残さない: 誰もが理解できるマルチエージェントの概要</a></h3>
      <p class="summary">米国の平文法では、政府文書が一般の人々が簡単に理解できる明確で単純な言語でアクセスできるようにすることを求めていますが、既存の要約システムは、一般読者の間の多様な言語的および認知的障壁に対処するのに苦労しています。我々は、小学生の読者、非ネイティブの読者、注意欠陥のある読者という 3 つの代表的な読者グループをシミュレートする、平易な言語要約のためのマルチエージェント フレームワークである NRLB (No Reader Left Behind) を紹介します。 NRLB は、テンプレートベースの計画と読者指向の反復的な改善を組み合わせ、難しい用語、文脈の欠落、混乱を招く文章の体系的な検出と解決を可能にします。複数のデータセットにわたる評価により、事実の正確さを維持しながら可読性が一貫して向上していることが実証されています。人間による評価では、NRLB の影響がさらに検証され、アノテーターの優先率は 55% から 76% の範囲であり、情報源に忠実であり、一般の人々が広くアクセスできる平易な言葉による要約を作成する NRLB の可能性が強調されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">No Reader Left Behind: Multi-Agent Summaries Everyone Can Understand</p>
        <p class="orig-summary">The Plain Writing Act in the United States requires government documents to be accessible in clear and simple language that the general public can easily understand, yet existing summarization systems struggle to address diverse linguistic and cognitive barriers among general readers. We present NRLB (No Reader Left Behind), a multi-agent framework for plain language summarization that simulates three representative reader groups: elementary school student readers, non-native readers, and readers with attention deficits. NRLB combines template-based planning with iterative, reader-oriented refinement, enabling systematic detection and resolution of difficult terms, missing contexts, and confusing sentences. Evaluations across multiple datasets demonstrate consistent improvements in readability while preserving factual accuracy. Human evaluation further validates NRLB&#x27;s impact, with annotator preference rates ranging from 55% to 76%, highlighting NRLB&#x27;s potential to produce plain language summaries that are both faithful to the source and broadly accessible to the general public.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f3e7d994d369" data-article-url="https://arxiv.org/abs/2605.28837" data-article-title="SERC:LDPC にヒントを得た検索拡張生成のためのセマンティック エラー修正" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28837" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28837" target="_blank" rel="noopener">SERC:LDPC にヒントを得た検索拡張生成のためのセマンティック エラー修正</a></h3>
      <p class="summary">大規模言語モデル (LLM) は顕著な機能を実証していますが、その信頼性は幻覚によって大きく損なわれます。既存の固有の自己修正手法はこれに対処しようとしますが、モデルが外部検証なしで自身の出力内のエラーを特定するのに苦労する自己バイアスにより失敗することがよくあります。これらの制限を克服するために、我々は、LDPC にヒントを得た検索拡張生成 (SERC) のためのセマンティック エラー修正を提案し、LLM 幻覚を解釈し軽減するための理論的枠組みを提供します。テキスト生成プロセスを意味論的なノイズの多いチャネルとして再定式化し、生成された応答をノイズで破損したコードワードとして扱います。低密度パリティ チェック (LDPC) コードからインスピレーションを得た SERC は、スパース検証戦略を採用しています。つまり、すべての事実を徹底的にチェックするのではなく、低密度検証クエリを生成し、外部証拠に照らして検証して、エラーを効率的に検出して修正します。 Llama-3-8B および Qwen2.5-14B を使用して、LongForm Bio および TruthfulQA ベンチマークで SERC を評価します。実験結果は、SERC が固有の自己修正手法と強力な検索拡張ベースラインの両方を上回るパフォーマンスを示し、特に事実の精度 (FactScore) において大幅な向上を示しています。特に、SERC により、小型言語モデル (SLM) が幻覚の軽減と情報の保存において大規模なベースラインのパフォーマンスを上回ることが可能になります。私たちの調査結果は、SERC がトレーニング不要でモデルに依存しないソリューションを提供し、高密度メソッドと比較して検証オーバーヘッドを大幅に削減し、リソースに制約のある環境でコストと忠実度の間の最適なトレードオフを達成することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SERC: LDPC-Inspired Semantic Error Correction for Retrieval-Augmented Generation</p>
        <p class="orig-summary">While Large Language Models (LLMs) have demonstrated remarkable capabilities, their reliability is significantly compromised by hallucinations. Existing intrinsic self-correction methods attempt to address this, but often fail due to self-bias, where models struggle to identify errors in their own outputs without external verification. To overcome these limitations, we propose the LDPC-inspired semantic error correction for retrieval-augmented generation (SERC), providing a theoretical framework to interpret and mitigate LLM hallucinations. We reformulate the text generation process as a semantic noisy channel, treating generated responses as noise-corrupted codewords. Inspired by low-density parity-check (LDPC) codes, SERC employs a sparse verification strategy: instead of exhaustively checking all facts, it generates low-density verification queries and validates them against external evidence to efficiently detect and correct errors. We evaluate SERC on LongForm Bio and TruthfulQA benchmarks using Llama-3-8B and Qwen2.5-14B. Experimental results demonstrate that SERC outperforms both intrinsic self-correction methods and strong retrieval-augmented baselines, demonstrating significant gains especially in factual precision (FactScore). Notably, SERC enables small language models (SLMs) to surpass the performance of larger baselines in hallucination reduction and information preservation. Our findings demonstrate that SERC provides a training-free, model-agnostic solution that significantly reduces verification overhead compared to dense methods, achieving an optimal trade-off between cost and fidelity in resource-constrained environments.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3bf0a75f5ab6" data-article-url="https://arxiv.org/abs/2605.28838" data-article-title="免疫介在性疾患の専門分野に特化した医療言語モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28838" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28838" target="_blank" rel="noopener">免疫介在性疾患の専門分野に特化した医療言語モデル</a></h3>
      <p class="summary">フリーテキストの医療ナラティブから詳細な臨床情報を抽出することは、研究者や医療システムにとって依然として現実的な課題です。免疫介在性疾患や感染症の用語は特にソース間で一貫性がなく、そのため、関連する生物医学的概念を十分な粒度で捉えるための汎用自然言語処理 (NLP) システムの能力が制限されることがよくあります。私たちは、免疫学および感染症の文脈で発生する疾患関連実体を識別するために調整された、ドメイン固有の固有実体認識 (NER) モデルを開発しました。私たちは、2 人の臨床専門家と協力して 371 件の症例報告のデータセットを収集し、手作業で注釈を付け、免疫介在性疾患および感染症疾患、ならびに関連する症状および臨床記述子をカバーする 12 のエンティティ クラスを定義しました。私たちは、複数の医療固有の埋め込みを備えた MedicalNER アーキテクチャ、BERT ベースのトークン分類モデル、ゼロショット NER システムなど、いくつかのモデリング戦略を評価しました。最も強力なパフォーマンスは、臨床領域の埋め込みでトレーニングされたトランスフォーマー ベースのモデルで得られ、F1 スコア 0.89 に達し、ベースライン アプローチやゼロショット アプローチを一貫して上回りました。特殊な埋め込みと専門家の注釈の組み合わせは、微妙な疾患用語を捉え、異種の生物医学テキスト全体での一般化を向上させるのに特に価値があることが判明しました。プロンプトされた LLM ベースラインは、同じ評価プロトコルの下で大幅に低いパフォーマンスを達成しました。これは、詳細なプロンプトにもかかわらず、きめの細かいエンティティ境界に対してスパン一貫した出力を生成することが困難であることを反映しています。結果として得られるモデルは、症例報告を分析するための構造化された方法を提供し、コホートの特定、疾患のモニタリング、臨床意思決定のサポートなどの下流タスクをサポートできます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Specialty-Specific Medical Language Model for Immune-Mediated Diseases</p>
        <p class="orig-summary">Extracting detailed clinical information from free-text medical narratives remains a practical challenge for researchers and healthcare systems. Terminology for immune-mediated and infectious diseases is especially inconsistent across sources, which often limits the ability of general-purpose Natural Language Processing (NLP) systems to capture the relevant biomedical concepts with sufficient granularity. We developed a domain-specific Named Entity Recognition (NER) model tailored to identify disease-related entities occurring in immunology and infectious disease contexts. We assembled and manually annotated a dataset of 371 case reports in collaboration with two clinical specialists, defining twelve entity classes covering immune-mediated and infectious conditions as well as related symptoms and clinical descriptors. We evaluated several modeling strategies, including the MedicalNER architecture with multiple healthcare-specific embeddings, a BERT-based token classification model, and zero-shot NER systems. The strongest performance was obtained with a transformer-based model trained on clinical-domain embeddings, which reached an F1 score of 0.89, consistently outperforming baseline and zero-shot approaches. The combination of specialized embeddings and expert annotation proved particularly valuable for capturing nuanced disease terminology and improving generalization across heterogeneous biomedical text. The prompted LLM baseline achieved substantially lower performance under the same evaluation protocol, reflecting difficulties in producing span-consistent outputs for fine-grained entity boundaries despite detailed prompting. The resulting model provides a structured way to analyze case reports and can support downstream tasks such as cohort identification, disease monitoring, and clinical decision support.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f2b0f7c13fb8" data-article-url="https://arxiv.org/abs/2605.28840" data-article-title="LLM エージェントの一貫性はどの程度ですか?マルチステップのツール呼び出しパイプラインにおける動作の再現性の測定" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28840" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28840" target="_blank" rel="noopener">LLM エージェントの一貫性はどの程度ですか?マルチステップのツール呼び出しパイプラインにおける動作の再現性の測定</a></h3>
      <p class="summary">ツール呼び出し機能を備えた大規模言語モデル (LLM) エージェントが実稼働システムに導入されることが増えていますが、根本的な信頼性の問題、つまり同じエージェントが 2 回同じように動作するかという問題はまだ解明されていません。我々は、エージェントが同じツールを同じ順序で、同じ引数で、同じ呼び出しを繰り返して選択するかどうかを測定する、複数ステップのツール呼び出しエージェントの動作の一貫性に関する体系的な実証研究を紹介します。 ReAct スタイルのエージェント (検索専用、フリーテキスト アクション) の一貫性に関する以前の研究とは異なり、型指定されたパラメーターと結果として生じる副作用を備えた構造化されたツール呼び出しインターフェイスのより豊富な設定を研究します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines</p>
        <p class="orig-summary">Large language model (LLM) agents with tool-calling capabilities are increasingly deployed in production systems, yet a fundamental reliability question remains under-explored: does the same agent behave the same way twice? We present a systematic empirical study of behavioral consistency in multi-step tool-calling agents, measuring whether agents select the same tools, in the same order, with the same arguments, across repeated identical invocations. Unlike prior work on consistency in ReAct-style agents(search-only, free-text actions), we study the richer setting of structured tool-calling interfaces with typed parameters and consequential side effects.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a72fa2383343" data-article-url="https://arxiv.org/abs/2605.28842" data-article-title="計画としての思考: 強化計画による思考連鎖最適化のための潜在世界モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28842" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28842" target="_blank" rel="noopener">計画としての思考: 強化計画による思考連鎖最適化のための潜在世界モデル</a></h3>
      <p class="summary">多様な NLP タスクにわたる大規模言語モデル (LLM) の成功により、モデルの動作をタスクの目標に合わせるための重要なステップとして、推論チェーンの最適化の重要性が高まっています。既存の推論チェーンのチューニング方法は、多くの場合、解釈可能性、一般化、およびサンプル効率に欠けるブラックボックス ヒューリスティックまたは勾配なしの検索に依存しています。この研究では、推論チェーンの最適化を潜在意味空間上の逐次的な意思決定プロセスとして形式化する新しいフレームワークである \textbf{Thoughts-as-Planning} を紹介します。 LLM を部分的に観察可能な環境としてモデル化し、下流の出力に対する推論チェーン編集の影響をシミュレートする潜在世界モデルを学習します。近接性を保持する埋め込み空間は、推論連鎖応答ダイナミクスをエンコードするために構築されており、勾配降下法または強化学習による計画を可能にします。私たちのメソッドはマルチスケールの抽象化をサポートしており、トークン、セグメント、命令レベルでの推論チェーン編集を統合プランナーに統合できます。言語理解と生成タスクに関する広範な実験を通じて、Thoughts-as-Planning が効率、堅牢性、一般化の点で最先端の推論チェーン調整ベースラインを上回り、その構造化された計画軌道を通じて解釈可能性を提供することを実証しました。私たちのコードは https://github.com/FastLM/Thoughts-as-Planning で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Thoughts-as-Planning: Latent World Models for Chain-of-Thoughts Optimization via Reinforcement Planning</p>
        <p class="orig-summary">The success of large language models (LLMs) across diverse NLP tasks has elevated the importance of reasoning chain optimization as a critical step in aligning model behavior with task objectives. Existing reasoning chain tuning methods often rely on black-box heuristics or gradient-free search, which lack interpretability, generalization, and sample efficiency. In this work, we introduce \textbf{Thoughts-as-Planning}, a novel framework that formalizes reasoning chain optimization as a sequential decision-making process over a latent semantic space. We model the LLM as a partially observable environment and learn a latent world model that simulates the effect of reasoning chain edits on downstream outputs. A proximity-preserving embedding space is constructed to encode reasoning chain-response dynamics, enabling planning via gradient descent or reinforcement learning. Our method supports multi-scale abstraction, allowing reasoning chain edits at token, segment, and instruction levels to be integrated into a unified planner. Through extensive experiments on language understanding and generation tasks, we demonstrate that Thoughts-as-Planning outperforms state-of-the-art reasoning chain tuning baselines in efficiency, robustness, and generalization, while offering interpretability through its structured planning trajectory. Our code is available at https://github.com/FastLM/Thoughts-as-Planning.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e9df9c5deeca" data-article-url="https://arxiv.org/abs/2605.28848" data-article-title="GPF-LiveNews: 大規模言語モデルにおけるグループ条件付きフレーミングのためのストリーミング評価プロトコル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28848" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28848" target="_blank" rel="noopener">GPF-LiveNews: 大規模言語モデルにおけるグループ条件付きフレーミングのためのストリーミング評価プロトコル</a></h3>
      <p class="summary">デプロイされた言語モデルは非定常環境で評価されます。モデルのバージョン、検索レイヤー、安全システム、現実世界の入力はすべて時間の経過とともに変化します。静的バイアスのベンチマークは依然として有用ですが、モデルがさまざまな刺激を受けた視聴者に対して新たに出現したイベントをどのように組み立てるかは示していません。オープンエンド LLM 出力のグループ条件付きフレーミングを監査するためのストリーミング評価プロトコルおよびベンチマーク スナップショットである GPF-LIVENEWS を紹介します。このプロトコルは、42 の ID ラベルと 7 つのプロンプト ファミリにわたって新鮮な BBC/ロイター ニュース アンカーを拡張し、その後、意味論的感度とセンチメント差異シグナルを使用して応答バンドルを評価します。 12 回のモニタリング実行と 23 個のホストされたモデルにわたるパイロットでは、ポリシー/アクション プロンプトが最も強力なセマンティックな動きを生成しますが、センチメントの変動はディメンションおよびプロンプト ファミリ全体でより平坦です。リリースされたアーティファクトには、記事のメタデータ、プロンプト テンプレート、インスタンス化されたプロンプト、モデル出力メタデータ、スコア テーブル、ドキュメント、および再現スクリプトが含まれます。私たちはすべてのスコアを、永続的な公平性ランキングや有害なバイアスの直接の証拠としてではなく、人間によるレビューのための監視窓監査シグナルとして解釈します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GPF-LiveNews: A Streaming Evaluation Protocol for Group-Conditioned Framing in Large Language Models</p>
        <p class="orig-summary">Deployed language models are evaluated in a non-stationary environment: model versions, retrieval layers, safety systems, and real-world inputs all change over time. Static bias benchmarks remain useful, but they do not show how models frame newly emerging events for different prompted audiences. We introduce GPF-LIVENEWS, a streaming evaluation protocol and benchmark snapshot for auditing group-conditioned framing in open-ended LLM outputs. The protocol expands fresh BBC/Reuters news anchors across 42 identity labels and seven prompt families, then evaluates response bundles using semantic-sensitivity and sentiment-disparity signals. In a pilot over 12 monitoring runs and 23 hosted models, Policy/Action prompts produce the strongest semantic movement, while sentiment variation is flatter across dimensions and prompt families. The released artifact includes article metadata, prompt templates, instantiated prompts, model-output metadata, score tables, documentation, and reproduction scripts. We interpret all scores as observed-window audit signals for human review, not as permanent fairness rankings or direct proof of harmful bias.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="221e31aec2bf" data-article-url="https://arxiv.org/abs/2605.28860" data-article-title="壊滅的な忘却のメカニズムの起源: なぜ RL は SFT よりも回路を保存しやすいのでしょうか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28860" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28860" target="_blank" rel="noopener">壊滅的な忘却のメカニズムの起源: なぜ RL は SFT よりも回路を保存しやすいのでしょうか?</a></h3>
      <p class="summary">大規模言語モデル (LLM) を微調整すると、以前の機能が壊滅的に忘れられてしまうことがよくあります。最近の研究では、強化学習 (RL) が教師あり微調整 (SFT) よりも効果的に以前の機能を保持することが示されており、これはポリシー勾配更新が基本ポリシー \cite{shenfeld2025rl} に近い状態に留まっているためであると考えられます。私たちはこの行動の説明を機構レベルに拡張し、RL の利点が内部計算回路のより強力な保存によって反映されるかどうかを尋ねます。微調整下で回路がどの程度劣化するかを示すヘッドレベルの尺度である差動回路の脆弱性を導入し、科学的な質問応答に適応した Qwen2.5-3B-Instruct の RL と SFT を比較するためにそれを使用します。我々は、明らかな機構的なトレードオフを発見しました。SFT は、ターゲット タスクにより迅速に適応しますが、回路の中断と以前の機能の忘却が大幅に大きくなります。一方、RL は、タスクの適応が遅くなる代わりに、基本回路の大部分を保持します。これらの発見は、回路の保存がなぜRLが壊滅的な忘却に対してより堅牢であるかを説明するのに役立つ可能性があることを示唆しています。私たちはここでコードをリリースしました: https://github.com/rl-sft-circuit-research/fferential-circuit-vulnerability。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?</p>
        <p class="orig-summary">Fine-tuning large language models (LLMs) frequently induces catastrophic forgetting of prior capabilities. Recent work has shown that reinforcement learning (RL) retains prior capabilities more effectively than supervised fine-tuning (SFT), attributing this to policy-gradient updates remaining closer to the base policy \cite{shenfeld2025rl}. We extend this behavioral account to the mechanistic level and ask whether RL&#x27;s advantage is mirrored by stronger preservation of internal computational circuits. We introduce differential circuit vulnerability, a head-level measure of how much a circuit degrades under fine-tuning, and use it to compare RL and SFT on Qwen2.5-3B-Instruct adapted to scientific question-answering. We find a clear mechanistic trade-off: SFT adapts more rapidly to the target task but produces substantially greater circuit disruption and forgetting of prior capabilities, whereas RL preserves a larger fraction of the base circuit at the cost of slower task adaptation. These findings suggest that circuit preservation may help explain why RL is more robust to catastrophic forgetting. We released our code here: https://github.com/rl-sft-circuit-research/differential-circuit-vulnerability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a8e0e51a8a3" data-article-url="https://arxiv.org/abs/2605.28863" data-article-title="Big 2 の不完全情報下でのセルフプレイ強化学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28863" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28863" target="_blank" rel="noopener">Big 2 の不完全情報下でのセルフプレイ強化学習</a></h3>
      <p class="summary">不完全情報マルチプレイヤー ゲームでは、隠された情報、まばらな報酬、および静止していない敵の下でエージェントが行動できるかどうかをテストします。私たちはこれらの課題を、4 人用の不完全情報カード ゲームである Big 2 で研究します。私たちは、ポリシー勾配エージェントと値近似エージェント間の制御された比較を可能にする Big 2 用のセルフプレイ RL フレームワークを開発します。共通の環境、入力表現、トレーニング予算、および評価プロトコルの下では、PPO は、ランダムで貪欲でヒューリスティックな Big 2 の敵に対して、モンテカルロ Q 近似、SARSA、および Q 学習よりも優れたパフォーマンスを発揮します。さらに、適度なエントロピー正則化により、ポリシーが過度に決定論的になるのを防ぎ、PPO が向上すること、および現在のポリシーのセルフプレイは、チェックポイント セルフプレイや固定対戦相手のトレーニングよりも強力な有限予算のカリキュラムを提供することがわかりました。まとめると、これらの結果は、Big 2 が、不完全な情報、マルチプレイヤー インタラクション、遅延報酬、および可変アクション セットの下で深い RL を研究するのに有用な制御された設定であることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Self-Play Reinforcement Learning under Imperfect Information in Big 2</p>
        <p class="orig-summary">Imperfect-information multiplayer games test whether agents can act under hidden information, sparse rewards, and non-stationary opponents. We study these challenges in Big 2, a four-player imperfect-information card game. We develop a self-play RL framework for Big 2 that enables controlled comparisons between policy-gradient and value-approximating agents. Under a common environment, input representation, training budget, and evaluation protocol, PPO outperforms Monte Carlo Q approximation, SARSA, and Q-learning against random, greedy, and heuristic Big 2 opponents. We further find that moderate entropy regularization improves PPO by preventing the policy from becoming overly deterministic, and that current-policy self-play provides a stronger finite-budget curriculum than checkpoint self-play or fixed-opponent training. Together, these results show that Big 2 is a useful controlled setting for studying deep RL under imperfect information, multiplayer interaction, delayed rewards, and variable action sets.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0036e668c3cb" data-article-url="https://arxiv.org/abs/2605.28865" data-article-title="言語的監視なしの物理的相互作用を通じたワールドモデルにおける創発的な意味表現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28865" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28865" target="_blank" rel="noopener">言語的監視なしの物理的相互作用を通じたワールドモデルにおける創発的な意味表現</a></h3>
      <p class="summary">世界モデルは、言語による監視なしに、物理的な探索から何を学ぶのでしょうか?私たちは、その答えは単一の原理、つまり物理世界の幾何学的構造によって整理されると主張します。 VAE ベースの世界モデルをランダムに具現化された探索でトレーニングすると、その潜在空間が物理幾何学を反映する空間意味構造を発達させることがわかりました。方向精度はランダムに初期化されたエンコーダーの場合は 0.677+-0.029 対 0.547、位置 RSA はランダム エンコーダーの場合は 0.192+-0.047 対 0.029 (6.6 倍の改善) であり、次のことがわかります。トレーニングは、CNN の帰納的バイアスを超えた真の構造的組織化を誘発します。 20 の時間チェックポイントにわたって、予測パフォーマンスとセマンティック整合性が同時に向上し (Spearman r=-0.61、p=0.004)、共有ドライバー アカウントと一致しています。これは二重ノックアウトによって確認されます。標準の KL 正則化 (ベータ = 0.1) により、エンコーダーが幾何学的構造から強制的に遠ざけられ、予測パフォーマンスとセマンティック アラインメントの両方が、共有ドライバー アカウントの予測どおり、ステップ 50,000 までにほぼ偶然に同時に崩壊します。ベータを 0.001 に下げると、幾何学的アクセスが復元され、両方の機能が一緒に回復します。これらの発見は、物理世界の幾何学を世界モデル表現の組織原理として確立し、意味論的に根拠のある身体化されたエージェントの設計に直接的な影響を及ぼします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Emergent Semantic Representations in World Models through Physical Interaction without Linguistic Supervision</p>
        <p class="orig-summary">What does a world model learn from physical exploration, without any linguistic supervision? We argue the answer is organized by a single principle: the geometric structure of the physical world. Training a VAE-based world model on random embodied exploration, we find that its latent space develops spatial semantic structure that mirrors physical geometry -- direction accuracy 0.677+-0.029 versus 0.547 for a randomly initialized encoder, and position RSA 0.192+-0.047 versus 0.029 for random encoders (6.6x improvement), showing that training induces genuine structural organization beyond CNN inductive bias. Across 20 temporal checkpoints, prediction performance and semantic alignment co-improve (Spearman r=-0.61, p=0.004), consistent with the shared-driver account. We confirm this through a double knockout: standard KL regularization (beta=0.1) forces the encoder away from geometric structure, and both prediction performance and semantic alignment collapse simultaneously to near-chance by step 50,000 -- exactly as the shared-driver account predicts. Reducing beta to 0.001 restores geometric access and recovers both capabilities together. These findings establish physical world geometry as the organizing principle of world model representations, with direct implications for the design of semantically grounded embodied agents.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f60b1b21deda" data-article-url="https://arxiv.org/abs/2605.28866" data-article-title="連続性と順序性が重要: 大規模な言語モデルを使用した効果的な時系列分析のための時系列トークンの制約" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28866" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28866" target="_blank" rel="noopener">連続性と順序性が重要: 大規模な言語モデルを使用した効果的な時系列分析のための時系列トークンの制約</a></h3>
      <p class="summary">トークンベースの時系列大規模言語モデル (TS-LLM) は、時系列分析と推論の有望な方向性として浮上しています。ただし、これまでの研究では、時系列トークンの固有の連続性と順序性がほとんど見落とされており、モデルのパフォーマンスが大幅に制限されています。この論文では、時系列トークン埋め込みでこれらのプロパティを保持することが、トークンベースの TS-LLM の有効性にとって重要であると主張します。この目的を達成するために、初期化段階とトレーニング段階の両方に幾何学的制約を統合する、連続性と順序性を意識した戦略である COM (Continuity and Ordinality Matter) を提案します。複数の時系列分析ベンチマークの実証結果は、COM がトークンベースの TS-LLM のパフォーマンスを一貫して向上させ、競争力のある結果と強力な汎用性を実現していることを示しています。コードは https://anonymous.4open.science/r/COM で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Continuity and Ordinality Matter: Constraining Time Series Tokens for Effective Time Series Analysis with Large Language Models</p>
        <p class="orig-summary">Token-based time series large language models (TS-LLMs) have emerged as a promising direction for time series analysis and reasoning. However, prior studies largely overlook the inherent continuity and ordinality of time series tokens, which substantially limits model performance. In this paper, we argue that preserving these properties in time series token embeddings is crucial for the effectiveness of token-based TS-LLMs. To this end, we propose COM (Continuity and Ordinality Matter), a continuity- and ordinality-aware strategy that integrates geometric constraints into both the initialization and training stages. Empirical results on multiple time series analysis benchmarks demonstrate that COM consistently improves the performance of token-based TS-LLMs, achieving competitive results and strong generalizability. Code is available at https://anonymous.4open.science/r/COM .</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="51bad1aa972d" data-article-url="https://arxiv.org/abs/2605.28867" data-article-title="PrismFlow: 時系列生成におけるフローマッチングのための残差ダイナミクス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28867" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28867" target="_blank" rel="noopener">PrismFlow: 時系列生成におけるフローマッチングのための残差ダイナミクス</a></h3>
      <p class="summary">現実世界の信号は、振動や高周波変動を含むマルチモーダル パターンやマルチスケール ダイナミクスを示すことが多いため、高品質の時系列データを生成することは困難です。フロー マッチング (FM) は拡散モデルに代わる効率的な手段を提供しますが、実際の実装は通常、単一の有限容量のグローバル ベクトル場推定器に依存します。このような不均一な時間分布では、互換性のない条件付き速度を必要としながら、別個の領域が近くの流れ状態を通過する可能性があります。したがって、標準の $\ell_2$ 速度マッチング目的で訓練されたモノリシック推定器は、ローカル輸送場の過度に平滑化された近似を学習する可能性があります。この推定器レベルの平滑化により、ブランチ固有のダイナミクスが減衰し、スペクトルの歪みやモード カバレッジの低下につながる可能性があります。これに対処するために、私たちは Koopman にインスピレーションを得た力学専門家とともに新しい FM 手法である PrismFlow を提案します。各専門家は、局所的な非線形時間発展が線形遷移によって近似できる潜在空間での残差補正を学習します。さらに、各サンプルに最もよく適合するエキスパートのみを更新し、他のエキスパートに対する勾配をマスクして、モード固有の特化を促進する、信頼性を意識した Winner-Take-All (WTA) 目標を提案します。サンプリング中に、選ばれた専門家がグローバル輸送フィールドに残留動的補正を追加し、きめの細かい高周波数の時間構造を回復しながら FM の安定性を維持します。さまざまなベンチマークにわたって、PrismFlow は、標準 FM のスペクトル収縮を効果的に緩和し、Context-FID で 15.6% の向上、識別スコアで 38.6% の向上という最先端のパフォーマンスを達成しながら、低データ設定でも堅牢性を維持し、予測と代入に効果的です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PrismFlow: Residual Dynamics for Flow Matching in Time-Series Generation</p>
        <p class="orig-summary">Generating high-quality time-series data is challenging because real-world signals often exhibit multimodal patterns and multiscale dynamics, including oscillations and high-frequency variations. Flow Matching (FM) offers an efficient alternative to diffusion models, but practical implementations typically rely on a single finite-capacity global vector-field estimator. In such heterogeneous temporal distributions, distinct regimes may pass through nearby flow states while requiring incompatible conditional velocities. A monolithic estimator trained with the standard $\ell_2$ velocity-matching objective may therefore learn an overly smoothed approximation of the local transport field. This estimator-level smoothing can attenuate branch-specific dynamics, leading to spectral distortion and poor mode coverage. To address this, we propose PrismFlow, a new FM method with Koopman-inspired dynamical experts. Each expert learns residual corrections in a latent space where local nonlinear temporal evolution can be approximated by linear transitions. We further propose a confidence-aware Winner-Take-All (WTA) objective that updates only the expert best aligned with each sample while masking gradients to the others, encouraging mode-specific specialization. During sampling, the selected expert adds a residual dynamical correction to the global transport field, preserving FM stability while recovering fine-grained and high-frequency temporal structures. Across various benchmarks, PrismFlow effectively mitigates the spectral contraction in standard FM and achieves state-of-the-art performance, with a 15.6% gain in Context-FID and a 38.6% improvement in Discriminative Score, while remaining robust in low-data settings and effective for forecasting and imputation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="20306ed42b99" data-article-url="https://arxiv.org/abs/2605.28868" data-article-title="TaxDistill: 蒸留されたゲノム基盤モデルによるメタゲノム分類学的アノテーションの改善" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28868" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28868" target="_blank" rel="noopener">TaxDistill: 蒸留されたゲノム基盤モデルによるメタゲノム分類学的アノテーションの改善</a></h3>
      <p class="summary">メタゲノム分類学的アノテーションは、環境サンプル中の DNA 断片の微生物起源を特定することを目的としています。配列の類似性に依存する従来の方法は、高い微生物の多様性と参照データベースの不完全さによって制約を受けることが多く、より有益なメタゲノム配列表現を学習するために事後補正を実行する Taxometer などの学習アプローチの開発が動機付けられてきました。ただし、これらの方法は通常、トレーニング中に類似性検索ツールから得られたラベルに依存するため、必然的にノイズが発生し、表現の学習が損なわれ、分類パフォーマンスが低下する可能性があります。この問題に対処するために、メタゲノム分類のための知識蒸留フレームワークである TaxDistill を提案します。深い意味論的特徴を抽出し、信頼性に基づいてソフトラベルを生成するための教師ネットワークとして、500M パラメーターのゲノム基盤モデルである GenomeOcean を導入します。このソフト ラベル情報を軽量の学生ネットワークに抽出することにより、TaxDistill は、初期検索ツールによってもたらされるラベル ノイズを効果的に低減します。 7 つの多様な CAMI2 データセットに対する包括的な実験により、TaxDistill がほとんどのシナリオで既存のベースラインを上回るパフォーマンスを示すことが実証されました。たとえば、胃腸のデータセットでは、MMseqs2 の F1 スコアが 0.763 から 0.941 に向上し、Taxometer のベースラインを上回っています。全体として、TaxDistill は、複雑なメタゲノム解析におけるラベル補正の信頼できる方法を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TaxDistill: Improving Metagenomic Taxonomic Annotation via Distilled Genomic Foundation Models</p>
        <p class="orig-summary">Metagenomic taxonomic annotation aims to identify the microbial origins of DNA fragments in environmental samples. Traditional methods that rely on sequence similarity are often constrained by the high microbial diversity and the incompleteness of reference databases, which has motivated the development of learning approaches such as Taxometer that perform post hoc correction to learn more informative metagenomic sequence representations. However, these methods typically rely on labels derived from similarity search tools during training, which inevitably introduces noise that can impair representation learning and degrade classification performance. To address this issue, we propose TaxDistill, a knowledge distillation framework for metagenomic classification. We introduce GenomeOcean, a 500M parameter genomic foundation model, as the teacher network to extract deep semantic features and generate soft labels based on confidence. By distilling this soft label information into a lightweight student network, TaxDistill effectively reduces the label noise introduced by initial retrieval tools. Comprehensive experiments on seven diverse CAMI2 datasets demonstrate that TaxDistill outperforms existing baselines in most scenarios. For instance, on the Gastrointestinal dataset, it improves the F1 score of MMseqs2 from 0.763 to 0.941, outperforming the Taxometer baseline. Overall, TaxDistill provides a reliable method for label correction in complex metagenomic analysis.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f9e3cbdaa51c" data-article-url="https://arxiv.org/abs/2605.28869" data-article-title="ラベル空間の再形成によるマルチモーダル学習のバランスをとる" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28869" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28869" target="_blank" rel="noopener">ラベル空間の再形成によるマルチモーダル学習のバランスをとる</a></h3>
      <p class="summary">マルチモーダル学習では、多くの場合、モダリティの不均衡が発生します。つまり、より速く収束するモダリティが最適化を支配する一方、他のモダリティは学習が不十分なままになります。既存のアプローチでは通常、弱いモダリティを強化するか、最適化勾配を調整することでこの問題を軽減します。しかし、そのような戦略は主に最適化率の不一致を補償するものであり、多くの場合、これらの不一致がモダリティレベルでどのように生じるかを分析することなく、強力なモダリティの最適化能力を犠牲にします。理論的洞察と経験的観察に基づいて、学習ペースの不一致は、モダリティ固有の特徴空間と共有ラベル空間の間のマッピングの難易度の違いから生じると主張します。この問題に対処するために、レーベル側のデザインからマルチモーダル バランスを促進する最初の方法である、Balanced Multimodal Label Reshaping (BMLR) を提案します。 BMLR は、モダリティ間のマッピングの難易度を均等化するためにクロスモーダル ラベル空間を再形成し、それによってモダリティの相互作用を促進し、より豊富なクラス間情報を各モダリティに注入します。複数のアーキテクチャにわたる広範な実験により、BMLR がマルチモーダル パフォーマンスを一貫して向上させ、多様なモデル設計との強力な互換性を示すことが実証されました。ソースコードは近日中に公開される予定です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Balancing Multimodal Learning through Label Space Reshaping</p>
        <p class="orig-summary">Multimodal learning often suffers from modality imbalance, where modalities that converge faster dominate optimization while others remain undertrained. Existing approaches typically mitigate this issue by strengthening the weak modality or adjusting optimization gradients. However, such strategies mainly compensate for optimization rate discrepancies, often at the expense of the strong modality&#x27;s optimization capacity, without analyzing how these discrepancies arise at the modality level. Based on theoretical insights and empirical observations, we argue that the discrepancy of learning pace arises from differences in the mapping difficulty between modality-specific feature space and the shared label space. To address this issue, we propose Balanced Multimodal Label Reshaping (BMLR), the first method that promotes multimodal balance from the label-side design. BMLR reshapes the cross-modal label space to equalize mapping difficulty across modalities, thereby facilitating modality interaction and injecting richer inter-class information into each modality. Extensive experiments across multiple architectures demonstrate that BMLR consistently improves multimodal performance and exhibits strong compatibility with diverse model designs. The source code will be released soon.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9d08cd0b23af" data-article-url="https://arxiv.org/abs/2605.28870" data-article-title="線形構造に基づく表現の位置合わせ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28870" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28870" target="_blank" rel="noopener">線形構造に基づく表現の位置合わせ</a></h3>
      <p class="summary">私たちは、シグナル、バイアス、ノイズという表現の 3 要素からなる統計的枠組みを通じて、プラトン表現仮説 (PRH) を調査します。 {1) 信号:} プラトニック アライメントは、線形表現仮説 (LRH) に従って表現で線形にエンコードされる、オブジェクトと属性の間の普遍的な関係から生じると提案します。我々は、疎なオートエンコーダを使用して線形のオブジェクト属性特徴を抽出し、これらの疎な表現が密な対応物よりも強いクロスモーダルアライメントを示すことが多いことを示すことにより、LRH が PRH の説明に役立つという証拠を提供します。 {2) バイアス:} 使用されるアーキテクチャとトレーニング手順が多様であるため、モデルにはさまざまな暗黙的なバイアスがあります。この差は部分的に緩和できることを示します。センタリングと正規化により、モデル間の位置合わせが一貫して向上します。 {3) ノイズ:} 有限サンプル トレーニングでは、表現にノイズが発生します。私たちは、LLM およびテキスト埋め込みモデルにおける単語頻度とアライメントとの間の強力で一貫した正の相関関係を明らかにすることにより、表現ノイズがデータ不足によって引き起こされるという証拠を提供します。信号、バイアス、ノイズを総合して、線形表現仮説を改良し、多様な最新の AI アーキテクチャから生じる表現の整合に関連するさらなる現象を説明する統計モデルを提案します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Representation Alignment Rests on Linear Structure</p>
        <p class="orig-summary">We investigate the Platonic Representation Hypothesis (PRH) through a tripartite statistical framework of representations: signal, bias, and noise. {1) Signal:} We propose that Platonic alignment arises from the universal relationship between objects and attributes, which is encoded linearly in representations according to the Linear Representation Hypothesis (LRH). We provide evidence that LRH helps explain PRH by extracting linear object-attribute features with sparse autoencoders and showing that these sparse representations often exhibit stronger cross-modal alignment than their dense counterparts. {2) Bias:} Models have different implicit biases due to the diverse architectures and training procedures used. We show that this difference can be partially mitigated. Centering and normalization consistently improve cross-model alignment. {3) Noise:} Finite-sample training leads to noise in representations. We provide evidence that representational noise is driven by data scarcity by revealing a strong and consistent positive correlation between word frequency and alignment in LLMs and text embedding models. Synthesizing signal, bias, and noise, we propose a statistical model that refines the Linear Representation Hypothesis and explains further phenomena related to the alignment of representations emerging from diverse modern AI architectures.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb292634bb9f" data-article-url="https://arxiv.org/abs/2605.28876" data-article-title="LogDx-CI: LLM 根本原因診断のためのベンチマーク ログ削減ツール" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28876" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28876" target="_blank" rel="noopener">LogDx-CI: LLM 根本原因診断のためのベンチマーク ログ削減ツール</a></h3>
      <p class="summary">CI 障害ログは大きく (中央値 5k 行、このコーパスでは最大 200k)、ノイズが多くなります。ログをデバッグしようとするコーディング エージェントは、ログを管理可能なコンテキストに削減する上流のツールに依存していますが、この分野では、どの削減が下流の LLM 診断に十分な証拠を保持するかについて、公的に実証された比較が行われていません。 LogDx-CI は、11 のコンテキスト削減ツール (raw、tail、grep、3 つの RTK モード、2 つの実際の LLM マップリデュース サマライザー、3 つのハイブリッド ルーター) を 35 の実際の GitHub Actions 障害ケースで比較するベンチマークであり、3 つの LLM デバッガー ファミリ (Claude Haiku 4.5、Claude Sonnet 4.6、OpenAI gpt-5-mini) と Sonnet 4.6 ツールを使用してスコア付けされました。エージェント。耐荷重に関する 3 つの調査結果を報告します。 (1)~ハイブリッド grep+tail ルーターがコスト品質のパレートフロンティアを支配しています。上位 2 つのメソッドのスコアは、ケースごとに $\sim$ \$0.03 で 0.670 / 0.666 で、$4.5\times$ 少ないトークンでスタンドアロン grep とほぼ同じ品質です。 (2)~エージェント ループ方式では、リダクション ツール全体の品質範囲が $7\times$ 崩壊します (シングルショット スプレッド 0.42 $\to$ エージェント ループ スプレッド 0.059)。エージェントは、フォローアップ ツール呼び出しを通じて弱いコンテキストを救出します。ただし、コストの差は依然として残ります。コンテキストが弱い場合、エージェントは回復するために 2 ～ 4$\times$ 回多くのツール呼び出しを発行する必要があります。 (3)~ファミリー間 LLM サマリー ペア (Claude Haiku デバッガーにフィードする gpt-5-mini サマライザー) は、4 つの診断ツール バリアントの平均で、同じファミリー ペアを $+0.071$ 上回っており、このタスクに関するセルフコール バイアス仮説を偽っています。 gpt-5-mini サマライザーは、エージェント ループ \#1 メソッド (スコア 0.749) でもあり、ケースあたりのツール呼び出しは $0.37$ で、リデューサー コストは Haiku サマライザーよりも $10\time$ 低くなります (ケースあたり \$0.18 対 \$1.75)。すべてのデータ、コード、ケースごとのバンドル、再現性インフラストラクチャは公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LogDx-CI: Benchmarking Log Reduction Tools for LLM Root-Cause Diagnosis</p>
        <p class="orig-summary">CI failure logs are large (median 5k lines, max 200k in this corpus) and noisy. Coding agents that try to debug them depend on an upstream tool to reduce the log to a manageable context, but the field has had no public empirical comparison of which reductions preserve enough evidence for downstream LLM diagnosis. We introduce LogDx-CI, a benchmark that compares 11 context-reduction tools (raw, tail, grep, three RTK modes, two real LLM map-reduce summarizers, three hybrid routers) on 35 real GitHub Actions failure cases, scored by 3 LLM debugger families (Claude Haiku 4.5, Claude Sonnet 4.6, OpenAI gpt-5-mini) plus a Sonnet 4.6 tool-using agent. We report three load-bearing findings. (1)~Hybrid grep+tail routers dominate the cost-quality Pareto frontier; the top two methods score 0.670 / 0.666 at $\sim$ \$0.03 per case, same-ballpark quality as standalone grep at $4.5\times$ fewer tokens. (2)~In the agent-loop regime, the quality range across reduction tools collapses $7\times$ (single-shot spread 0.42 $\to$ agent-loop spread 0.059); the agent rescues weak contexts via follow-up tool calls. However, cost differences persist: weak contexts force the agent to issue 2--4$\times$ more tool calls to recover. (3)~A cross-family LLM-summary pair (gpt-5-mini summarizer feeding a Claude Haiku debugger) beats the same-family pair by $+0.071$ averaged across four diagnoser variants, falsifying the self-call-bias hypothesis on this task. The gpt-5-mini summarizer is also the agent-loop \#1 method (score 0.749) at $0.37$ tool-calls per case and $10\times$ lower reducer cost than the Haiku summarizer (\$0.18 vs \$1.75 per case). All data, code, per-case bundles, and reproducibility infrastructure are public.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="22e755596a9e" data-article-url="https://arxiv.org/abs/2605.28882" data-article-title="GrowLoop: 人間がシードし、自己進化する会話評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28882" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28882" target="_blank" rel="noopener">GrowLoop: 人間がシードし、自己進化する会話評価</a></h3>
      <p class="summary">大規模な言語モデルの急速な進歩に伴い、自由な会話における人間らしさを評価することがますます重要になってきています。しかし、人間らしさは人間が直感的に認識する暗黙知の一種ですが、根底にある基準は明示的な定式化に抵抗します。人間の判断は大きく異なり、一部のケースでは強い同意が得られますが、他のケースでは正当な意見の相違が見られます。一方、人間の判断の背後にある基準は暗黙的なままであり、事件を構築するための明確な根拠は残されていません。さらに、人間に似ているとみなされるものは静的なものではなく、モデルの能力と人間の期待に応じて進化します。専門家が作成したベンチマーク、報酬モデル、自己進化型ベンチマークなどの評価方法は進歩していますが、3 つの課題すべてに同時に対処できるものはありません。そこで、モデルの進歩やシナリオの変化に合わせて継続的に適応する、自己進化する会話評価システムである GrowLoop を提案します。最初の動きとして最小限の人間のシード アノテーションを使用して、LLM エージェントはヒューリスティック学習を通じて評価ルーブリックを繰り返し抽出し、改良します。アノテーターが集まる場合には人間と AI の合意が必要ですが、異なる場合には妥当性のみが期待されます。さらに、Rubric-Caseの共進化機構により、評価対象が移動した際に新たなシーズを介して拡張され、継続的な進化が可能となります。自由形式の会話における人間らしさの評価に適用すると、生成されたルーブリックは、人間の判断に沿って既存の手法を大幅に上回るだけでなく、アノテーターが見落としている問題も明らかになります。結果として得られるベンチマークは、機能層全体でモデルを効果的に識別し、どこが不足しているかを明らかにすると同時に、新しいシナリオに一般化し、モデルの進歩に合わせて適応します。私たちの取り組みは、ベンチマークのパラダイムを手動の更新や難易度のスケーリングから、包括的で継続的な自己進化へと移行させます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GrowLoop: Self-Evolving Conversation Evaluation Seeded by Human</p>
        <p class="orig-summary">With the rapid advancement of large language models, evaluating human-likeness in open-ended conversation has become increasingly important. However, human-likeness is a form of tacit knowledge that humans perceive intuitively, yet the underlying criteria resist explicit formulation. Human judgments vary widely, with strong agreement on some cases and legitimate disagreement on others. Meanwhile, the criteria behind human judgments remain implicit, leaving no clear basis for constructing cases. Further, what counts as human-like is not static, but evolving with model capability and human expectations. Despite progress in evaluation methods such as expert-authored benchmarks, Reward Models, and self-evolving benchmarks, none addresses all three challenges simultaneously. Therefore, we propose GrowLoop, a self-evolving conversation evaluation system that continuously adapts as models advance and scenarios shift. With minimal human seed annotations as the first mover, LLM agents iteratively extract and refine evaluation rubrics through Heuristic Learning. Human-AI agreement is required where annotators converge, while only plausibility is expected where they diverge. Moreover, the Rubric-Case co-evolution mechanism enables continuous evolution, expanded through new seeds when the evaluation target moves. Applied to human-likeness evaluation in open-ended conversation, the generated rubrics not only substantially outperform existing methods in alignment with human judgments, but also uncover issues that annotators overlook. The resulting benchmark effectively discriminates models across capability tiers and reveals where they fall short, while generalizing to new scenarios and adapting as models advance. Our work shifts the benchmarking paradigm from manual updates or difficulty scaling to comprehensive, continuous self-evolution.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c2371b073de" data-article-url="https://arxiv.org/abs/2605.28889" data-article-title="潜在メモリ管理としてのコンテキスト蒸留" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28889" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28889" target="_blank" rel="noopener">潜在メモリ管理としてのコンテキスト蒸留</a></h3>
      <p class="summary">コンテキスト蒸留はコンテキスト情報をモデルパラメータに圧縮しますが、既存の方法では、蒸留された複数の潜在記憶を非オラクル設定でどのように保存、取得、安全にアクティブ化するかを無視することがよくあります。コンテキスト蒸留を潜在的なメモリ管理問題として定式化します。各コンテキストを独立した LoRA アダプターに抽出し、明示的なメモリ選択を可能にするモジュール式メモリ バンクを形成します。クエリが与えられると、私たちのフレームワークは候補メモリを取得し、クエリを最適なアダプタにルーティングし、セルフゲーティング メカニズムを使用して潜在メモリをアクティブ化するかどうかを決定します。効率を向上させるために、推論中の管理オーバーヘッドを削減するキャッシュ共有をさらに導入します。実験では、私たちの方法が検索のベースラインを大幅に上回り、セルフゲーティングが不要な潜在記憶を非アクティブ化することで堅牢性を向上させることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Context Distillation as Latent Memory Management</p>
        <p class="orig-summary">Context distillation compresses contextual information into model parameters, yet existing methods often ignore how multiple distilled latent memories should be stored, retrieved, and safely activated in non-oracle settings. We formulate context distillation as a latent memory management problem. We distill each context into an independent LoRA adapter, forming a modular memory bank that enables explicit memory selection. Given a query, our framework retrieves candidate memories, routes the query to the most suitable adapter, and uses a Self-Gating mechanism to decide whether latent memory should be activated. To improve efficiency, we further introduce cache sharing to reduce management overhead during inference. Experiments show that our method substantially outperforms baselines with retrieval, while Self-Gating improves robustness by deactivate unnecessary latent memories.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8646762765fc" data-article-url="https://arxiv.org/abs/2605.28899" data-article-title="量子強化された人工知能における敵対的堅牢性" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28899" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28899" target="_blank" rel="noopener">量子強化された人工知能における敵対的堅牢性</a></h3>
      <p class="summary">人工知能は、さまざまなアプリケーション分野で目覚ましい成功を収めてきました。ただし、敵対的な攻撃に対する脆弱性により、信頼性、セキュリティ、信頼性に重​​大な課題が生じます。敵対的機械学習は、非常に正確なモデルであっても、慎重に作成された摂動によって操作される可能性があることを実証しており、医療、金融、自律技術などの安全性が重要なシステムにおいて深刻な懸念を引き起こしています。並行して、量子コンピューティングは、重ね合わせ、もつれ、量子干渉などの原理を通じて複雑な計算問題に対処できる変革的なパラダイムとして登場しました。これらの分野の融合により、量子技術が学習効率、スケーラビリティ、堅牢性をどのように強化できるかを探求する量子人工知能が出現しました。この章では、敵対的機械学習と既存の防御戦略の包括的な概要を示し、その後、量子コンピューティングと量子機械学習モデルについて分かりやすく紹介します。さらに、量子最適化、特徴マッピング、およびハイブリッド量子古典アーキテクチャに重点を置き、量子強化された敵対的堅牢性のための概念的なフレームワークを示します。安全で信頼できる AI システムの開発をサポートするために、実用的なアプリケーション、主要な課題、将来の研究の方向性についても説明します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Quantum-Enhanced Adversarial Robustness in Artificial Intelligence</p>
        <p class="orig-summary">Artificial Intelligence has achieved remarkable success across diverse application domains. However, its vulnerability to adversarial attacks poses significant challenges to reliability, security, and trustworthiness. Adversarial machine learning demonstrates that even highly accurate models can be manipulated through carefully crafted perturbations, raising serious concerns in safety critical systems such as healthcare, finance, and autonomous technologies. In parallel, quantum computing has emerged as a transformative paradigm capable of addressing complex computational problems through principles such as superposition, entanglement, and quantum interference. The convergence of these fields has led to the emergence of quantum artificial intelligence, which explores how quantum techniques can enhance learning efficiency, scalability, and robustness. This chapter provides a comprehensive overview of adversarial machine learning and existing defense strategies, followed by an accessible introduction to quantum computing and quantum machine learning models. It further presents conceptual frameworks for quantum-enhanced adversarial robustness, emphasizing quantum optimization, feature mapping, and hybrid quantum classical architectures. Practical applications, key challenges, and future research directions are also discussed to support the development of secure and trustworthy AI systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79d7771feac9" data-article-url="https://arxiv.org/abs/2605.28910" data-article-title="臨床要約のための幻覚検出に基づく好みの最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28910" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28910" target="_blank" rel="noopener">臨床要約のための幻覚検出に基づく好みの最適化</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、要約タスクでは有望であることが示されていますが、幻覚を引き起こすことがよくあります。幻覚はサポートされていない、または間違った記述であり、特殊な医療アプリケーションでの信頼性が制限されます。 \itermodelfull (\itermodel) という推論時間手法を導入します。これは、幻覚検出器を活用して、事実の修正に向けて反復的な要約改訂をガイドします。これに基づいて、検出器による調整軌道をモデルの微調整のための好みのペアに変換する、好み学習のための \itermodel (\model) を提案します。広範な実験により、\MimicIV からの現実世界の臨床ノートを要約する際に、私たちの方法がラマ モデルとジェマ モデルの幻覚を大幅に軽減することが示されました。たとえば、Llama-3.1-8B-Instruct の \itermodel は 24\% を軽減し、\model は 48\% の幻覚を軽減します。重要なのは、人間の専門家と LLM 陪審の評価に従って、両方の方法で要約の流暢性、一貫性、および関連性が維持されることです。これらの結果を総合すると、検出に基づいた改良と好みの学習が、臨床要約における事実の忠実性を向上させるための自動化されたソリューションを提供することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Hallucination Detection-Guided Preference Optimization for Clinical Summarization</p>
        <p class="orig-summary">Large language models (LLMs) have shown promise on summarization tasks, but they often produce hallucinations, which are unsupported or incorrect statements that limit their reliability in specialized healthcare applications. We introduce \itermodelfull (\itermodel), an inference-time method that leverages hallucination detectors to guide iterative summary revisions toward factual corrections. Building on this, we propose \itermodel for Preference Learning (\model), which converts detector-guided refinement trajectories into preference pairs for model finetuning. Extensive experiments show that our methods substantially reduce hallucinations for Llama and Gemma models in summarizing real-world clinical notes from \MimicIV. For example, \itermodel reduces 24\% and \model reduces 48\% hallucinations in Llama-3.1-8B-Instruct. Importantly, both methods preserve summary fluency, coherence, and relevance according to human expert and LLM-Jury evaluations. Together, these results demonstrate that detection-informed refinement and preference learning offer an automated solution for improving factual faithfulness in clinical summarization.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4e0efa0798a" data-article-url="https://arxiv.org/abs/2605.28914" data-article-title="AIRGuard: ランタイム権限制御によるエージェント アクションの保護" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28914" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28914" target="_blank" rel="noopener">AIRGuard: ランタイム権限制御によるエージェント アクションの保護</a></h3>
      <p class="summary">ツールを使用する言語エージェントは、モデルの決定を外部の副作用に変えます。つまり、ファイルの読み取り、スクリプトの実行、API の呼び出し、メッセージの送信、およびモデル コンテキスト プロトコル ツールの呼び出しを行います。このため、エージェント攻撃はジェイルブレイクとは異なります。多くの場合、有害なステップは、明らかに禁止された出力ではなく、攻撃者が制御するコンテキストによって許可されたアクセスがユーザーの利益に反するように誘導されるため、安全ではなくなる通常の実行可能なアクションです。私たちは、この失敗モードを権限の混乱として特定します。信頼できないリソースは推論を提供する可能性がありますが、副作用を許可してはなりません。最小特権をアクション時の認証として運用するランタイム ガードである AIRGuard を紹介します。 AIRGuard は、異種ツール呼び出しを正規化し、タスクの権限をステップレベルの権限に導き出し、ソースとターゲットの信頼を追跡し、機密の副作用をシミュレートし、ステップ間のリスクを監査し、アクションの実行前に意思決定を強制します。 AgentTrap では、AIRGuard により Sonnet 4.6 の攻撃成功率が防御なしの場合の 36.3% から 5.5% に減少します。 DTAP-150 では、AIRGuard は、ARGUS の 52.0%、MELON の 42.0% と比較して、Haiku 4.5 では 76.0% の良好なユーティリティを維持します。さらに、分析の結果、プロンプトのみのポリシーはわずかにしか役に立たないのに対し、専用のランタイム権限制御層により、エージェント システムがツールを介した副作用を直接制御できることがわかりました。コードとデータは https://github.com/Sophie508/AIRGuard で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AIRGuard: Guarding Agent Actions with Runtime Authority Control</p>
        <p class="orig-summary">Tool-using language agents turn model decisions into external side effects: they read files, run scripts, call APIs, send messages, and invoke Model Context Protocol tools. This makes agent attacks different from jailbreaks. The harmful step is often not an obviously forbidden output, but an ordinary executable action that becomes unsafe because attacker-controlled context steers authorized access against the user&#x27;s interest. We identify this failure mode as authority confusion: untrusted resources may inform reasoning, but they must not authorize side effects. We present AIRGuard, a runtime guard that operationalizes least privilege as action-time authorization. AIRGuard normalizes heterogeneous tool calls, derives task authority into step-level authority, tracks source and target trust, simulates sensitive side effects, audits cross-step risk, and enforces decisions before actions execute. On AgentTrap, AIRGuard reduces Sonnet 4.6 attack success from 36.3% without defense to 5.5%. On DTAP-150, AIRGuard preserves 76.0% benign utility with Haiku 4.5, compared with 52.0% for ARGUS and 42.0% for MELON. An ablation further shows that prompt-only policy helps only modestly, whereas a dedicated runtime authority-control layer gives the agent system direct control over tool-mediated side effects. Code and data are available at https://github.com/Sophie508/AIRGuard.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6965ba56fe9" data-article-url="https://arxiv.org/abs/2605.28916" data-article-title="アインシュタイン望遠鏡のシミュレートされたデータの分析に適用されたエージェント AI の初の直接比較" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28916" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28916" target="_blank" rel="noopener">アインシュタイン望遠鏡のシミュレートされたデータの分析に適用されたエージェント AI の初の直接比較</a></h3>
      <p class="summary">我々は、人間の介入なしに共有コンピューティング インフラストラクチャ上でシンプルなエンドツーエンドの重力波データ分析パイプラインを自律的に実行するという 2 つの最先端のエージェント AI システム、Claude Code (Anthropic) と Codex (OpenAI) の比較を報告します。このパイプラインは、生のアインシュタイン望遠鏡でシミュレートされたノイズからのパワー スペクトル密度推定、幾何学的テンプレート バンクの生成、100 個のバイナリ ブラック ホール信号注入の整合フィルター回復、自動結果生成、および Physical Review D のスタイルでフォーマットされた原稿の大規模言語モデル支援の作成で構成されます。両方のエージェントは、同一の仕様書と同一のコンピューティング リソースを受け取りました。実験は 2 回実行されました。1 回目は非現実的な大音量の注入を使用して実行され、2 回目は物理的に動機付けられた SNR 範囲に再スケーリングされた信号を使用して実行されました。科学的結果は両方の実行で収束しました。ただし、エージェントは大幅に異なる動作と計算コストを示しました。Claude Code は、仕様からのサイレント逸脱はありますが、パイプラインを約 3.4 分で完了しましたが、Codex は、整合フィルターの内部ループの一方的なパフォーマンスの最適化を含む、明示的な自己修正の再起動に約 16 分を要しました。自律的に生成された原稿も、長さ、詳細、品質が異なりました。 2 回目の実行では、SNR 範囲の命令の解釈における微妙な違いが、真の科学的相違につながりました。Claude Code は命令を黙って再解釈しましたが、Codex は文字通り仕様に従いました。速度と可聴性、サイレントと透過的なエラー処理、命令の解釈、マルチモデル パイプラインにおける中間データ表現の重要性など、これらの動作の違いが科学技術コンピューティング ワークフローでのエージェント AI の展開に与える影響について説明します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">First head-to-head comparison of agentic AI applied to the analysis of simulated data of the Einstein Telescope</p>
        <p class="orig-summary">We report a comparison of two state-of-the-art agentic AI systems, Claude Code (Anthropic) and Codex (OpenAI), tasked with autonomously executing a simple end-to-end gravitational wave data analysis pipeline on a shared computing infrastructure without human intervention. The pipeline comprises power spectral density estimation from raw Einstein Telescope simulated noise, geometric template bank generation, matched filter recovery of 100 binary black hole signal injections, automated results generation, and large language model-assisted production of a manuscript formatted in the style of Physical Review D. Both agents received identical written specifications and identical compute resources. The experiment was run twice: a first run with unrealistically loud injections, and a second run with signals rescaled to a physically motivated SNR range. The scientific results converged in both runs. However, the agents exhibited substantially different behaviors and computational costs: Claude Code completed the pipeline in ~3.4 minutes with silent deviations from the specification, while Codex required ~16 minutes across explicit self-correcting restarts, including an unsolicited performance optimization of the matched filter inner loop. The autonomously generated manuscripts also diverged in length, details, and quality. In the second run, a subtle difference in the interpretation of the SNR range instruction led to a genuine scientific divergence: Claude Code silently reinterpreted the instructions, while Codex followed the specification literally. We discuss the implications of these behavioral differences, such as speed versus auditability, silent versus transparent error handling, instruction interpretation, and the criticality of intermediate data representations in multi-model pipelines, for the deployment of agentic AI in scientific computing workflows.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c0944f346359" data-article-url="https://arxiv.org/abs/2605.28919" data-article-title="CosmicFish-HRM: コンパクトな言語モデルの階層的反復メカニズムによる適応推論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28919" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28919" target="_blank" rel="noopener">CosmicFish-HRM: コンパクトな言語モデルの階層的反復メカニズムによる適応推論</a></h3>
      <p class="summary">大規模な言語モデルは強力な推論機能を実現していますが、多くの場合、膨大なパラメータ数と高価な推論が犠牲になります。この研究では、コンパクトな言語モデルにおける適応推論の深さという別の方向を探求します。我々は、推論中に計算量を動的に割り当てる階層推論モジュール (HRM) を中心に構築されたコンパクトな言語モデルである CosmicFish-HRM を紹介します。すべての入力に固定の計算を適用する代わりに、モデルは高レベルおよび低レベルの推論サイクルを繰り返し、入力の複雑さに基づいていつ停止するかを学習します。 CosmicFish-HRM は、この適応推論コアを、グループ化されたクエリ アテンション、RoPE、SwiGLU アクティベーションなどの最新のトランスフォーマー コンポーネントと組み合わせます。追加の推論インフラストラクチャによって小規模ではオーバーヘッドが発生しますが、モデルのサイズが大きくなり、HRM コアの相対コストが減少するにつれて、このトレードオフはますます有利になると仮説を立てています。私たちの結果は、モデルが不均一な推論動作を学習し、タスクと入力全体に異なる数の推論ステップを割り当てていることを示しています。これらの発見は、適応型推論深度が推論能力のパラメータ スケールのみに依存する有望な代替手段を提供する可能性があることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CosmicFish-HRM: Adaptive Reasoning via Hierarchical Recurrent Mechanisms in Compact Language Models</p>
        <p class="orig-summary">Large language models have achieved strong reasoning capabilities, though often at the cost of massive parameter counts and expensive inference. In this work, we explore a different direction: adaptive reasoning depth in compact language models. We present CosmicFish-HRM, a compact language model built around a Hierarchical Reasoning Module (HRM) that dynamically allocates computational effort during inference. Instead of applying fixed computation to every input, the model iterates through high-level and low-level reasoning cycles and learns when to halt based on input complexity. CosmicFish-HRM combines this adaptive reasoning core with modern transformer components including Grouped Query Attention, RoPE, and SwiGLU activations. While the additional reasoning infrastructure introduces overhead at small scale, we hypothesize that this tradeoff becomes increasingly favorable as model size grows and the relative cost of the HRM core diminishes. Our results show that the model learns non-uniform reasoning behavior, allocating different numbers of reasoning steps across tasks and inputs. These findings suggest that adaptive reasoning depth may offer a promising alternative to relying solely on parameter scale for reasoning capability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8d5ea9403739" data-article-url="https://arxiv.org/abs/2605.28920" data-article-title="Conf-Gen: 生成モデルの共形不確かさの定量化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28920" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28920" target="_blank" rel="noopener">Conf-Gen: 生成モデルの共形不確かさの定量化</a></h3>
      <p class="summary">コンフォーマル予測 (CP) とその拡張であるコンフォーマル リスク コントロール (CRC) は、正式な保証を通じて教師あり機械学習の不確実性を定量化するための確立されたフレームワークです。ただし、人工知能 (AI) における最近の進歩は、CP や CRC と直接互換性のない大規模言語モデル (LLM) や画像ジェネレーターなどの教師なし生成モデルによって推進されています。この研究では、理論的前提を緩和しながら CRC を生成タスクに適応させる一般的なフレームワークであるコンフォーマル生成 (Conf-Gen) を紹介します。 Conf-Gen は、CP を LLM に適用するという以前の試みを統合して一般化し、コンフォーマルな方法論をまったく新しいドメインに拡張します。我々は、非記憶画像を生成する画像ジェネレータ、明確な質問を十分に行った会話型 AI システム、および AI エージェントの出力が正しいことについての等角保証の取得を含む、いくつかの新しいアプリケーションを通じて Conf-Gen の柔軟性を実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Conf-Gen: Conformal Uncertainty Quantification for Generative Models</p>
        <p class="orig-summary">Conformal prediction (CP) and its extension, conformal risk control (CRC), are established frameworks for quantifying uncertainty in supervised machine learning through formal guarantees. However, recent breakthroughs in artificial intelligence (AI) have been driven by unsupervised generative models, such as large language models (LLMs) and image generators, which are not directly compatible with CP or CRC. In this work we introduce conformal generation (Conf-Gen), a general framework adapting CRC to generative tasks while relaxing its theoretical assumptions. Conf-Gen unifies and generalizes previous attempts to apply CP to LLMs, and extends conformal methodology to entirely new domains. We demonstrate the flexibility of Conf-Gen through some novel applications, including obtaining conformal guarantees on: image generators producing non-memorized images, conversational AI systems having asked enough clarifying questions, and the output of AI agents being correct.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="efcb6643a3fa" data-article-url="https://arxiv.org/abs/2605.28969" data-article-title="Beyond Recall: AI パーソナライゼーションの解釈層としての行動仕様" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28969" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28969" target="_blank" rel="noopener">Beyond Recall: AI パーソナライゼーションの解釈層としての行動仕様</a></h3>
      <p class="summary">AI エージェントが人間に代わって意思決定を行う場合、その意思決定はユーザーと一致する必要があります。システムが人の解釈をどれだけ忠実に捉えているかを測定するために、表現精度を導入します。解釈層は動作仕様として運用されます。私たちのリファレンス実装は、人のデータを解釈パターンに積極的に圧縮し、言語モデルのコンテキストとして機能します。私たちは、校正済みの 5 人の審査員 LLM パネルによって採点された、保留された行動予測のプロトタイプ ベンチマークで仕様を評価します。私たちは、完全な生のコーパス、完全に抽出されたファクト、および 4 つの商用メモリ システム (Mem0、Letta、Supermemory、Zep) など、さまざまなコンテキスト条件を使用して独立して構成してテストします。この仕様は 14 のパブリック ドメインの自伝的コーパスにわたって、集合的に表現の精度を向上させ、モデルのヘッジをほぼ排除します。生のコーパスが提供する内容のほとんどを、コンテキスト コストを約 25 分の 1 に抑えて復元します。この仕様は、トレーニング前のベースラインに関係なく、被験者を共通の予測レベルに引き上げます。したがって、絶対ポイントのリフトはベースラインが最も低いところで最大となり、関連する母集団が事前トレーニングで適切に代表されていない人であることを示唆しています。リフトは、解釈が必要な質問で最大であり、解釈レイヤーを提供することで、抽出された事実や生のコーパスでは実現できないモデル動作が可能になります。逆に、リコールが必要な質問では、この層は役立つというよりむしろ邪魔になる可能性があります。私たちは、表現の精度は再現とは異なり、人間と AI の整合性はユーザーがどれだけ正確に表現されているかに依存すると結論付けています。表現が正確であるため、その調整はテスト可能です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Beyond Recall: Behavioral Specification as an Interpretive Layer for AI Personalization</p>
        <p class="orig-summary">If an AI agent makes decisions on a person&#x27;s behalf, those decisions must align with its user. We introduce representational accuracy to measure how faithfully a system captures a person&#x27;s interpretation. An interpretive layer is operationalized as a Behavioral Specification. Our reference implementation aggressively compresses a person&#x27;s data into interpretive patterns, served as context to a language model. We evaluate the Specification on a prototype benchmark of held-out behavioral predictions scored by a calibrated 5-judge LLM panel. We test it independently and in composition with a range of context conditions: full raw corpus, full extracted facts, and four commercial memory systems (Mem0, Letta, Supermemory, Zep). Across 14 public-domain autobiographical corpora, the Specification lifts representational accuracy in aggregate and nearly eliminates model hedging. It recovers most of what the raw corpus delivers, at ~25x less context cost. The Specification lifts subjects toward a common predictive level regardless of pretraining baseline; the lift in absolute points is therefore largest where the baseline is lowest, suggesting the population of relevance is anyone not adequately represented in pretraining. Lift is greatest on interpretation-required questions, where providing an interpretive layer enables model behavior that extracted facts or raw corpus do not. Conversely, on recall-required questions, this layer can interfere rather than help. We conclude that representational accuracy is distinct from recall and that human-AI alignment is dependent on how accurately the user is represented. Representational accuracy makes that alignment testable.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="48f0cb1cec5d" data-article-url="https://arxiv.org/abs/2605.28977" data-article-title="うつ病検出におけるブラックボックスEEGモデルを解釈するための事後説明可能なAI手法の比較" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28977" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28977" target="_blank" rel="noopener">うつ病検出におけるブラックボックスEEGモデルを解釈するための事後説明可能なAI手法の比較</a></h3>
      <p class="summary">最近の深層学習の進歩により、脳波検査 (EEG) に基づいた大うつ病性障害 (MDD) の分類の精度はますます高まっていますが、高容量モデルの意思決定プロセスの解釈は依然として困難です。この研究では、EEG ベースの MDD 検出用に訓練された InceptionTime アーキテクチャに適用された複数の事後説明可能性手法を調査します。分析には、Shapley ベース、勾配ベース、摂動ベースのアトリビューション アプローチ (DeepSHAP、Integrated Gradients、GradCAM、Occlusion、Permutation Feature Importance) が含まれます。説明可能性分析は、EEG セグメントと被験者にわたるグローバル アトリビューション集約を使用して、被験者レベルの層別 5 重交差検証フレームワーク内で実行されました。評価された方法では、特に右半球における前頭、側頭、後部の脳波領域に繰り返し重点を置いた、部分的に収束した属性パターンが明らかになりました。定量的比較では、勾配ベースのアプローチと摂動ベースのアプローチが実質的に一致していることが示されましたが、DeepSHAP は比較的明確な属性分布を生成しました。同時に、説明可能性手法間のばらつきにより、結果として得られる説明に対する方法論的な仮定の影響が浮き彫りになりました。全体として、この結果は、さまざまな事後説明可能性アプローチが、うつ病検出のための EEG ベースの深層学習モデルにおいて部分的に重複する関連性構造を捕捉していることを示唆しています。観察された帰属パターンは、MDD に関する以前のいくつかの EEG 研究とほぼ一致していますが、この分析は、決定的な神経生理学的バイオマーカーや臨床応用性の証拠ではなく、探索的なものとして解釈されるべきです。この研究は、精神医学用途におけるブラックボックスEEG分類器を解釈するための事後説明可能性の有用性と限界の両方を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Comparing Post-Hoc Explainable AI Methods for Interpreting Black-Box EEG Models in Depression Detection</p>
        <p class="orig-summary">Recent advances in deep learning have enabled increasingly accurate electroencephalography (EEG)-based classification of Major Depressive Disorder (MDD), but the decision-making processes of high-capacity models remain difficult to interpret. This study investigates multiple post-hoc explainability methods applied to an InceptionTime architecture trained for EEG-based MDD detection. The analysis includes Shapley-based, gradient-based, and perturbation-based attribution approaches: DeepSHAP, Integrated Gradients, GradCAM, Occlusion, and Permutation Feature Importance. Explainability analysis was performed within a subject-level stratified 5-fold cross-validation framework using global attribution aggregation across EEG segments and subjects. The evaluated methods revealed partially convergent attribution patterns, with recurring emphasis on frontal, temporal, and posterior EEG regions, particularly in the right hemisphere. Quantitative comparison demonstrated substantial agreement between gradient- and perturbation-based approaches, while DeepSHAP produced comparatively distinct attribution distributions. At the same time, variability between explainability methods highlighted the influence of methodological assumptions on the resulting explanations. Overall, the results suggest that different post-hoc explainability approaches capture partially overlapping relevance structures in EEG-based deep learning models for depression detection. Although the observed attribution patterns are broadly consistent with several previous EEG studies of MDD, the analysis should be interpreted as exploratory rather than evidence of definitive neurophysiological biomarkers or clinical applicability. The study highlights both the usefulness and limitations of post-hoc explainability for interpreting black-box EEG classifiers in psychiatric applications.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="facb5d0b32a1" data-article-url="https://arxiv.org/abs/2605.28983" data-article-title="深層学習のハミルトン・ヤコビ理論" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28983" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28983" target="_blank" rel="noopener">深層学習のハミルトン・ヤコビ理論</a></h3>
      <p class="summary">この論文では、ニューラル ネットワークのトレーニングは、ハミルトン - ヤコビの初期値問題による検索として正確に特定されています。各勾配ステップは、ホップ - コール プロパゲータが観測値に最もよく適合する粘性ハミルトン - ヤコビ方程式の初期データを選択します。推論時の入力は、その解が評価される空間点であり、初期条件はすでに重みにエンコードされています。この対応関係は、log-sum-exp 層と、より広範なアーキテクチャの構造に対して正確です。残差ネットワーク、変換器、リカレント アーキテクチャ (RNN、LSTM、SSM) はそれぞれ、アーキテクチャに依存するハミルトニアンと粘性を使用して、同じクラスのハミルトン-ヤコビ方程式を離散化します。単一の変形パラメータ $\varepsilon$ は、リプシッツ条件下で閉じた可換図の 4 つの視点 (ネットワーク、熱帯代数、粘性偏微分方程式、凸最適化) をすべて統合します。定量的な結果には以下が含まれます: 固定 $t$ に対するミニマックス最適汎化率 $O(n^{-1/(d+2)})$。敵対的な堅牢性は $\varepsilon$ によって制御されます。残差ネットワークのハミルトニアン系の共状態方程式としてのバックプロパゲーション (Pontryagin Maximum Principle)。 PDE求積法によるデータ固有の次元と一致するスケーリング指数。閉じた形式の $O(N)$ 影響関数 (ソフトマックス属性重み $\pi_j$) のエントロピー ランドスケープは $\varepsilon$ が増加するにつれて褶曲分岐を起こし、それぞれが属性盆地をマージします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Hamilton-Jacobi Theory of Deep Learning</p>
        <p class="orig-summary">In this paper, training a neural network is identified, exactly, as a search through Hamilton--Jacobi initial-value problems: each gradient step selects the initial data of a viscous Hamilton--Jacobi equation whose Hopf--Cole propagator best fits the observations; at inference, the input is the spatial point at which that solution is evaluated and the initial condition is already encoded in the weights. The correspondence is exact for log-sum-exp layers and structural for broader architectures: residual networks, transformers, and recurrent architectures (RNNs, LSTMs, SSMs) each discretize the same class of Hamilton--Jacobi equations, with architecture-dependent Hamiltonian and viscosity. A single deformation parameter $\varepsilon$ unifies all four perspectives (network, tropical algebra, viscous PDE, convex optimization) in a commutative diagram closed under Lipschitz conditions. Quantitative consequences include: the minimax optimal generalization rate $O(n^{-1/(d+2)})$ for fixed $t$; adversarial robustness controlled by $\varepsilon$; backpropagation as the co-state equation of the Hamiltonian system for residual networks (Pontryagin Maximum Principle); scaling exponents consistent with data intrinsic dimension via PDE quadrature; and a closed-form $O(N)$ influence function (softmax attribution weights $\pi_j$) whose entropy landscape undergoes fold bifurcations as $\varepsilon$ increases, each merging attribution basins.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ba2fed011e61" data-article-url="https://arxiv.org/abs/2605.28999" data-article-title="LLM ベースの履歴書スクリーニングにおける現実世界のプロンプト インジェクション攻撃の測定" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28999" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28999" target="_blank" rel="noopener">LLM ベースの履歴書スクリーニングにおける現実世界のプロンプト インジェクション攻撃の測定</a></h3>
      <p class="summary">LLM はプロンプト インジェクション攻撃に対して脆弱です。ただし、この脆弱性は主に学術研究やいくつかの事例研究を通じて概念的に実証されています。実際の LLM ベースのアプリケーションにおけるその普及と影響は、ほとんど解明されていません。この研究では、広く使用されているアプリケーションである LLM ベースの履歴書スクリーニングにおけるプロンプト インジェクション攻撃の最初の体系的な研究を紹介します。私たちの分析は、hireEZ が数年にわたって収集した約 20 万件の実際の履歴書に基づいています。まず、履歴書への即時挿入を検出するためのカスタマイズされた方法を設計します。小規模のデータセットを手動で検証すると、当社の検出器が高精度を達成し、最先端の汎用検出器を上回る性能を発揮することが実証されています。次に、検出器を完全な再開データセットに適用し、現実世界のプロンプト インジェクション攻撃の包括的な測定研究を実施します。私たちの分析では、いくつかの興味深い調査結果が明らかになりました。履歴書の約 1% に、隠されたプロンプト インジェクションが含まれています。このような注入された履歴書の普及率は、過去 1 ～ 2 年で著しく増加しています。また、挿入されたプロンプトの 90% 以上は明示的な命令を使用しません。これらの結果は、現実世界の LLM ベースのアプリケーションにおける大規模なプロンプト インジェクションの最初の証拠を提供し、そのような攻撃を理解して軽減するための将来の研究の基礎を築きます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Measuring Real-World Prompt Injection Attacks in LLM-based Resume Screening</p>
        <p class="orig-summary">LLMs are vulnerable to prompt injection attacks. However, this vulnerability has been primarily demonstrated conceptually in academic studies or through a few anecdotal case studies. Its prevalence and impact in real-world LLM-based applications are largely unexplored. In this work, we present the first systematic study of prompt-injection attacks in a widely used application: LLM-based resume screening. Our analysis is based on approximately 200K real-world resumes collected over multiple years by hireEZ. We first design tailored methods to detect prompt injection in resumes. Manual validation on a small-scale dataset demonstrates that our detectors achieve high precision and outperform state-of-the-art general-purpose detectors. We then apply our detector to the full resume dataset and conduct a comprehensive measurement study of real-world prompt injection attacks. Our analysis reveals several intriguing findings: approximately 1% of resumes contain hidden prompt injections; the prevalence of such injected resumes has increased noticeably over the past one to two years; and more than 90% of injected prompts do not use explicit instructions. These results provide the first evidence of large-scale prompt injection in real-world LLM-based applications and lay the groundwork for future studies to understand and mitigate such attacks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="82d740c41455" data-article-url="https://arxiv.org/abs/2605.29001" data-article-title="FormInv: 数学的推論ベンチマークにおける意味的不変性の測定プロトコル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29001" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29001" target="_blank" rel="noopener">FormInv: 数学的推論ベンチマークにおける意味的不変性の測定プロトコル</a></h3>
      <p class="summary">MathCheck (ICLR 2025) の言い換え品質監査では、129 グループ (3.1%) で意味的に間違った 4 つの言い換えが検出されました。それらを削除すると、GPT-4o がランク 2 からランク 4 に下がり、Claude Haiku と DeepSeek V3 がその上位に上がります。これらのランキングの変化は、単一モデルの評価では認識されません。モデル間の一致により、これらのエラーが自動的に検出されました (MathCheck のモデルは 3/4 以上、一次評価のモデルは 6/9 以上)。価格は 10 ドル未満でした。私たち自身のデータセットでは、同じプロトコルで、自動生成された結合変化言い換えの 47% が意味的に間違っていることがわかりました。この欠陥が測定ギャップをさらに深めています。Claude Haiku 4.5 は 86% の精度を達成していますが、SCR=50% です。つまり、その定理の半分は意味的に同等の再ステートメントの下で異なる答えになっています。一方、9 つのモデル全体の精度の合計は 86 ～ 96% にすぎませんが、意味的一貫性率 (SCR) は 50 ～ 82% に及びます。これは、標準ベンチマークでは見えない 32 ポイントのギャップです。形式的には、9 つ​​のフロンティア モデルを超えるターゲット ランキングには、それを実現する言い換えファミリーに対する重み付けが存在します (フリー ベンチマークの帰結)。すべてのファミリーをパレート支配するモデルはないためです。そのため、ファミリーを選択するベンチマーク設計者は、どのモデルが勝つかを暗黙的に選択していることになります。 FormInv は、監査プロトコル (再現率 100% で外部ベンチマークに複製)、366 ～ 811 項目にわたる 9 つのモデル (Lean4 で検証された定理) で評価された一次不変性尺度としての SCR および定理ごとのコクランの Q、およびレジームを意識したモデル選択のための FormInvSelector を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">FormInv: A Measurement Protocol for Semantic Invariance in Mathematical Reasoning Benchmarks</p>
        <p class="orig-summary">A paraphrase-quality audit of MathCheck (ICLR 2025) detected 4 semantically incorrect paraphrases in 129 groups (3.1%); removing them drops GPT-4o from rank 2 to rank 4 and elevates Claude Haiku and DeepSeek V3 above it; these ranking changes are invisible to any single-model evaluation. Cross-model unanimity found these errors automatically (&gt;= 3/4 models for MathCheck; &gt;= 6/9 for our primary evaluation) for under $10; in our own dataset the same protocol found that 47% of auto-generated connective-variation paraphrases were semantically incorrect. That flaw compounds a deeper measurement gap: Claude Haiku 4.5 achieves 86% accuracy yet SCR=50%, meaning half its theorems are answered differently under semantically equivalent restatements, while aggregate accuracy across 9 models spans only 86-96% yet Semantic Consistency Rates (SCR) span 50-82% -- a 32-point gap invisible to standard benchmarks. Formally, for any target ranking over 9 frontier models there exists a weighting over paraphrase families that realizes it (No-Free-Benchmark corollary), because no model Pareto-dominates all families -- so benchmark designers who select families are implicitly choosing which model wins. FormInv supplies the audit protocol (replicated on external benchmarks at 100% recall), SCR and per-theorem Cochran&#x27;s Q as primary invariance measures evaluated on 9 models across 366-811 items (on Lean4-verified theorems), and FormInvSelector for regime-aware model selection.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2f4f1a2db0a4" data-article-url="https://arxiv.org/abs/2605.29005" data-article-title="LoRe: 反復グラフ ソルバー向けのステップごとのインタラクション バジェットを備えた適応型インタラクション評価ルーティング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29005" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29005" target="_blank" rel="noopener">LoRe: 反復グラフ ソルバー向けのステップごとのインタラクション バジェットを備えた適応型インタラクション評価ルーティング</a></h3>
      <p class="summary">組み合わせ最適化のための拡散ベースのニューラル ソルバーは、高密度のエッジ/因子相互作用を繰り返し再評価するため、実時間での推論が高価になり、大規模になるとメモリに制限されることがよくあります。多体物理学の計算手法にインスピレーションを得て、ステップごとの相互作用評価の予算設定を強制する、トレーニング不要の推論時間ドロップイン ラッパーである LoRe を導入します。各反復では、固定のスパース化 (静的 kNN グラフや静的など) を使用する代わりに、計算を競合性の高い相互作用または不確実性の高い相互作用に動的にルーティングすることで、相互作用の固定部分のみを評価します。マスク）。完全に包括的なエンドツーエンドの壁時計アカウンティングの下で​​、LoRe は最大独立集合 (MIS) 問題のスケーラビリティを大幅に向上させ、実行可能な推論をベースラインのメモリ不足制限を超えて $3\times$ 以上拡張し、$\sim 8\times$ の高速化と $\sim 12\times$ のピークメモリ削減を実現し、この体制でソリューションの品質は維持されます。大規模な巡回販売員問題 (TSP) に対するクロスタスクの汎用性と、トポロジーの変化に対するゼロショットの堅牢性を実証する LoRe は、$n=1000$ で $\sim 15\times$ の高速化を実現し、$44\times$ のメモリ削減と競争力のあるツアー品質を実現します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LoRe: Adaptive Interaction-Evaluation Routing with Per-Step Interaction Budgets for Iterative Graph Solvers</p>
        <p class="orig-summary">Diffusion-based neural solvers for combinatorial optimization repeatedly re-evaluate dense edge/factor interactions, making inference expensive in wall-clock time and often memory-bound at scale. Inspired by the computational methodologies of many-body physics, we introduce LoRe, a training-free, inference-time drop-in wrapper that enforces per-step interaction-evaluation budgeting: at each iteration, it evaluates only a fixed fraction of interactions by dynamically routing computation to high-conflict or high-uncertainty interactions, instead of using a fixed sparsification (e.g., static kNN graphs or static masks). Under fully inclusive end-to-end wall-clock accounting, LoRe substantially improves scalability on the Maximum Independent Set (MIS) problem, extending feasible inference more than $3\times$ beyond the baseline&#x27;s out-of-memory limit, delivering a $\sim 8\times$ speedup and a $\sim 12\times$ peak-memory reduction, with solution quality preserved in this regime. Demonstrating cross-task generality on the large-scale Traveling Salesperson Problem (TSP) and zero-shot robustness to topology shifts, LoRe achieves a $\sim 15\times$ speedup at $n=1000$ with a $44\times$ memory reduction and competitive tour quality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="62828389fb1d" data-article-url="https://arxiv.org/abs/2605.29009" data-article-title="クロスモデルエントロピーによるラベルフリーの強化学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29009" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29009" target="_blank" rel="noopener">クロスモデルエントロピーによるラベルフリーの強化学習</a></h3>
      <p class="summary">強化学習を使用した大規模な言語モデルのトレーニング後の処理は、報酬信号によってボトルネックになります。既存のアプローチでは、自動正しさチェックを備えたドメイン (数学、コード実行など) にトレーニングを制限するグラウンドトゥルース検証可能な報酬、または収集にコストがかかり、報酬ハッキングの傾向がある人間の好みのラベルのいずれかを必要とします。最近のラベルフリー手法は、グラウンドトゥルース検証器を、モデル自身の出力に対する多数決やトークンエントロピーなどの自己参照信号に置き換えていますが、モデル自体のエラーを強化するリスクがあります。この研究では、RL ポストトレーニング用のラベルフリー報酬信号として、別の検証モデルの下でのジェネレーターの応答の平均対数尤度であるクロスモデル エントロピー (CME) を提案します。 CME は継続的でトレーニングは必要なく、検証者が驚くことではないと判断した応答は正しいか高品質である可能性が高いという原則に基づいています。検証器は生成器から独立しているため、自己一貫性を介して信号を操作することはできません。トレーニング ループに他に変更を加えずに CME を GRPO に統合し、ラベルフリー RL をオープンエンドの命令フォロー、つまり自己参照信号が適用できない、またはあまり適していない領域に拡張します。次のオープンエンドの指導 (UltraFeedback プロンプト、AlpacaEval 2.0 で評価) では、CME の報酬は、4 つのモデル ファミリ (Qwen、Llama、Gemma、OLMo) と 3 つのトレーニング体制 (事前トレーニング済み、SFT、および指導調整済み) にわたる、裁判官としての LLM との直接比較でトレーニングを受けていないベースを上回り、同点調整後の勝率は 52.5% ～ 71.4% でした。コードは公開され次第公開されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Label-Free Reinforcement Learning via Cross-Model Entropy</p>
        <p class="orig-summary">Post-training large language models with reinforcement learning is bottlenecked by the reward signal. Existing approaches require either ground-truth verifiable rewards, restricting training to domains with automatic correctness checks (e.g., mathematics, code execution), or human preference labels, which are expensive to collect and prone to reward hacking. Recent label-free methods replace ground-truth verifiers with self-referential signals like majority voting or token entropy over a model&#x27;s own outputs, but risk reinforcing a model&#x27;s own errors. In this work we propose Cross-Model Entropy (CME), the mean log-likelihood of a generator&#x27;s response under a separate verifier model, as a label-free reward signal for RL post-training. CME is continuous, training-free, and grounded in the principle that responses a verifier finds unsurprising are likely correct or high quality. Because the verifier is independent of the generator, the signal cannot be gamed through self-consistency. We integrate CME into GRPO with no other changes to the training loop, extending label-free RL to open-ended instruction following -- a regime where self-referential signals are inapplicable or poorly suited. On open-ended instruction following (UltraFeedback prompts, evaluated on AlpacaEval 2.0), CME rewards beat the untrained base in head-to-head LLM-as-Judge comparisons across four model families (Qwen, Llama, Gemma, OLMo) and three training regimes (pretrained, SFT, and instruction-tuned), with tie-adjusted win rates ranging from 52.5% to 71.4%. Code will be released upon publication.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d4447098aab6" data-article-url="https://arxiv.org/abs/2605.29028" data-article-title="Return-to-Go は単なる数字ではありません: リターン条件付き教師あり学習のための Q ガイドによるアライメント" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29028" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29028" target="_blank" rel="noopener">Return-to-Go は単なる数字ではありません: リターン条件付き教師あり学習のための Q ガイドによるアライメント</a></h3>
      <p class="summary">条件付きシーケンス モデル (CSM) は、Return-to-Go (RTG) を制御信号として扱うことでポリシーを学習します。ただし、既存の CSM は、多くの場合、RTG をポリシーのパフォーマンスに合わせるのではなく、単純な数値入力として扱います。この論文では、出力ポリシーの $Q$ 値が入力 RTG と一致していることを保証することで、この調整を強制するフレームワークである Q-ALIGN DT を提案します。 $Q$ 関数を利用して CSM に緻密なガイダンスを提供し、CSM で RTG 摂動手法を使用してそれをさらに微調整することにより、私たちの手法は、より高い RTG がより高い期待リターンを伴う軌道に一貫してマッピングされることを保証します。理論的には、Q-ALIGN DT が目的のポリシーを効率的に学習し、RTG が十分に高い場合に最適に近いポリシーを出力できることを示します。私たちは広範な実験を通じて、Q-ALIGN DT が D4RL ベンチマーク全体で優れた制御性とパフォーマンスを達成することを経験的に実証しています。驚くべきことに、私たちのモデルは、正確な調整を維持し、以前の方法が失敗した速度追跡などのタスクに一般化する、構造化されたポリシー群を効果的に学習します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Return-to-Go Is More Than a Number: Q-Guided Alignment for Return-Conditioned Supervised Learning</p>
        <p class="orig-summary">Conditioned Sequence Models (CSMs) learn policies by treating return-to-go (RTG) as a control signal. However, existing CSMs often treat the RTGs as simple numerical inputs rather than aligning them with the performance of their policies. In this paper, we propose Q-ALIGN DT, a framework that enforces this alignment by ensuring the $Q$-value of the output policy is consistent with the input RTG. By leveraging a $Q$ function to provide dense guidance to CSMs and further fine-tuning it using an RTG-perturbation technique with the CSM, our method ensures that higher RTGs are consistently mapped to trajectories with higher expected returns. Theoretically, we show that Q-ALIGN DT can efficiently learn the desired policy and output a near-optimal one when the RTG is sufficiently high. Empirically, we demonstrate through extensive experiments that Q-ALIGN DT achieves superior controllability and performance across the D4RL benchmark. Remarkably, our model effectively learns a structured family of policies that maintains precise alignment and generalizes to tasks like velocity-tracking where prior methods fail.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="86dab57f613e" data-article-url="https://arxiv.org/abs/2605.29059" data-article-title="SCDBench: LLM ベースのスマート コントラクト デコンパイラーのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29059" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29059" target="_blank" rel="noopener">SCDBench: LLM ベースのスマート コントラクト デコンパイラーのベンチマーク</a></h3>
      <p class="summary">スマート コントラクトの逆コンパイルは、バイトコードから高レベルのソース コードを復元することを目的としていますが、既存の研究では狭いデータセット、一貫性のないメトリクス、限定的なセマンティック一貫性チェックが使用されているため、逆コンパイラーの評価は依然として困難です。大規模言語モデル (LLM) が、たとえそのセマンティクスが元のコントラクトから異なっていても、コンパイルされてもっともらしいと思われるソースのような Solidity を生成し始めるにつれて、このギャップはますます重要になります。 LLM ベースのスマート コントラクト逆コンパイルのためのデータセットおよびベンチマーク手法である SCDBench を紹介します。データセットには、ペアのバイトコード入力、グラウンドトゥルースのソースコード、再生可能なセマンティックチェックポイントを備えた 600 の実世界の Solidity コントラクトが含まれています。 SCDBench は、形式の完全性、コンパイル可能性、アプリケーション バイナリ インターフェイス (ABI) の回復、および差分再生によるセマンティックの一貫性という 4 つの累積的な段階を通じて逆コンパイラーの出力を評価します。 Claude Opus 4.7、GPT-5.3-Codex、GLM-5 をゼロショット逆コンパイル設定で評価します。これには、拡張推論およびゼロショット コンパイル修復設定の有無にかかわらず GLM-5 バリアントが含まれます。結果は、フロンティア LLM は多くの場合、構造化されコンパイル可能な Solidity を生成できることを示していますが、セマンティックな一貫性の達成はまだ解決には程遠く、最もパフォーマンスの高いフロンティア モデルは 42/600 コントラクトのみを完全に逆コンパイルします。さらに、同一モデルのコンパイル修復を導入すると、わずかな追加コストでパフォーマンスが大幅に向上することも示します。 SCDBench は、厳密で再現可能な評価のための共通基盤を確立し、ブロックチェーンのセキュリティと透明性のための信頼できるスマート コントラクト デコンパイラーの開発を加速することを目的としています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SCDBench: A Benchmark for LLM-Based Smart Contract Decompilers</p>
        <p class="orig-summary">Smart contract decompilation aims to recover high-level source code from bytecode, but evaluating decompilers remains difficult because existing studies use narrow datasets, inconsistent metrics, and limited semantic consistency checks. This gap is increasingly important as large language models (LLMs) begin to generate source-like Solidity that may compile and appear plausible, even when its semantics diverge from the original contract. We introduce SCDBench, a dataset and benchmark methodology for LLM-based smart contract decompilation. The dataset contains 600 real-world Solidity contracts with paired bytecode inputs, ground-truth source code, and replayable semantic checkpoints. SCDBench evaluates decompiler outputs through four cumulative stages: format completeness, compilability, Application Binary Interface (ABI) recovery, and semantic consistency via differential replay. We evaluate Claude Opus 4.7, GPT-5.3-Codex, and GLM-5 in a zero-shot decompilation setting, including GLM-5 variants with and without extended reasoning and a zero-shot compilation-repair setting. The results show that frontier LLMs can often produce structured and compilable Solidity, but achieving semantic consistency remains far from solved: the best-performing frontier model perfectly decompiles only 42/600 contracts. We further show that introducing same-model compilation repair substantially improves performance at modest additional cost. SCDBench establishes a common ground for rigorous, reproducible evaluation and aims to accelerate the development of reliable smart contract decompilers for blockchain security and transparency.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e154200c20f6" data-article-url="https://arxiv.org/abs/2605.29076" data-article-title="構造化プロンプトの最適化と強化学習の融合により、複雑なテキストに対するグローバルおよびローカルの解釈可能性が実現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29076" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29076" target="_blank" rel="noopener">構造化プロンプトの最適化と強化学習の融合により、複雑なテキストに対するグローバルおよびローカルの解釈可能性が実現</a></h3>
      <p class="summary">LLM は高度なテキスト分類を備えていますが、既存のパラダイムはトレードオフに直面しています。教師付き (ラベルのみ) 微調整はスケーラブルですが、複雑なテキストに対する推論が限られており、広範なモデルの透明性に欠けています。一方、離散プロンプト最適化は人間が読める命令を提供しますが、パフォーマンスとスケーラビリティに苦労します。私たちは、3 つの段階的な段階を持つ eXTC (eXplainable Text Classifier) を導入します。(1) 新しい構造化プロンプト最適化アルゴリズムを介して、自然言語で標準操作手順 (SOP、またはルールブック) を学習します。 (2) SOP に基づいた推論を大規模な教師 LLM からコンパクトな LM に抽出します。 (3) 強化学習により、初期 SOP を超えて推論能力を拡張します。この設計により、eXTC は、(i) コンパクトな LM を介した高速推論、(ii) 学習したドメイン ルールのグローバルなモジュール式説明と並行した推論時のローカル推論トレースを提供できるようになり、(iii) 分類パフォーマンスと説明品質の両方において、さまざまなベンチマークにわたって既存のパラダイムを大幅に上回り、段階ごとに向上します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Structured Prompt Optimization Meets Reinforcement Learning for Global and Local Interpretability over Complex Text</p>
        <p class="orig-summary">LLMs have advanced text classification, yet existing paradigms face a trade-off: supervised (label only) fine-tuning is scalable but offers limited reasoning on complex text and lacks broader model transparency, while discrete prompt optimization offers human-readable instructions but struggles with performance and scalability. We introduce eXTC (eXplainable Text Classifier) with three progressive stages: (1) learning a Standard Operating Procedure (SOP, or rulebook) in natural language via a new Structured Prompt Optimization algorithm; (2) SOP-grounded reasoning distillation from a large teacher LLM into a compact LM; and (3) expanding reasoning capabilities beyond the initial SOP via reinforcement learning. This design enables eXTC to provide (i) fast inference via a compact LM, with (ii) inference-time local reasoning traces, alongside a global, modular explanation of its learned domain rules, while (iii) significantly outperforming existing paradigms across diverse benchmarks in both classification performance and explanation quality, with stage-by-stage gains.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a3c805c8c364" data-article-url="https://arxiv.org/abs/2605.29084" data-article-title="同じ質問、異なるソース、異なる回答: 医療用マルチソース RAG におけるソース依存性の監査" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29084" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29084" target="_blank" rel="noopener">同じ質問、異なるソース、異なる回答: 医療用マルチソース RAG におけるソース依存性の監査</a></h3>
      <p class="summary">複数著者の機関コーパス上に展開された検索拡張生成 (RAG) システムは、どのソースを取得するかに応じて、同じ質問に対して異なる答えを与える可能性があります。これは、支配的な単一のゴールドアンサーのパラダイムでは診断できない失敗モードです。私たちは、情報源依存性は NLP 評価の欠如した軸であり、それを監査することは、評価の単位を回答の正しさから情報源間の関係に移すことを意味すると主張します。私たちはこれを、医療機関の情報源が明らかに同意していない移植患者教育において具体化し、3 つの成果物を公開しています。TransplantQA、実際の患者の質問のベンチマークであり、候補情報源として複数の医療機関のハンドブックに基づいて生成することでそれぞれの回答が得られます。 HERO-QA、各回答を根拠付けて監査する階層的な検索戦略。そして、検証された 5 ラベル分類法に基づいてソース間の関係をスコアリングする構造化された出力ジャッジです。大規模な場合、より適切な検索により、以前に提案された推定値よりもはるかに多くの不一致が明らかになり、その激しさではなく、その有病率が過小評価されています。このフレームワークはドメインに依存せず、法的および教育的な RAG に移行します。ソース依存性の測定は、一般に、展開されたマルチソース NLP の責任です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Same Question, Different Source, Different Answer: Auditing Source-Dependence in Medical Multi-Source RAG</p>
        <p class="orig-summary">A retrieval-augmented generation (RAG) system deployed over a multi-author institutional corpus can give a different answer to the same question depending on which source it retrieves -- a failure mode the dominant single-gold-answer paradigm cannot diagnose. We argue that source-dependence is a missing axis of NLP evaluation, and that auditing it means shifting the unit of evaluation from answer correctness to the inter-source relationship. We make this concrete in transplant patient education, where institutional sources demonstrably disagree, releasing three artefacts: TransplantQA, a benchmark of real patient questions, each answered by grounding generation in multiple institutional handbooks as candidate sources; HERO-QA, a hierarchical retrieval strategy that grounds and audits each answer; and a structured-output judge that scores inter-source relationships on a validated 5-label taxonomy. At scale, better retrieval reveals far more disagreement than prior estimates suggested -- understating its prevalence, not its intensity. The framework is domain-agnostic and transfers to legal and educational RAG: measuring source-dependence is a responsibility for deployed multi-source NLP generally.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="77bfb5208485" data-article-url="https://arxiv.org/abs/2605.29089" data-article-title="OISD: 言語モデルのポリシーに基づく内部自己蒸留" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29089" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29089" target="_blank" rel="noopener">OISD: 言語モデルのポリシーに基づく内部自己蒸留</a></h3>
      <p class="summary">最近の強化学習 (RL) ポストトレーニング アプローチは主に、まばらな結果レベルの報酬を使用して最終的な出力ポリシーを最適化しますが、中間表現にエンコードされた予測信号はほとんど見落とされます。この論文では、オンポリシー内部自己蒸留と呼ばれる新しいパラダイムを導入し、オンポリシー予測信号を最終層から中間表現に転送することで推論を改善する OISD フレームワークを提案します。ロールアウトおよびグループ相対ポリシー最適化 (GRPO) の最適化中、最終層はポリシーと、選択された中間層に対する独立した内部教師の両方として機能します。最終層は、2 つの相補的なメカニズムを通じてそれに合わせるよう誘導されます。ロジット アライメントは、高レベルの推論動作 (思考方法) を転送し、アテンション アライメントは、最終層から選択した中間層に一貫した注意パターン (どこを見るか) を強制します。どちらも、外部の特権情報を必要としません。私たちの OISD は、GRPO と協力して、符号付きアドバンテージ加重ジェンセン - シャノン アライメントを採用して、統一された政策の下で政策の一貫性を維持しながら、有益な中間表現を抽出します。実験結果は、OISD の有効性を実証しており、4 つの数学的推論タスクにわたって強力な推論 RL ベースラインを大幅に改善し、一貫して改善しています。コードは https://github.com/THE-MALT-LAB/OISD でリリースされます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">OISD: On-Policy Internal Self-Distillation of Language Models</p>
        <p class="orig-summary">Recent reinforcement learning (RL) post-training approaches primarily optimize the final output policy using sparse outcome-level rewards, while largely overlooking predictive signals encoded in intermediate representations. In this paper, we introduce a new paradigm called on-policy internal self-distillation and propose the OISD framework, which improves reasoning by transferring on-policy predictive signals from the final layer to intermediate representations. During rollout and Group Relative Policy Optimization (GRPO) optimization, the final layer acts as both the policy and a detached internal teacher for selected intermediate layers, which are guided to align with it through two complementary mechanisms: logit alignment, which transfers high-level reasoning behaviors (how to think), and attention alignment, which enforces consistent attention patterns (where to look) from the final layer to the selected intermediate layer, both without requiring external privileged information. Our OISD, together with GRPO, employs signed advantage-weighted Jensen--Shannon alignment to distill informative intermediate representations while preserving policy consistency under a unified acting policy. Experimental results demonstrate the effectiveness of OISD, with substantial and consistent improvements over strong reasoning RL baselines across four mathematical reasoning tasks. The code will be released at https://github.com/THE-MALT-LAB/OISD</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c78075cde82" data-article-url="https://arxiv.org/abs/2605.29107" data-article-title="GEO-Bench: 生成エンジン最適化におけるランキング操作のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29107" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29107" target="_blank" rel="noopener">GEO-Bench: 生成エンジン最適化におけるランキング操作のベンチマーク</a></h3>
      <p class="summary">大規模言語モデル (LLM) では、ユーザーのクエリに対する製品、ドキュメント、推奨事項のランク付けが増えており、これらのランク付けを操作することによる公平性と情報の完全性への懸念が高まっています。生成エンジン最適化 (GEO) に関する研究により、多くの操作方法が生み出されてきましたが、それぞれの操作方法は独自のメトリクスを使用して独自のデータセットで評価されるため、それらの相対的な強度と検出可能性は不明のままです。 1 つのプロトコルの下で GEO ランキング操作攻撃を評価するベンチマークである GEO-Bench を紹介します。ブラック ボックスのプロンプト ベースの攻撃 (TAP、ゼロショット)、ホワイト ボックスの勾配ベースの攻撃 (STS、RAF、StealthRank)、および 10 のホワイト ハット C-SEO 戦略を統合します。有効性 (NRG、Success@{\alpha}、Promote@{\alpha}) とステルス (キーワード違反率、困惑率) の両方のメトリクスを使用して、固定オープンウェイト ランカー (Llama-3.1-8B-Instruct) に対して 5 つのデータセットのすべてのメソッドをスコア付けします。私たちの評価では、敵対的攻撃全体で有効性とステルス性がトレードオフであること、ブラック ボックス コンテンツの書き換えは、より流暢なテキストを生成しながら、ランク昇格に対する勾配ベースの攻撃と同等かそれを上回っており、一部のドメインではキーワード ベースと複雑さベースの検出の両方を回避できること、アクセス モデルが攻撃強度を予測していないことが示されています。 GEO-Bench は、データセット、攻撃実装、メトリクスを標準化することで、これらの攻撃パラダイム全体での初めての直接比較を可能にし、検出方法の開発をサポートします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GEO-Bench: Benchmarking Ranking Manipulation in Generative Engine Optimization</p>
        <p class="orig-summary">Large language models (LLMs) increasingly rank products, documents, and recommendations for user queries, which makes manipulating these rankings a growing concern for fairness and information integrity. Research on generative engine optimization (GEO) has produced many manipulation methods, but each is evaluated on its own dataset with its own metrics, so their relative strength and detectability stay unclear. We present GEO-Bench, a benchmark that evaluates GEO ranking-manipulation attacks under one protocol. It unifies black-box prompt-based attacks (TAP, Zero-Shot), white-box gradient-based attacks (STS, RAF, StealthRank), and ten white-hat C-SEO strategies. We score every method on five datasets against a fixed open-weight ranker (Llama-3.1-8B-Instruct), using metrics for both effectiveness (NRG, Success@{\alpha}, Promote@{\alpha}) and stealth (keyword violation rate, perplexity ratio). Our evaluation shows that effectiveness and stealth trade off across adversarial attacks, that black-box content rewriting matches or exceeds gradient-based attacks on rank promotion while producing more fluent text and can evade both keyword- and perplexity-based detection on some domains, and that the access model does not predict attack strength. By standardizing datasets, attack implementations, and metrics, GEO-Bench enables the first direct comparison across these attack paradigms and supports the development of detection methods.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="92f90929e562" data-article-url="https://arxiv.org/abs/2605.29115" data-article-title="unix-ctf: Unix コンピテンス強化学習のための手続き型環境" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29115" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29115" target="_blank" rel="noopener">unix-ctf: Unix コンピテンス強化学習のための手続き型環境</a></h3>
      <p class="summary">Unix の能力とは、単に端末を介してプログラムを作成するだけでなく、シェルとオペレーティング システムのプリミティブを一流のツールとして使用できる能力のことです。現在のターミナル ベンチマークでは、この区別が曖昧になる傾向があります。Python には堪能だが Unix には弱いソルバーは、ターミナル ベンチ 2.0 のかなりの部分をパスできる一方で、その逆のスキル プロファイルはほとんど実行されません。私たちはこの区別を有効にし、Unix コンポーネントのトレーニング サーフェスを構築します。 unix-ctf は、シェル エージェント用のキャプチャ ザ フラグ タスクの手続き型ジェネレーターです。各タスクは、単一の Unix 機能を使用して短いトークン (flag(a3b1c9...) 形式のフラグ) を新しい Linux コンテナー内に隠します。エージェントはそれを回復する必要があります。タスクは、LLM 支援合成パイプラインによって生成されます。LLM 支援合成パイプラインは、候補の隠蔽手法を生成し、パラメータ化された非表示と検索スクリプトのペアに書き換え、双方向契約でフィルタリングします。非表示スクリプトはディスク上にフラグの平文の痕跡を残してはならず、検索スクリプトは新しいディレクトリにフラグを回復する必要があります。 LLM は植え付けと回復のステップのみを記述するため (コンテナ、レイアウト、およびグレーディング ハーネスは固定されています)、パイプラインは 750 の生の試行のうち 656 を移植可能で再利用可能なバリアントとして取得します (87.5%)。 Endless Terminals のフルコンテナ生成アプローチの再現は、同じチェックの下でわずか 17.4\% に達します。 656 のバリアントは、155 の異なるテクニックに正規化されます。このサーフェス上で GRPO を使用して Qwen3-8B を LoRA で微調整すると、15 スキルのマルチファミリー ホールドアウト (n=225) で解決率が 11.6\% から 43.6\% に上昇し、モデルが解決する InterCode-CTF タスクを再配分し、InterCode-CTF で 32/100 に達しながらフォレンジックで +33 pp の向上をもたらしました。これらの結果は、Unix の能力は分離可能でトレーニング可能であり、シェルを介したプログラミングに組み込まれるのではなく、直接評価するのが最適であることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">unix-ctf: Procedural Environments for Unix-Competence Reinforcement Learning</p>
        <p class="orig-summary">Unix competence is the ability to use shell and operating-system primitives as first-class tools, not merely to write programs through a terminal. Current terminal benchmarks tend to blur this distinction: a solver fluent in Python but weak in Unix can pass a substantial fraction of Terminal-Bench 2.0, while the reverse skill profile is rarely exercised. We make the distinction operational and build a training surface for the Unix component. unix-ctf is a procedural generator of capture-the-flag tasks for shell agents. Each task hides a short token (a flag of the form flag(a3b1c9...)) inside a fresh Linux container using a single Unix feature, and the agent must recover it. Tasks are produced by an LLM-assisted synthesis pipeline that generates candidate hiding techniques, rewrites them into parameterized hide-and-find script pairs, and filters them with a bidirectional contract: the hide script must leave no plaintext trace of the flag on disk, and the find script must recover the flag in a fresh directory. Because the LLM only writes the planting and recovery steps (the container, layout, and grading harness are fixed), the pipeline lands 656 of 750 raw attempts as portable, reusable variants (87.5\%). Our reproduction of Endless Terminals&#x27; full-container-generation approach lands only 17.4\% under the same checks. The 656 variants canonicalize to 155 distinct techniques. Fine-tuning Qwen3-8B with LoRA using GRPO on this surface lifts solve rate from 11.6\% to 43.6\% on a 15-skill multi-family holdout (n=225), redistributes which InterCode-CTF tasks the model solves, and produces a +33 pp gain in Forensics while reaching 32/100 on InterCode-CTF. These results suggest that Unix competence is separable, trainable, and best evaluated directly rather than folded into programming-through-a-shell.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b643651b0129" data-article-url="https://arxiv.org/abs/2605.29121" data-article-title="Softmax 専門家混合ルーターにおける負荷不均衡の最小分岐モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29121" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29121" target="_blank" rel="noopener">Softmax 専門家混合ルーターにおける負荷不均衡の最小分岐モデル</a></h3>
      <p class="summary">我々は、2 つの専門家の混合専門家 (MoE) 層に対する適応ソフトマックス ルーティングの最小動的モデルを提案します。モデルは離散強化ルールの平均場限界として取得されます。選択されたエキスパートは小さなスコア増加を受け取りますが、すべてのスコアは正則化減衰を受けます。対称の場合、制限システムは超臨界熊手分岐を持ちます。弱いフィードバックの場合は独特の安定した平衡状態が存在しますが、臨界フィードバック強度を超えると 2 つの安定した非対称状態が現れます。外部の非対称性が追加されると、熊手は一対の折り曲げ分岐点に展開され、制御パラメータ平面に先端を形成します。分岐セットとカスプ破局の局所正規形の正確なパラメトリック方程式を導出します。数値実験では、この画像を経験的エキスパート負荷、小規模なトレーニング可能な MoE モデル、ハードトップ 1 PyTorch ルーティング、および数字に関する小規模な分類実験に結び付けます。その結果、適応型 MoE ルーターにおける負荷の不均衡への突然の移行に対する、制御された低次元メカニズムが提供されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Minimal Bifurcation Model of Load Imbalance in a Softmax Mixture-of-Experts Router</p>
        <p class="orig-summary">We propose a minimal dynamical model of adaptive softmax routing for a two-expert Mixture-of-Experts (MoE) layer. The model is obtained as a mean-field limit of a discrete reinforcement rule: the selected expert receives a small score increment, while all scores undergo regularizing decay. In the symmetric case the limiting system has a supercritical pitchfork bifurcation: for weak feedback there is a unique stable balanced state, whereas above a critical feedback strength two stable asymmetric states appear. When an external asymmetry is added, the pitchfork unfolds into a pair of fold bifurcations forming a cusp in the control-parameter plane. We derive exact parametric equations for the bifurcation set and the local normal form of the cusp catastrophe. Numerical experiments connect this picture to empirical expert load, a small trainable MoE model, hard top-1 PyTorch routing, and a small classification experiment on digits. The results provide a controlled low-dimensional mechanism for abrupt transitions to load imbalance in adaptive MoE routers.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e70c74f9988a" data-article-url="https://arxiv.org/abs/2605.29126" data-article-title="いつ、どのくらいの期間?時間的推論におけるリードアウト-メディエーターの角度" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29126" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29126" target="_blank" rel="noopener">いつ、どのくらいの期間?時間的推論におけるリードアウト-メディエーターの角度</a></h3>
      <p class="summary">線形プローブは、表現をほぼ完全にデコードできますが、モデルがその表現をどのように使用するかにはまったく無関係です。言語モデルの暦日継続推論では、$\sin$/$\cos$ プローブは層のアクティベーションから年間通算日を回復しますが、その方向をアブレーションしてもモデルの答えには影響しません。一方、同じ層で分散アライメント検索 (DAS) によって見つかった 4 次元部分空間をアブレーションすると、パフォーマンスが完全に崩壊します。これら 2 つの部分空間間の角度、\emph{readout-mediator angle} を測定すると、2 つのランダムな部分空間間の角度 (Haar 均一ヌル) と区別できないことがわかります。これは、プローブがモデルの実際の計算に直交する方向を学習したことを意味します。回路をリバース エンジニアリングすると、その理由が明らかになります。アテンション ヘッドは ${\pm}30$ 日と ${\pm}61$ 日に学習した QK オフセットを通じて月単位のコンテキストをルーティングし、MLP は \emph{when} (絶対日付) を \emph{how long} (期間) に変換します。すべて、プローブが決して触れない因果部分空間の下流です。スパース オートエンコーダ分解により、この分割が確認されます。プローブと整合した特徴と DAS と整合した特徴は、因果関係の重複が無視できる程度に、意味的に切り離された概念をエンコードします。この解離は 4 つのスケール ($1.5$ ～ $9\,$B) と 2 つのモデルファミリーにわたって再現され、さらに 2 つの領域 (空間変位、記号演算) に関する予備的な証拠により、リードアウトメディエーターの直交性がプローブベースの解釈可能性の一般的な失敗モードであることが示唆されています。これは、実行時安全性モニターとしてプローブを展開するという提案を直接的に損なうものです。プローブは、モデルが黙って放棄した方向について高い信頼性を報告することができます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">When and How Long? The Readout-Mediator Angle in Temporal Reasoning</p>
        <p class="orig-summary">A linear probe can decode a representation almost perfectly and yet be completely irrelevant to how the model uses it. On calendar-date duration reasoning in language models, a $\sin$/$\cos$ probe recovers day-of-year from a layer&#x27;s activations, yet ablating its direction has no effect on the model&#x27;s answers -- while ablating a four-dimensional subspace found by Distributed Alignment Search (DAS) at the same layer collapses performance entirely. We measure the angle between these two subspaces -- the \emph{readout-mediator angle} -- and find it indistinguishable from the angle between two random subspaces (the Haar-uniform null), meaning the probe has learned a direction orthogonal to the model&#x27;s actual computation. Reverse-engineering the circuit reveals why: attention heads route month-grained context through learned QK offsets at ${\pm}30$ and ${\pm}61$ days, and MLPs then convert \emph{when} (absolute date) into \emph{how long} (duration) -- all downstream of the causal subspace the probe never touches. Sparse-autoencoder decomposition confirms the split: probe-aligned and DAS-aligned features encode semantically disjoint concepts with negligible causal overlap. The dissociation replicates across four scales ($1.5$-$9\,$B) and two model families, with preliminary evidence on two further domains (spatial displacement, symbolic arithmetic), suggesting that readout-mediator orthogonality is a general failure mode of probe-based interpretability. This directly undermines proposals to deploy probes as runtime safety monitors: the probe can report high confidence on a direction the model has silently abandoned.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0ff9b6813e2a" data-article-url="https://arxiv.org/abs/2605.29138" data-article-title="自動運転における遅延と精度のトレードオフを最適化するための多重解像度エンドツーエンドのディープ ニューラル ネットワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29138" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29138" target="_blank" rel="noopener">自動運転における遅延と精度のトレードオフを最適化するための多重解像度エンドツーエンドのディープ ニューラル ネットワーク</a></h3>
      <p class="summary">レイテンシと精度のトレードオフは、サイバーフィジカル システム用のディープ ニューラル ネットワーク (DNN) のリアルタイム アプリケーションの基本です。特に自動運転では、安全性は予測の品質と、センシングから作動までのエンドツーエンドの遅延の両方に依存します。 (1) レイテンシーを考慮すると、レイテンシーに最適なネットワーク構成はシーンのコンテキストとコンピューティングの可用性によって異なります。 (2) 単一の固定解像度モデルは、条件が変化すると最適ではなくなります。単眼カメラ入力を使用した CARLA 都市走行課題のための、多重解像度のエンドツーエンドのディープ ニューラル ネットワークを紹介します。私たちのアプローチでは、解像度ごとのバッチ正規化を通じて複数の入力解像度をサポートする畳み込みニューラル ネットワーク (CNN) を採用しています。これにより、レイテンシ バジェットの下で理想的な入力スケールの実行時選択が可能になるだけでなく、元のトレーニング データセットにアクセスせずにマルチ解像度トレーニングを可能にする解像度のリターゲティングも可能になります。私たちは、CARLA で多重解像度のエンドツーエンド CNN を実装して評価し、遅延安全性のフロンティアを探索します。結果は、固定解像度のベースラインと比較して、ルートごとの安全指標 (車線侵入、赤信号違反、衝突) が一貫して改善していることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Multi-Resolution End-to-End Deep Neural Network for Optimizing Latency-Accuracy Tradeoff in Autonomous Driving</p>
        <p class="orig-summary">Latency-accuracy tradeoffs are fundamental in real-time applications of deep neural networks (DNNs) for cyber-physical systems. In autonomous driving, in particular, safety depends on both prediction quality and the end-to-end delay from sensing to actuation. We observe that (1) when latency is accounted for, the latency-optimal network configuration varies with scene context and compute availability; and (2) a single fixed-resolution model becomes suboptimal as conditions change. We present a multi-resolution, end-to-end deep neural network for the CARLA urban driving challenge using monocular camera input. Our approach employs a convolutional neural network (CNN) that supports multiple input resolutions through per-resolution batch normalization, enabling runtime selection of an ideal input scale under a latency budget, as well as resolution retargeting, which allows multi-resolution training without access to the original training dataset. We implement and evaluate our multi-resolution end-to-end CNN in CARLA to explore the latency-safety frontier. Results show consistent improvements in per-route safety metrics - lane invasions, red-light infractions, and collisions - relative to fixed-resolution baselines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="626c9ba586ca" data-article-url="https://arxiv.org/abs/2605.29141" data-article-title="明示的なコンテキストフィードバックによる LLM 推奨におけるユーザーの好みの調整に向けて" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29141" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29141" target="_blank" rel="noopener">明示的なコンテキストフィードバックによる LLM 推奨におけるユーザーの好みの調整に向けて</a></h3>
      <p class="summary">従来のレコメンダー システム (RecSys) は、主に暗黙的なシグナル (クリック、視聴、購入など) からユーザーの好みを推測し、コメントやレビューなど、ユーザーが口頭テキストを通じて提供する豊富で明示的な文脈に応じたフィードバックを無視することがよくありました。この明示的なコンテキスト フィードバックは、ユーザーの好みに関する決定の背後にある微妙な理由を捉えます。さらに、ユーザーの好みを調整するための重要な異種情報と、より説明しやすい推奨事項を提供します。このような信号を見落とすと、アルゴリズムがユーザーの選択の背後にある「意味論的コンテキスト」を理解できないため、ユーザーの好みの調整がずれ、フィルターバブルがさらに強化される可能性があります。大規模言語モデル (LLM) の最近の進歩により、ユーザー生成コンテンツを利用してより正確で多様なレコメンデーションを実現する新たな機会が生まれていますが、現在の LLM ベースのレコメンデーションは依然としてアイテムのメタデータの使用に焦点を当てており、このリソースが十分に活用されていません。このペーパーでは、次世代の LLM ベースの RecSys において明示的なコンテキスト フィードバックを優先することを提唱します。私たちは、レコメンデーションパラダイムの進化をレビューし、コンテキスト豊富なフィードバックの価値を強調し、新しいベンチマークとメトリクスを求め、明示的なユーザーシグナルをスケーラブルな LLM 駆動の RecSys に統合するためのフレームワークを導入します。ユーザーの好みのモデリングを中心に、よりパーソナライズされ、透明性があり、説明可能な RecSys オンライン プラットフォームを促進することを目指しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Toward User Preference Alignment in LLM Recommendation via Explicit Context Feedback</p>
        <p class="orig-summary">Traditional recommender systems (RecSys) primarily infer user preferences from implicit signals (such as clicks, watches, and purchases), often neglecting the rich explicit contextual feedback users provide through verbal text, like comments and reviews. This explicit context feedback captures the nuanced reasons behind user decisions regarding their preferences. In addition, it offers critical heterogeneous information for user preference alignment and more explainable recommendations. Overlooking such signals can lead to misaligned user preferences and further reinforce filter bubbles, as algorithms fail to understand the &quot;semantic context&quot; behind user choices. Recent advances in Large Language Models (LLMs) present new opportunities to harness user-generated content for more accurate and diverse recommendations, yet current LLM-based recommendations still focus on using item meta-data and underutilize this resource. In this paper, we advocate for prioritizing explicit context feedback in the next generation of LLM-based RecSys. We review the evolution of recommendation paradigms, highlight the value of context-rich feedback, call for new benchmarks and metrics, and introduce frameworks for integrating explicit user signals into scalable LLM-driven RecSys. Centering on user-preference modeling, we aim to foster more personalized, transparent, and explainable RecSys online platforms.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2353cbb93fc7" data-article-url="https://arxiv.org/abs/2605.29146" data-article-title="SafeRx-Agent: 安全で説明可能な投薬推奨のための知識に基づいたマルチエージェント フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29146" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29146" target="_blank" rel="noopener">SafeRx-Agent: 安全で説明可能な投薬推奨のための知識に基づいたマルチエージェント フレームワーク</a></h3>
      <p class="summary">薬剤の推奨は患者の来院時の薬剤を予測しますが、既存の方法では依然として 2 つの重要な課題に直面しています。モデルレベルでは、従来の医薬品推奨方法は限られた根拠に基づいて構造化された医薬品コードを予測するだけですが、LLMエージェントはより豊富な臨床コンテキストを使用できますが、安全性の検証とトレーサビリティが欠けている可能性があります。タスクレベルでは、既存のベンチマークは広範な薬剤カテゴリーを使用することが多く、サブグループレベルの安全性の違いが無視され、リスクの過大評価につながる可能性があります。第 4 レベルの ATC コード生成に基づいた、最初のきめ細かい薬剤推奨設定を導入します。私たちは、患者の状況、外部の臨床知識、安全性検証を使用して追跡可能な薬剤セットを推奨する、知識に基づいたマルチエージェント フレームワークである Safe Prescription Agent (SafeRx-Agent) を提案します。 MIMIC-III および MIMIC-IV データセットに関する実験結果は、SafeRx-Agent が薬物相互作用、禁忌、および薬物セットのサイズを制御しながら、きめ細かい薬物予測の精度を向上させることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SafeRx-Agent: A Knowledge-Grounded Multi-Agent Framework for Safe and Explainable Medication Recommendation</p>
        <p class="orig-summary">Medication recommendation predicts medications for patient visits, but existing methods still face two key challenges. At the model level, traditional drug recommendation methods only predict structured drug codes with limited evidence grounding, while LLM agents can use richer clinical context but may lack safety verification and traceability. At the task level, existing benchmarks often use broad medication categories, which ignore subgroup-level safety differences and can lead to risk overestimation. We introduce the first fine-grained medication recommendation setting based on fourth-level ATC code generation. We propose Safe Prescription Agent (SafeRx-Agent), a knowledge-grounded multi-agent framework that uses patient context, external clinical knowledge, and safety verification to recommend traceable medication sets. Experimental results on MIMIC-III and MIMIC-IV datasets show that SafeRx-Agent improves fine-grained medication prediction accuracy while controlling drug interactions, contraindications, and medication set size.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e06fff8fd1ed" data-article-url="https://arxiv.org/abs/2605.29151" data-article-title="$\overline{\mathcal M}_{0,n}$ のポアンカール多項式の実数根: AI 支援による証明" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29151" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29151" target="_blank" rel="noopener">$\overline{\mathcal M}_{0,n}$ のポアンカール多項式の実数根: AI 支援による証明</a></h3>
      <p class="summary">安定したドリーニュ-マンフォード法空間 $\overline{\mathcal M}_{0,n}$ のポアンカレ多項式 \[ P_n(t)=\sum_{i=0}^{n-3} \dim H^{2i}(\overline{\mathcal M}_{0,n};\mathbb{Q})t^i \] の実根があることを証明します。 $n$ が指す有理曲線は、アルフィ-チェン-マルコッリの予想を証明します。証明は Keel--Manin--Getzler 再帰から始まりますが、その主な新しいアイデアはポアンカール多項式の二変量変形 $F_m(y,t)$ です。この変形により、1 変数反復では見えない隠れたインターレース構造が明らかになります。固定 $t&lt;0$ の場合、$y$ 方向の $F_m$ のゼロセットは、$0&lt;1-t$ の区間で Sturm--Rolle 引数によって制御されます。元の多項式はスライス $y=1$ 上で復元され、このスライスを通る移動根の順序付けされた交差により、実根性と厳密なインターレースの両方が得られます。その結果、$\overline{\mathcal M}_{0,n}$ の Betti 数は超対数凹列を形成します。さらに、複素射影線の縮退における $n$ 順序点のフルトン-マクファーソン空間 $\mathbb{P}^1[n]$ のポアンカレ多項式の実根性と超対数凹面を証明します。 $\overline{\mathcal M}_{0,n}$ の証明は、Google DeepMind が開発したエージェント フロンティア モデル システムである Co-Mathematician による AI 支援ワークフローの反復を通じて得られました。人間の役割は、問題を提起し、連続する試みを評価し、ギャップの修復を要求し、進化する議論を文献と比較し、人間が検証可能な最終的な証拠を組み立てることでした。私たちの追加の人的貢献は、同様の残留変形戦略がフルトン-マクファーソン空間 $\mathbb P^1[n]$ に適用され、対応する実根定理が得られることを観察することでした。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Real-rootedness of the Poincar\&#x27;e polynomials of $\overline{\mathcal M}_{0,n}$: an AI-assisted proof</p>
        <p class="orig-summary">We prove real-rootedness for the Poincar\&#x27;e polynomial \[ P_n(t)=\sum_{i=0}^{n-3} \dim H^{2i}(\overline{\mathcal M}_{0,n};\mathbb{Q})t^i \] of the Deligne--Mumford moduli space $\overline{\mathcal M}_{0,n}$ of stable $n$-pointed rational curves, proving a conjecture of Aluffi--Chen--Marcolli. The proof starts from the Keel--Manin--Getzler recurrence, but its main new idea is a bivariate deformation $F_m(y,t)$ of the Poincar\&#x27;e polynomial. This deformation reveals a hidden interlacing structure not visible in the one-variable recurrence. For fixed $t&lt;0$, the zero set of $F_m$ in the $y$-direction is controlled by a Sturm--Rolle argument on the interval $0&lt;1-t$. The original polynomial is recovered on the slice $y=1$, and the ordered crossings of the moving roots through this slice give both real-rootedness and strict interlacing. Consequently, the Betti numbers of $\overline{\mathcal M}_{0,n}$ form an ultra-log-concave sequence. We further prove real-rootedness and ultra-log-concavity for the Poincar\&#x27;e polynomial of the Fulton--MacPherson space $\mathbb{P}^1[n]$ of $n$ ordered points in degenerations of the complex projective line. The proof for $\overline{\mathcal M}_{0,n}$ was obtained through an iterative AI-assisted workflow with Co-Mathematician, an agentic frontier-model system developed by Google DeepMind. The human role was to pose the problem, evaluate successive attempts, request repairs of gaps, compare the evolving argument with the literature, and assemble the final human-verifiable proof. Our additional human contribution was to observe that a similar residual deformation strategy applies to the Fulton--MacPherson spaces $\mathbb P^1[n]$, yielding the corresponding real-rootedness theorem.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2d11474824a2" data-article-url="https://arxiv.org/abs/2605.29153" data-article-title="SciML におけるマルチレジーム パターンの解明: 明確な故障モードとレジーム固有の最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29153" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29153" target="_blank" rel="noopener">SciML におけるマルチレジーム パターンの解明: 明確な故障モードとレジーム固有の最適化</a></h3>
      <p class="summary">異なるハイパーパラメータ設定の下でトレーニングされたニューラル ネットワークは、レジーム内での一貫した動作とレジーム間での質的な違いを伴う、別個のトレーニング「レジーム」に分類される場合があります。この論文では、パフォーマンス、トレーニング ダイナミクス、損失ランドスケープ ジオメトリを共同で分析するレジーム認識診断フレームワークを通じて、科学的機械学習 (SciML) モデルにおけるこのようなマルチレジームの動作を研究します。私たちは 3 つの重要な発見を特定します。(i) 多くの標準的な SciML モデル、さまざまな制約の強制、およびさまざまなオプティマイザー設計にわたって、一貫した 3 つの体制構造が現れています。 (ii) 最適化の有効性はレジームごとに異なり、すべてのレジームで適切に機能する単一の方法はありません。 (iii) SciML モデルは、標準的な損失ランドスケープ メトリクスの従来の解釈に疑問を呈する可能性のあるきめ細かい故障モードを示すことができます。私たちの結果は、SciML の故障モードに関する統一されたタスクを意識しない視点を確立し、ロバスト性を向上させるためのレジームを意識したガイダンスを提供するアプローチを提供します。私たちはこれらの発見を、物理学に基づいたニューラル ネットワーク、ニューラル オペレーター、ニューラル常微分方程式などの広く使用されている SciML モデル全体に​​わたって、代表的な常微分方程式と偏微分方程式にわたるベンチマークで検証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Unveiling Multi-regime Patterns in SciML: Distinct Failure Modes and Regime-specific Optimization</p>
        <p class="orig-summary">Neural networks trained under different hyperparameter settings can fall into distinct training &quot;regimes,&quot; with consistent behavior within regimes and qualitative differences across regimes. In this paper, we study such multi-regime behavior in scientific machine learning (SciML) models through a regime-aware diagnostic framework that jointly analyzes performance, training dynamics, and loss-landscape geometry. We identify three key findings: (i) a consistent three-regime structure emerges across many standard SciML models, different constraint enforcements, and various optimizer designs; (ii) optimization effectiveness is regime-specific, with no single method performing well across all regimes; and (iii) SciML models can exhibit fine-grained failure modes that can challenge conventional interpretations of standard loss-landscape metrics. Our results provide an approach to establish a unified, task-oblivious perspective on failure modes in SciML and to inform regime-aware guidance for improving robustness. We validate these findings across widely-used SciML models, including physics-informed neural networks, neural operators, and neural ordinary differential equations, on benchmarks spanning representative ordinary and partial differential equations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="208ccf7c0466" data-article-url="https://arxiv.org/abs/2605.29155" data-article-title="CA-AC-MPC: CUDA アクセラレーテッド アクター クリティカル モデル予測制御" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29155" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29155" target="_blank" rel="noopener">CA-AC-MPC: CUDA アクセラレーテッド アクター クリティカル モデル予測制御</a></h3>
      <p class="summary">文献では、アクター クリティカル モデル予測制御 (AC-MPC) は、MPC を強化学習と統合して、複雑な動的システムの高性能制御を可能にします。ただし、微分可能な MPC 層では、前方パスと後方パスの両方で最適化問題を繰り返し解く必要があり、トレーニングと推論のレイテンシーが大幅に増加します。このホワイト ペーパーでは、ベースライン定式化の制御パフォーマンスを維持しながら、エンドツーエンドの実行時間を大幅に短縮する CUDA 高速化バリアントを導入して、このボトルネックに取り組みます。アジャイルドローンレースタスクのシミュレーション結果は、私たちのアプローチがトレーニングと推論時間を大幅に短縮しながら、最先端のラップタイムと限界に近い動的挙動を達成することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CA-AC-MPC: CUDA-Accelerated Actor-Critic Model Predictive Control</p>
        <p class="orig-summary">In the literature, actor-critic model predictive control (AC-MPC) integrates MPC with reinforcement learning to enable high-performance control of complex dynamical systems. However, its differentiable MPC layer requires repeatedly solving an optimization problem in both the forward and backward passes, leading to substantial training and inference latency. This paper tackles this bottleneck introducing a CUDA-accelerated variant that significantly reduces end-to-end execution time while preserving the control performance of the baseline formulation. Simulation results on an agile drone racing task show that our approach achieves state-of-the-art lap times and near-limit dynamic behaviour with markedly reduced training and inference time.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ce869c9010b0" data-article-url="https://arxiv.org/abs/2605.29157" data-article-title="視差: 言語モデリングのためのパラメータ化されたローカル線形アテンション" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29157" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29157" target="_blank" rel="noopener">視差: 言語モデリングのためのパラメータ化されたローカル線形アテンション</a></h3>
      <p class="summary">大規模言語モデル (LLM) は人工知能の中心的なパラダイムとなっていますが、注意の核となる計算プリミティブは構造的に変わっていません。ローカル線形アテンション (LLA) は、テスト時回帰フレームワークのノンパラメトリック統計から派生したアテンション メカニズムです。効率的な注意バリアントに関する先行研究とは対照的に、LLA はソフトマックス アテンションの局所定数推定を局所線形推定にアップグレードし、連想記憶に対して明らかに優れたバイアス分散トレードオフをもたらします。ただし、計算および数値の安定性に関する懸念のため、LLA は LLM 事前トレーニングではスケーリングされていません。 LLM 向けにスケーラブルなパラメータ化されたローカル リニア アテンションである Parallax を紹介します。 Parallax は LLA の数値ソルバーを排除し、KV 共分散を調査する追加のクエリのようなプロジェクターを学習します。私たちは視差を、帯域幅、プローブ構造、アフィン構造によって接続された注意メカニズムのファミリーの中に配置します。私たちは、FlashAttention よりも演算強度を高め、より計算に集中した領域に注意を移す、ハードウェア認識アルゴリズムを提案します。私たちのプロトタイプのデコード カーネルは、さまざまなバッチ サイズとコンテキスト長にわたって、FlashAttendant 2/3 と同等またはそれを上回るパフォーマンスを発揮します。視差を 0.6B および 1.7B スケールで事前トレーニングし、ダウンストリーム ベンチマークに転送されるゲインにより、事前トレーニング全体を通じて一貫したパープレキシティの改善が見られます。この利点は、パラメーター一致制御と計算一致制御の両方で持続し、パレートの改善を示しています。私たちは慎重な事前トレーニングアブレーションを実行し、ミューオンが視差の能力を解放するという新しい現象を特定しました。私たちの知る限り、これは、アーキテクチャ研究文献におけるアテンション メカニズムのための強力なアーキテクチャ オプティマイザー コードデザインの最初の実証的実証です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Parallax: Parameterized Local Linear Attention for Language Modeling</p>
        <p class="orig-summary">Large Language Models (LLMs) have become the central paradigm in artificial intelligence, yet the core computational primitive of attention has remained structurally unchanged. Local Linear Attention (LLA) is an attention mechanism derived from nonparametric statistics in the test-time regression framework. In contrast to prior research on efficient attention variants, LLA upgrades the local constant estimate in softmax attention to a local linear estimate, yielding provably superior bias-variance tradeoffs for associative memory. However, LLA has not been scaled in LLM pretraining due to computational and numerical stability concerns. We introduce Parallax, a parameterized Local Linear Attention that is scalable for LLMs. Parallax eliminates the numerical solver in LLA and learns an extra query-like projector that probes the KV covariance. We place Parallax within a family of attention mechanisms connected by the bandwidth, the probe construction and the affine structure. We propose a hardware-aware algorithm that increases the arithmetic intensity over FlashAttention, shifting attention into a more compute bound regime. Our prototype decode kernel matches or outperforms FlashAttention 2/3 across diverse batch sizes and context lengths. We pretrain Parallax at 0.6B and 1.7B scales and find consistent perplexity improvements throughout pretraining with gains that transfer to downstream benchmarks. The advantage persists under both parameter-matched and compute-matched controls, demonstrating a Pareto improvement. We perform careful pretraining ablations and identify a novel phenomenon whereby Muon unlocks the capacity of Parallax. To our knowledge, this is the first empirical demonstration of strong architecture-optimizer codesign for attention mechanisms in the architecture research literature.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="303dbd57ac81" data-article-url="https://arxiv.org/abs/2605.29161" data-article-title="生成グラフ トポロジの進化的な洗練: ハイブリッド WGAN-GA アプローチ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29161" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29161" target="_blank" rel="noopener">生成グラフ トポロジの進化的な洗練: ハイブリッド WGAN-GA アプローチ</a></h3>
      <p class="summary">現実的なグラフ構造のデータを生成することは、離散的な接続性、さまざまなグラフ サイズ、およびクラス固有の構造パターンにより困難です。最近の敵対的生成ネットワーク (GAN) ベースのグラフ生成手法は、接続性を学習し、クラス固有の密度分布を照合することでエッジ モデリングを改善します。ただし、これらのモデルは、実際のグラフと比較した場合、度数やスペクトル分布などに依然として顕著な偏差を示しており、重要な構造特性が完全に保存されていないことを示しています。この研究は、既存の GAN ベースのグラフ ジェネレーター フレームワークによって生成されたグラフを遺伝的アルゴリズム (GA) で改良することで、これらの偏差を減らすことを目的としています。 GAN フレームワークでは、ジェネレーターがノード機能と接続パターンの両方を生成し、GNN ベースの批評家がグラフの現実性とクラスの一貫性を評価して、グローバルな構造とクラスの整合性を確保します。この基盤に基づいて、GA を適用して、生成されたグラフのエッジを調整します。改良プロセスにより、多様性と新規性を維持しながら、合成グラフが実際のデータとよりよく一致するように導きます。実験結果は、GA 改良により基本モデルと比較して複合最大平均不一致 (MMD) が一貫して低下し、実際の構造パターンにより密接に一致するグラフが得られることを示しています。これは、進化的改良が GAN ベースのグラフ ジェネレーターの残留構造偏差を修正する効果的かつ柔軟な方法であり、現実的なグラフ合成とデータ拡張への適合性を向上させることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Evolutionary Refinement of Generative Graph Topologies: A Hybrid WGAN-GA Approach</p>
        <p class="orig-summary">Generating realistic graph-structured data is challenging due to discrete connectivity, varying graph sizes, and class-specific structural patterns. Recent Generative Adversarial Networks (GAN)-based graph generation methods improve edge modelling by learning connectivity and matching class-specific density distributions. However these models still exhibit noticeable deviations such as in degree and spectral distribution when compared to real graphs, indicating that important structural properties are not fully preserved. This work aims to reduce these deviations by refining the graphs produced by an existing GAN-based graph generator framework with a Genetic Algorithm (GA). In the GAN framework, the generator produces both node features and connectivity patterns, while a GNN-based critic evaluates graph realism and class consistency to ensure global structural and class alignment. Building on this foundation, we apply a GA to refine the edges of generated graphs. The refinement process guides synthetic graphs toward closer agreement with real data, while preserving diversity and novelty. Experimental results show that the GA refinement consistently lowers combined Maximum Mean Discrepancy (MMD) compared to the base model, leading to graphs that more closely match real structural patterns. This demonstrates that evolutionary refinement is an effective and flexible way to correct residual structural deviations in GAN-based graph generators, improving their suitability for realistic graph synthesis and data augmentation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="51d57232ec0f" data-article-url="https://arxiv.org/abs/2605.29169" data-article-title="積分格子およびモジュール格子における進化的ふるい分けのためのドメイン情報に基づく表現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29169" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29169" target="_blank" rel="noopener">積分格子およびモジュール格子における進化的ふるい分けのためのドメイン情報に基づく表現</a></h3>
      <p class="summary">従来の暗号化は、整数因数分解や離散対数などの問題に根ざしており、完全に動作する量子コンピューターに対して必然的に脆弱になります。これは依然としてエンジニアリングのフロンティアですが、差し迫った脅威は現在保存されている暗号化されたデータにも及び、将来的には量子機能を使用して復号化される可能性があります。この不測の事態から身を守るために、現代の量子安全暗号のバックボーンは最短ベクトル問題 (SVP) です。我々は、モジュール格子への適用を自然に拡張しながら、ドメイン情報に基づいた SVP 表現とクロスオーバーを組み込むことにより、SVP の遺伝的アルゴリズム (GA) として Ajtai らのふるい分けに対する Laarhoven の扱いを強化します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Domain-Informed Representation for Evolutionary Sieving in Integral and Module Lattices</p>
        <p class="orig-summary">Traditional cryptography, rooted in problems, e.g., integer factorisation or discrete log, is inevitably vulnerable to a fully operational quantum computer. Although it remains an engineering frontier, the looming threat extends to encrypted data stored today, which could be decrypted in the future with quantum capabilities. To safeguard against this eventuality, the backbone of the modern quantum-safe cryptography is the Shortest Vector Problem (SVP). We enhance Laarhoven&#x27;s treatment of Ajtai et al.&#x27;s sieving as a genetic algorithm (GA) for the SVP by incorporating domain-informed SVP representation and crossover while naturally extending application to the module lattices.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="820efc19ffdb" data-article-url="https://arxiv.org/abs/2605.29170" data-article-title="UA-Legal-Bench: ウクライナの法的推論に関する大規模言語モデルを評価するためのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29170" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29170" target="_blank" rel="noopener">UA-Legal-Bench: ウクライナの法的推論に関する大規模言語モデルを評価するためのベンチマーク</a></h3>
      <p class="summary">法的 NLP ベンチマークは圧倒的に英語中心であり、形態学的に豊富な非ラテン文字言語の障害モードは検出されません。 UA-Legal-Bench は、ウクライナの法的推論に関する大規模な言語モデルを評価するための 5 つのタスクのベンチマークであり、世界最大の公開司法コーパス (9,950 万件の判決) の 1 つである統一国家裁判所判決記録簿 (EDRSR) から構築されています。ベンチマークは、（1）事件タイプ分類（4クラス、n=2,000）、（2）判決形式分類（4クラス、n=2,000）、（3）事件結果予測（6クラス、n=800）、（4）法規範抽出（n=1,794）、（5）原因カテゴリ予測（22クラス、n=1,871）から構成されます。 AWS Bedrock 経由で 158K API コールを使用して、ゼロショットおよび 3 ショット プロンプトの下で 5 つのファミリーからの 11 個の LLM (3B ～ 675B) を評価しました。私たちの結果は、タスクに大きく依存する少数ショットの効果を明らかにしました。少数ショットのプロンプトは、判断フォームの分類を最大 +38.6 pp 向上させますが、結果の予測にはさまざまな影響を及ぼします。不均衡な法務タスクでは精度が誤解を招くことを示します。COP 精度が最も高いモデル (62%) は多数派クラスの予測子 (マクロ F1: 23%) ですが、真に最良のモデルのマクロ F1 スコアはわずか 44% です。ファミリ内のスケーリング分析により、8B モデルは表面レベルのタスクではフロンティアのパフォーマンスに匹敵することができますが、スケーリングのしきい値はファミリ間で大幅に異なることが明らかになりました。すべてのデータ、プロンプト、モデル予測を公開します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">UA-Legal-Bench: A Benchmark for Evaluating Large Language Models on Ukrainian Legal Reasoning</p>
        <p class="orig-summary">Legal NLP benchmarks are overwhelmingly English-centric, leaving failure modes in morphologically rich, non-Latin-script languages undetected. We introduce UA-Legal-Bench, a five-task benchmark for evaluating large language models on Ukrainian legal reasoning, built from the Unified State Register of Court Decisions (EDRSR) -- one of the world&#x27;s largest open judicial corpora (99.5 million decisions). The benchmark comprises: (1) case-type classification (4 classes, n=2,000), (2) judgment form classification (4 classes, n=2,000), (3) case-outcome prediction (6 classes, n=800), (4) legal norm extraction (n=1,794), and (5) cause category prediction (22 classes, n=1,871). We evaluate 11 LLMs (3B--675B) from five families under zero-shot and 3-shot prompting via AWS Bedrock with 158K API calls. Our results reveal sharply task-dependent few-shot effects: few-shot prompting improves judgment form classification by up to +38.6 pp but has mixed effects on outcome prediction. We show that accuracy is misleading on imbalanced legal tasks: the model with highest COP accuracy (62%) is a majority-class predictor (macro-F1: 23%), while the genuinely best model scores only 44% macro-F1. Within-family scaling analysis reveals that 8B models can match frontier performance on surface-level tasks but scaling thresholds vary dramatically across families. We release all data, prompts, and model predictions.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="45102b7095bd" data-article-url="https://arxiv.org/abs/2605.29179" data-article-title="人工知能時代の持続可能な金属有機フレームワーク集水装置" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29179" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29179" target="_blank" rel="noopener">人工知能時代の持続可能な金属有機フレームワーク集水装置</a></h3>
      <p class="summary">有機金属フレームワーク (MOF) は、細孔環境が調整可能であるため、乾燥条件で水を捕捉および放出するように正確に設計できるため、水採取の優れた候補です。人工知能 (AI) を MOF の発見に統合することで、大気水回収 (AWH)、安定性、サイクル効率を向上させる構造的特徴を特定することで、高性能吸着剤の設計をさらに加速できます。この観点では、協調吸着、動作相対湿度 (RH)、取り込み容量、ヒステリシス、拡張性などの重要な MOF 設計原則を検討します。多変量戦略や長腕リンカー伸長などの最近の設計の進歩に焦点を当て、これらの原理が安定性と結晶性を維持しながら細孔容量と親水性をどのように調整するかを検証します。さらに、AI、大規模言語モデル (LLM)、データ マイニングが、予測合成、逆設計、合成と構造と特性の関係の解明を通じて、次世代の MOF 集水器の発見プロセスをどのように加速できるかについて説明します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Sustainable Metal-Organic Framework Water Harvesters in the Artificial Intelligence Era</p>
        <p class="orig-summary">Metal-organic frameworks (MOFs) are excellent candidates for water harvesting due to their tunable pore environments, which can be precisely engineered to capture and release water in arid conditions. Integrating artificial intelligence (AI) into MOF discovery can further accelerate the design of high-performance sorbents by identifying structural features that enhance atmospheric water harvesting (AWH), stability, and cycling efficiency. In this Perspective, we examine key MOF design principles, including cooperative adsorption, operational relative humidity (RH), uptake capacity, hysteresis, and scalability. We highlight recent design advancements such as multivariate strategies and long-arm linker extension, and examine how these principles tune pore capacity and hydrophilicity, while preserving stability and crystallinity. Furthermore, we discuss how AI, large language models (LLMs), and data mining can accelerate the discovery process through predictive synthesis, inverse design, and elucidating synthesis-structure-property relationships for the next generation of MOF water harvesters.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2c8c59e8739e" data-article-url="https://arxiv.org/abs/2605.29183" data-article-title="TIMEGATE: リソース制約下での継続的な ML 適応のための持続可能なタイムボックス化プロモーション ゲート" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29183" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29183" target="_blank" rel="noopener">TIMEGATE: リソース制約下での継続的な ML 適応のための持続可能なタイムボックス化プロモーション ゲート</a></h3>
      <p class="summary">機械学習 (ML) システムが継続的な適応に進化するにつれて、各再トレーニング サイクルではコンピューティング、アノテーション、エネルギーが使用されます。時間の予算設定、ラベル付け、トレーニング、評価によって適応を管理するポリシー層である TIMEGATE を紹介します。 TIMEGATE は、部分評価と完全評価の決定のためにメトリック利用可能性信号 M を送信します。 (i) ラベル付けは、成人用表形式でトレーニングを 2.3 倍上回るパフォーマンスを示します。 (ii) SST-2 上の LLaMA-3.1-8B + QLoRA に転送します (精度 0.80 ～ 0.96、35/36 回の実行で M =1)。 (iii) M は有益です。28 セルの感度は、厳しいしきい値では M が 0.81 に低下することを示しています。 (iv) 100 サイクルのシミュレーションにより、サイレント ミス プロモーションなしで 66% の評価計算量の節約が達成されます。 (v) LLaMA での 10% スライス評価では、単一の H200 で使用する実時間とエネルギーが 89% 削減されます (比率は 0.2% に一致します)。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TIMEGATE: Sustainable Time-Boxed Promotion Gates for Continual ML Adaptation Under Resource Constraints</p>
        <p class="orig-summary">As machine learning(ML) systems evolve to continual adaptation, each re-training cycle uses compute, annotation, and energy. We introduce TIMEGATE, a policy layer managing adaptation by budgeting time, labeling, training, and evaluation. TIMEGATE emits a metric-availability signal M for partial vs. full-evaluation decisions. We validate: (i) labeling outperforms training by 2.3x on Adult tabular; (ii) it transfers to LLaMA-3.1-8B + QLoRA on SST-2 (accuracy 0.80 to 0.96; M =1 in 35/36 runs); (iii) M is informative, 28-cell sensitivity shows M drops to 0.81 at tight thresholds; (iv) 100-cycle simulation achieves 66% evaluation-compute savings with no silent mis-promotions; (v) 10%-slice evaluation on LLaMA uses 89% less wall-clock and energy on a single H200 (ratios agree to 0.2%).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="31bc8b030a72" data-article-url="https://arxiv.org/abs/2605.29184" data-article-title="Influence-Guided Symbolic Regression: Scientific Discovery via LLM-Driven Equation Search with Granular Feedback" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29184" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29184" target="_blank" rel="noopener">Influence-Guided Symbolic Regression: Scientific Discovery via LLM-Driven Equation Search with Granular Feedback</a></h3>
      <p class="summary">Large Language Models (LLMs) offer a promising avenue for scientific discovery, yet their application to symbolic regression is often const…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="02ad693ddb9e" data-article-url="https://arxiv.org/abs/2605.29194" data-article-title="Stochastic Lifting for Generating Trajectories of Stochastic Physical Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29194" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29194" target="_blank" rel="noopener">Stochastic Lifting for Generating Trajectories of Stochastic Physical Systems</a></h3>
      <p class="summary">Many stochastic physical systems evolve smoothly over time in the sense that the distribution of states changes regularly across time steps…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="02d614df7801" data-article-url="https://arxiv.org/abs/2605.29224" data-article-title="Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29224" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29224" target="_blank" rel="noopener">Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents</a></h3>
      <p class="summary">AI agents augment large language models with external tools such as web retrieval, enabling grounded and up-to-date responses. However, inc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c742d6cbccf9" data-article-url="https://arxiv.org/abs/2605.29230" data-article-title="Toward Ethical Facial Age Estimation: A Generalized Zero-Shot Benchmark Without Training on Children&#x27;s Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29230" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29230" target="_blank" rel="noopener">Toward Ethical Facial Age Estimation: A Generalized Zero-Shot Benchmark Without Training on Children&#x27;s Data</a></h3>
      <p class="summary">Age estimation from facial images typically relies on training data that includes images of minors, a practice that raises serious ethical,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f19ecb23e299" data-article-url="https://arxiv.org/abs/2605.29233" data-article-title="BlockBatch: Multi-Scale Consensus Decoding for Efficient Diffusion Language Model Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29233" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29233" target="_blank" rel="noopener">BlockBatch: Multi-Scale Consensus Decoding for Efficient Diffusion Language Model Inference</a></h3>
      <p class="summary">Diffusion language models (dLLMs) generate text by iteratively denoising multiple token positions in parallel, offering an attractive alter…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="307c924ec00a" data-article-url="https://arxiv.org/abs/2605.29243" data-article-title="Wait! There&#x27;s a Way Out: A Decision Mechanism for Forecasting Conversational Derailment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29243" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29243" target="_blank" rel="noopener">Wait! There&#x27;s a Way Out: A Decision Mechanism for Forecasting Conversational Derailment</a></h3>
      <p class="summary">Forecasting conversational derailment is the task of predicting, as the conversation unfolds, whether it will eventually derail into person…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="73d46f8c9c69" data-article-url="https://arxiv.org/abs/2605.29250" data-article-title="OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29250" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29250" target="_blank" rel="noopener">OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources</a></h3>
      <p class="summary">Real-world information needs require access to structurally diverse knowledge sources, from unstructured text and relational tables to know…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a310902cebbf" data-article-url="https://arxiv.org/abs/2605.29254" data-article-title="Extreme dynamic symmetry enables omnidirectional and multifunctional robots" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29254" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29254" target="_blank" rel="noopener">Extreme dynamic symmetry enables omnidirectional and multifunctional robots</a></h3>
      <p class="summary">Symmetry is a central organizing principle in natural systems, yet its use as a unifying design strategy in robotics has largely remained l…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="65010a9841cc" data-article-url="https://arxiv.org/abs/2605.29256" data-article-title="DynSess: Dynamic Session-Level Evaluation and Optimization Framework for Role-Playing Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29256" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29256" target="_blank" rel="noopener">DynSess: Dynamic Session-Level Evaluation and Optimization Framework for Role-Playing Agents</a></h3>
      <p class="summary">Role-playing with large language models is fundamentally a session-level task, requiring agents to sustain character identity and interacti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9b4d21b81080" data-article-url="https://arxiv.org/abs/2605.29259" data-article-title="KLAS: Using Similarity to Stitch Neural Networks for Improved Accuracy-Efficiency Tradeoffs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29259" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29259" target="_blank" rel="noopener">KLAS: Using Similarity to Stitch Neural Networks for Improved Accuracy-Efficiency Tradeoffs</a></h3>
      <p class="summary">Given the wide range of deployment targets, flexible model selection is essential for optimizing performance within a given compute budget.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cbecc7825ba2" data-article-url="https://arxiv.org/abs/2605.29268" data-article-title="Compute Allocation in Evolutionary Search: From Depth-Breadth to Multi-Armed Bandits" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29268" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29268" target="_blank" rel="noopener">Compute Allocation in Evolutionary Search: From Depth-Breadth to Multi-Armed Bandits</a></h3>
      <p class="summary">LLM-guided evolutionary search (Evolve systems) has reached state-of-the-art results on mathematical and combinatorial tasks, yet most exis…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1a02f548c0ef" data-article-url="https://arxiv.org/abs/2605.29272" data-article-title="Causal Label Recovery in Payment Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29272" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29272" target="_blank" rel="noopener">Causal Label Recovery in Payment Networks</a></h3>
      <p class="summary">Fraud detection models in payment networks train on chargeback labels that are systematically biased. Every label must survive three sequen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5bdde593bd35" data-article-url="https://arxiv.org/abs/2605.29277" data-article-title="Code-QA-Bench: Separating Code Reasoning from Documentation Memorization in Repository-Level QA" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29277" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29277" target="_blank" rel="noopener">Code-QA-Bench: Separating Code Reasoning from Documentation Memorization in Repository-Level QA</a></h3>
      <p class="summary">We present Code-QA-Bench, a fully automated framework for synthesizing repository-level code understanding benchmarks that separates genuin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9477e23fdebc" data-article-url="https://arxiv.org/abs/2605.29280" data-article-title="LoopFM: Learning frOm HistOrical RePresentations of Foundation Model for Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29280" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29280" target="_blank" rel="noopener">LoopFM: Learning frOm HistOrical RePresentations of Foundation Model for Recommendation</a></h3>
      <p class="summary">Knowledge distillation (KD) transfers a single scalar prediction from a large foundation model (FM) to compact vertical models (VMs), suffe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1061001cd528" data-article-url="https://arxiv.org/abs/2605.29283" data-article-title="Do Physics Foundation Models Learn Generalizable Physics? A Bias-Aware Benchmark Across Physical Regimes and Distribution Shifts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29283" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29283" target="_blank" rel="noopener">Do Physics Foundation Models Learn Generalizable Physics? A Bias-Aware Benchmark Across Physical Regimes and Distribution Shifts</a></h3>
      <p class="summary">Recent physics foundation models claim general spatiotemporal forecasting ability, yet their evaluations often collapse performance into a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8e21412c776e" data-article-url="https://arxiv.org/abs/2605.29299" data-article-title="Pocket-Dentist: On-Device Dental Image Understanding via Efficient Multimodal Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29299" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29299" target="_blank" rel="noopener">Pocket-Dentist: On-Device Dental Image Understanding via Efficient Multimodal Large Language Models</a></h3>
      <p class="summary">Evaluations of dental vision-language models remain fragmented across datasets, task definitions and metrics, and often ignore their comput…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fd4eb0286e72" data-article-url="https://arxiv.org/abs/2605.29300" data-article-title="MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29300" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29300" target="_blank" rel="noopener">MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs</a></h3>
      <p class="summary">Recent Large Audio-Language Models (LALMs) have demonstrated promising abilities in understanding musical content. However, whether their r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5f86e262c2c4" data-article-url="https://arxiv.org/abs/2605.29307" data-article-title="GrepSeek: Training Search Agents for Direct Corpus Interaction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29307" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29307" target="_blank" rel="noopener">GrepSeek: Training Search Agents for Direct Corpus Interaction</a></h3>
      <p class="summary">Large Language Model (LLM) search agents have shown strong promise for knowledge-intensive language tasks through multiple rounds of reason…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="78bbcb28dbc0" data-article-url="https://arxiv.org/abs/2605.29335" data-article-title="Rethinking FID Through the Geometry of the Reference Dataset" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29335" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29335" target="_blank" rel="noopener">Rethinking FID Through the Geometry of the Reference Dataset</a></h3>
      <p class="summary">Fr\&#x27;echet Inception Distance (FID) is widely used to evaluate image generators, yet lower FID does not always correspond to better sample q…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="862f4f0ea26f" data-article-url="https://arxiv.org/abs/2605.29359" data-article-title="Does Distributed Training Undermine Compute Governance?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29359" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29359" target="_blank" rel="noopener">Does Distributed Training Undermine Compute Governance?</a></h3>
      <p class="summary">Compute governance proposals often rely on the assumption that frontier AI training requires large, detectable computing clusters. However,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="473931ebcf9e" data-article-url="https://arxiv.org/abs/2605.29368" data-article-title="SURGENT: A Surgical Multi-Agent Assistance System Across the Perioperative Workflow" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29368" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29368" target="_blank" rel="noopener">SURGENT: A Surgical Multi-Agent Assistance System Across the Perioperative Workflow</a></h3>
      <p class="summary">The intricate nature of modern surgical care necessitates intelligent systems that can synthesize extensive patient records, support collab…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1bdfbe9b5719" data-article-url="https://arxiv.org/abs/2605.29380" data-article-title="TRACER: Persistent Regularization for Robust Multimodal Finetuning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29380" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29380" target="_blank" rel="noopener">TRACER: Persistent Regularization for Robust Multimodal Finetuning</a></h3>
      <p class="summary">Mainstream strategies for finetuning pretrained multimodal models often degrade out-of-distribution (OOD) robustness, a phenomenon known as…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e4ddde70d83d" data-article-url="https://arxiv.org/abs/2605.29384" data-article-title="Latent Terms: Dense Retrievers Contain Trivially Extractable BM25-ready Zipfian Vocabularies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29384" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29384" target="_blank" rel="noopener">Latent Terms: Dense Retrievers Contain Trivially Extractable BM25-ready Zipfian Vocabularies</a></h3>
      <p class="summary">We propose Latent Terms, a method revealing that models trained for dense retrieval, whether single- or multi-vector, learn representations…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a1363ceb572" data-article-url="https://arxiv.org/abs/2605.29387" data-article-title="On the Optimizer Dependence of Neural Scaling Laws" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29387" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29387" target="_blank" rel="noopener">On the Optimizer Dependence of Neural Scaling Laws</a></h3>
      <p class="summary">The scaling exponent $\alpha$ in neural scaling laws $L(N) \propto N^{-\alpha}$ is commonly treated as a fixed constant set by architecture…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5f34608b89d9" data-article-url="https://arxiv.org/abs/2605.29398" data-article-title="GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29398" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29398" target="_blank" rel="noopener">GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models</a></h3>
      <p class="summary">Reinforcement learning (RL) can be used to improve the policy (denoiser) of diffusion large language models (dLLMs), while being hindered b…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f42567e7d989" data-article-url="https://arxiv.org/abs/2605.29402" data-article-title="Semantic and Visual Evidence for Efficient Long-Video Reasoning: A Solution for the HD-EPIC VQA Challenge" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29402" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29402" target="_blank" rel="noopener">Semantic and Visual Evidence for Efficient Long-Video Reasoning: A Solution for the HD-EPIC VQA Challenge</a></h3>
      <p class="summary">Understanding long-form egocentric videos remains challenging for multimodal large language models (MLLMs) due to limited context length an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="965c14326177" data-article-url="https://arxiv.org/abs/2605.29411" data-article-title="The Good, the Bad, and the Ugly of Markov Boundary for Tabular Prediction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29411" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29411" target="_blank" rel="noopener">The Good, the Bad, and the Ugly of Markov Boundary for Tabular Prediction</a></h3>
      <p class="summary">Under standard graphical assumptions, the Markov boundary of a target variable is the smallest set of features that renders every other fea…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8b85a06c7991" data-article-url="https://arxiv.org/abs/2605.29414" data-article-title="Beyond Bilingual Transfer: Multilingual Code-Switching in Instruction Tuning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29414" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29414" target="_blank" rel="noopener">Beyond Bilingual Transfer: Multilingual Code-Switching in Instruction Tuning</a></h3>
      <p class="summary">Recent studies have shown that code-switching data (CSD), in which multiple languages are mixed within the same context, can improve cross-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4bc8fc939a9a" data-article-url="https://arxiv.org/abs/2605.29428" data-article-title="DELOS: Detecting Shallow Transits in Kepler Photometry Using a Contrastive-Learning Framework" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29428" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29428" target="_blank" rel="noopener">DELOS: Detecting Shallow Transits in Kepler Photometry Using a Contrastive-Learning Framework</a></h3>
      <p class="summary">We present DEtection in phase-folded Light curves with cOntrastive Scoring (DELOS), a contrastive-learning-based framework designed to sear…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3d67671a4a00" data-article-url="https://arxiv.org/abs/2605.29434" data-article-title="AliMark: Enhancing Robustness of Sentence-Level Watermarking Against Text Paraphrasing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29434" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29434" target="_blank" rel="noopener">AliMark: Enhancing Robustness of Sentence-Level Watermarking Against Text Paraphrasing</a></h3>
      <p class="summary">Existing sentence-level watermarking methods enhance robustness to paraphrasing by anchoring watermarks in sentence semantics. However, the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="88140098abaa" data-article-url="https://arxiv.org/abs/2605.29440" data-article-title="SkillBrew: Multi-Objective Curation of Skill Banks for LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29440" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29440" target="_blank" rel="noopener">SkillBrew: Multi-Objective Curation of Skill Banks for LLM Agents</a></h3>
      <p class="summary">Retrieval-augmented LLM agents increasingly rely on curated skill banks: collections of reusable textual principles that guide decision mak…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="de72d519c1e0" data-article-url="https://arxiv.org/abs/2605.29442" data-article-title="How Coding Agents Fail Their Users: A Large-Scale Analysis of Developer-Agent Misalignment in 20,574 Real-World Sessions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29442" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29442" target="_blank" rel="noopener">How Coding Agents Fail Their Users: A Large-Scale Analysis of Developer-Agent Misalignment in 20,574 Real-World Sessions</a></h3>
      <p class="summary">AI coding agents increasingly act directly within software environments, yet existing analyses of their failures rely on benchmark trajecto…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="25df3b0a7655" data-article-url="https://arxiv.org/abs/2605.29448" data-article-title="How Much Is a Dataset Worth? Scaling Laws, the Vendi Score, and Matrix Spectral Functions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29448" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29448" target="_blank" rel="noopener">How Much Is a Dataset Worth? Scaling Laws, the Vendi Score, and Matrix Spectral Functions</a></h3>
      <p class="summary">Neural scaling laws appraise data through dataset size, while the Vendi Score uses quantum entropy to measure dataset value. We show both t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2b53ce91ba51" data-article-url="https://arxiv.org/abs/2605.29453" data-article-title="Forget Less, Generalize More: Unifying Temporal and Structural Adaptation for Dynamic Graphs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29453" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29453" target="_blank" rel="noopener">Forget Less, Generalize More: Unifying Temporal and Structural Adaptation for Dynamic Graphs</a></h3>
      <p class="summary">Representation learning on dynamic graphs requires capturing complex dependencies that evolve across both time and structure. Existing appr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d4f24ccd11d9" data-article-url="https://arxiv.org/abs/2605.29458" data-article-title="Adaptive Interviewing for Persona Simulation in LLMs: Evidence-Grounded Reasoning Improves Decision Alignment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29458" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29458" target="_blank" rel="noopener">Adaptive Interviewing for Persona Simulation in LLMs: Evidence-Grounded Reasoning Improves Decision Alignment</a></h3>
      <p class="summary">Accurately simulating the decisions of a specific individual remains challenging for large language models (LLMs), partly because persona i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aa074eec9099" data-article-url="https://arxiv.org/abs/2605.29462" data-article-title="Benchmarking Large Vision-Language Models on CFMME: A Comprehensive Chinese Financial Multimodal Evaluation Dataset" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29462" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29462" target="_blank" rel="noopener">Benchmarking Large Vision-Language Models on CFMME: A Comprehensive Chinese Financial Multimodal Evaluation Dataset</a></h3>
      <p class="summary">The emergence of Large Vision-Language Models (LVLMs) has substantially expanded model capabilities beyond text-only understanding, enablin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d7b3ec266c87" data-article-url="https://arxiv.org/abs/2605.29463" data-article-title="Honest Lying: Understanding Memory Confabulation in Reflexive Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29463" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29463" target="_blank" rel="noopener">Honest Lying: Understanding Memory Confabulation in Reflexive Agents</a></h3>
      <p class="summary">Reflexion-style agents rely on self-generated reflections as memory, implicitly assuming that agents can accurately diagnose their own fail…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8e544fbc69a2" data-article-url="https://arxiv.org/abs/2605.29467" data-article-title="Composing Non-Conjugate Factor Graphs with Closed-Form Variational Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29467" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29467" target="_blank" rel="noopener">Composing Non-Conjugate Factor Graphs with Closed-Form Variational Inference</a></h3>
      <p class="summary">Stacking probabilistic building blocks into deeper architectures typically breaks closed-form inference. We show that closed-form inference…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0b89d90c6a21" data-article-url="https://arxiv.org/abs/2605.29468" data-article-title="SciIntBench: Measuring LLM Compliance with Research Integrity Norms Under Adversarial Framing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29468" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29468" target="_blank" rel="noopener">SciIntBench: Measuring LLM Compliance with Research Integrity Norms Under Adversarial Framing</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly used to support scientific work, but it is unclear whether they uphold responsible conduct of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="76e987892a59" data-article-url="https://arxiv.org/abs/2605.29473" data-article-title="Inform, Coach, Relate, Listen: Auditing LLM Caregiving Support Roles" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29473" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29473" target="_blank" rel="noopener">Inform, Coach, Relate, Listen: Auditing LLM Caregiving Support Roles</a></h3>
      <p class="summary">Language models are increasingly being deployed for conversational support in informal caregiving contexts, where interactions often extend…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="74582849a3b9" data-article-url="https://arxiv.org/abs/2605.29475" data-article-title="MOOSE-Copilot: A Web-Based Interactive Assistant for Unified Exploratory and Fine-Grained Scientific Hypothesis Discovery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/copilot/" data-entity="copilot">Copilot</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29475" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29475" target="_blank" rel="noopener">MOOSE-Copilot: A Web-Based Interactive Assistant for Unified Exploratory and Fine-Grained Scientific Hypothesis Discovery</a></h3>
      <p class="summary">Large language models (LLMs) show remarkable potential in scientific hypothesis discovery. However, existing approaches face two critical l…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3920a4ed3330" data-article-url="https://arxiv.org/abs/2605.29478" data-article-title="Evolutionary Rule Extraction from Corporate Default Prediction Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29478" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29478" target="_blank" rel="noopener">Evolutionary Rule Extraction from Corporate Default Prediction Models</a></h3>
      <p class="summary">Small and medium-sized enterprises (SMEs) represent the majority of firms in most economies and often face financial constraints and higher…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="de1ed44e8262" data-article-url="https://arxiv.org/abs/2605.29486" data-article-title="PhoneWorld: Scaling Phone-Use Agent Environments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29486" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29486" target="_blank" rel="noopener">PhoneWorld: Scaling Phone-Use Agent Environments</a></h3>
      <p class="summary">A central bottleneck for phone-use agents is that controllable, reproducible environments covering real mobile behavior are hard to build a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8ac05faab03c" data-article-url="https://arxiv.org/abs/2605.29488" data-article-title="AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29488" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29488" target="_blank" rel="noopener">AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling</a></h3>
      <p class="summary">Conditional human motion generation remains a fundamental challenge in computer vision and robotics. Despite significant progress, current…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="84e3018e6ed6" data-article-url="https://arxiv.org/abs/2605.29493" data-article-title="The New Pro Se: Generative AI and the Surge in Federal Civil Self-Representation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29493" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29493" target="_blank" rel="noopener">The New Pro Se: Generative AI and the Surge in Federal Civil Self-Representation</a></h3>
      <p class="summary">Since public access to generative AI tools became widespread, federal civil litigation has seen a marked increase in pro se (self-represent…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="91832551a827" data-article-url="https://arxiv.org/abs/2605.29500" data-article-title="Quotient DAGs for Off-Policy Evaluation:Forward-Flow Importance Sampling and Exact Slate Propensities" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29500" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29500" target="_blank" rel="noopener">Quotient DAGs for Off-Policy Evaluation:Forward-Flow Importance Sampling and Exact Slate Propensities</a></h3>
      <p class="summary">Off-policy evaluation estimates how a target policy would perform using data collected by a different behavior policy, which is crucial whe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fe96ab0ad77f" data-article-url="https://arxiv.org/abs/2605.29502" data-article-title="Source-Grounded Semantic Reinforcement Learning for Low-Resource Target-Language Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29502" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29502" target="_blank" rel="noopener">Source-Grounded Semantic Reinforcement Learning for Low-Resource Target-Language Generation</a></h3>
      <p class="summary">Low-resource target-language generation is often limited by scarce parallel data, while high-resource source-language monolingual data is a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6a552254f101" data-article-url="https://arxiv.org/abs/2605.29518" data-article-title="Network Optimization Aspects of Autonomous Vehicles: Challenges and Future Directions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29518" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29518" target="_blank" rel="noopener">Network Optimization Aspects of Autonomous Vehicles: Challenges and Future Directions</a></h3>
      <p class="summary">Global megatrends, such as urbanization, population growth, and emerging network solutions are accelerating the development of the Connecte…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79c7c74eed43" data-article-url="https://arxiv.org/abs/2605.29524" data-article-title="KBF: Knowledge Boundary as Fingerprint for Language Model and Black-Box API Auditing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29524" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29524" target="_blank" rel="noopener">KBF: Knowledge Boundary as Fingerprint for Language Model and Black-Box API Auditing</a></h3>
      <p class="summary">Relay and reseller APIs increasingly intermediate access to large language models (LLMs), but users have no direct way to verify that a cla…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="91974a866dbb" data-article-url="https://arxiv.org/abs/2605.29526" data-article-title="Temporal Motif-aware Graph Test-time Adaptation for OOD Blockchain Anomaly Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29526" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29526" target="_blank" rel="noopener">Temporal Motif-aware Graph Test-time Adaptation for OOD Blockchain Anomaly Detection</a></h3>
      <p class="summary">Ever-evolving transaction patterns have significantly hindered anomaly detection on emerging cryptocurrency blockchains due to the vast num…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d5be3296ff5e" data-article-url="https://arxiv.org/abs/2605.29532" data-article-title="GUITestScape: Towards Open-set Evaluation on Exploratory GUI Testing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29532" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29532" target="_blank" rel="noopener">GUITestScape: Towards Open-set Evaluation on Exploratory GUI Testing</a></h3>
      <p class="summary">Exploratory GUI testing is a particularly demanding setting for MLLM agents: without predefined test scripts, an agent must autonomously na…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="04abca85ee25" data-article-url="https://arxiv.org/abs/2605.29539" data-article-title="GiPL: Generative augmented iterative Pseudo-Labeling for Cross-Domain Few-Shot Object Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29539" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29539" target="_blank" rel="noopener">GiPL: Generative augmented iterative Pseudo-Labeling for Cross-Domain Few-Shot Object Detection</a></h3>
      <p class="summary">Vision-language foundation models have shown promising zero-shot generalization for Cross-Domain Few-Shot Object Detection (CD-FSOD). Howev…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a74e566a8835" data-article-url="https://arxiv.org/abs/2605.29543" data-article-title="SCOPE: A Lightweight-training LLM Framework for Air Traffic Control Readback Monitoring" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29543" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29543" target="_blank" rel="noopener">SCOPE: A Lightweight-training LLM Framework for Air Traffic Control Readback Monitoring</a></h3>
      <p class="summary">Pilot readback of Air Traffic Control (ATC) voice instructions is a primary safeguard against miscommunication in air transportation. Howev…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d035a1062ac7" data-article-url="https://arxiv.org/abs/2605.29547" data-article-title="Singularity-aware Optimization via Randomized Geometric Probing: Towards Stable Non-smooth Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29547" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29547" target="_blank" rel="noopener">Singularity-aware Optimization via Randomized Geometric Probing: Towards Stable Non-smooth Optimization</a></h3>
      <p class="summary">Deep learning optimization relies heavily on the assumption of smooth loss landscapes, a condition systematically violated by modern archit…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="482f6fc73fe9" data-article-url="https://arxiv.org/abs/2605.29562" data-article-title="VLA-Pro: Cross-Task Procedural Memory Transfer for Vision-Language-Action Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29562" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29562" target="_blank" rel="noopener">VLA-Pro: Cross-Task Procedural Memory Transfer for Vision-Language-Action Models</a></h3>
      <p class="summary">Vision-Language-Action~(VLA) models have shown strong potential for general-purpose robotic manipulation, yet they still struggle to genera…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="89aee7d88af6" data-article-url="https://arxiv.org/abs/2605.29588" data-article-title="Brain-IT-VQA: From Brain Signals to Answers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29588" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29588" target="_blank" rel="noopener">Brain-IT-VQA: From Brain Signals to Answers</a></h3>
      <p class="summary">Decoding visual content from fMRI signals recorded while a person views images, and specifically answering questions about the seen images,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="51914b13bc0a" data-article-url="https://arxiv.org/abs/2605.29601" data-article-title="Training Deliberative Monitors for Black-Box Scheming Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29601" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29601" target="_blank" rel="noopener">Training Deliberative Monitors for Black-Box Scheming Detection</a></h3>
      <p class="summary">As autonomous agents become more capable of performing real-world tasks, distinguishing scheming behavior from benign task pursuit may beco…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4b813b353de3" data-article-url="https://arxiv.org/abs/2605.29610" data-article-title="Learning Context-Conditioned Predicate Semantics via Prototype Feedback" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29610" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29610" target="_blank" rel="noopener">Learning Context-Conditioned Predicate Semantics via Prototype Feedback</a></h3>
      <p class="summary">In scene graph generation, a central challenge is modeling polysemous predicates whose meanings shift across contexts. Prior approaches add…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="52e70fef8f8f" data-article-url="https://arxiv.org/abs/2605.29626" data-article-title="DLM-SWAI: Steering Diffusion Language Models Before They Unmask" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29626" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29626" target="_blank" rel="noopener">DLM-SWAI: Steering Diffusion Language Models Before They Unmask</a></h3>
      <p class="summary">Steering language model generation toward desired textual properties is essential for practical deployment, and inference-time methods are…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7e0a63983bd4" data-article-url="https://arxiv.org/abs/2605.29628" data-article-title="COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29628" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29628" target="_blank" rel="noopener">COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings</a></h3>
      <p class="summary">Contrastive Language-Audio Pretraining (CLAP) models are widely used for audio understanding and support modality-agnostic condition swappi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3790255bd5ee" data-article-url="https://arxiv.org/abs/2605.29630" data-article-title="Entity-Collision: A Stratified Protocol for Attributing Retrieval Lift in Agent Memory" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29630" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29630" target="_blank" rel="noopener">Entity-Collision: A Stratified Protocol for Attributing Retrieval Lift in Agent Memory</a></h3>
      <p class="summary">End-to-end agent-memory benchmarks report a single hit@k per retriever, confounding lexical leakage (uncontrolled query/gold/distractor ent…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ebda0997373" data-article-url="https://arxiv.org/abs/2605.29631" data-article-title="Predicting Causal Effects from Natural Language Queries using Structured Representations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29631" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29631" target="_blank" rel="noopener">Predicting Causal Effects from Natural Language Queries using Structured Representations</a></h3>
      <p class="summary">Randomized controlled trials are a cornerstone of medicine and the social sciences as they enable reliable estimates of causal effects. How…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="66cf62fb18c2" data-article-url="https://arxiv.org/abs/2605.29645" data-article-title="The Sample Complexity of Multiclass and Sparse Contextual Bandits" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29645" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29645" target="_blank" rel="noopener">The Sample Complexity of Multiclass and Sparse Contextual Bandits</a></h3>
      <p class="summary">We study contextual bandits in the stochastic i.i.d.\ setting, where a learner observes contexts drawn from an unknown distribution, select…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="494cd7c3b246" data-article-url="https://arxiv.org/abs/2605.29657" data-article-title="OccamToken: Efficient VLM Inference with Training-Free and Budget-Adaptive Token Pruning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29657" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29657" target="_blank" rel="noopener">OccamToken: Efficient VLM Inference with Training-Free and Budget-Adaptive Token Pruning</a></h3>
      <p class="summary">Vision-language models (VLMs) rely on long visual token sequences for visual understanding, making the prefill stage expensive in both comp…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4ff6d80353b9" data-article-url="https://arxiv.org/abs/2605.29659" data-article-title="Opir: Efficient Multi-Task Safety Classification for Toxicity, Jailbreaks, Hate Speech, and Harmful Content" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29659" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29659" target="_blank" rel="noopener">Opir: Efficient Multi-Task Safety Classification for Toxicity, Jailbreaks, Hate Speech, and Harmful Content</a></h3>
      <p class="summary">Real-time safety filtering for large language model (LLM) applications requires classifiers that can detect unsafe prompts, toxic language,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ed7e19b976e" data-article-url="https://arxiv.org/abs/2605.29670" data-article-title="EviLink: Multi-Path Schema Linking with Uncertainty-Guided Evidence Acquisition for Large-Scale Text-to-SQL" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29670" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29670" target="_blank" rel="noopener">EviLink: Multi-Path Schema Linking with Uncertainty-Guided Evidence Acquisition for Large-Scale Text-to-SQL</a></h3>
      <p class="summary">Schema linking is a difficult and important step in large-scale Text-to-SQL, where systems must identify a compact yet sufficient schema co…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f7c9b5b36da3" data-article-url="https://arxiv.org/abs/2605.29675" data-article-title="From Prompts to Context: An Ontology-Driven Framework for Human-Generative AI Collaboration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29675" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29675" target="_blank" rel="noopener">From Prompts to Context: An Ontology-Driven Framework for Human-Generative AI Collaboration</a></h3>
      <p class="summary">Collaborations with Generative AI often begin with a short prompt and end with an opaque output, leaving implicit who was involved, what ta…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="63055ab099f8" data-article-url="https://arxiv.org/abs/2605.29711" data-article-title="Personalized Turn-Level User Conversation Satisfaction Benchmark" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29711" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29711" target="_blank" rel="noopener">Personalized Turn-Level User Conversation Satisfaction Benchmark</a></h3>
      <p class="summary">User satisfaction with AI assistants is highly personalized: the same response may satisfy one user but disappoint another depending on wha…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5c8dd1b06ed6" data-article-url="https://arxiv.org/abs/2605.29712" data-article-title="Teaching Language Models to Check Grounded Claim Factuality with Human Test-Taking Strategies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29712" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29712" target="_blank" rel="noopener">Teaching Language Models to Check Grounded Claim Factuality with Human Test-Taking Strategies</a></h3>
      <p class="summary">Grounded claim factuality checking is important for large language model (LLM) applications such as retrieval-augmented generation, as it h…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="edbf4ed1a954" data-article-url="https://arxiv.org/abs/2605.29713" data-article-title="The Little Book of Generative AI Foundations: An Intuitive Mathematical Primer" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29713" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29713" target="_blank" rel="noopener">The Little Book of Generative AI Foundations: An Intuitive Mathematical Primer</a></h3>
      <p class="summary">This book provides a compact, derivation-oriented introduction to the mathematical foundations of modern generative artificial intelligence…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6134c3ae7e98" data-article-url="https://arxiv.org/abs/2605.29738" data-article-title="Multi-Legal-Bench: Evaluating LLMs on Legal Reasoning Across Jurisdictions, Languages, and Legal Traditions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29738" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29738" target="_blank" rel="noopener">Multi-Legal-Bench: Evaluating LLMs on Legal Reasoning Across Jurisdictions, Languages, and Legal Traditions</a></h3>
      <p class="summary">Legal NLP benchmarks overwhelmingly evaluate a single language or aggregate tasks that differ fundamentally across jurisdictions, making cr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2b874c8c2df8" data-article-url="https://arxiv.org/abs/2605.29753" data-article-title="A unified deeplearning framework for contrast-phase-specific virtual monochromatic imaging" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29753" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29753" target="_blank" rel="noopener">A unified deeplearning framework for contrast-phase-specific virtual monochromatic imaging</a></h3>
      <p class="summary">Dual-energy CT (DECT) enables virtual monochromatic imaging (VMI) and improved contrast resolution, but its clinical adoption is limited by…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="074233977c5d" data-article-url="https://arxiv.org/abs/2605.29773" data-article-title="Energy-Aware NECO for Single-Pass Pixel-wise Out-of-Distribution Detection in Semantic Segmentation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29773" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29773" target="_blank" rel="noopener">Energy-Aware NECO for Single-Pass Pixel-wise Out-of-Distribution Detection in Semantic Segmentation</a></h3>
      <p class="summary">Reliable semantic segmentation for mobile robots requires both accurate dense prediction and robust uncertainty estimation under distributi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="65bd6905eda0" data-article-url="https://arxiv.org/abs/2605.29782" data-article-title="Hista and Numca: Estimate State Value Effectively for LLM Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29782" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29782" target="_blank" rel="noopener">Hista and Numca: Estimate State Value Effectively for LLM Reinforcement Learning</a></h3>
      <p class="summary">Reinforcement learning (RL) refines large language models (LLMs) by directly optimizing model behavior through reward signals. While accura…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="27c78e594633" data-article-url="https://arxiv.org/abs/2605.29790" data-article-title="Evolve as a Team: Collaborative Self-Evolution for LLM-based Multi-Agent Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29790" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29790" target="_blank" rel="noopener">Evolve as a Team: Collaborative Self-Evolution for LLM-based Multi-Agent Systems</a></h3>
      <p class="summary">LLM-based multi-agent systems (MAS) have emerged as an effective paradigm for complex and long-horizon tasks. However, in real-world tasks,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="88ac81029b98" data-article-url="https://arxiv.org/abs/2605.29807" data-article-title="Data filtering methods for training language models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29807" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29807" target="_blank" rel="noopener">Data filtering methods for training language models</a></h3>
      <p class="summary">Data quality is a critical factor in the effectiveness of machine learning models. Label errors, present even in widely used benchmarks, in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8d213d993abb" data-article-url="https://arxiv.org/abs/2605.29822" data-article-title="Inferring Code Correctness from Specification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29822" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29822" target="_blank" rel="noopener">Inferring Code Correctness from Specification</a></h3>
      <p class="summary">Large language models (LLMs) have become integral to modern software development, enabling automated code generation at scale. However, val…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="079871c46539" data-article-url="https://arxiv.org/abs/2605.29826" data-article-title="Towards Localized and Disentangled Knowledge Editing for Multimodal Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29826" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29826" target="_blank" rel="noopener">Towards Localized and Disentangled Knowledge Editing for Multimodal Large Language Models</a></h3>
      <p class="summary">Existing methods in Multimodal Knowledge Editing (MKE) have advanced the ability to correct outdated or inaccurate knowledge in Multimodal…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d05df9bbd6c4" data-article-url="https://arxiv.org/abs/2605.29836" data-article-title="CB-SLICE: Concept-Based Interpretable Error Slice Discovery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29836" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29836" target="_blank" rel="noopener">CB-SLICE: Concept-Based Interpretable Error Slice Discovery</a></h3>
      <p class="summary">Despite strong average-case performance, deep learning models often exhibit systematic errors on specific population groups, known as error…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6226028cf18c" data-article-url="https://arxiv.org/abs/2605.29843" data-article-title="HARP: Hadamard-Preconditioned Adaptive Rotation Processor for Extreme LLM Quantization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29843" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29843" target="_blank" rel="noopener">HARP: Hadamard-Preconditioned Adaptive Rotation Processor for Extreme LLM Quantization</a></h3>
      <p class="summary">Post-training quantization (PTQ) is essential for deploying LLMs under memory and bandwidth constraints. However, extreme low-bit quantizat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b71a25bed2be" data-article-url="https://arxiv.org/abs/2605.29860" data-article-title="ESPO: Early-Stopping Proximal Policy Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29860" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29860" target="_blank" rel="noopener">ESPO: Early-Stopping Proximal Policy Optimization</a></h3>
      <p class="summary">When a large language model under reinforcement learning commits a wrong reasoning step early in a trajectory, standard algorithms force it…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="85e0023df501" data-article-url="https://arxiv.org/abs/2605.29861" data-article-title="Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29861" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29861" target="_blank" rel="noopener">Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation</a></h3>
      <p class="summary">Large Language Models (LLMs) have advanced autonomous agents from deep search, which retrieves concise factual answers, to deep research, w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f1eff9306e35" data-article-url="https://arxiv.org/abs/2605.29862" data-article-title="Mitigating Stethoscope-Induced Shortcuts in Respiratory Sound Classification under Federated Domain Generalization with Causality-Inspired Interventions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29862" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29862" target="_blank" rel="noopener">Mitigating Stethoscope-Induced Shortcuts in Respiratory Sound Classification under Federated Domain Generalization with Causality-Inspired Interventions</a></h3>
      <p class="summary">AI-driven respiratory sound classification (RSC) is promising for automated pulmonary disease detection, yet multi-site deployment is hinde…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="505c2b4743db" data-article-url="https://arxiv.org/abs/2605.29874" data-article-title="Evolutionary Dynamics of Cooperation in Next-Generation LLM Agent Systems: A Cross-Provider Empirical Extension" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29874" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29874" target="_blank" rel="noopener">Evolutionary Dynamics of Cooperation in Next-Generation LLM Agent Systems: A Cross-Provider Empirical Extension</a></h3>
      <p class="summary">Do next-generation LLM agents inherit the cooperative biases documented in their predecessors, or does scale and provider diversity reshape…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="95bcd7db2490" data-article-url="https://arxiv.org/abs/2605.29881" data-article-title="Mitigating Hallucination in Vision-Language Models through Barrier-Regulated Adaptive Closed-form Steering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29881" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29881" target="_blank" rel="noopener">Mitigating Hallucination in Vision-Language Models through Barrier-Regulated Adaptive Closed-form Steering</a></h3>
      <p class="summary">Large vision-language models (LVLMs) often hallucinate objects that are not present in the input image, largely because visual grounding we…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="83ef4f0734d9" data-article-url="https://arxiv.org/abs/2605.29886" data-article-title="CRITIC-R1: Learning Structured Critics for Retrieval-Augmented Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29886" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29886" target="_blank" rel="noopener">CRITIC-R1: Learning Structured Critics for Retrieval-Augmented Generation</a></h3>
      <p class="summary">Retrieval-augmented generation (RAG) improves knowledge-intensive question answering by incorporating external evidence. However, existing…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4a9403756b1" data-article-url="https://arxiv.org/abs/2605.29888" data-article-title="LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29888" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29888" target="_blank" rel="noopener">LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training</a></h3>
      <p class="summary">Reinforcement learning (RL) post-training has shown to improve reasoning in large language models (LLMs). However, there has been little ex…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fbed9f1f01c9" data-article-url="https://arxiv.org/abs/2605.29889" data-article-title="Internal Representation, Not Clinical Knowledge: Where Apparent LLM Triage Failures Originate" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29889" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29889" target="_blank" rel="noopener">Internal Representation, Not Clinical Knowledge: Where Apparent LLM Triage Failures Originate</a></h3>
      <p class="summary">Patient-voiced clinical-triage benchmarks report high under-triage rates for consumer LLMs for constrained multiple-choice output, yet the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f9dbf64d24f3" data-article-url="https://arxiv.org/abs/2605.29910" data-article-title="Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29910" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29910" target="_blank" rel="noopener">Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents</a></h3>
      <p class="summary">Consensus protocols form the backbone of distributed systems and blockchains, where implementation bugs can cause data corruption and finan…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="37518f8ac1ad" data-article-url="https://arxiv.org/abs/2605.29916" data-article-title="Selection Hyper-heuristics Can Automatically Adjust the Learning Period to Optimally Solve Pseudo-Boolean Problems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29916" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29916" target="_blank" rel="noopener">Selection Hyper-heuristics Can Automatically Adjust the Learning Period to Optimally Solve Pseudo-Boolean Problems</a></h3>
      <p class="summary">The Random Gradient hyper-heuristic was recently shown to be able to learn the optimal neighbourhood size when optimizing the LeadingOnes b…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c68f6feedc2d" data-article-url="https://arxiv.org/abs/2605.29927" data-article-title="Does The Way You Plan Matter? An Empirical Study of Planning Representations for LLM Web Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><a class="entity-tag" href="/entity/alibaba/" data-entity="alibaba">Alibaba</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29927" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29927" target="_blank" rel="noopener">Does The Way You Plan Matter? An Empirical Study of Planning Representations for LLM Web Agents</a></h3>
      <p class="summary">Despite recent advances, LLM-based web agents still struggle with limited exploration, omission of critical steps, and sensitivity to task…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="73de66392a53" data-article-url="https://arxiv.org/abs/2605.29928" data-article-title="Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29928" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29928" target="_blank" rel="noopener">Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs</a></h3>
      <p class="summary">As AI-generated and AI-assisted content floods online spaces, source labels attached to such content can distort human reasoning judgments,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7dcfc82f2e07" data-article-url="https://arxiv.org/abs/2605.29935" data-article-title="CityGen: Structure-Guided City-Style Synthesis for Cross-City Autonomous Driving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29935" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29935" target="_blank" rel="noopener">CityGen: Structure-Guided City-Style Synthesis for Cross-City Autonomous Driving</a></h3>
      <p class="summary">Autonomous driving systems are commonly trained and evaluated within limited geographic regions, which hinders their scalability when deplo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d9e8354cc858" data-article-url="https://arxiv.org/abs/2605.29948" data-article-title="HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29948" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29948" target="_blank" rel="noopener">HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding</a></h3>
      <p class="summary">Unified speech foundation models require a holistic tokenization space that is both learnable by language models and decodable into high-qu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9b1b99b03b9a" data-article-url="https://arxiv.org/abs/2605.29960" data-article-title="Hijacking Agent Memory: Stealthy Trojan Attacks Through Conversational Interaction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29960" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29960" target="_blank" rel="noopener">Hijacking Agent Memory: Stealthy Trojan Attacks Through Conversational Interaction</a></h3>
      <p class="summary">Large language model (LLM) agents increasingly leverage long term memory to support persistent and autonomous task execution. However, this…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a1138aaf3c64" data-article-url="https://arxiv.org/abs/2605.29963" data-article-title="Honeyval: A Comprehensive Evaluation Framework for LLM-powered HTTP Honeypots" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29963" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29963" target="_blank" rel="noopener">Honeyval: A Comprehensive Evaluation Framework for LLM-powered HTTP Honeypots</a></h3>
      <p class="summary">Honeypots are decoy systems mimicking real system components designed to defend against cyber attacks. Recently, LLMs increasingly serve as…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6247db87d099" data-article-url="https://arxiv.org/abs/2605.29976" data-article-title="Evaluating Skill and Stability of ArchesWeather and ArchesWeatherGen under Multi-Decadal Climate Simulations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29976" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29976" target="_blank" rel="noopener">Evaluating Skill and Stability of ArchesWeather and ArchesWeatherGen under Multi-Decadal Climate Simulations</a></h3>
      <p class="summary">We evaluate the climate simulation capabilities of ArchesWeather and ArchesWeatherGen, two machine learning models originally trained for w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5ce68a741ad8" data-article-url="https://arxiv.org/abs/2605.29980" data-article-title="Genetically Aligned Patient Representations Improve Hematological Diagnosis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.29980" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.29980" target="_blank" rel="noopener">Genetically Aligned Patient Representations Improve Hematological Diagnosis</a></h3>
      <p class="summary">Multimodal alignment of histopathology encoders with transcriptomic and genomic data has been shown to significantly improve performance in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9d81fc416874" data-article-url="https://arxiv.org/abs/2605.30003" data-article-title="Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30003" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30003" target="_blank" rel="noopener">Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas</a></h3>
      <p class="summary">We study two-level autoresearch for cooperation: an outer-loop AI agent autonomously redesigns the inner-loop pipeline of an LLM policy-syn…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c5b9369d974a" data-article-url="https://arxiv.org/abs/2605.30011" data-article-title="VisualThink-VLA: Visual Intermediate Reasoning for Effective and Low-Latency Vision-Language-Action Policies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30011" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30011" target="_blank" rel="noopener">VisualThink-VLA: Visual Intermediate Reasoning for Effective and Low-Latency Vision-Language-Action Policies</a></h3>
      <p class="summary">Recent work has begun to equip vision-language-action (VLA) policies with explicit intermediate reasoning. In embodied control, however, te…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5f880db0ed78" data-article-url="https://arxiv.org/abs/2605.30015" data-article-title="Test Time Training for Supervised Causal Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30015" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30015" target="_blank" rel="noopener">Test Time Training for Supervised Causal Learning</a></h3>
      <p class="summary">Supervised Causal Learning (SCL) has shown promise in causal discovery by framing it as a supervised learning problem. However, it suffers…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2955e6817aea" data-article-url="https://arxiv.org/abs/2605.30022" data-article-title="Give it Space! Explicit Disentangling of Positional and Semantic Representations in Encoders" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30022" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30022" target="_blank" rel="noopener">Give it Space! Explicit Disentangling of Positional and Semantic Representations in Encoders</a></h3>
      <p class="summary">Positional encoding (PE) underpins how permutation-invariant Transformers represent sequence order, yet how positional information is proce…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="823d82818b13" data-article-url="https://arxiv.org/abs/2605.30031" data-article-title="Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30031" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30031" target="_blank" rel="noopener">Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation</a></h3>
      <p class="summary">Large Audio Language Models (LALMs) expand jailbreak risks from token-level prompting to the full speech perception-to-reasoning pipeline,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6584b9f88da9" data-article-url="https://arxiv.org/abs/2605.30038" data-article-title="Alignment-Guided Score Matching for Text-to-Image Alignment in Diffusion Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30038" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30038" target="_blank" rel="noopener">Alignment-Guided Score Matching for Text-to-Image Alignment in Diffusion Models</a></h3>
      <p class="summary">Diffusion models generate highly realistic images but often struggle with precise text-image alignment. While recent post-training methods…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="30b0325cf32b" data-article-url="https://arxiv.org/abs/2605.30040" data-article-title="Token Inflation: How Dishonest Providers Can Overcharge for Large Language Model Usage" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30040" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30040" target="_blank" rel="noopener">Token Inflation: How Dishonest Providers Can Overcharge for Large Language Model Usage</a></h3>
      <p class="summary">Per-token billing is now the standard pricing model for commercial large language models (LLMs), so the honesty of reported token counts di…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3ab4e1be608e" data-article-url="https://arxiv.org/abs/2605.30046" data-article-title="Masked Diffusion Modeling for Anomaly Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30046" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30046" target="_blank" rel="noopener">Masked Diffusion Modeling for Anomaly Detection</a></h3>
      <p class="summary">Anomaly detection aims to identify samples that deviate from the nominal data distribution and is central to many safety-critical applicati…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d132a06e0587" data-article-url="https://arxiv.org/abs/2605.30052" data-article-title="REPOT: Recoverable Program-of-Thought via Checkpoint Repair" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30052" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30052" target="_blank" rel="noopener">REPOT: Recoverable Program-of-Thought via Checkpoint Repair</a></h3>
      <p class="summary">One-shot Program-of-Thought (PoT) emits a Python program that prints a primitive-action plan; a single invalid action silently invalidates…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="474aeccf02d8" data-article-url="https://arxiv.org/abs/2605.30054" data-article-title="Projectional Decoding: Towards Semantic-Aware LLM Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30054" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30054" target="_blank" rel="noopener">Projectional Decoding: Towards Semantic-Aware LLM Generation</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly used to generate software artifacts across many software engineering (SE) tasks, yet ensuring…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f1a64f915b4" data-article-url="https://arxiv.org/abs/2605.30070" data-article-title="A Predictive Law for On-Policy Self-Distillation From World Feedback" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30070" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30070" target="_blank" rel="noopener">A Predictive Law for On-Policy Self-Distillation From World Feedback</a></h3>
      <p class="summary">Moving beyond simple scalar rewards toward richer world feedback is a natural path to more scalable RL post-training. On-policy self-distil…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8be4c5b1fd58" data-article-url="https://arxiv.org/abs/2605.30096" data-article-title="How Reliable Are AI Attackers Against a Fixed Vulnerable Target? A 400-Run Empirical Study of LLM Penetration Testing Consistency" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30096" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30096" target="_blank" rel="noopener">How Reliable Are AI Attackers Against a Fixed Vulnerable Target? A 400-Run Empirical Study of LLM Penetration Testing Consistency</a></h3>
      <p class="summary">Large language models (LLMs) can autonomously conduct multi-stage cyber attacks, but the consistency of their offensive behavior under repe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b12525ce0b86" data-article-url="https://arxiv.org/abs/2605.30102" data-article-title="When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30102" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30102" target="_blank" rel="noopener">When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems</a></h3>
      <p class="summary">The design space of agentic AI inference spans two extremes: frontier large language models (LLMs), typically hosted in the cloud and offer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f752f9b859a" data-article-url="https://arxiv.org/abs/2605.30111" data-article-title="xModel-KD: Cross-modal Knowledge Distillation for 3D Scene Perception using LiDAR" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30111" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30111" target="_blank" rel="noopener">xModel-KD: Cross-modal Knowledge Distillation for 3D Scene Perception using LiDAR</a></h3>
      <p class="summary">Point cloud segmentation is a fundamental task in 3D scene understanding. Its progress is constrained by the high cost and time required fo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cc0630d23405" data-article-url="https://arxiv.org/abs/2605.30119" data-article-title="Evolving Features vs Evolving Entire Trees with GP for Interpretable Survival Analysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30119" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30119" target="_blank" rel="noopener">Evolving Features vs Evolving Entire Trees with GP for Interpretable Survival Analysis</a></h3>
      <p class="summary">Survival analysis concerns the task of predicting the time until an event occurs. Often used in the medical field, survival analysis deals…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2a3f327aa52" data-article-url="https://arxiv.org/abs/2605.30120" data-article-title="No More K-means:Single-Stage Sparse Coding for Efficient Multi-Vector Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30120" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30120" target="_blank" rel="noopener">No More K-means:Single-Stage Sparse Coding for Efficient Multi-Vector Retrieval</a></h3>
      <p class="summary">Multi-vector retrieval (MVR) models, exemplified by ColBERT, have established new benchmarks in retrieval accuracy by preserving fine-grain…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3399da74fb51" data-article-url="https://arxiv.org/abs/2605.30122" data-article-title="Beyond MSE: Improving Precipitation Nowcasting with Multi-Quantile Regression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30122" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30122" target="_blank" rel="noopener">Beyond MSE: Improving Precipitation Nowcasting with Multi-Quantile Regression</a></h3>
      <p class="summary">Deep-learning precipitation nowcasting models are often optimized using pointwise losses such as mean squared error or mean absolute error,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cbdfb7bca252" data-article-url="https://arxiv.org/abs/2605.30126" data-article-title="PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30126" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30126" target="_blank" rel="noopener">PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding</a></h3>
      <p class="summary">Large Vision-Language Models (LVLMs) map visual inputs into dense token sequences, imposing a quadratic computational bottleneck for infere…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fc542f7135c1" data-article-url="https://arxiv.org/abs/2605.30135" data-article-title="DAMEL: Dual-Axis Multi-Expert Learning for Class-Imbalanced Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30135" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30135" target="_blank" rel="noopener">DAMEL: Dual-Axis Multi-Expert Learning for Class-Imbalanced Learning</a></h3>
      <p class="summary">Various algorithms have been proposed to address the challenges posed by class-imbalanced learning from real-world data with long-tailed di…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="45f75aa7e9a7" data-article-url="https://arxiv.org/abs/2605.30148" data-article-title="Overcoming Forgetting in LLM Fine-Tuning with Evolution Strategies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30148" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30148" target="_blank" rel="noopener">Overcoming Forgetting in LLM Fine-Tuning with Evolution Strategies</a></h3>
      <p class="summary">Evolution Strategies (ES) has recently emerged as a competitive alternative to reinforcement learning (RL) for large language model (LLM) f…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ff66d1337a51" data-article-url="https://arxiv.org/abs/2605.30152" data-article-title="Do Proactive Agents Really Need an LLM to Decide When to Wake and What to Anchor?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30152" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30152" target="_blank" rel="noopener">Do Proactive Agents Really Need an LLM to Decide When to Wake and What to Anchor?</a></h3>
      <p class="summary">Proactive agents read user activity as text and call an LLM on every event to decide whether to act. But user activity is not natively text…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3e5bc5f6a319" data-article-url="https://arxiv.org/abs/2605.30155" data-article-title="Neural Network Verification using Partial Multi-Neuron Relaxation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30155" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30155" target="_blank" rel="noopener">Neural Network Verification using Partial Multi-Neuron Relaxation</a></h3>
      <p class="summary">The increasing integration of deep neural networks in critical systems has spawned a theoretical and practical interest in formally guarant…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="723e14813ac7" data-article-url="https://arxiv.org/abs/2605.30160" data-article-title="On Distributional Reinforcement Learning in Chaotic Dynamical Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30160" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30160" target="_blank" rel="noopener">On Distributional Reinforcement Learning in Chaotic Dynamical Systems</a></h3>
      <p class="summary">Chaotic dynamical systems pose a fundamental challenge for Reinforcement Learning (RL): exponential sensitivity to initial conditions induc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5afbd12528ed" data-article-url="https://arxiv.org/abs/2605.30169" data-article-title="Dissociative Identity: Language Model Agents Lack Grounding for Reputation Mechanisms" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30169" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30169" target="_blank" rel="noopener">Dissociative Identity: Language Model Agents Lack Grounding for Reputation Mechanisms</a></h3>
      <p class="summary">As autonomous language model agents proliferate, forming an emerging agentic web with real-world consequences, what credibility signals can…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6a750bcfa626" data-article-url="https://arxiv.org/abs/2605.30179" data-article-title="iLoRA: Bayesian Low-Rank Adaptation with Latent Interaction Graphs for Microbiome Diagnosis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30179" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30179" target="_blank" rel="noopener">iLoRA: Bayesian Low-Rank Adaptation with Latent Interaction Graphs for Microbiome Diagnosis</a></h3>
      <p class="summary">Parameter-efficient adaptation has made LLMs practical for domain prediction, but standard LoRA still relies on a static low-rank update an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d3852cbf98db" data-article-url="https://arxiv.org/abs/2605.30188" data-article-title="CalArena: A Large-Scale Post-Hoc Calibration Benchmark" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30188" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30188" target="_blank" rel="noopener">CalArena: A Large-Scale Post-Hoc Calibration Benchmark</a></h3>
      <p class="summary">Reliable probability estimates are critical in many machine learning applications, yet modern classifiers are often poorly calibrated. Post…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a1f61e38498d" data-article-url="https://arxiv.org/abs/2605.30189" data-article-title="Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30189" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30189" target="_blank" rel="noopener">Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection</a></h3>
      <p class="summary">We show that LoRA adapters, the dominant distribution format for fine-tuned LLMs, can be reliably backdoored through training data poisonin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4b0dce9f53e" data-article-url="https://arxiv.org/abs/2605.30195" data-article-title="What drives performance in molecular MPNNs? An operator-level factorial benchmark" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30195" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30195" target="_blank" rel="noopener">What drives performance in molecular MPNNs? An operator-level factorial benchmark</a></h3>
      <p class="summary">Message-passing neural networks (MPNNs) are widely used for molecular property prediction, but their deployment as monolithic architectures…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1ad3634a0594" data-article-url="https://arxiv.org/abs/2605.30201" data-article-title="HPO: Hysteretic Policy Optimization for Stable and Efficient Training under Sparse-Reward Regime" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30201" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30201" target="_blank" rel="noopener">HPO: Hysteretic Policy Optimization for Stable and Efficient Training under Sparse-Reward Regime</a></h3>
      <p class="summary">We investigate a narrow but common failure mode of GRPO-style reinforcement learning in the context of sparse verifiable rewards: early upd…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="da046dbe3178" data-article-url="https://arxiv.org/abs/2605.30208" data-article-title="Automating Low-Risk Code Review at Meta: RADAR, Risk Calibration, and Review Efficiency" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30208" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30208" target="_blank" rel="noopener">Automating Low-Risk Code Review at Meta: RADAR, Risk Calibration, and Review Efficiency</a></h3>
      <p class="summary">AI-assisted coding tools have altered software production. At Meta, significant lines of code per human-landed diff grew by 105.9% year ove…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4bb00f2b5808" data-article-url="https://arxiv.org/abs/2605.30226" data-article-title="BORA: Bridging Offline Reinforcement Learning and Online Residual Adaptation for Real-World Dexterous VLA Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30226" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30226" target="_blank" rel="noopener">BORA: Bridging Offline Reinforcement Learning and Online Residual Adaptation for Real-World Dexterous VLA Models</a></h3>
      <p class="summary">Vision-Language-Action (VLA) models have emerged as a promising paradigm for grounding visual-language understanding into real-world roboti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e1c33610f10c" data-article-url="https://arxiv.org/abs/2605.30227" data-article-title="Unifying Temporal and Structural Credit Assignment in LLM-Based Multi-Agent Prompt Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30227" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30227" target="_blank" rel="noopener">Unifying Temporal and Structural Credit Assignment in LLM-Based Multi-Agent Prompt Optimization</a></h3>
      <p class="summary">While Multi-Agent Systems (MAS) empower Large Language Models to tackle complex reasoning tasks through collaborative interaction, optimizi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="abbb6278060e" data-article-url="https://arxiv.org/abs/2605.30231" data-article-title="Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30231" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30231" target="_blank" rel="noopener">Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning</a></h3>
      <p class="summary">Vision-Language Models (VLMs) often struggle with robust 3D spatial reasoning. Prevailing methods that rely on fine-tuning with 3D visual q…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8a0b85281a36" data-article-url="https://arxiv.org/abs/2605.30233" data-article-title="Do Language Models Track Entities Across State Changes?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30233" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30233" target="_blank" rel="noopener">Do Language Models Track Entities Across State Changes?</a></h3>
      <p class="summary">Entity tracking (ET), the ability to keep track of states, is a fundamental skill that underlies complex reasoning. An increasing amount of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fa0487967769" data-article-url="https://arxiv.org/abs/2605.30244" data-article-title="Reinforcement Learning with Robust Rubric Rewards" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30244" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30244" target="_blank" rel="noopener">Reinforcement Learning with Robust Rubric Rewards</a></h3>
      <p class="summary">While Reinforcement Learning with Verifiable Rewards (RLVR) is effective for deterministically checkable tasks, many vision-language tasks…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="304f24efc188" data-article-url="https://arxiv.org/abs/2605.30251" data-article-title="Same Evidence, Different Answers: Canonical-Context On-Policy Distillation for Multi-Turn Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30251" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30251" target="_blank" rel="noopener">Same Evidence, Different Answers: Canonical-Context On-Policy Distillation for Multi-Turn Language Models</a></h3>
      <p class="summary">Large language models (LLMs) often solve a task when all instructions are given in a single prompt, but fail when the same information is r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b63aa3c50e69" data-article-url="https://arxiv.org/abs/2605.30260" data-article-title="How LoRA Remembers? A Parametric Memory Law for LLM Finetuning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30260" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30260" target="_blank" rel="noopener">How LoRA Remembers? A Parametric Memory Law for LLM Finetuning</a></h3>
      <p class="summary">Large Language Models (LLMs) must continuously learn and update knowledge to remain effective in dynamic real-world environments. While Low…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f328ddd202e" data-article-url="https://arxiv.org/abs/2605.30268" data-article-title="PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30268" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30268" target="_blank" rel="noopener">PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions</a></h3>
      <p class="summary">We address the task of generating physically accurate and visually faithful 4D Human-Object Interaction (HOI). Given a static 3D human and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2d37f49666ce" data-article-url="https://arxiv.org/abs/2605.30273" data-article-title="LLUMI: Improving LLM Writing Assistance for Mental Health Support with Online Community Feedback" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30273" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30273" target="_blank" rel="noopener">LLUMI: Improving LLM Writing Assistance for Mental Health Support with Online Community Feedback</a></h3>
      <p class="summary">Large language models (LLMs) show promise in generating supportive responses for mental health queries, but improving their usefulness, emp…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0056771d13ea" data-article-url="https://arxiv.org/abs/2605.30274" data-article-title="Loong: A Human-Like Long Document Translation Agent with Observe-and-Act Adaptive Context Selection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30274" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30274" target="_blank" rel="noopener">Loong: A Human-Like Long Document Translation Agent with Observe-and-Act Adaptive Context Selection</a></h3>
      <p class="summary">Document-level translation remains one of the most challenging tasks for large language models, which are constrained by limited context wi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="056b8b20ca49" data-article-url="https://arxiv.org/abs/2605.30280" data-article-title="Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30280" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30280" target="_blank" rel="noopener">Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments</a></h3>
      <p class="summary">Embodied intelligence is often studied through specialized models for individual tasks such as manipulation or navigation, resulting in fra…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="82887e1da39d" data-article-url="https://arxiv.org/abs/2605.30290" data-article-title="Self-Trained Verification for Training- and Test-Time Self-Improvement" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30290" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30290" target="_blank" rel="noopener">Self-Trained Verification for Training- and Test-Time Self-Improvement</a></h3>
      <p class="summary">Self-improvement at scale has been a longstanding goal for reasoning models, and there are two natural places to do it: at test time, throu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7824bbbbee22" data-article-url="https://arxiv.org/abs/2605.30295" data-article-title="MedCase-Structured: A Text-to-FHIR Dataset for Benchmarking Diagnostic Reasoning in Clinically Realistic EHR Settings" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30295" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30295" target="_blank" rel="noopener">MedCase-Structured: A Text-to-FHIR Dataset for Benchmarking Diagnostic Reasoning in Clinically Realistic EHR Settings</a></h3>
      <p class="summary">Large language models (LLMs) show promise for clinical reasoning and decision support, but evaluation in realistic, electronic health recor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ecacd2fa0494" data-article-url="https://arxiv.org/abs/2605.30310" data-article-title="City-Mesh3R: Simulation-Ready City-Scale 3D Mesh Reconstruction from Multi-View Images" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30310" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30310" target="_blank" rel="noopener">City-Mesh3R: Simulation-Ready City-Scale 3D Mesh Reconstruction from Multi-View Images</a></h3>
      <p class="summary">City-scale 3D surface reconstruction from multiview images for downstream 3D simulation, poses highly challenging problems due to the scale…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="48e48944c984" data-article-url="https://arxiv.org/abs/2605.30311" data-article-title="Archon: A Unified Multimodal Model for Holistic Digital Human Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30311" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30311" target="_blank" rel="noopener">Archon: A Unified Multimodal Model for Holistic Digital Human Generation</a></h3>
      <p class="summary">Digital humans are fundamental to immersive interaction, yet creating a unified model for holistic modalities, including text, audio, motio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c1fe8925d1cd" data-article-url="https://arxiv.org/abs/2605.30318" data-article-title="Before the Shutter: Aesthetic and Actionable Portrait Photography Planning in 3D Scenes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30318" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30318" target="_blank" rel="noopener">Before the Shutter: Aesthetic and Actionable Portrait Photography Planning in 3D Scenes</a></h3>
      <p class="summary">Portrait photography is largely decided before the shutter opens: the subject&#x27;s pose, the camera configuration, and the lighting devices mu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="32d975877e76" data-article-url="https://arxiv.org/abs/2605.30319" data-article-title="Improved Guarantees for Heterogeneous Treatment-Effect Estimation via Matrix Completion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30319" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30319" target="_blank" rel="noopener">Improved Guarantees for Heterogeneous Treatment-Effect Estimation via Matrix Completion</a></h3>
      <p class="summary">A central goal of modern causal inference is estimating heterogeneous treatment effects to answer questions like &quot;how does an intervention…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec10907e4e65" data-article-url="https://arxiv.org/abs/2605.30322" data-article-title="Gram: Assessing sabotage propensities via automated alignment auditing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30322" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30322" target="_blank" rel="noopener">Gram: Assessing sabotage propensities via automated alignment auditing</a></h3>
      <p class="summary">We introduce Gram, an automated alignment auditing framework to assess the propensity of AI agents to engage in sabotage. We evaluate Gemin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ef69befd70b6" data-article-url="https://arxiv.org/abs/2605.30323" data-article-title="In-Context Reward Adaptation for Robust Preference Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30323" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30323" target="_blank" rel="noopener">In-Context Reward Adaptation for Robust Preference Modeling</a></h3>
      <p class="summary">Reinforcement Learning from Human Feedback (RLHF) typically relies on static reward models to align Large Language Models with human prefer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d306b17c3821" data-article-url="https://arxiv.org/abs/2605.30324" data-article-title="On Language Generation in the Limit with Bounded Memory" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30324" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30324" target="_blank" rel="noopener">On Language Generation in the Limit with Bounded Memory</a></h3>
      <p class="summary">We study language generation in the limit under bounded memory. In this task, a learner observes examples from an unknown target language o…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d88c5749e11f" data-article-url="https://arxiv.org/abs/2605.30326" data-article-title="RoboWits: Unexpected Challenges for Robotic Creative Problem Solving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30326" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30326" target="_blank" rel="noopener">RoboWits: Unexpected Challenges for Robotic Creative Problem Solving</a></h3>
      <p class="summary">The ability to reason, adapt, and creatively solve problems under unexpected challenges is essential for robots operating in real-world env…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4c7bc570673" data-article-url="https://arxiv.org/abs/2605.30327" data-article-title="Reasoning with Sampling: Cutting at Decision Points" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30327" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30327" target="_blank" rel="noopener">Reasoning with Sampling: Cutting at Decision Points</a></h3>
      <p class="summary">Frontier reasoning models are produced by posttraining base language models with reinforcement learning. Recent work has challenged this by…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="388d1f6b4829" data-article-url="https://arxiv.org/abs/2605.30341" data-article-title="GPIC: A Giant Permissive Image Corpus for Visual Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30341" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30341" target="_blank" rel="noopener">GPIC: A Giant Permissive Image Corpus for Visual Generation</a></h3>
      <p class="summary">Studying scalable methods for visual generative modeling requires large, accessible, and stable datasets. We introduce GPIC, a Giant Permis…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ce32c3c449ab" data-article-url="https://arxiv.org/abs/2605.30343" data-article-title="Unlocking the Working Memory of Large Language Models for Latent Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30343" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30343" target="_blank" rel="noopener">Unlocking the Working Memory of Large Language Models for Latent Reasoning</a></h3>
      <p class="summary">To improve the reasoning capabilities of large language models, test-time compute is typically scaled by generating intermediate tokens bef…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4af96e4f416" data-article-url="https://arxiv.org/abs/2605.30348" data-article-title="LLMSurgeon: Diagnosing Data Mixture of Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30348" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30348" target="_blank" rel="noopener">LLMSurgeon: Diagnosing Data Mixture of Large Language Models</a></h3>
      <p class="summary">The pretraining data mixture of Large Language Models (LLMs) constitutes their &quot;digital DNA&quot;, shaping model behaviors, capabilities, and fa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d8f528a6fe5a" data-article-url="https://arxiv.org/abs/2605.30351" data-article-title="VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.30351" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.30351" target="_blank" rel="noopener">VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion</a></h3>
      <p class="summary">Long-rollout causal video diffusion has converged on a fixed-size sliding-window KV cache, with recent progress innovating within this layo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="32e6bdcf577a" data-article-url="https://arxiv.org/abs/2506.06254" data-article-title="PersonaAgent: Bridging Memory and Action for Personalized LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.06254" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.06254" target="_blank" rel="noopener">PersonaAgent: Bridging Memory and Action for Personalized LLM Agents</a></h3>
      <p class="summary">Large Language Model (LLM) empowered agents have recently emerged as advanced paradigms that exhibit impressive capabilities in a wide rang…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e5a4d1d72536" data-article-url="https://arxiv.org/abs/2508.15180" data-article-title="PuzzleClone: A DSL-Powered Framework for Synthesizing Verifiable Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.15180" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.15180" target="_blank" rel="noopener">PuzzleClone: A DSL-Powered Framework for Synthesizing Verifiable Data</a></h3>
      <p class="summary">High-quality mathematical and logical datasets with verifiable answers are essential for strengthening the reasoning capabilities of large…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7757667f9135" data-article-url="https://arxiv.org/abs/2509.22504" data-article-title="Estimating the Empowerment of Language Model Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.22504" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.22504" target="_blank" rel="noopener">Estimating the Empowerment of Language Model Agents</a></h3>
      <p class="summary">As language model (LM) agents become increasingly capable and adopted in real-world applications, there is a growing need for scalable eval…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3c80ed6798a4" data-article-url="https://arxiv.org/abs/2509.23694" data-article-title="SafeSearch: Automated Red-Teaming of LLM-Based Search Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.23694" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.23694" target="_blank" rel="noopener">SafeSearch: Automated Red-Teaming of LLM-Based Search Agents</a></h3>
      <p class="summary">Search agents connect LLMs to the Internet, enabling them to access broader and more up-to-date information. However, this also introduces…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a4b442320068" data-article-url="https://arxiv.org/abs/2509.23730" data-article-title="EAPO: Enhancing Policy Optimization with On-Demand Expert Assistance" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.23730" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.23730" target="_blank" rel="noopener">EAPO: Enhancing Policy Optimization with On-Demand Expert Assistance</a></h3>
      <p class="summary">Large language models (LLMs) have recently advanced in reasoning when optimized with reinforcement learning (RL) under verifiable rewards.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c4ca24af0353" data-article-url="https://arxiv.org/abs/2510.02480" data-article-title="Controlling the Risk of Corrupted Contexts for Language Models via Early-Exiting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.02480" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.02480" target="_blank" rel="noopener">Controlling the Risk of Corrupted Contexts for Language Models via Early-Exiting</a></h3>
      <p class="summary">Large language models (LLMs) can be influenced by harmful or irrelevant context, which can significantly harm model performance on downstre…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="12be5e642879" data-article-url="https://arxiv.org/abs/2510.06063" data-article-title="TelecomTS: A Multi-Modal Observability Dataset for Time Series and Language Analysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.06063" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.06063" target="_blank" rel="noopener">TelecomTS: A Multi-Modal Observability Dataset for Time Series and Language Analysis</a></h3>
      <p class="summary">Modern enterprises generate vast streams of time series metrics when monitoring complex systems, known as observability data. Unlike conven…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8524fe6db2e6" data-article-url="https://arxiv.org/abs/2510.14150" data-article-title="CodeEvolve: an open source evolutionary coding agent for algorithmic discovery and optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.14150" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.14150" target="_blank" rel="noopener">CodeEvolve: an open source evolutionary coding agent for algorithmic discovery and optimization</a></h3>
      <p class="summary">We introduce CodeEvolve, an open-source framework that couples large language models with island-based evolutionary search for end-to-end a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c8f0ff842024" data-article-url="https://arxiv.org/abs/2510.16658" data-article-title="Large-Scale AI and Foundation Models for Neuroscience: A Comprehensive Review" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.16658" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.16658" target="_blank" rel="noopener">Large-Scale AI and Foundation Models for Neuroscience: A Comprehensive Review</a></h3>
      <p class="summary">The development of large-scale artificial intelligence (AI) models is influencing neuroscience research by enabling end-to-end learning fro…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0deba5cf0745" data-article-url="https://arxiv.org/abs/2510.22437" data-article-title="Modeling Hierarchical Thinking in Large Reasoning Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.22437" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.22437" target="_blank" rel="noopener">Modeling Hierarchical Thinking in Large Reasoning Models</a></h3>
      <p class="summary">Large Reasoning Models (LRMs) solve complex tasks by generating long Chain-of-Thought (CoT) sequences; however, the emergent dynamics gover…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7cc8d8a36abf" data-article-url="https://arxiv.org/abs/2510.26270" data-article-title="Graph-Enhanced Policy Optimization in LLM Agent Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.26270" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.26270" target="_blank" rel="noopener">Graph-Enhanced Policy Optimization in LLM Agent Training</a></h3>
      <p class="summary">Multi-step LLM agents in interactive environments represent a crucial step toward long-horizon decision-making. To train such agents, group…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d8b073e6629e" data-article-url="https://arxiv.org/abs/2511.08548" data-article-title="A Matter of Interest: Understanding Interestingness of Math Problems in Humans and Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.08548" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.08548" target="_blank" rel="noopener">A Matter of Interest: Understanding Interestingness of Math Problems in Humans and Language Models</a></h3>
      <p class="summary">The evolution of mathematics is shaped importantly by interestingness: researchers choose which problems to pursue, and students choose whi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1573d94e4513" data-article-url="https://arxiv.org/abs/2511.22884" data-article-title="InsightEval: An Expert-Curated Benchmark for Assessing Insight Discovery in LLM-Driven Data Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.22884" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.22884" target="_blank" rel="noopener">InsightEval: An Expert-Curated Benchmark for Assessing Insight Discovery in LLM-Driven Data Agents</a></h3>
      <p class="summary">Data analysis has become an indispensable part of scientific research. To discover the latent knowledge and insights hidden within massive…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0cabb4f3c7d" data-article-url="https://arxiv.org/abs/2512.15374" data-article-title="SCOPE: Prompt Evolution for Enhancing Agent Effectiveness" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.15374" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.15374" target="_blank" rel="noopener">SCOPE: Prompt Evolution for Enhancing Agent Effectiveness</a></h3>
      <p class="summary">Large Language Model (LLM) agents are increasingly deployed in environments that generate massive, dynamic contexts. However, a critical bo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2361ceaa09b0" data-article-url="https://arxiv.org/abs/2601.06431" data-article-title="LsrIF: Enhancing Logic-Structured Instruction Following of Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.06431" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.06431" target="_blank" rel="noopener">LsrIF: Enhancing Logic-Structured Instruction Following of Large Language Models</a></h3>
      <p class="summary">Instruction following is critical for large language models, yet real-world instructions often involve multiple constraints with logical st…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="575e9c1f50e0" data-article-url="https://arxiv.org/abs/2601.11178" data-article-title="TANDEM: Temporal-Aware Neural Detection for Multimodal Hate Speech" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.11178" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.11178" target="_blank" rel="noopener">TANDEM: Temporal-Aware Neural Detection for Multimodal Hate Speech</a></h3>
      <p class="summary">Social media platforms are increasingly dominated by long-form multimodal content, where harmful narratives are constructed through a compl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4483dbf88af9" data-article-url="https://arxiv.org/abs/2601.21909" data-article-title="From Meta-Thought to Execution: Cognitively Aligned Post-Training for Generalizable and Reliable LLM Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.21909" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.21909" target="_blank" rel="noopener">From Meta-Thought to Execution: Cognitively Aligned Post-Training for Generalizable and Reliable LLM Reasoning</a></h3>
      <p class="summary">Current LLM post-training methods optimize complete reasoning trajectories through Supervised Fine-Tuning (SFT) followed by outcome-based R…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="53733806d448" data-article-url="https://arxiv.org/abs/2602.00994" data-article-title="Reasoning and Tool-use Compete in Agentic RL:From Quantifying Interference to Disentangled Tuning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.00994" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.00994" target="_blank" rel="noopener">Reasoning and Tool-use Compete in Agentic RL:From Quantifying Interference to Disentangled Tuning</a></h3>
      <p class="summary">Agentic Reinforcement Learning (ARL) trains large language models to interleave reasoning with external tool execution to solve complex tas…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6ebf79750c84" data-article-url="https://arxiv.org/abs/2602.01869" data-article-title="Skill-Pro: Learning Reusable Skills from Experience via Non-Parametric PPO for LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01869" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01869" target="_blank" rel="noopener">Skill-Pro: Learning Reusable Skills from Experience via Non-Parametric PPO for LLM Agents</a></h3>
      <p class="summary">LLM-driven agents excel at sequential decision-making but often rely on on-the-fly reasoning, re-deriving solutions even in recurring scena…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4f1bc7474025" data-article-url="https://arxiv.org/abs/2602.02849" data-article-title="AutoSizer: Automatic Sizing of Analog and Mixed-Signal Circuits via Large Language Model (LLM) Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02849" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02849" target="_blank" rel="noopener">AutoSizer: Automatic Sizing of Analog and Mixed-Signal Circuits via Large Language Model (LLM) Agents</a></h3>
      <p class="summary">The design of Analog and Mixed-Signal (AMS) integrated circuits remains heavily reliant on expert knowledge, with transistor sizing a major…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e8e3001a9ec3" data-article-url="https://arxiv.org/abs/2602.02909" data-article-title="Reasoning about Reasoning: BAPO Bounds on Chain-of-Thought Token Complexity in LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02909" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02909" target="_blank" rel="noopener">Reasoning about Reasoning: BAPO Bounds on Chain-of-Thought Token Complexity in LLMs</a></h3>
      <p class="summary">Inference-time scaling via chain-of-thought (CoT) reasoning is a major driver of state-of-the-art LLM performance, but it comes with substa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7c1cc0593367" data-article-url="https://arxiv.org/abs/2602.08013" data-article-title="Small Agent Group is the Future of Digital Health" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.08013" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.08013" target="_blank" rel="noopener">Small Agent Group is the Future of Digital Health</a></h3>
      <p class="summary">The rapid adoption of large language models (LLMs) in digital health has been driven by a &quot;scaling-first&quot; philosophy, i.e., the assumption…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1a2f10ee63f0" data-article-url="https://arxiv.org/abs/2602.08783" data-article-title="Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.08783" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.08783" target="_blank" rel="noopener">Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure</a></h3>
      <p class="summary">Latent or continuous chain-of-thought methods replace explicit textual rationales with a number of internal latent steps, but these interme…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aeb11aed85a5" data-article-url="https://arxiv.org/abs/2602.11389" data-article-title="Causal-JEPA: Learning World Models through Object-Level Latent Masking" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.11389" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.11389" target="_blank" rel="noopener">Causal-JEPA: Learning World Models through Object-Level Latent Masking</a></h3>
      <p class="summary">World models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations pr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="392c32d7fe99" data-article-url="https://arxiv.org/abs/2602.14307" data-article-title="Benchmarking at the Edge of Comprehension" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.14307" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.14307" target="_blank" rel="noopener">Benchmarking at the Edge of Comprehension</a></h3>
      <p class="summary">As frontier Large Language Models (LLMs) increasingly saturate new benchmarks shortly after they are published, benchmarking itself is at a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c2b0785a6eec" data-article-url="https://arxiv.org/abs/2602.20141" data-article-title="Recurrent Structural Policy Gradient for Partially Observable Mean Field Games" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.20141" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.20141" target="_blank" rel="noopener">Recurrent Structural Policy Gradient for Partially Observable Mean Field Games</a></h3>
      <p class="summary">Mean Field Games (MFGs) provide a principled framework for modelling interactions in large population systems. However, algorithmic progres…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9c2a81bb3241" data-article-url="https://arxiv.org/abs/2602.23258" data-article-title="AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.23258" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.23258" target="_blank" rel="noopener">AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning</a></h3>
      <p class="summary">While Multi-Agent Systems (MAS) excel in complex reasoning, they suffer from the cascading impact of erroneous information from individual…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="464b5be04757" data-article-url="https://arxiv.org/abs/2603.07916" data-article-title="Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.07916" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.07916" target="_blank" rel="noopener">Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases</a></h3>
      <p class="summary">In recent advances, to enable a fully data-driven learning paradigm on relational databases (RDB), relational deep learning (RDL) is propos…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9475adc64b7b" data-article-url="https://arxiv.org/abs/2603.18859" data-article-title="RewardFlow: Topology-Aware Reward Propagation on State Graphs for Agentic RL with Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.18859" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.18859" target="_blank" rel="noopener">RewardFlow: Topology-Aware Reward Propagation on State Graphs for Agentic RL with Large Language Models</a></h3>
      <p class="summary">Reinforcement learning (RL) shows promise for enhancing LLM agentic reasoning, yet sparse terminal rewards hinder fine-grained optimization…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="91b5d6c2692a" data-article-url="https://arxiv.org/abs/2603.19828" data-article-title="FormalEvolve: Neuro-Symbolic Evolutionary Search for Diverse Autoformalization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.19828" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.19828" target="_blank" rel="noopener">FormalEvolve: Neuro-Symbolic Evolutionary Search for Diverse Autoformalization</a></h3>
      <p class="summary">Autoformalization aims to produce formal statements that compile and faithfully preserve the intended meaning of informal mathematics. Yet…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8bbdd053cd01" data-article-url="https://arxiv.org/abs/2603.23085" data-article-title="When Models Learn to Ask Why: Adaptive Causal Reasoning for Trustworthy Medical Vision-Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23085" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23085" target="_blank" rel="noopener">When Models Learn to Ask Why: Adaptive Causal Reasoning for Trustworthy Medical Vision-Language Models</a></h3>
      <p class="summary">Vision-Language Models (VLMs) have enabled interpretable medical diagnosis by integrating visual perception with linguistic reasoning. Yet,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d3a8f76bf993" data-article-url="https://arxiv.org/abs/2603.23234" data-article-title="MemCollab: Cross-Model Memory Collaboration via Contrastive Trajectory Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23234" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23234" target="_blank" rel="noopener">MemCollab: Cross-Model Memory Collaboration via Contrastive Trajectory Distillation</a></h3>
      <p class="summary">LLM agents increasingly rely on memory mechanisms to reuse knowledge from past problem-solving experiences. However, existing methods typic…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="43e4ddcfc791" data-article-url="https://arxiv.org/abs/2603.23853" data-article-title="SCoOP: Semantic Consistent Opinion Pooling for Uncertainty Quantification in Multiple Vision-Language Model Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23853" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23853" target="_blank" rel="noopener">SCoOP: Semantic Consistent Opinion Pooling for Uncertainty Quantification in Multiple Vision-Language Model Systems</a></h3>
      <p class="summary">Combining multiple Vision-Language Models (VLMs) can enhance multimodal reasoning and robustness, but aggregating heterogeneous models&#x27; out…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ebff2cf2e2a2" data-article-url="https://arxiv.org/abs/2603.27150" data-article-title="MediHive: A Decentralized Agent Collective for Medical Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.27150" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.27150" target="_blank" rel="noopener">MediHive: A Decentralized Agent Collective for Medical Reasoning</a></h3>
      <p class="summary">Large language models (LLMs) have revolutionized medical reasoning tasks, yet single-agent systems often falter on complex, interdisciplina…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c49a510477c" data-article-url="https://arxiv.org/abs/2604.05157" data-article-title="IntentScore: コンピュータ使用エージェントの意図条件付きアクションの評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.05157" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.05157" target="_blank" rel="noopener">IntentScore: コンピュータ使用エージェントの意図条件付きアクションの評価</a></h3>
      <p class="summary">Computer-Use Agent (CUA) は、大規模な言語モデルを利用してデスクトップ環境で GUI 操作を実行しますが、アクションの品質を評価せずにアクションを生成するため、後続のステップに連鎖的に発生する不可逆的なエラーにつながります。私たちは、3 つのオペレーティング システムにわたる 398K のオフライン GUI インタラクション ステップから候補アクションをスコアリングすることを学習する、プランを認識した報酬モデルである IntentScore を提案します。 IntentScore は、状態とアクションの関連性に関する対照的な調整と、アクションの正しさに関するマージン ランキングという 2 つの相補的な目標を使用してトレーニングします。アーキテクチャ的には、各候補者の計画意図がアクション エンコーダーに埋め込まれ、同様のアクションを持つ候補者間で論理的根拠が異なるものを区別できるようになります。 IntentScore は、ホールドアウト評価で 97.5% のペア識別精度を達成します。トレーニング中にまったく見えない環境である OSWorld 上のエージェント S3 の再ランカーとしてデプロイされた IntentScore は、タスクの成功率を 6.9 ポイント向上させ、異種のオフライン軌跡から学習した報酬推定が、目に見えないエージェントとタスクの分布に一般化されることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">IntentScore: Intent-Conditioned Action Evaluation for Computer-Use Agents</p>
        <p class="orig-summary">Computer-Use Agents (CUAs) leverage large language models to execute GUI operations on desktop environments, yet they generate actions without evaluating action quality, leading to irreversible errors that cascade through subsequent steps. We propose IntentScore, a plan-aware reward model that learns to score candidate actions from 398K offline GUI interaction steps spanning three operating systems. IntentScore trains with two complementary objectives: contrastive alignment for state-action relevance and margin ranking for action correctness. Architecturally, it embeds each candidate&#x27;s planning intent in the action encoder, enabling discrimination between candidates with similar actions but different rationales. IntentScore achieves 97.5% pairwise discrimination accuracy on held-out evaluation. Deployed as a re-ranker for Agent S3 on OSWorld, an environment entirely unseen during training, IntentScore improves task success rate by 6.9 points, demonstrating that reward estimation learned from heterogeneous offline trajectories generalizes to unseen agents and task distributions.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2f403edf6ce6" data-article-url="https://arxiv.org/abs/2604.10219" data-article-title="Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.10219" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.10219" target="_blank" rel="noopener">Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models</a></h3>
      <p class="summary">Multimodal Large Reasoning Models (MLRMs) have achieved remarkable strides in visual reasoning through test time compute scaling, yet long…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec406bb1c9e2" data-article-url="https://arxiv.org/abs/2604.10228" data-article-title="SVSR: A Self-Verification and Self-Rectification Paradigm for Multimodal Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.10228" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.10228" target="_blank" rel="noopener">SVSR: A Self-Verification and Self-Rectification Paradigm for Multimodal Reasoning</a></h3>
      <p class="summary">Current multimodal models often suffer from shallow reasoning, leading to errors caused by incomplete or inconsistent thought processes. To…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4de9c687c7b8" data-article-url="https://arxiv.org/abs/2604.10511" data-article-title="Thinking Fast, Thinking Wrong: Intuitiveness Modulates LLM Counterfactual Reasoning in Policy Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.10511" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.10511" target="_blank" rel="noopener">Thinking Fast, Thinking Wrong: Intuitiveness Modulates LLM Counterfactual Reasoning in Policy Evaluation</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly used for causal and counterfactual reasoning, yet their reliability in real-world policy eval…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="768f93e33a81" data-article-url="https://arxiv.org/abs/2604.11088" data-article-title="Guardrails Beat Guidance: A Large-Scale Study of Rules, Skills, and Persistent Configuration for Coding Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.11088" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.11088" target="_blank" rel="noopener">Guardrails Beat Guidance: A Large-Scale Study of Rules, Skills, and Persistent Configuration for Coding Agents</a></h3>
      <p class="summary">Random rules improve a coding agent&#x27;s task performance as much as expert-curated ones (both $+13.8$pp on a discriminative subset of SWE-ben…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1231f9279dcf" data-article-url="https://arxiv.org/abs/2604.14889" data-article-title="MemoSight: Unifying Context Compression and Multi Token Prediction for Reasoning Acceleration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.14889" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.14889" target="_blank" rel="noopener">MemoSight: Unifying Context Compression and Multi Token Prediction for Reasoning Acceleration</a></h3>
      <p class="summary">While chain-of-thought (CoT) reasoning enables LLMs to solve challenging reasoning tasks, the linear growth of the KV cache leads to substa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1796130251f9" data-article-url="https://arxiv.org/abs/2604.18847" data-article-title="Human-Guided Harm Recovery for Computer Use Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.18847" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.18847" target="_blank" rel="noopener">Human-Guided Harm Recovery for Computer Use Agents</a></h3>
      <p class="summary">As LM agents gain the ability to execute actions on real computer systems, we need ways to not only prevent harmful actions at scale but al…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="619406323a98" data-article-url="https://arxiv.org/abs/2604.25098" data-article-title="Revisiting the Effectiveness of LLM Pruning for Test-Time Scaling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.25098" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.25098" target="_blank" rel="noopener">Revisiting the Effectiveness of LLM Pruning for Test-Time Scaling</a></h3>
      <p class="summary">Large Language Models (LLMs) now exhibit remarkable reasoning capabilities through test-time compute scaling (TTS), with impressive perform…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0c3a6a5d0897" data-article-url="https://arxiv.org/abs/2604.26645" data-article-title="SciHorizon-DataEVA: An Agentic System for AI-Readiness Evaluation of Heterogeneous Scientific Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.26645" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.26645" target="_blank" rel="noopener">SciHorizon-DataEVA: An Agentic System for AI-Readiness Evaluation of Heterogeneous Scientific Data</a></h3>
      <p class="summary">AI-for-Science (AI4Science) is increasingly transforming scientific discovery by embedding machine learning models into prediction, simulat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="287145528a8c" data-article-url="https://arxiv.org/abs/2605.04916" data-article-title="A Foundation Model for Zero-Shot Logical Rule Induction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.04916" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.04916" target="_blank" rel="noopener">A Foundation Model for Zero-Shot Logical Rule Induction</a></h3>
      <p class="summary">Inductive Logic Programming (ILP) learns interpretable logical rules from data. Existing methods are transductive: their learned parameters…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="104c9a161564" data-article-url="https://arxiv.org/abs/2605.07707" data-article-title="Hierarchical Task Network Planning with LLM-Generated Heuristics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.07707" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.07707" target="_blank" rel="noopener">Hierarchical Task Network Planning with LLM-Generated Heuristics</a></h3>
      <p class="summary">HTN planning is a variation of classical planning where, instead of searching for a linear sequence of actions, an algorithm decomposes hig…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="85a74aa5e1d3" data-article-url="https://arxiv.org/abs/2605.15219" data-article-title="NOVA: Fundamental Limits of Knowledge Discovery Through AI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.15219" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.15219" target="_blank" rel="noopener">NOVA: Fundamental Limits of Knowledge Discovery Through AI</a></h3>
      <p class="summary">Can AI systems discover genuinely new knowledge through iterative self improvement, and if so, at what cost? We introduce the NOVA framewor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f3dfb04382e3" data-article-url="https://arxiv.org/abs/2605.21739" data-article-title="AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.21739" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.21739" target="_blank" rel="noopener">AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence</a></h3>
      <p class="summary">Emotional intelligence (EI), the ability to perceive, understand, and respond appropriately to others&#x27; emotional states, is central to huma…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79387dfa6389" data-article-url="https://arxiv.org/abs/2605.22100" data-article-title="MPDocBench-Parse: Benchmarking Practical Multi-page Document Parsing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.22100" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.22100" target="_blank" rel="noopener">MPDocBench-Parse: Benchmarking Practical Multi-page Document Parsing</a></h3>
      <p class="summary">Document parsing converts visually rich documents into machine-readable structured representations, forming a crucial foundation for inform…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="15b822be0101" data-article-url="https://arxiv.org/abs/2605.24140" data-article-title="HyperGuide: 大規模な言語モデルにおける効率的なマルチステップ推論のための双曲線ガイダンス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24140" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24140" target="_blank" rel="noopener">HyperGuide: 大規模な言語モデルにおける効率的なマルチステップ推論のための双曲線ガイダンス</a></h3>
      <p class="summary">マルチステップの推論は、大規模な言語モデルにとって依然として中心的な課題です。シングルパス生成は効率的ですが、精度に欠けます。ツリー検索メソッドは複数のパスを探索しますが、計算量が多くなります。私たちは、推論の進行状況を段階的な生成を導く双曲線幾何学的信号に抽出することで、このギャップに対処します。私たちのアプローチは構造的観察によって動機づけられています。組み合わせ推論ツリーでは、解をもたらす状態はほとんどないのに対し、行き止まりは指数関数的に多くなります。双曲空間はこの非対称性に一致し、原点近くのコンパクトな体積と境界に向かって指数関数的に拡大する容量を備えています。そのため、原点までの距離は自然に解の近さをエンコードし、角度分離は次の異なる演算を必要とする分岐を区別します。 LLM の隠れ状態をこの空間に投影するように軽量ヘッドをトレーニングし、注入された信号に作用する独自の推論試行に基づいて低ランクのアダプターを対話的に微調整します。複数のベンチマークにわたって、幾何学的信号は一貫したゲインをもたらし、より深い推論チェーンで大幅な改善が見られます。私たちのコードは https://github.com/yuyuliu11037/HyperGuide で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">HyperGuide: Hyperbolic Guidance for Efficient Multi-Step Reasoning in Large Language Models</p>
        <p class="orig-summary">Multi-step reasoning remains a central challenge for large language models: single-pass generation is efficient but lacks accuracy; tree-search methods explore multiple paths but are computation-heavy. We address this gap by distilling reasoning progress into a hyperbolic geometric signal that guides step-by-step generation. Our approach is motivated by a structural observation: in combinatorial reasoning trees, solution-bearing states are few while dead ends are exponentially numerous. The hyperbolic space matches this asymmetry, with compact volume near the origin and exponentially expanding capacity toward the boundary, so that distance-to-origin naturally encodes solution proximity while angular separation distinguishes branches requiring different next operations. We train a lightweight head to project LLM hidden states into this space, then fine-tune a low-rank adapter interactively on its own reasoning attempts to act on the injected signal. Across multiple benchmarks, the geometric signal yields consistent gains, with larger improvements on deeper reasoning chains. Our code is publicly available at https://github.com/yuyuliu11037/HyperGuide.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8e4b06818007" data-article-url="https://arxiv.org/abs/2605.24399" data-article-title="ConceptM$^3$oE: 解釈可能な計算病理学のための、概念に基づいた専門家のマルチモーダルな混合" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24399" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24399" target="_blank" rel="noopener">ConceptM$^3$oE: 解釈可能な計算病理学のための、概念に基づいた専門家のマルチモーダルな混合</a></h3>
      <p class="summary">ヘルスケア モデルは、単峰性の予測から、異種の診断入力に対する多峰性の推論へと移行しつつあります。計算病理学では、形態だけでは区別するのが難しい複雑な腫瘍サブタイプの場合、病理学レポートと分子測定はスライド全体の画像とともに追加の診断証拠を提供する可能性がありますが、既存のモデルでは、多様な信号がどのように認識可能な診断概念に組み立てられるかを明らかにできないことがよくあります。私たちは、概念形成をインタラクションを意識した専門家混合 (MoE) 経路内に直接組み込む ConceptM$^3$oE (Concept Multimodal MoE) を提案します。このアーキテクチャは、証拠をモダリティ固有、冗長、および相乗効果のある専門家に分解し、それらを構造化された概念のボトルネックに投影して、潜在的な特徴を形態学およびバイオマーカーの概念の階層にマッピングします。解釈可能なボトルネックに典型的な情報損失を防ぐために、各エキスパート内の残余経路を利用して、タスク関連のシグナルがコンセプトを介して最終的なタスク予測に直接流れることを可能にし、解釈可能性とともに高いパフォーマンスを維持します。このフレームワークは、施設内の小児脳腫瘍コホートと公的神経膠腫コホートにわたって、独立した神経病理学者によって検証された推論トレースを生成しながら、制約のないモデルに匹敵するパフォーマンスを提供します。データが限定されたレジームでは、ConceptM$^3$oE は限定されたデータのパフォーマンスを向上させ、概念を知らされていないベースラインと比較して小さなトレーニング サイズでマクロ F1 が 56.41% から 66.70% に増加すると同時に、概念学習の正規化効果と一致するより速いトレーニング収束も示します。この取り組みは、本質的に検証可能であり、臨床現場での複雑な意思決定とより適切に連携する高性能医療 AI へのスケーラブルな道筋を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ConceptM$^3$oE: Concept-Guided Multimodal Mixture of Experts for Interpretable Computational Pathology</p>
        <p class="orig-summary">Healthcare models are transitioning from unimodal prediction toward multimodal reasoning over heterogeneous diagnostic inputs. In computational pathology, for complex tumor subtypes where morphology alone can be challenging to distinguish, pathology reports and molecular measurements may provide additional diagnostic evidence alongside whole-slide images, yet existing models often fail to clarify how diverse signals assemble into recognizable diagnostic concepts. We propose ConceptM$^3$oE (Concept Multimodal MoE), which embeds concept formation directly within interaction-aware mixture-of-experts (MoE) pathways. The architecture decomposes evidence into modality-specific, redundant, and synergistic experts, which are then projected into structured concept bottlenecks mapping latent features to a hierarchy of morphology and biomarker concepts. To prevent the information loss typical of interpretable bottlenecks, we utilize residual pathways within each expert to allow task-relevant signals to flow both through the concepts and directly to the final task prediction, so that high performance is maintained alongside interpretability. Across an institutional pediatric brain tumor cohort and a public glioma cohort, the framework delivers competitive performance to unconstrained models while producing reasoning traces validated by an independent neuropathologist. In data-limited regimes, ConceptM$^3$oE improves limited-data performance, increasing macro-F1 from 56.41% to 66.70% at small training sizes compared to non-concept-informed baselines, while also showing faster training convergence consistent with the regularizing effect of concept learning. This work offers a scalable path toward high-performance medical AI that is inherently verifiable and better aligned with the complex decision-making of clinical practice.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8d817ebb0e4e" data-article-url="https://arxiv.org/abs/2605.26029" data-article-title="CausaLab: AI 科学者向けのインタラクティブな因果発見のためのスケーラブルな環境" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26029" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26029" target="_blank" rel="noopener">CausaLab: AI 科学者向けのインタラクティブな因果発見のためのスケーラブルな環境</a></h3>
      <p class="summary">LLM エージェントによるインタラクティブな因果発見を評価するためのスケーラブルな環境である CausaLab を紹介します。以前の評価とは異なり、CausaLab では、エージェントが因果関係の証拠を使用して問題を解決できるかどうか、およびその答えが根底にある因果メカニズムに関する正しい仮説によって裏付けられているかどうかの両方を評価します。各エピソードではエージェントが合成実験室に配置されます。エージェントは以前の測定記録を受け取り、マニピュレーター結晶に介入し、同じ機構によって支配される保持されたリアクター結晶の共振周波数を予測します。隠されたデータ生成プロセスは、ランダムにサンプリングされた構造因果モデル (SCM) であるため、成功するには、事前の知識を思い出すのではなく、因果グラフと構造方程式の両方を回復する必要があります。 CausaLab には、エージェントの進化する SCM 仮説を記録するドメイン固有の言語も含まれており、軌跡を検査可能にしてグラウンド トゥルースと比較できるようになります。実験では、予測とメカニズム回復の間に永続的なギャップがあることが示されています。純粋に観測的な 6 ノード設定では、GPT-5.2-high はタスク精度 92% に達しますが、オールエッジ $F_1$ はわずか 0.471 です。この観察は、さまざまな相互作用戦略の探求をさらに動機づけます: 混合観察 - 介入戦略は構造忠実度を向上させます: 混合 6 ノード設定では、GPT-5.2-high はタスク精度とオールエッジ $F_1$ の両方で 80% を達成しました。しかし、純粋な介入戦略はタスクの精度とオールエッジ $F_1$ の両方においてパフォーマンスが低いため、強力なエージェントですら有益な介入を設計するのに苦労しています。私たちは、エージェントの主要な弱点として早期停止を特定し、仮説と過去のデータとの間の一貫性をモデルに検証するように依頼することが、この問題の軽減に役立つことを示します。したがって、CausaLab は予測の成功を因果関係の理解から切り離し、実験的因果推論者としての現在の LLM エージェントの限界を明らかにします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists</p>
        <p class="orig-summary">We introduce CausaLab, a scalable environment for evaluating interactive causal discovery by LLM agents. Unlike prior evaluations, CausaLab evaluates both whether an agent can solve a problem using causal evidence and whether its answer is grounded in a faithful recovered causal mechanism. Each episode places an agent in a synthetic laboratory: it receives prior measurement records, intervenes on a manipulator crystal, and predicts the resonance frequency of a held-out reactor crystal governed by the same mechanism. The hidden data-generating process is a randomly sampled structural causal model (SCM), so success requires recovering both a causal graph and structural equations rather than recalling prior knowledge. Experiments show a persistent gap between prediction and mechanism recovery: in the purely observational 6-node setting, GPT-5.2-high reaches 92% task accuracy but only 0.471 all-edge $F_1$. Mixed observation-intervention strategies improve structural fidelity, while pure intervention remains difficult even for strong agents. We identify premature stopping as a major weakness and show that consistency verification mitigates it. CausaLab therefore separates predictive success from causal understanding and exposes current LLM agents&#x27; limits as experimental causal reasoners.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e737157ae4a9" data-article-url="https://arxiv.org/abs/2605.26366" data-article-title="幻覚検出のための自動レイヤー選択" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26366" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26366" target="_blank" rel="noopener">幻覚検出のための自動レイヤー選択</a></h3>
      <p class="summary">幻覚検出に関する最近の研究では、幻覚関連信号は大規模言語モデル (LLM) の最終層よりも中間層でより強くエンコードされることが示されています。この特性を幻覚検出に利用しようとする研究が増えていますが、高性能レイヤーの選択を自動化する方法はまだ研究されておらず、この目的のための原則的な方法もまだ不足しています。このギャップに対処するために、最初に、なぜそのような信号が中間層で出現するのかについていくつかの仮説を提案し、質問応答と要約幻覚検出ベンチマークの両方をカバーする、多様な LLM アーキテクチャ、スケール、タスクにわたる自動層選択の対応する基準を評価します。ただし、これらの基準のいずれも満足のいくパフォーマンスを一貫して提供できないことがわかりました。したがって、我々は、最適な層または最適に近い層を一貫して特定し、前述の基準と既存の幻覚検出ベースラインの両方を上回る新しい選択基準である固有次元の最初の有効ピーク (FEPoID) を提案します。 FEPoID はトレーニング不要であり、計算上のオーバーヘッドは無視できます。さらに、LLM の生成挙動を研究し、幻覚関連信号をさらに増幅し、全体的な検出性能を大幅に向上させる、シンプルかつ効果的な打ち切り戦略を導入します。コードは https://github.com/DesoloYw/Automatic-Layer-Selection-for-Hallucination-Detection.git で公開されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Automatic Layer Selection for Hallucination Detection</p>
        <p class="orig-summary">Recent studies on hallucination detection have shown that hallucination-related signals are more strongly encoded in intermediate layers than in the final layer of large language models (LLMs). Although a growing body of work has sought to exploit this property for hallucination detection, how to automate the selection of high-performing layers remains underexplored, and principled methods for this purpose are still lacking. To address this gap, we first propose several hypotheses for why such signals emerge in intermediate layers and evaluate corresponding criteria for automatic layer selection across diverse LLM architectures, scales, and tasks, covering both question answering and summarization hallucination detection benchmarks. However, we find that none of these criteria consistently delivers satisfactory performance. We therefore propose a new selection criterion, First Effective Peak of Intrinsic Dimension (FEPoID), which consistently identify optimal or near-optimal layers and outperforms both the aforementioned criteria and existing hallucination detection baselines. FEPoID is training-free and incurs negligible computational overhead. In addition, we study the generation behaviors of LLMs and introduce a simple yet effective truncation strategy, which further amplifies hallucination-related signals and substantially improves overall detection performance. Code is publicly available at https://github.com/DesoloYw/Automatic-Layer-Selection-for-Hallucination-Detection.git</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7aa1e076df21" data-article-url="https://arxiv.org/abs/2605.27176" data-article-title="圧縮知識グラフ仮説: 科学的仮説の生成に重要なグラフの事実はどれですか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27176" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27176" target="_blank" rel="noopener">圧縮知識グラフ仮説: 科学的仮説の生成に重要なグラフの事実はどれですか?</a></h3>
      <p class="summary">ナレッジ グラフ (KG) は、言語モデルに構造化された科学的コンテキストを提供できますが、生成された仮説を実際に形成するグラフの事実は依然として不明です。私たちは、Mistral-7B、Llama-3.1-70B、および Gemini 2.5 Flash にわたるバッテリー材料に関する KG ガイドに基づく仮説生成を研究します。密度、オントロジーの豊富さ、トポロジー、制御構造を変化させることでローカル KG に摂動を与え、提供されたグラフと固定参照メトリックの両方で出力を評価します。モデル全体に​​わたって、KG ユーティリティは選択的でモデルに依存します。グラフのコンテキストによって出力が変更されますが、KG 出力がない場合でも、モデルの以前からかなりのグラフ コンテンツが復元されます。コンパクトな上位 k サブグラフは、主張された結果トリプルが保持される場合を含め、フル KG の動作に近似することがよくあります。同時に、圧縮は 1 つのセマンティック ランキング ルールに固有のものではなく、ランダムなトポロジ ベースのサブセットでも信号の大部分を回復できます。これらの結果は、冗長性を意識した圧縮 KG 仮説を裏付けています。有用な KG 信号は、完全なローカル グラフを必要とするのではなく、コンパクトで科学的に構造化されたサブグラフから回復できることがよくあります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Compressive Knowledge Graph Hypothesis: Which Graph Facts Matter for Scientific Hypothesis Generation?</p>
        <p class="orig-summary">Knowledge graphs (KGs) can provide structured scientific context to language models, but it remains unclear which graph facts actually shape the generated hypotheses. We study KG-guided hypothesis generation for battery materials across Mistral-7B, Llama-3.1-70B, and Gemini 2.5 Flash. We perturb local KGs by varying density, ontology richness, topology, and control structure, and evaluate outputs with both provided-graph and fixed-reference metrics. Across models, KG utility is selective and model-dependent: graph context changes outputs, but no-KG outputs also recover substantial graph content from model priors. Compact top-k subgraphs often approximate full-KG behavior, including when claimed-outcome triples are held out. At the same time, compression is not unique to one semantic ranking rule, random and topology-based subsets can also recover much of the signal. These results support a redundancy-aware Compressive KG hypothesis: useful KG signal is often recoverable from compact, scientifically structured subgraphs rather than requiring the full local graph.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b6e419c51feb" data-article-url="https://arxiv.org/abs/2605.27276" data-article-title="SIA: ハーネスとウェイトのアップデートによる自己改善型 AI" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27276" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27276" target="_blank" rel="noopener">SIA: ハーネスとウェイトのアップデートによる自己改善型 AI</a></h3>
      <p class="summary">AI の構築と改善においてボトルネックになるのは人間です。モデルとそれをラップするエージェントはどちらも人によって作成、調整、修正されます。 AI 自身を改善する方法を見つけられるという長期的な目標はまだ未解決です。大きく関連性のない 2 つの研究ラインがこのボトルネックを攻撃しています。ハーネス更新スクールでは、モデルの重みを固定したまま、メタエージェントがタスク固有のエージェントの足場 (ツール、プロンプト、再試行ロジック、検索手順) を書き換えます。テスト時のトレーニング スクールでは、手書きの RL パイプラインを使用して、ハーネスを固定したままタスク フィードバックでモデル自体の重みを更新します。これら 2 つのサイロは独立して動作します。我々は、言語モデル エージェント (フィードバック エージェント) がタスク固有のエージェントのハーネスと重みの両方を更新する自己改善ループである SIA を提案します。中国の法的責任の分類、低レベルの GPU カーネルの最適化、および単一セル RNA のノイズ除去という 3 つの対照的なドメインにわたって評価します。両方のレバーを組み合わせると、3 つのベンチマークすべてでスキャフォールドの反復単独よりも優れたパフォーマンスを発揮します。初期ベースラインと比較して、LawBench では 56.6%、GPU カーネルではランタイムが 91.9%、ノイズ除去では 502% の向上が見られます。ハーネスの更新によりモデルがエージェント的になり、検索と動作の方法が形成されます。一方、重みの更新により、プロンプトや足場では得られないドメインの直感が構築されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SIA: Self Improving AI with Harness &amp; Weight Updates</p>
        <p class="orig-summary">Humans are the bottleneck in building and improving AI. Both the models and the agents that wrap them are written, tuned, and corrected by people. The long-horizon goal of an AI that can figure out how to improve itself remains open. Two largely disjoint research lines attack this bottleneck. The harness-update school has a meta-agent rewrite the scaffold of a task-specific agent (its tools, prompts, retry logic, and search procedure) while the model weights are held fixed. The test-time training school uses hand-written RL pipelines to update the model&#x27;s own weights on task feedback while the harness is held fixed. These two silos operate in isolation. We propose SIA, a self-improving loop in which a language-model agent (the Feedback-Agent) updates both the harness and the weights of a task-specific agent. We evaluate across three contrasting domains: Chinese legal charge classification, low-level GPU kernel optimisation, and single-cell RNA denoising. Combining both levers outperforms scaffold iteration alone on all three benchmarks. SIA-W+H achieves 25.1% over prior SOTA on LawBench, 12.4% faster GPU kernels than prior SOTA (1,017 vs 1,161 {\mu}s), and 20.4% over prior SOTA on denoising. Harness updates make the model agentic, shaping how it searches and acts, while weight updates build the domain intuition that no prompt or scaffold can instil.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a324ec3c043f" data-article-url="https://arxiv.org/abs/2605.27379" data-article-title="Soro: タジキスタン向けの軽量基盤モデルおよびチャットボット" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27379" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27379" target="_blank" rel="noopener">Soro: タジキスタン向けの軽量基盤モデルおよびチャットボット</a></h3>
      <p class="summary">ここでは、タジキスタンでの厳しいコンピューティングと接続の制約下での実際の展開向けに設計された、タジク語に特化した会話型大規模言語モデル (LLM) ファミリーである Soro を紹介します。オープンウェイトの Gemma 3 チェックポイントから開始して、フィルタリングされた Web テキスト、PDF ドキュメント、カリキュラムに合わせた教材にまたがる厳選された 19 億トークンのコーパスに対してタジク語のみの継続的な事前トレーニングを実行し、続いて 40,000 のタジク語教師スタイルのサンプルに対して教師付き指導チューニングを実行します。標準ベンチマークでタジク語がカバーされる範囲が限られているにもかかわらず、厳密な評価を可能にするために、一般知識、言語能力、学校および大学の入学試験の領域をカバーする一連のタジク語ベンチマークを導入し、Hugging Face でオープンソース化しています。これらのタジク語ベンチマーク全体で、Soro は標準データセットで英語の優れたパフォーマンスを維持しながら、同じサイズの Gemma 3 ベースラインを大幅に上回っています。さらに、Soro の FP8 および INT4 量子化により、タジク語の利点のほとんどが維持されると同時に、エッジ展開のメモリ要件が削減され、進行中の教育セクターのパイロットとタジキスタンの学校全体での計画されたスケールアウトがサポートされることも示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Soro: A Lightweight Foundation Model and Chatbot for Tajik</p>
        <p class="orig-summary">We present Soro, a family of Tajik-specialized conversational large language models (LLMs) designed for real-world deployment under tight compute and connectivity constraints in Tajikistan. Starting from open-weight Gemma 3 checkpoints, we perform Tajik-only continual pretraining on a curated 1.9-billion-token corpus spanning filtered web text, PDF documents, and curriculum-aligned educational materials, followed by supervised instruction tuning on 40K Tajik teacher-style examples. To enable rigorous evaluation despite the limited coverage of Tajik in standard benchmarks, we introduce a suite of Tajik benchmarks covering general knowledge, linguistic competence, and school- and university entrance-exam domains, and we open-source them on Hugging Face. Across these Tajik benchmarks, Soro substantially outperforms same-size Gemma 3 baselines while retaining strong English performance on standard datasets. We further show that FP8 and INT4 quantization of Soro preserves most Tajik-language gains while reducing memory requirements for edge deployment, supporting an ongoing education-sector pilot and planned scale-out across schools in Tajikistan.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a03ba7a97520" data-article-url="https://arxiv.org/abs/2605.27580" data-article-title="自分の状態をコントロールできるのはあなたです: なぜ人間の結末は因果関係のある状態の介入によってコントロール可能なのか" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27580" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27580" target="_blank" rel="noopener">自分の状態をコントロールできるのはあなたです: なぜ人間の結末は因果関係のある状態の介入によってコントロール可能なのか</a></h3>
      <p class="summary">行動科学と人間と対峙する人工知能にとっての中心的な謎は、個人内の多様性の持続です。同じ観察可能な入力を与えられた同じ個人は、異なる機会に異なる結果を生成し、異なる個人は、観察可能な共変量が完全に予測しないような異なる結果を生成します。私たちは、この変動は人の動的な潜在状態に属し、人間の結果は、意思決定が形成される瞬間の状態とその重み付けを対象とした介入を通じて、正確かつ操作的な意味で制御可能であると主張します。私たちは状態を、個人の生物学、生理学、神経心理学が次のイベントをどのように処理して決定と結果に導くかを制御する次元にわたる時間インデックス付きの重み付けベクトルとして定義します。状態、決定、結果の間の関係は、相関関係ではなく因果関係です。重み付けベクトルは、日単位の時間スケールでは動的です。結果が報告される意識的なチャネルは、狭い注意のボトルネックであり、その内容自体は状態に依存します。まとめると、これらの主張は、特定のイベントの結果は、介入時の状態軌道に基づいて条件付きで制御可能であることを意味します。私たちは、確立された証拠の6つの要素（因果推論、予測処理、アロスタシス、注意のボトルネック、時間生物学、計算論的精神医学）と、4つの職業上のペルソナにわたる20万人を超える同意ユーザーにまたがる展開された行動プラットフォームからの24か月の観察ベースによってフレームワークを動機付けています（研究期間は2023年から2026年）。 7 つの検証可能な予測を導き出し、国家認識システムの 6 つの運用要件をリストし、デジタル ヘルス、教育、AI のパーソナライゼーション、個人の主体性への影響について議論します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">You Are in Control of Your State: Why Human Outcomes Are Controllable Through Causal State Intervention</p>
        <p class="orig-summary">A central puzzle for the behavioural sciences and for human-facing artificial intelligence is the persistence of within-person variability. The same individual, presented with the same observable input, produces different outcomes on different occasions, and different individuals produce divergent outcomes that no observable covariate fully predicts. We argue that this variability belongs in the dynamic latent state of the person, and that human outcomes are controllable in a precise and operational sense through interventions that target the state and its weighting at the moment a decision is being formed. We define a state as the time-indexed weighting vector over the dimensions that govern how an individual&#x27;s biology, physiology, and neuropsychology process the next event into a decision and an outcome. The relationship between state, decision, and outcome is causal rather than correlational. The weighting vector is dynamic at sub-daily timescales. The conscious channel through which outcomes are reportable is a narrow attentional bottleneck whose contents are themselves state-dependent. Taken together, these claims imply that the outcome of a given event is controllable, conditionally, on the state-trajectory at the time of intervention. We motivate the framework with six strands of established evidence (causal inference, predictive processing, allostasis, attentional bottleneck, chronobiology, computational psychiatry) and a 24-month observational base from a deployed behavioural platform spanning more than 200,000 consented users across four occupational personas (research period 2023 to 2026). We derive seven testable predictions, list six operational requirements for state-aware systems, and discuss implications for digital health, education, AI personalisation, and personal agency.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4a459cd0f6ea" data-article-url="https://arxiv.org/abs/2605.27864" data-article-title="FundaPod: AI 支援のファンダメンタル投資調査のためのナレッジ グラフ メモリを備えたマルチペルソナ エージェント ポッド プラットフォーム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27864" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27864" target="_blank" rel="noopener">FundaPod: AI 支援のファンダメンタル投資調査のためのナレッジ グラフ メモリを備えたマルチペルソナ エージェント ポッド プラットフォーム</a></h3>
      <p class="summary">大規模言語モデル (LLM) は金融分野での適用が増えていますが、既存の研究のほとんどは取引シグナルや予測を中心とした財務 NLP タスクに重点を置いています。対照的に、制度的基礎研究では、人間のアナリストまたは AI エージェントが証拠を収集し、ビジネス推進要因を特定し、競合する視点を比較し、投資メモを作成する必要があります。その広範な目標は、単に結果を予測することではなく、投資知識の累積的な発展に貢献しながら、透明性、再利用可能、検証可能な投資計画を作成することです。 AI 支援のファンダメンタルズ投資調査のためのマルチペルソナ エージェント プラットフォームである FundaPod を紹介します。私たちは、基礎研究は人間中心の意思決定支援タスクであり、取引シグナルの生成とは質的に異なるため、独立性を維持するアーキテクチャの方が適していると主張します。 FundaPod では、バリュー投資家やマクロ戦略家など、さまざまなペルソナを持つ AI エージェントが、共有の出所契約に基づいて独立して調査を実施します。その後、彼らの意見の相違は、知識グラフ記憶システムを通じて人間のポートフォリオ マネージャー (PM) による裁定のために事後的に表面化されます。この論文は、設計科学の実践と認知的分離と人間と機械の協調の理論に基づいた、基礎研究をサポートする人間と AI のハイブリッド システムの 5 つの設計原則を提供します。また、4 つのアーキテクチャ メカニズムについても説明します。1 つは一般投資家の資料を展開可能なエージェントに変えるペルソナ蒸留パイプラインです。プランナーが型指定されたタスク グラフを導出できるようにする宣言型スキル レジストリ。メモの主張を検証可能な情報源に結び付ける根拠のある証拠モデル。そしてティッカー、メモ、アナリスト、テーマを結び付けるナレッジグラフ「第二の脳」。完全なケーススタディとペルソナベースのメモの比較を通じてアーキテクチャを実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">FundaPod: A Multi-Persona Agent Pod Platform with Knowledge Graph Memory for AI-Assisted Fundamental Investment Research</p>
        <p class="orig-summary">Large language models (LLMs) are increasingly applied in finance, yet most existing work emphasizes trading signals or financial NLP tasks centered on prediction. Institutional fundamental research, by contrast, requires human analysts or AI agents to gather evidence, identify business drivers, compare competing viewpoints, and generate investment memos. Its broader goal is not merely to predict outcomes, but to produce investment plans that are transparent, reusable, and verifiable, while contributing to the cumulative development of investment knowledge. We present FundaPod, a multi-persona agent platform for AI-assisted fundamental investment research. We argue that fundamental research is a human-centric decision-support task that is qualitatively distinct from trading-signal generation, and is therefore better served by an independence-preserving architecture. In FundaPod, AI agents with different personas, such as value investors or macro strategists, conduct research independently under a shared provenance contract. Their disagreements are then surfaced post hoc for adjudication by the human portfolio manager (PM) through a knowledge-graph memory system. This paper contributes five design principles for human-AI hybrid systems supporting fundamental research, grounded in design-science practice and theories of cognitive isolation and human-machine coordination. It also describes four architectural mechanisms: a persona distillation pipeline that turns public investor materials into deployable agents; a declarative skill registry that lets the planner derive typed task graphs; a grounded evidence model that links memo claims to verifiable sources; and a knowledge-graph &quot;second brain&quot; that connects tickers, memos, analysts, and themes. We demonstrate the architecture through a complete case study and a persona-based memo comparison.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7724a652e477" data-article-url="https://arxiv.org/abs/2605.27995" data-article-title="AsyncTool: マルチタスク シナリオでの非同期関数呼び出し機能の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27995" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27995" target="_blank" rel="noopener">AsyncTool: マルチタスク シナリオでの非同期関数呼び出し機能の評価</a></h3>
      <p class="summary">大規模言語モデル (LLM) ベースのエージェントは、外部ツールを使用して複雑なタスクを解決する強力な機能を示しています。ただし、既存の評価では、ツール使用の時間的側面、特にツールの応答遅延の影響が見落とされていることが多く、通常は単一タスクの設定に限定されています。実際のアプリケーションでは、多くの場合、複数のタスクを同時に実行する必要があり、全体的な効率は、エージェントがツールの応答を待つ間にアイドル時間を利用できるかどうかによって決まります。この機能を非同期ツール呼び出しと呼びます。これを評価するために、ツールのフィードバックが遅延した対話型のマルチタスク ツール使用環境で LLM ベースのエージェントを評価するためのベンチマークである AsyncTool を提案します。 AsyncTool は、複数の異種タスクを同時に提示し、実行中の現実的なツール応答遅延をシミュレートします。ハイブリッド データ進化戦略を使用して、複数のシナリオとツールの使用パターンをカバーする多様な非同期マルチタスク データセットを構築します。ステップ、サブタスク、およびタスクのレベルでモデルを評価し、タスクの調整と完了の効率を測定するための効率指向のメトリクスを導入します。広範な実験により、ツールのフィードバックが遅れていると、現在のエージェントに大きな課題が生じ、明らかなパフォーマンスの低下につながることが示されています。タスクの切り替え、依存関係の追跡、状態の維持をより適切に調整するモデルは、AsyncTool でより優れたパフォーマンスを実現します。私たちの分析は、現在ツールを使用しているエージェントの主な障害モードを特定し、より強力な時間的推論と調整機能を備えた将来のシステムを設計するための実用的な洞察を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios</p>
        <p class="orig-summary">Large language model (LLM)-based agents have shown strong capabilities in using external tools to solve complex tasks. However, existing evaluations often overlook the temporal dimension of tool use, especially the impact of tool response latency, and are usually limited to single-task settings. In real-world applications, multiple tasks often need to be executed concurrently, and overall efficiency depends on whether an agent can use idle time while waiting for tool responses. We refer to this capability as asynchronous tool calling. To evaluate it, we propose AsyncTool, a benchmark for assessing LLM-based agents in interactive multi-task tool-use environments with delayed tool feedback. AsyncTool presents multiple heterogeneous tasks simultaneously and simulates realistic tool response latency during execution. Using a hybrid data evolution strategy, we construct a diverse asynchronous multitasking dataset that covers multiple scenarios and tool-use patterns. We evaluate models at the step, sub-task, and task levels, and introduce efficiency-oriented metrics to measure task coordination and completion efficiency. Extensive experiments show that delayed tool feedback poses substantial challenges to current agents and leads to clear performance degradation. Models that better coordinate task switching, dependency tracking, and state maintenance achieve stronger performance on AsyncTool. Our analysis identifies key failure modes of current tool-using agents and provides practical insights for designing future systems with stronger temporal reasoning and coordination capabilities.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b936f9a729ee" data-article-url="https://arxiv.org/abs/2605.28700" data-article-title="The Importance of Being Statistically Earnest: A Critical Re-evaluation of GSM-Symbolic" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28700" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28700" target="_blank" rel="noopener">The Importance of Being Statistically Earnest: A Critical Re-evaluation of GSM-Symbolic</a></h3>
      <p class="summary">The GSM-Symbolic benchmark (Mirzadeh et al., 2025) reported consistent performance drops across 25 Large Language Models (LLMs) when tested…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c3b11004f866" data-article-url="https://arxiv.org/abs/2205.04297" data-article-title="Learning A Simulation-based Visual Policy for Real-world Peg In Unseen Holes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2205.04297" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2205.04297" target="_blank" rel="noopener">Learning A Simulation-based Visual Policy for Real-world Peg In Unseen Holes</a></h3>
      <p class="summary">This paper proposes a learning-based visual peg-in-hole that enables training with several shapes in simulation, and adapting to arbitrary…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a6cdfe1905f" data-article-url="https://arxiv.org/abs/2306.10356" data-article-title="MATNet: Multi-Level Fusion Transformer-Based Model for Day-Ahead PV Generation Forecasting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2306.10356" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2306.10356" target="_blank" rel="noopener">MATNet: Multi-Level Fusion Transformer-Based Model for Day-Ahead PV Generation Forecasting</a></h3>
      <p class="summary">Accurate forecasting of renewable generation is crucial to facilitate the integration of Renewable Energy Sources into the power system. Fo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="abb04c1d1b09" data-article-url="https://arxiv.org/abs/2405.13003" data-article-title="A Survey on Recent Advances in Conversational Data Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2405.13003" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2405.13003" target="_blank" rel="noopener">A Survey on Recent Advances in Conversational Data Generation</a></h3>
      <p class="summary">Recent advancements in conversational systems have significantly enhanced human-machine interactions across various domains. However, train…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="78f789351e36" data-article-url="https://arxiv.org/abs/2410.07287" data-article-title="Crafting Desirable Climate Trajectories with RL Explored Socio-Environmental Simulations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2410.07287" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2410.07287" target="_blank" rel="noopener">Crafting Desirable Climate Trajectories with RL Explored Socio-Environmental Simulations</a></h3>
      <p class="summary">Climate change poses an existential threat, necessitating effective climate policies to enact impactful change. Decisions in this domain ar…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d9d7559a3e6f" data-article-url="https://arxiv.org/abs/2410.10398" data-article-title="Are LLMs Socially Adaptive? Contrasting Belief Evolution in Large Language Models and Humans" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2410.10398" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2410.10398" target="_blank" rel="noopener">Are LLMs Socially Adaptive? Contrasting Belief Evolution in Large Language Models and Humans</a></h3>
      <p class="summary">As large language models (LLMs) increasingly engage in complex social interactions, ensuring that their behaviors align with human ethical…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="edff563f57ea" data-article-url="https://arxiv.org/abs/2410.15236" data-article-title="Jailbreaking and Mitigation of Vulnerabilities in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2410.15236" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2410.15236" target="_blank" rel="noopener">Jailbreaking and Mitigation of Vulnerabilities in Large Language Models</a></h3>
      <p class="summary">Large Language Models (LLMs) have transformed artificial intelligence by advancing natural language understanding and generation, enabling…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2046f8a984f0" data-article-url="https://arxiv.org/abs/2410.23222" data-article-title="Dataset-Driven Channel Masks in Transformers for Multivariate Time Series" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2410.23222" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2410.23222" target="_blank" rel="noopener">Dataset-Driven Channel Masks in Transformers for Multivariate Time Series</a></h3>
      <p class="summary">Recent advancements in foundation models have been successfully extended to the time series (TS) domain, facilitated by the emergence of la…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0b78851b0f4" data-article-url="https://arxiv.org/abs/2501.10332" data-article-title="Agent4Edu: Generating Learner Response Data by Generative Agents for Intelligent Education Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2501.10332" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2501.10332" target="_blank" rel="noopener">Agent4Edu: Generating Learner Response Data by Generative Agents for Intelligent Education Systems</a></h3>
      <p class="summary">Personalized learning represents a promising educational strategy within intelligent educational systems, aiming to enhance learners&#x27; pract…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aebbc4e84760" data-article-url="https://arxiv.org/abs/2502.16548" data-article-title="A Composable Multimodal Framework for cine CMR-Text-Driven Prediction of Heart Failure Outcomes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.16548" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.16548" target="_blank" rel="noopener">A Composable Multimodal Framework for cine CMR-Text-Driven Prediction of Heart Failure Outcomes</a></h3>
      <p class="summary">Objective. Heart failure is one of the leading causes of death worldwide, with millions of deaths each year, according to data from the Wor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b18de1e06bb1" data-article-url="https://arxiv.org/abs/2502.20838" data-article-title="Weakly Supervised Detection and Temporal Localization of Whale Calls in Long-Duration Bioacoustic Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.20838" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.20838" target="_blank" rel="noopener">Weakly Supervised Detection and Temporal Localization of Whale Calls in Long-Duration Bioacoustic Data</a></h3>
      <p class="summary">Passive acoustic monitoring (PAM) systems generate continuous recordings spanning months, yet automated bioacoustic analysis of whale calls…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8ab82afd894f" data-article-url="https://arxiv.org/abs/2505.10975" data-article-title="Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.10975" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.10975" target="_blank" rel="noopener">Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio</a></h3>
      <p class="summary">Monaural multi-speaker automatic speech recognition (ASR) remains challenging due to data scarcity and the intrinsic difficulty of recogniz…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1322bbb2135a" data-article-url="https://arxiv.org/abs/2505.21627" data-article-title="Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.21627" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.21627" target="_blank" rel="noopener">Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives</a></h3>
      <p class="summary">State-of-the-art large language models require specialized hardware and substantial energy to operate. As a consequence, cloud-based servic…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6f133e467efc" data-article-url="https://arxiv.org/abs/2505.21876" data-article-title="EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.21876" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.21876" target="_blank" rel="noopener">EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance</a></h3>
      <p class="summary">Recent approaches for video generation with camera control often create anchor videos (i.e., rendered videos that approximate desired camer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb1399671e06" data-article-url="https://arxiv.org/abs/2505.21996" data-article-title="VRAG: Learning World Models for Interactive Video Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.21996" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.21996" target="_blank" rel="noopener">VRAG: Learning World Models for Interactive Video Generation</a></h3>
      <p class="summary">Foundational world models must be both interactive and preserve spatiotemporal coherence for effective future planning with action choices.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7fddfb640fc0" data-article-url="https://arxiv.org/abs/2505.24503" data-article-title="Online Fair Division with Additional Information" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.24503" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.24503" target="_blank" rel="noopener">Online Fair Division with Additional Information</a></h3>
      <p class="summary">We study the problem of fairly allocating indivisible goods to agents in an online setting, where goods arrive sequentially and must be all…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="593efeb78ebe" data-article-url="https://arxiv.org/abs/2506.08354" data-article-title="Position: Text Embeddings Should Capture Implicit Semantics, Not Just Surface Meaning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.08354" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.08354" target="_blank" rel="noopener">Position: Text Embeddings Should Capture Implicit Semantics, Not Just Surface Meaning</a></h3>
      <p class="summary">This position paper argues that text embedding research should move beyond surface meaning and embrace implicit semantics as a central mode…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1b3c9117ab3b" data-article-url="https://arxiv.org/abs/2507.00037" data-article-title="Model Fusion via Retrofitting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.00037" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.00037" target="_blank" rel="noopener">Model Fusion via Retrofitting</a></h3>
      <p class="summary">Model fusion seeks to combine independently trained neural networks into a single model without retraining, but is complicated by represent…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c2f40bcf948" data-article-url="https://arxiv.org/abs/2507.06092" data-article-title="Taming Data Challenges in ML-based Security Tasks Using Generative AI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.06092" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.06092" target="_blank" rel="noopener">Taming Data Challenges in ML-based Security Tasks Using Generative AI</a></h3>
      <p class="summary">Machine learning-based supervised classifiers are widely used for security tasks, and their improvement has been largely focused on algorit…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a32b5ba6a75" data-article-url="https://arxiv.org/abs/2507.09574" data-article-title="MENTOR: Efficient Multimodal-Conditioned Tuning for Autoregressive Vision Generation Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.09574" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.09574" target="_blank" rel="noopener">MENTOR: Efficient Multimodal-Conditioned Tuning for Autoregressive Vision Generation Models</a></h3>
      <p class="summary">Recent text-to-image models produce high-quality results but still struggle with precise visual control, balancing multimodal inputs, and r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="db505c2af216" data-article-url="https://arxiv.org/abs/2507.16880" data-article-title="Finding DoRI: Discovery of Retained Images in Diffusion Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.16880" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.16880" target="_blank" rel="noopener">Finding DoRI: Discovery of Retained Images in Diffusion Models</a></h3>
      <p class="summary">Text-to-image diffusion models (DMs) have achieved remarkable success in image generation. However, concerns about data privacy and intelle…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ed6c698f343b" data-article-url="https://arxiv.org/abs/2507.21114" data-article-title="Page image classification for content-specific data processing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.21114" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.21114" target="_blank" rel="noopener">Page image classification for content-specific data processing</a></h3>
      <p class="summary">Digitization projects in humanities often generate vast quantities of page images from historical documents, presenting significant challen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8373c2acd100" data-article-url="https://arxiv.org/abs/2508.03253" data-article-title="Approximate Proportionality in Online Fair Division" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.03253" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.03253" target="_blank" rel="noopener">Approximate Proportionality in Online Fair Division</a></h3>
      <p class="summary">We study the online fair division problem, where indivisible goods arrive sequentially and must be allocated immediately and irrevocably. P…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="72886f11283d" data-article-url="https://arxiv.org/abs/2508.05614" data-article-title="GroundAct: Can LLM Agents Ground Actions in Environmental States?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.05614" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.05614" target="_blank" rel="noopener">GroundAct: Can LLM Agents Ground Actions in Environmental States?</a></h3>
      <p class="summary">LLM agents achieve 85-96% success on tasks where instructions fully specify the action, but drop to 29-53% when action feasibility depends…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c968c8379a9a" data-article-url="https://arxiv.org/abs/2508.12176" data-article-title="Scalable RF Simulation in Generative 4D Worlds" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.12176" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.12176" target="_blank" rel="noopener">Scalable RF Simulation in Generative 4D Worlds</a></h3>
      <p class="summary">Radio Frequency (RF) sensing has emerged as a powerful, privacy-preserving alternative to vision-based methods for various perception tasks…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3113922ce893" data-article-url="https://arxiv.org/abs/2508.19282" data-article-title="Less Is More: Elevating RAG via Performance-Driven Context Compression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.19282" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.19282" target="_blank" rel="noopener">Less Is More: Elevating RAG via Performance-Driven Context Compression</a></h3>
      <p class="summary">Retrieval-Augmented Generation (RAG) has emerged as a promising paradigm for improving the timeliness of knowledge updates and the factual…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1e1eb79e8400" data-article-url="https://arxiv.org/abs/2509.21154" data-article-title="GRPO is Secretly a Process Reward Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.21154" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.21154" target="_blank" rel="noopener">GRPO is Secretly a Process Reward Model</a></h3>
      <p class="summary">Process reward models (PRMs) allow for fine-grained credit assignment in reinforcement learning (RL), and seemingly contrast with outcome r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f9462d0d5db0" data-article-url="https://arxiv.org/abs/2509.21190" data-article-title="Towards Foundation Models for Zero-Shot Time Series Anomaly Detection: Leveraging Synthetic Data and Relative Context Discrepancy" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.21190" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.21190" target="_blank" rel="noopener">Towards Foundation Models for Zero-Shot Time Series Anomaly Detection: Leveraging Synthetic Data and Relative Context Discrepancy</a></h3>
      <p class="summary">Time series anomaly detection (TSAD) is a critical task, but developing models that generalize to unseen data in a zero-shot manner remains…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e818f9706437" data-article-url="https://arxiv.org/abs/2509.23571" data-article-title="Benchmarking LLM-Assisted Blue Teaming via Standardized Threat Hunting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.23571" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.23571" target="_blank" rel="noopener">Benchmarking LLM-Assisted Blue Teaming via Standardized Threat Hunting</a></h3>
      <p class="summary">As cyber threats continue to grow in scale and sophistication, blue team defenders increasingly require advanced tools to proactively detec…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8dae3de83dc4" data-article-url="https://arxiv.org/abs/2509.23573" data-article-title="Uncovering Vulnerabilities of LLM-Assisted Cyber Threat Intelligence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.23573" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.23573" target="_blank" rel="noopener">Uncovering Vulnerabilities of LLM-Assisted Cyber Threat Intelligence</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly used to help security analysts manage the surge of cyber threats, automating tasks from vulne…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4eb3fc89f5a4" data-article-url="https://arxiv.org/abs/2510.04704" data-article-title="AtomWorld: A Benchmark for Evaluating Spatial Reasoning in Large Language Models on Crystalline Materials" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.04704" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.04704" target="_blank" rel="noopener">AtomWorld: A Benchmark for Evaluating Spatial Reasoning in Large Language Models on Crystalline Materials</a></h3>
      <p class="summary">Large language models (LLMs) have shown promising potential in scientific research, enabling tasks ranging from knowledge retrieval to prop…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cdf193467e92" data-article-url="https://arxiv.org/abs/2510.08722" data-article-title="The Impact of Semantic Pairs on Self-Supervised Representation Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.08722" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.08722" target="_blank" rel="noopener">The Impact of Semantic Pairs on Self-Supervised Representation Learning</a></h3>
      <p class="summary">Instance discrimination learns visual representations by treating different augmented views of the same image as positive pairs. While this…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2abf99cf5e96" data-article-url="https://arxiv.org/abs/2510.10961" data-article-title="Obfuscation Rules for Detecting and Detoxifying Korean Toxicity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.10961" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.10961" target="_blank" rel="noopener">Obfuscation Rules for Detecting and Detoxifying Korean Toxicity</a></h3>
      <p class="summary">As language models become increasingly deployed in online environments, toxicity detection and detoxification have received growing attenti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1876e9cdd9c0" data-article-url="https://arxiv.org/abs/2510.11499" data-article-title="Offline Reinforcement Learning with Generative Trajectory Policies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.11499" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.11499" target="_blank" rel="noopener">Offline Reinforcement Learning with Generative Trajectory Policies</a></h3>
      <p class="summary">Generative models have emerged as a powerful class of policies for offline reinforcement learning (RL) due to their ability to capture comp…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2f222d7da4fe" data-article-url="https://arxiv.org/abs/2510.16060" data-article-title="Beyond Accuracy: Are Time Series Foundation Models Well-Calibrated?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.16060" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.16060" target="_blank" rel="noopener">Beyond Accuracy: Are Time Series Foundation Models Well-Calibrated?</a></h3>
      <p class="summary">The recent development of foundation models for time series data has generated considerable interest in using such models across a variety…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5643a28e9100" data-article-url="https://arxiv.org/abs/2510.20743" data-article-title="Empathic Prompting: Non-Verbal Context Integration for Multimodal LLM Conversations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.20743" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.20743" target="_blank" rel="noopener">Empathic Prompting: Non-Verbal Context Integration for Multimodal LLM Conversations</a></h3>
      <p class="summary">We present Empathic Prompting, a novel framework for multimodal human-AI interaction that enriches Large Language Model (LLM) conversations…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6ab990136d22" data-article-url="https://arxiv.org/abs/2510.26412" data-article-title="LoCoT2V-Bench: Benchmarking Long-Form and Complex Text-to-Video Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.26412" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.26412" target="_blank" rel="noopener">LoCoT2V-Bench: Benchmarking Long-Form and Complex Text-to-Video Generation</a></h3>
      <p class="summary">Recent advances in text-to-video generation have achieved impressive performance on short clips, yet evaluating long-form generation under…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="33b336140447" data-article-url="https://arxiv.org/abs/2511.04758" data-article-title="ScheduleStream: Temporal Planning with Samplers for GPU-Accelerated Multi-Arm Task and Motion Planning &amp; Scheduling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.04758" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.04758" target="_blank" rel="noopener">ScheduleStream: Temporal Planning with Samplers for GPU-Accelerated Multi-Arm Task and Motion Planning &amp; Scheduling</a></h3>
      <p class="summary">Bimanual and humanoid robots are appealing because of their human-like ability to leverage multiple arms to efficiently complete tasks. How…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1359b13a0d99" data-article-url="https://arxiv.org/abs/2511.10861" data-article-title="An accuracy-aware extension to LRP-based pruning for CNNs to prevent cascading accuracy degradation in data-scarce transfer learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.10861" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.10861" target="_blank" rel="noopener">An accuracy-aware extension to LRP-based pruning for CNNs to prevent cascading accuracy degradation in data-scarce transfer learning</a></h3>
      <p class="summary">Convolutional Neural Networks (CNNs) pre-trained on large-scale datasets such as ImageNet are widely used as feature extractors to construc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="88174b989563" data-article-url="https://arxiv.org/abs/2511.11703" data-article-title="Enhancing Reinforcement Learning in 3D Environments through Semantic Segmentation: A Case Study in ViZDoom" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.11703" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.11703" target="_blank" rel="noopener">Enhancing Reinforcement Learning in 3D Environments through Semantic Segmentation: A Case Study in ViZDoom</a></h3>
      <p class="summary">Reinforcement learning (RL) in 3D environments with high-dimensional sensory input poses two major challenges: (1) the high memory consumpt…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ebec54d80e62" data-article-url="https://arxiv.org/abs/2511.14426" data-article-title="MiAD: Mirage Atom Diffusion for De Novo Crystal Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.14426" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.14426" target="_blank" rel="noopener">MiAD: Mirage Atom Diffusion for De Novo Crystal Generation</a></h3>
      <p class="summary">In recent years, diffusion-based models have demonstrated exceptional performance in searching for simultaneously stable, unique, and novel…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c4c927c26767" data-article-url="https://arxiv.org/abs/2511.14584" data-article-title="ReflexGrad: Within-Episode Failure Recovery in LLM Agents via Progress-Gated Dual-Process Routing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.14584" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.14584" target="_blank" rel="noopener">ReflexGrad: Within-Episode Failure Recovery in LLM Agents via Progress-Gated Dual-Process Routing</a></h3>
      <p class="summary">We present ReflexGrad, a dual-process architecture for within-episode failure recovery in LLM agents without demonstrations. When agents co…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cc9f4030cfd3" data-article-url="https://arxiv.org/abs/2511.19316" data-article-title="Evaluating Dataset Watermarking for Fine-tuning Traceability of Customized Diffusion Models: A Comprehensive Benchmark and Removal Approach" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.19316" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.19316" target="_blank" rel="noopener">Evaluating Dataset Watermarking for Fine-tuning Traceability of Customized Diffusion Models: A Comprehensive Benchmark and Removal Approach</a></h3>
      <p class="summary">Recent fine-tuning techniques for diffusion models enable them to reproduce specific image sets, such as particular faces or artistic style…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e164de6bf12c" data-article-url="https://arxiv.org/abs/2512.00283" data-article-title="BioArc: Discovering Optimal Neural Architectures for Biological Foundation Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.00283" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.00283" target="_blank" rel="noopener">BioArc: Discovering Optimal Neural Architectures for Biological Foundation Models</a></h3>
      <p class="summary">Foundation models have revolutionized various fields such as natural language processing (NLP) and computer vision (CV). While efforts have…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ac7084e49a21" data-article-url="https://arxiv.org/abs/2512.01863" data-article-title="Topological Order in Neural Wavefunctions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.01863" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.01863" target="_blank" rel="noopener">Topological Order in Neural Wavefunctions</a></h3>
      <p class="summary">Topologically ordered states are among the most interesting quantum phases of matter that host emergent quasi-particles having fractional c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9070cc2c7a90" data-article-url="https://arxiv.org/abs/2512.03109" data-article-title="E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.03109" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.03109" target="_blank" rel="noopener">E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing</a></h3>
      <p class="summary">Agentic AI systems execute a sequence of actions, such as reasoning steps or tool calls, in response to a user prompt. To evaluate the succ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="955a9815b082" data-article-url="https://arxiv.org/abs/2512.04733" data-article-title="E3AD: An Emotion-Aware Vision-Language-Action Model for Human-Centric End-to-End Autonomous Driving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.04733" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.04733" target="_blank" rel="noopener">E3AD: An Emotion-Aware Vision-Language-Action Model for Human-Centric End-to-End Autonomous Driving</a></h3>
      <p class="summary">End-to-end autonomous driving (AD) systems increasingly adopt vision-language-action (VLA) models, yet they typically ignore the passenger&#x27;…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0abb8b283c72" data-article-url="https://arxiv.org/abs/2512.10388" data-article-title="The Best of the Two Worlds: Harmonizing Semantic and Hash IDs for Sequential Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.10388" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.10388" target="_blank" rel="noopener">The Best of the Two Worlds: Harmonizing Semantic and Hash IDs for Sequential Recommendation</a></h3>
      <p class="summary">Conventional Sequential Recommender Systems (SRS) typically assign unique hash IDs (HID) to construct item embeddings, which mainly capture…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3353a28eacf5" data-article-url="https://arxiv.org/abs/2512.11944" data-article-title="A Review of Learning-Based Motion Planning: Toward a Data-Driven Optimal Control Approach" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.11944" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.11944" target="_blank" rel="noopener">A Review of Learning-Based Motion Planning: Toward a Data-Driven Optimal Control Approach</a></h3>
      <p class="summary">Motion planning for autonomous driving (AD) faces a critical trade-off. While traditional rule-based pipelines offer verifiable safety and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1e838b090133" data-article-url="https://arxiv.org/abs/2512.14754" data-article-title="Revisiting the Reliability of Language Models in Instruction-Following" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.14754" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.14754" target="_blank" rel="noopener">Revisiting the Reliability of Language Models in Instruction-Following</a></h3>
      <p class="summary">Advanced LLMs have achieved near-ceiling instruction-following accuracy on benchmarks such as IFEval. However, these impressive scores do n…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f06c225911c" data-article-url="https://arxiv.org/abs/2512.15133" data-article-title="HD-Prot: A Protein Language Model for Joint Sequence-Structure Modeling with Continuous Structure Tokens" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.15133" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.15133" target="_blank" rel="noopener">HD-Prot: A Protein Language Model for Joint Sequence-Structure Modeling with Continuous Structure Tokens</a></h3>
      <p class="summary">Proteins inherently possess a consistent sequence-structure duality. The abundance of protein sequence data, which can be readily represent…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="31d87c8efca7" data-article-url="https://arxiv.org/abs/2601.01162" data-article-title="Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.01162" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.01162" target="_blank" rel="noopener">Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models</a></h3>
      <p class="summary">Qualitative data are widespread in domains such as healthcare, marketing, and bioinformatics, where clustering offers a fundamental tool fo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d782f74a5836" data-article-url="https://arxiv.org/abs/2601.04765" data-article-title="Differential syntactic and semantic encoding in LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.04765" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.04765" target="_blank" rel="noopener">Differential syntactic and semantic encoding in LLMs</a></h3>
      <p class="summary">We study how syntactic and semantic information is encoded in inner layer representations of Large Language Models (LLMs), focusing on the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8a680eadd5af" data-article-url="https://arxiv.org/abs/2601.07525" data-article-title="Thinking Before Constraining: A Unified Decoding Framework for Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.07525" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.07525" target="_blank" rel="noopener">Thinking Before Constraining: A Unified Decoding Framework for Large Language Models</a></h3>
      <p class="summary">Natural generation allows Large Language Models (LLMs) to produce free-form responses with rich reasoning, yet the lack of structure makes…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2c0499980158" data-article-url="https://arxiv.org/abs/2601.08654" data-article-title="From Rubrics to Reliable Scores: Evidence-Grounded Text Evaluation with LLM Judges" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.08654" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.08654" target="_blank" rel="noopener">From Rubrics to Reliable Scores: Evidence-Grounded Text Evaluation with LLM Judges</a></h3>
      <p class="summary">Rubric-based text evaluation increasingly uses large language models (LLMs) as scalable judges, but aligning frozen black-box models with h…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b3afaad4e4e7" data-article-url="https://arxiv.org/abs/2601.10960" data-article-title="Steering Language Models Before They Speak: Logit-Level Interventions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.10960" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.10960" target="_blank" rel="noopener">Steering Language Models Before They Speak: Logit-Level Interventions</a></h3>
      <p class="summary">Controllable generation requires language models to realize output characteristics such as reading level, politeness, and toxicity. Existin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79f500f14ea3" data-article-url="https://arxiv.org/abs/2601.13111" data-article-title="CORE-T: COherent REtrieval of Tables for Text-to-SQL" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.13111" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.13111" target="_blank" rel="noopener">CORE-T: COherent REtrieval of Tables for Text-to-SQL</a></h3>
      <p class="summary">Realistic text-to-SQL workflows often require joining multiple tables. As a result, accurately retrieving the relevant set of tables become…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="31dd38027ca8" data-article-url="https://arxiv.org/abs/2601.14758" data-article-title="Mechanism Shift During Post-training from Autoregressive to Masked Diffusion Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.14758" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.14758" target="_blank" rel="noopener">Mechanism Shift During Post-training from Autoregressive to Masked Diffusion Language Models</a></h3>
      <p class="summary">Post-training pretrained autoregressive models (ARMs) into masked diffusion models (MDMs) has emerged as a cost-effective way to overcome t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1b7f8991b071" data-article-url="https://arxiv.org/abs/2601.17670" data-article-title="Grammar-Aware Literate Generative Mathematical Programming with Compiler-in-the-Loop" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.17670" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.17670" target="_blank" rel="noopener">Grammar-Aware Literate Generative Mathematical Programming with Compiler-in-the-Loop</a></h3>
      <p class="summary">Mathematical programming is widely employed across various sectors - such as logistics, energy, and workforce planning - to model and solve…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="19ce91fc842e" data-article-url="https://arxiv.org/abs/2601.19947" data-article-title="NCSAM Noise-Compensated Sharpness-Aware Minimization for Noisy Label Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.19947" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.19947" target="_blank" rel="noopener">NCSAM Noise-Compensated Sharpness-Aware Minimization for Noisy Label Learning</a></h3>
      <p class="summary">Learning from Noisy Labels (LNL) remains a fundamental challenge in deep learning because real-world datasets often contain corrupted annot…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="97166a1d9f8f" data-article-url="https://arxiv.org/abs/2601.22139" data-article-title="Reasoning While Asking: Transforming Reasoning Large Language Models from Passive Solvers to Proactive Inquirers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.22139" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.22139" target="_blank" rel="noopener">Reasoning While Asking: Transforming Reasoning Large Language Models from Passive Solvers to Proactive Inquirers</a></h3>
      <p class="summary">Reasoning-oriented Large Language Models (LLMs) have achieved remarkable progress with Chain-of-Thought (CoT) prompting, yet they remain fu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="886031bc0753" data-article-url="https://arxiv.org/abs/2601.22347" data-article-title="Pushing the Limits of Block Rotations in Post-Training Quantization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.22347" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.22347" target="_blank" rel="noopener">Pushing the Limits of Block Rotations in Post-Training Quantization</a></h3>
      <p class="summary">Recent post-training quantization (PTQ) methods have adopted block rotations to diffuse outliers prior to rounding. While this reduces the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e1377afb6f56" data-article-url="https://arxiv.org/abs/2601.22531" data-article-title="Learn from A Rationalist: Distilling Intermediate Interpretable Rationales" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.22531" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.22531" target="_blank" rel="noopener">Learn from A Rationalist: Distilling Intermediate Interpretable Rationales</a></h3>
      <p class="summary">Because of the pervasive use of deep neural networks (DNNs), especially in high-stakes domains, the interpretability of DNNs has received i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="314cd36e604b" data-article-url="https://arxiv.org/abs/2602.01058" data-article-title="Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01058" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01058" target="_blank" rel="noopener">Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning</a></h3>
      <p class="summary">Post-training of reasoning LLMs is a holistic process that typically consists of an offline SFT stage followed by an online reinforcement l…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="559f0b5eb3f9" data-article-url="https://arxiv.org/abs/2602.02751" data-article-title="Scaling Small Agents Through Strategy Auctions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02751" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02751" target="_blank" rel="noopener">Scaling Small Agents Through Strategy Auctions</a></h3>
      <p class="summary">Small language models are increasingly viewed as a promising, cost-effective approach to agentic AI, with proponents claiming they are suff…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0fbdea6318e9" data-article-url="https://arxiv.org/abs/2602.07044" data-article-title="PipeMFL-240K: パイプラインの磁束漏れイメージングにおける物体検出のための大規模データセットおよびベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.07044" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.07044" target="_blank" rel="noopener">PipeMFL-240K: パイプラインの磁束漏れイメージングにおける物体検出のための大規模データセットおよびベンチマーク</a></h3>
      <p class="summary">パイプラインの完全性は産業安全と環境保護にとって重要であり、磁束漏れ (MFL) 検出は主要な非破壊検査技術です。 MFL解釈を自動化するためのディープラーニングの期待にもかかわらず、信頼性の高いモデルへの進歩は、大規模な公開データセットとベンチマークの欠如によって制約されており、公正な比較と再現可能な評価が困難になっています。 \textbf{PipeMFL-240K} は、パイプライン MFL 擬似カラー画像における複雑なオブジェクト検出のための、細心の注意を払って注釈が付けられた大規模なデータセットおよびベンチマークです。 PipeMFL-240K は、現実世界の検査の複雑さを反映しており、次のようないくつかの特有の課題を提起しています。(i) \textbf{12} カテゴリにわたる極めて長い裾野の分布、(ii) 多くの場合、数ピクセルのみで構成されている小さなオブジェクトの蔓延、および (iii) 大幅なクラス内変動。データセットには、約 \textbf{1,530} km にわたる 12 のパイプラインから収集された \textbf{249,320} 個の画像と \textbf{200,020} 個の高品質境界ボックス アノテーションが含まれています。ベースラインを確立するために、最先端の物体検出器を使用して広範な実験が行われます。結果は、最新の検出器が依然として MFL データの固有の特性に苦戦していることを示しており、改善の余地がかなりあることが強調されていますが、PipeMFL-240K は将来の研究を推進するための信頼性が高く、挑戦的なテストベッドを提供します。これは、パイプライン MFL 検査のこの規模と範囲における最初の公開データセットおよび最初のベンチマークとして、効率的なパイプライン診断とメンテナンス計画のための重要な基盤を提供し、MFL ベースのパイプライン完全性評価におけるアルゴリズムの革新と再現可能な研究を加速することが期待されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PipeMFL-240K: A Large-scale Dataset and Benchmark for Object Detection in Pipeline Magnetic Flux Leakage Imaging</p>
        <p class="orig-summary">Pipeline integrity is critical to industrial safety and environmental protection, with Magnetic Flux Leakage (MFL) detection being a primary non-destructive testing technology. Despite the promise of deep learning for automating MFL interpretation, progress toward reliable models has been constrained by the absence of a large-scale public dataset and benchmark, making fair comparison and reproducible evaluation difficult. We introduce \textbf{PipeMFL-240K}, a large-scale, meticulously annotated dataset and benchmark for complex object detection in pipeline MFL pseudo-color images. PipeMFL-240K reflects real-world inspection complexity and poses several unique challenges: (i) an extremely long-tailed distribution over \textbf{12} categories, (ii) a high prevalence of tiny objects that often comprise only a handful of pixels and (iii) substantial intra-class variability. The dataset contains \textbf{249,320} images and \textbf{200,020} high-quality bounding-box annotations, collected from 12 pipelines spanning approximately \textbf{1,530} km. Extensive experiments are conducted with state-of-the-art object detectors to establish baselines. Results show that modern detectors still struggle with the intrinsic properties of MFL data, highlighting considerable headroom for improvement, while PipeMFL-240K provides a reliable and challenging testbed to drive future research. As the first public dataset and the first benchmark of this scale and scope for pipeline MFL inspection, it provides a critical foundation for efficient pipeline diagnostics as well as maintenance planning and is expected to accelerate algorithmic innovation and reproducible research in MFL-based pipeline integrity assessment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="977019607f48" data-article-url="https://arxiv.org/abs/2602.10388" data-article-title="Less is Enough: Synthesizing Diverse Data in LLM Feature Space with Sparse Autoencoders" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.10388" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.10388" target="_blank" rel="noopener">Less is Enough: Synthesizing Diverse Data in LLM Feature Space with Sparse Autoencoders</a></h3>
      <p class="summary">The diversity of post-training data is critical for effective downstream performance in large language models (LLMs). Many existing approac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="865218287875" data-article-url="https://arxiv.org/abs/2602.11065" data-article-title="S-MARC: Causal Streaming Reasoning for Full-Duplex Conversational Behavior Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.11065" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.11065" target="_blank" rel="noopener">S-MARC: Causal Streaming Reasoning for Full-Duplex Conversational Behavior Modeling</a></h3>
      <p class="summary">Human conversation is organized by an implicit chain of thought and manifests as temporally structured conversational behaviors. Capturing…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4699545b6742" data-article-url="https://arxiv.org/abs/2602.11171" data-article-title="A Language-Guided Bayesian Optimization for Efficient LoRA Hyperparameter Search" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.11171" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.11171" target="_blank" rel="noopener">A Language-Guided Bayesian Optimization for Efficient LoRA Hyperparameter Search</a></h3>
      <p class="summary">Fine-tuning Large Language Models (LLMs) with Low-Rank Adaptation (LoRA) offers a resource-efficient way to personalize or specialize. Howe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b084eaf58923" data-article-url="https://arxiv.org/abs/2602.12304" data-article-title="OmniCustom: Sync Audio-Video Customization Via Joint Audio-Video Generation Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.12304" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.12304" target="_blank" rel="noopener">OmniCustom: Sync Audio-Video Customization Via Joint Audio-Video Generation Model</a></h3>
      <p class="summary">Existing mainstream video customization methods focus on generating identity-consistent videos based on given reference images and textual…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c8e19f4bd4cd" data-article-url="https://arxiv.org/abs/2602.12642" data-article-title="Beyond Normalization: Rethinking the Partition Function as a Difficulty Scheduler for RLVR" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.12642" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.12642" target="_blank" rel="noopener">Beyond Normalization: Rethinking the Partition Function as a Difficulty Scheduler for RLVR</a></h3>
      <p class="summary">Reward-maximizing RL methods have shown to be capable of enhancing the reasoning performance of LLMs, but often lead to reduced generation…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e77930fc47e9" data-article-url="https://arxiv.org/abs/2602.16449" data-article-title="GICDM: Mitigating Hubness for Reliable Distance-Based Generative Model Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.16449" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.16449" target="_blank" rel="noopener">GICDM: Mitigating Hubness for Reliable Distance-Based Generative Model Evaluation</a></h3>
      <p class="summary">Generative model evaluation commonly relies on high-dimensional embedding spaces to compute distances between samples. We show that dataset…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3df7c95f1a6e" data-article-url="https://arxiv.org/abs/2602.16610" data-article-title="Who can we trust? LLM-as-a-jury for Comparative Assessment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.16610" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.16610" target="_blank" rel="noopener">Who can we trust? LLM-as-a-jury for Comparative Assessment</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly applied as automatic evaluators for natural language generation assessment often using pairwi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="189ba4c5a897" data-article-url="https://arxiv.org/abs/2602.18527" data-article-title="JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.18527" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.18527" target="_blank" rel="noopener">JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments</a></h3>
      <p class="summary">Current audio-visual large language models (AV-LLMs) are predominantly restricted to 2D perception, relying on RGB video and monaural audio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f0d92c6667e4" data-article-url="https://arxiv.org/abs/2603.00454" data-article-title="Rooted Absorbed Prefix Trajectory Balance with Submodular Replay for GFlowNet Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.00454" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.00454" target="_blank" rel="noopener">Rooted Absorbed Prefix Trajectory Balance with Submodular Replay for GFlowNet Training</a></h3>
      <p class="summary">Generative Flow Networks (GFlowNets) enable fine-tuning large language models to approximate reward-proportional posteriors, but they remai…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fb39e38fead6" data-article-url="https://arxiv.org/abs/2603.01006" data-article-title="AG-REPA: Causal Layer Selection for Representation Alignment in Audio Flow Matching" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.01006" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.01006" target="_blank" rel="noopener">AG-REPA: Causal Layer Selection for Representation Alignment in Audio Flow Matching</a></h3>
      <p class="summary">REPresentation Alignment (REPA) improves the training of generative flow models by aligning intermediate hidden states with pretrained teac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="92ff9712329f" data-article-url="https://arxiv.org/abs/2603.03805" data-article-title="Relational In-Context Learning via Synthetic Pre-training with Structural Prior" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.03805" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.03805" target="_blank" rel="noopener">Relational In-Context Learning via Synthetic Pre-training with Structural Prior</a></h3>
      <p class="summary">Relational Databases (RDBs) are the backbone of modern business, yet they lack foundation models comparable to those in text or vision. A k…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="31c7f118958b" data-article-url="https://arxiv.org/abs/2603.04314" data-article-title="MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.04314" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.04314" target="_blank" rel="noopener">MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification</a></h3>
      <p class="summary">Animal re-identification (ReID) faces critical challenges due to viewpoint variations, particularly in Aerial-Ground (AG-ReID) settings whe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8e1be02a730c" data-article-url="https://arxiv.org/abs/2603.04678" data-article-title="Post-Training Language Models for Crosslingual Consistency" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.04678" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.04678" target="_blank" rel="noopener">Post-Training Language Models for Crosslingual Consistency</a></h3>
      <p class="summary">Language models often respond inconsistently to translation-equivalent prompts across languages, undermining the reliability of multilingua…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a6ae8b8ae17" data-article-url="https://arxiv.org/abs/2603.05488" data-article-title="Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.05488" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.05488" target="_blank" rel="noopener">Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought</a></h3>
      <p class="summary">We provide evidence of performative chain-of-thought (CoT) in reasoning models, where a model becomes strongly confident in its final answe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="264d5adab38c" data-article-url="https://arxiv.org/abs/2603.11331" data-article-title="Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.11331" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.11331" target="_blank" rel="noopener">Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover</a></h3>
      <p class="summary">Adversarial attacks can reliably steer safety-aligned large language models toward unsafe behavior. Empirically, we find that adversarial p…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4c8a96f33b6f" data-article-url="https://arxiv.org/abs/2603.13249" data-article-title="Steering at the Source: Style Modulation Heads for Robust Persona Control" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.13249" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.13249" target="_blank" rel="noopener">Steering at the Source: Style Modulation Heads for Robust Persona Control</a></h3>
      <p class="summary">Activation steering offers a computationally efficient mechanism for controlling Large Language Models (LLMs) without fine-tuning. While ef…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0cd6e2ff55ed" data-article-url="https://arxiv.org/abs/2603.14778" data-article-title="P$^2$RAG: Efficient Privacy-Preserving RAG Service Supporting Arbitrary Top-$k$ Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.14778" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.14778" target="_blank" rel="noopener">P$^2$RAG: Efficient Privacy-Preserving RAG Service Supporting Arbitrary Top-$k$ Retrieval</a></h3>
      <p class="summary">Retrieval-Augmented Generation (RAG) enables large language models to use external knowledge, but outsourcing the RAG service raises privac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8d355a4853a8" data-article-url="https://arxiv.org/abs/2603.16673" data-article-title="When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.16673" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.16673" target="_blank" rel="noopener">When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making</a></h3>
      <p class="summary">Embodied robotic systems increasingly rely on large language model (LLM)-based agents to support high-level reasoning, planning, and decisi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c111d9a4dd9b" data-article-url="https://arxiv.org/abs/2603.19294" data-article-title="Maximizing Mutual Information Between Prompt and Response Improves LLM Performance With No Additional Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.19294" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.19294" target="_blank" rel="noopener">Maximizing Mutual Information Between Prompt and Response Improves LLM Performance With No Additional Data</a></h3>
      <p class="summary">While post-training has successfully improved large language models (LLMs) across a variety of domains, these gains heavily rely on human-l…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="12e4ab560378" data-article-url="https://arxiv.org/abs/2603.23069" data-article-title="AuthorMix: Modular Authorship Style Transfer via Layer-wise Adapter Mixing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23069" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23069" target="_blank" rel="noopener">AuthorMix: Modular Authorship Style Transfer via Layer-wise Adapter Mixing</a></h3>
      <p class="summary">The task of authorship style transfer involves rewriting text in the style of a target author while preserving the meaning of the original…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3af4ea183956" data-article-url="https://arxiv.org/abs/2603.23971" data-article-title="The Price Reversal Phenomenon: When Cheaper Reasoning Models Cost More" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.23971" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.23971" target="_blank" rel="noopener">The Price Reversal Phenomenon: When Cheaper Reasoning Models Cost More</a></h3>
      <p class="summary">Developers and consumers increasingly choose reasoning models (RMs) based on their listed API prices. However, how accurately do these pric…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="25ec4679711f" data-article-url="https://arxiv.org/abs/2603.26668" data-article-title="Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.26668" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.26668" target="_blank" rel="noopener">Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm</a></h3>
      <p class="summary">As an important paradigm for enhancing the generation quality of Large Language Models (LLMs), retrieval-augmented generation (RAG) faces t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ee421150e9c9" data-article-url="https://arxiv.org/abs/2603.27052" data-article-title="Multi-Level Barriers to Generative AI Adoption Across Disciplines and Professional Roles in Higher Education" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.27052" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.27052" target="_blank" rel="noopener">Multi-Level Barriers to Generative AI Adoption Across Disciplines and Professional Roles in Higher Education</a></h3>
      <p class="summary">Generative Artificial Intelligence (GenAI) is rapidly reshaping higher education, yet barriers to its adoption across different disciplines…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5f54570e3cf2" data-article-url="https://arxiv.org/abs/2603.27667" data-article-title="EvA: An Evidence-First Audio Understanding Paradigm for LALMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.27667" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.27667" target="_blank" rel="noopener">EvA: An Evidence-First Audio Understanding Paradigm for LALMs</a></h3>
      <p class="summary">Large Audio Language Models (LALMs) still struggle in complex acoustic scenes because they often fail to preserve task-relevant acoustic ev…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="efe8b8e08150" data-article-url="https://arxiv.org/abs/2604.01473" data-article-title="SelfGrader: LLM Jailbreak Detection via Anchored Token-Level Logits" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.01473" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.01473" target="_blank" rel="noopener">SelfGrader: LLM Jailbreak Detection via Anchored Token-Level Logits</a></h3>
      <p class="summary">Large Language Models (LLMs) are powerful tools for answering user queries, yet they remain highly vulnerable to jailbreak attacks. Existin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b46947d6b075" data-article-url="https://arxiv.org/abs/2604.01904" data-article-title="Combating Data Laundering in LLM Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.01904" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.01904" target="_blank" rel="noopener">Combating Data Laundering in LLM Training</a></h3>
      <p class="summary">Data rights owners can detect unauthorized data use in large language model (LLM) training by querying with proprietary samples. Often, sup…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4b4bf2674358" data-article-url="https://arxiv.org/abs/2604.04956" data-article-title="The Planetary Cost of AI Acceleration, Part II: The 10th Planetary Boundary and the 6.5-Year Countdown" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.04956" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.04956" target="_blank" rel="noopener">The Planetary Cost of AI Acceleration, Part II: The 10th Planetary Boundary and the 6.5-Year Countdown</a></h3>
      <p class="summary">The recent, super-exponential scaling of autonomous Large Language Model (LLM) agents signals a broader, fundamental paradigm shift from ma…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a5410f7894b5" data-article-url="https://arxiv.org/abs/2604.06811" data-article-title="SkillTrojan: Backdoor Attacks on Skill-Based Agent Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.06811" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.06811" target="_blank" rel="noopener">SkillTrojan: Backdoor Attacks on Skill-Based Agent Systems</a></h3>
      <p class="summary">Skill-based agent systems tackle complex tasks by composing reusable skills, improving modularity and scalability while introducing a large…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2e0b310dcadd" data-article-url="https://arxiv.org/abs/2604.09557" data-article-title="SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.09557" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.09557" target="_blank" rel="noopener">SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding</a></h3>
      <p class="summary">Speculative Decoding (SD) has emerged as a critical technique for accelerating Large Language Model (LLM) inference. Unlike deterministic s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f394c7db7904" data-article-url="https://arxiv.org/abs/2604.11080" data-article-title="ReSpinQuant: Efficient Layer-Wise LLM Quantization via Subspace Residual Rotation Approximation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.11080" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.11080" target="_blank" rel="noopener">ReSpinQuant: Efficient Layer-Wise LLM Quantization via Subspace Residual Rotation Approximation</a></h3>
      <p class="summary">Rotation-based Post-Training Quantization (PTQ) has emerged as a promising solution for mitigating activation outliers in the quantization…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a6ba67c4c12" data-article-url="https://arxiv.org/abs/2604.17176" data-article-title="Intent-aligned Autonomous Spacecraft Guidance via Reasoning Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.17176" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.17176" target="_blank" rel="noopener">Intent-aligned Autonomous Spacecraft Guidance via Reasoning Models</a></h3>
      <p class="summary">Future spacecraft operations require autonomy that can interpret high-level mission intent while preserving safety. However, existing traje…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9b98aa013799" data-article-url="https://arxiv.org/abs/2604.19532" data-article-title="BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.19532" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.19532" target="_blank" rel="noopener">BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps</a></h3>
      <p class="summary">Tokenizing music to fit the general framework of language models is a compelling challenge, especially considering the diverse symbolic str…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a041e9afab9f" data-article-url="https://arxiv.org/abs/2604.20443" data-article-title="DialToM: A Theory of Mind Benchmark for Forecasting State-Driven Dialogue Trajectories" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.20443" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.20443" target="_blank" rel="noopener">DialToM: A Theory of Mind Benchmark for Forecasting State-Driven Dialogue Trajectories</a></h3>
      <p class="summary">We introduce DialToM, an annotated Theory of Mind (ToM) benchmark built from naturalistic human-human dialogues using a multiple-choice eva…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e6a9df0e4957" data-article-url="https://arxiv.org/abs/2604.21654" data-article-title="Causal Disentanglement-Inspired Degradation Representation Learning for Full-Reference Image Quality Assessment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.21654" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.21654" target="_blank" rel="noopener">Causal Disentanglement-Inspired Degradation Representation Learning for Full-Reference Image Quality Assessment</a></h3>
      <p class="summary">Existing deep network-based full-reference image quality assessment (FR-IQA) models typically work by performing pairwise comparisons of de…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="729dee9e73e4" data-article-url="https://arxiv.org/abs/2604.23256" data-article-title="Architecture-Induced Recoverability Bias in Differentiable Symbolic Regression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.23256" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.23256" target="_blank" rel="noopener">Architecture-Induced Recoverability Bias in Differentiable Symbolic Regression</a></h3>
      <p class="summary">Symbolic regression aims to recover closed-form expressions from numerical data, but in differentiable symbolic regression the recovered ex…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8246c21c8113" data-article-url="https://arxiv.org/abs/2604.23354" data-article-title="Explainable AI in Speaker Recognition -- Making Latent Representations Understandable" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.23354" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.23354" target="_blank" rel="noopener">Explainable AI in Speaker Recognition -- Making Latent Representations Understandable</a></h3>
      <p class="summary">Neural networks can be trained to learn task-relevant representations from data. Understanding how these networks make decisions falls with…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f3878fd9027" data-article-url="https://arxiv.org/abs/2604.23862" data-article-title="Graph Memory Transformer (GMT)" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.23862" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.23862" target="_blank" rel="noopener">Graph Memory Transformer (GMT)</a></h3>
      <p class="summary">We investigate whether the Feed-Forward Network (FFN) sublayer in a decoder-only transformer can be replaced by an explicit learned memory…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d7668ae0e20e" data-article-url="https://arxiv.org/abs/2604.27272" data-article-title="When 2D Tasks Meet 1D Serialization: On Serialization Friction in Structured Tasks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.27272" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.27272" target="_blank" rel="noopener">When 2D Tasks Meet 1D Serialization: On Serialization Friction in Structured Tasks</a></h3>
      <p class="summary">In the LLM era, many symbolic and structured problems are presented to models through 1D text serialization. Yet some such problems are nat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="070c697df331" data-article-url="https://arxiv.org/abs/2605.00969" data-article-title="MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.00969" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.00969" target="_blank" rel="noopener">MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio</a></h3>
      <p class="summary">Medical audio data is difficult to collect due to privacy regulations and high annotation costs arising from domain expertise. Thus, existi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f64c717c3786" data-article-url="https://arxiv.org/abs/2605.05155" data-article-title="Aes3D: Aesthetic Assessment in 3D Gaussian Splatting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.05155" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.05155" target="_blank" rel="noopener">Aes3D: Aesthetic Assessment in 3D Gaussian Splatting</a></h3>
      <p class="summary">As 3D Gaussian Splatting (3DGS) gains attention in immersive media and digital content creation, assessing the aesthetics of 3D scenes beco…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d63b3a04cc35" data-article-url="https://arxiv.org/abs/2605.07804" data-article-title="Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.07804" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.07804" target="_blank" rel="noopener">Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning</a></h3>
      <p class="summary">On-policy distillation (OPD) leverages dense teacher rewards to enhance reasoning models. However, scaling OPD to long-horizon tasks expose…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="678aadbe0234" data-article-url="https://arxiv.org/abs/2605.09823" data-article-title="CalBench: Evaluating Coordination-Privacy Trade-offs in Multi-Agent LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.09823" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.09823" target="_blank" rel="noopener">CalBench: Evaluating Coordination-Privacy Trade-offs in Multi-Agent LLMs</a></h3>
      <p class="summary">Personal AI assistants are beginning to act as delegates with access to calendars, inboxes, and user preferences. Calendar scheduling makes…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="08e2e468be0a" data-article-url="https://arxiv.org/abs/2605.11723" data-article-title="CaC: Advancing Video Reward Models via Hierarchical Spatiotemporal Concentrating" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.11723" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.11723" target="_blank" rel="noopener">CaC: Advancing Video Reward Models via Hierarchical Spatiotemporal Concentrating</a></h3>
      <p class="summary">In this paper, we propose Concentrate and Concentrate (CaC), a coarse-to-fine anomaly reward model based on Vision-Language Models. During…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dc112df858bb" data-article-url="https://arxiv.org/abs/2605.12208" data-article-title="Self-Supervised Laplace Approximation for Bayesian Uncertainty Quantification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.12208" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.12208" target="_blank" rel="noopener">Self-Supervised Laplace Approximation for Bayesian Uncertainty Quantification</a></h3>
      <p class="summary">Approximate Bayesian inference typically revolves around computing the posterior parameter distribution. In practice, however, the main obj…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="869fcc64eef0" data-article-url="https://arxiv.org/abs/2605.12925" data-article-title="AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.12925" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.12925" target="_blank" rel="noopener">AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation</a></h3>
      <p class="summary">Here is the updated abstract: Evaluation of software engineering (SWE) agents is dominated by a binary signal: whether the final patch pass…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3d105d3a7084" data-article-url="https://arxiv.org/abs/2605.13230" data-article-title="Teacher-Guided Policy Optimization for On-Policy Reasoning Distillation under Large Policy Divergence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13230" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13230" target="_blank" rel="noopener">Teacher-Guided Policy Optimization for On-Policy Reasoning Distillation under Large Policy Divergence</a></h3>
      <p class="summary">On-policy distillation (OPD) has become a promising paradigm for reasoning-oriented post-training of large language models (LLMs), especial…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c75c876c1ef6" data-article-url="https://arxiv.org/abs/2605.13511" data-article-title="Many-Shot CoT-ICL: Making In-Context Learning Truly Learn" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13511" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13511" target="_blank" rel="noopener">Many-Shot CoT-ICL: Making In-Context Learning Truly Learn</a></h3>
      <p class="summary">While many-shot ICL achieves remarkable performance, prior studies of its scaling behavior have mainly focused on non-reasoning tasks. In t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4b4b7a05b20" data-article-url="https://arxiv.org/abs/2605.13548" data-article-title="AttenA+: Rectifying Action Inequality in Robotic Foundation Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13548" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13548" target="_blank" rel="noopener">AttenA+: Rectifying Action Inequality in Robotic Foundation Models</a></h3>
      <p class="summary">Existing robotic foundation models, while powerful, are predicated on an implicit assumption of temporal homogeneity: treating all actions…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="57cdec68dbb7" data-article-url="https://arxiv.org/abs/2605.13841" data-article-title="EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13841" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13841" target="_blank" rel="noopener">EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents</a></h3>
      <p class="summary">Voice agents, artificial intelligence systems that conduct spoken conversations to complete tasks, are increasingly deployed across enterpr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a0639ad90a0b" data-article-url="https://arxiv.org/abs/2605.14113" data-article-title="ProtoMedAgent: Multimodal Clinical Interpretability via Privacy-Aware Agentic Workflows" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.14113" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.14113" target="_blank" rel="noopener">ProtoMedAgent: Multimodal Clinical Interpretability via Privacy-Aware Agentic Workflows</a></h3>
      <p class="summary">While interpretable prototype networks offer compelling case-based reasoning for clinical diagnostics, their raw continuous outputs lack th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2f3b402a57de" data-article-url="https://arxiv.org/abs/2605.14373" data-article-title="Turning Stale Gradients into Stable Gradients: Coherent Coordinate Descent with Implicit Landscape Smoothing for Lightweight Zeroth-Order Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.14373" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.14373" target="_blank" rel="noopener">Turning Stale Gradients into Stable Gradients: Coherent Coordinate Descent with Implicit Landscape Smoothing for Lightweight Zeroth-Order Optimization</a></h3>
      <p class="summary">Zeroth-Order (ZO) optimization is pivotal for scenarios where backpropagation is unavailable, such as memory-constrained on-device learning…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d4bb74eb12a5" data-article-url="https://arxiv.org/abs/2605.16385" data-article-title="Hilbert-Geo: Solving Solid Geometric Problems by Neural-Symbolic Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.16385" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.16385" target="_blank" rel="noopener">Hilbert-Geo: Solving Solid Geometric Problems by Neural-Symbolic Reasoning</a></h3>
      <p class="summary">Geometric problem solving, as a typical multimodal reasoning problem, has attracted much attention and made great progress recently, howeve…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="36852a660e8f" data-article-url="https://arxiv.org/abs/2605.16825" data-article-title="Echoes in Filter Bubble: Diagnosing and Curing Popularity Bias in Generative Recommenders" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.16825" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.16825" target="_blank" rel="noopener">Echoes in Filter Bubble: Diagnosing and Curing Popularity Bias in Generative Recommenders</a></h3>
      <p class="summary">Recently, Generative Recommenders (GRs), characterized by a unified end-to-end framework, have exhibited astonishing potential in transform…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4949767c50d9" data-article-url="https://arxiv.org/abs/2605.22080" data-article-title="JMed48k: A Multi-Profession Japanese Medical Licensing Benchmark for Vision-Language Model Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.22080" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.22080" target="_blank" rel="noopener">JMed48k: A Multi-Profession Japanese Medical Licensing Benchmark for Vision-Language Model Evaluation</a></h3>
      <p class="summary">We introduce JMed48k, a multi-profession Japanese healthcare licensing benchmark for evaluating vision-language models. Built from official…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="153a49a9cda7" data-article-url="https://arxiv.org/abs/2605.22737" data-article-title="The Distillation Game: Adaptive Attacks &amp; Efficient Defenses" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.22737" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.22737" target="_blank" rel="noopener">The Distillation Game: Adaptive Attacks &amp; Efficient Defenses</a></h3>
      <p class="summary">Distillation attacks create a deployment trade-off for model providers: the same outputs that make a model more useful can also make it eas…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a9f5a2f0ad2e" data-article-url="https://arxiv.org/abs/2605.22771" data-article-title="Reducing Political Manipulation with Consistency Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.22771" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.22771" target="_blank" rel="noopener">Reducing Political Manipulation with Consistency Training</a></h3>
      <p class="summary">Large language models (LLMs) exhibit systematic political bias across a variety of sensitive contexts. We find that LLMs handle counterpart…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7c28c8b9f3f7" data-article-url="https://arxiv.org/abs/2605.23440" data-article-title="SSDAU: 結合エンティティと関係抽出のための構造化セマンティック データ拡張" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.23440" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.23440" target="_blank" rel="noopener">SSDAU: 結合エンティティと関係抽出のための構造化セマンティック データ拡張</a></h3>
      <p class="summary">Joint Entity and Relation Extraction (JERE) は、低品質のトレーニング データにより弱い一般化の影響を非常に受けやすくなります。データ拡張は、さまざまなドメインにわたるモデルの一般化を強化するための一般的な戦略です。ただし、既存のデータ拡張手法ではテキストの関連性が見落とされることが多く、意味構造や依存関係が破壊される可能性があるため、モデルの一般化を改善するための効果的な拡張データを生成することが困難になります。この論文では、拡張中にテキストの意味構造を保持するように設計された新しい方法である構造化意味データ拡張 (SSDAU) を提案します。 SSDAU はエンティティ ラベルに基づいてテキストをセグメント化し、エンコーダを使用してコンテキスト認識を通じてエンティティの意味論的特徴をキャプチャします。次に、エンティティのセマンティック再構築を実行して拡張データを生成します。意味的に類似したエンティティを区別するために、SSDAU はコンテキスト化された埋め込みと従来の類似性スコアを融合します。潜在的なトピックのあいまいさと情報損失を軽減するために、BERTTopic モデルを適用して無関係なトピックを除外し、トピックの一貫性を確保します。さまざまなアノテーション タイプを持つデータセットで SSDAU を評価し、5 つの代表的な JERE モデルでのパフォーマンスを 7 つの一般的なデータ拡張ベースラインと比較します。実験では、SSDAU が曖昧さに対して優れた堅牢性を備えた意味的に一貫したデータを生成し (F1 の減少が 8.26\% 対ベースラインの \ 31.91\%)、すべてのメトリクスにわたって既存のすべての方法を大幅に上回っていることが実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SSDAU: Structured Semantic Data Augmentation for Joint Entity and Relation Extraction</p>
        <p class="orig-summary">Joint Entity and Relation Extraction (JERE) is highly sensitive to training data quality, making data augmentation a natural way to improve generalization. However, existing augmentation methods often weaken entity relevance and disrupt semantic structure, limiting their effectiveness for JERE. In this paper, we propose \textbf{Structured Semantic Data Augmentation (SSDAU)}, a method designed to preserve triple-aware semantic structure during augmentation. SSDAU segments text by entity labels, captures semantic features through context-aware encoding, and restructures entity semantics to generate augmented data. To distinguish semantically similar entities, SSDAU combines contextualized embeddings with traditional similarity scores. To reduce topic inconsistency, we apply BERTopic-based filtering to remove irrelevant augmentations. We evaluate SSDAU on datasets with different annotation types and compare its performance on five representative JERE models against seven popular augmentation baselines. Experiments show that SSDAU generates semantically consistent data, is more robust to ambiguity than non-LLM methods (8.95\% vs. 23.58\% average relative F1 decrease), and significantly outperforms strong alternatives in most settings.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b0c2bc2b381f" data-article-url="https://arxiv.org/abs/2605.23993" data-article-title="Nano World モデル: 未来のビデオ予測のミニマリスト的な実装" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.23993" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.23993" target="_blank" rel="noopener">Nano World モデル: 未来のビデオ予測のミニマリスト的な実装</a></h3>
      <p class="summary">世界モデルは、生成、計画、意思決定をサポートする予測シミュレーターを学習するための中心的なパラダイムとなっています。しかし、業界規模のインタラクティブビデオ生成が急速に進歩しているにもかかわらず、広範な研究コミュニティには、現代の世界モデルの基礎となる設計の選択を研究するための、コンパクトで再現性があり、容易に拡張可能な実装がまだ不足しています。拡散強制を中心とした将来のビデオ予測のための最小限のコードベースである Nano World Models を紹介します。 Nano World Models は、生成目標、モデル スケール、アクション条件付けメカニズム、潜在観察空間、データセット、評価プロトコル、および長期的なロールアウト手順のための統一インターフェイスを提供します。この設計により、別々の実装にまたがって絡み合うことが多いワールド モデリング コンポーネントの制御された研究が可能になります。単純な制御環境、ゲーム シミュレーション、実際のロボット データにわたる実験を通じて、予測パラメータ化、アーキテクチャ スケール、アクション インジェクション、サンプリング バジェット、ドメインの複雑さがビデオ予測の品質と自己回帰ロールアウトの動作にどのように影響するかを調査します。 Nano World Models は、コード、構成、評価スクリプト、事前トレーニング済みチェックポイントをリリースすることにより、オープンで再現可能な科学的なワールド モデル研究のための、コンパクトでありながら拡張可能な実験基盤を提供することを目指しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Nano World Models: A Minimalist Implementation of Future Video Prediction</p>
        <p class="orig-summary">World models have become a central paradigm for learning predictive simulators that support generation, planning, and decision-making. Yet, despite rapid progress in industry-scale interactive video generation, the broader research community still lacks compact, reproducible, and easily extensible implementations for studying the design choices underlying modern world models. We introduce Nano World Models, a minimalist codebase for future video prediction centered around diffusion forcing. Nano World Models provides a unified interface for generative objectives, model scales, action-conditioning mechanisms, latent observation spaces, datasets, evaluation protocols, and long-horizon rollout procedures. This design enables controlled studies of world-modeling components that are often entangled across separate implementations. Through experiments across simple control environments, game simulation, and real-robot data, we examine how prediction parameterization, architecture scale, action injection, sampling budget, and domain complexity affect video prediction quality and autoregressive rollout behavior. By releasing code, configurations, evaluation scripts, and pretrained checkpoints, Nano World Models aims to provide a compact yet extensible experimental substrate for open, reproducible, and scientific world-model research.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="32b97aa7ad36" data-article-url="https://arxiv.org/abs/2605.24460" data-article-title="Coarse-to-Fine Domain Incremental Learning with Attentive Distillation for Mining Footprint Segmentation in Multispectral Imagery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24460" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24460" target="_blank" rel="noopener">Coarse-to-Fine Domain Incremental Learning with Attentive Distillation for Mining Footprint Segmentation in Multispectral Imagery</a></h3>
      <p class="summary">Automatically mapping and segmenting global mining footprints using remote sensing and deep learning is critical for monitoring the socio-e…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f0bb6a043c25" data-article-url="https://arxiv.org/abs/2605.24846" data-article-title="Tiny Brains, Giant Impact: Uncovering the Keystone Neurons of LLM with Just a Few Prompts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24846" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24846" target="_blank" rel="noopener">Tiny Brains, Giant Impact: Uncovering the Keystone Neurons of LLM with Just a Few Prompts</a></h3>
      <p class="summary">Large language models (LLMs) display strong comprehensive abilities, yet the internal mechanisms that support these behaviors remain insuff…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b574aae0cae5" data-article-url="https://arxiv.org/abs/2605.24934" data-article-title="HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24934" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24934" target="_blank" rel="noopener">HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos</a></h3>
      <p class="summary">Human egocentric video captures rich manipulation demonstrations without any robot hardware, yet transferring these skills to robots remain…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bdfe23b8b153" data-article-url="https://arxiv.org/abs/2605.25134" data-article-title="Theoretical Analysis of Sparse Optimization with Reparameterization, Weight Decay, and Adaptive Learning Rate" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25134" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25134" target="_blank" rel="noopener">Theoretical Analysis of Sparse Optimization with Reparameterization, Weight Decay, and Adaptive Learning Rate</a></h3>
      <p class="summary">Sparse optimization is a fundamental challenge in various practical applications. A popular approach to sparse optimization is $\ell_p$ reg…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="370bea366f2a" data-article-url="https://arxiv.org/abs/2605.25297" data-article-title="Eureka: Intelligent Feature Engineering for Enterprise AI Cloud Resource Demand Prediction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/alibaba/" data-entity="alibaba">Alibaba</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25297" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25297" target="_blank" rel="noopener">Eureka: Intelligent Feature Engineering for Enterprise AI Cloud Resource Demand Prediction</a></h3>
      <p class="summary">Effective features are crucial for predictive model performance, but creating them often requires domain expertise, limiting scalability ac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="63519edfa6ec" data-article-url="https://arxiv.org/abs/2605.25376" data-article-title="KYA: A Framework-Agnostic Trust Layer for Autonomous Systems with Verifiable Provenance and Hierarchical Policy Composition" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25376" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25376" target="_blank" rel="noopener">KYA: A Framework-Agnostic Trust Layer for Autonomous Systems with Verifiable Provenance and Hierarchical Policy Composition</a></h3>
      <p class="summary">KYA (Know Your Agents) is an open-source, framework-agnostic trust and governance layer for autonomous systems, composed of five primitives…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="37879b75b67b" data-article-url="https://arxiv.org/abs/2605.25413" data-article-title="Autoregression-Free Neural Operators for Time-Dependent PDEs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25413" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25413" target="_blank" rel="noopener">Autoregression-Free Neural Operators for Time-Dependent PDEs</a></h3>
      <p class="summary">Neural operators learn mappings from function-dependent inputs to solutions, providing an effective framework for solving partial different…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dafb6f6f9e33" data-article-url="https://arxiv.org/abs/2605.25556" data-article-title="Keep the Proof State Live: Snapshotting for Efficient Tactic Search in Lean 4" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25556" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25556" target="_blank" rel="noopener">Keep the Proof State Live: Snapshotting for Efficient Tactic Search in Lean 4</a></h3>
      <p class="summary">Automated theorem proving systems built on Lean 4 increasingly rely on parallel tactic search over partially specified proofs, such as thos…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb3c39d13c76" data-article-url="https://arxiv.org/abs/2605.26092" data-article-title="GoQuant: Geometric Orthogonal Residual Projection for Multiplier-Free Power-of-Two Transformer Quantization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26092" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26092" target="_blank" rel="noopener">GoQuant: Geometric Orthogonal Residual Projection for Multiplier-Free Power-of-Two Transformer Quantization</a></h3>
      <p class="summary">The deployment of Large Language Models (LLMs) and Vision Transformers (ViTs) on edge devices is significantly constrained by memory limita…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="22d8e34dbc05" data-article-url="https://arxiv.org/abs/2605.26156" data-article-title="偏見をバグに変える: LLM 裁判官に対する盗賊主導のスタイル操作攻撃" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26156" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26156" target="_blank" rel="noopener">偏見をバグに変える: LLM 裁判官に対する盗賊主導のスタイル操作攻撃</a></h3>
      <p class="summary">冗長性や特定の文構造を好むなど、LLM 裁判官の既知の文体上の偏見は、十分に調査されていないセキュリティ上の脆弱性を示しています。この研究では、LLM 裁判官を誤解させ、割り当てられるスコアを人為的につり上げるために意味論を保持する編集を学習するブラックボックスの敵対的フレームワークである BITE (BIas exploraTion and Exploitation) を導入します。スタイル編集の選択をコンテキスト バンディット問題としてキャストし、LinUCB ポリシーを使用して、モデル パラメーターや勾配にアクセスせずに審査員のスコアを最大化する編集を適応的に選択します。経験的に、チャットボットのリーダーボードと AI レビューアーのベンチマークでのポイントごとの比較とペアごとの比較の両方を含む、さまざまな LLM ジャッジとタスクにわたって BITE をテストします。 BITE は、意味上の同等性を維持しながら、65% を超える攻撃成功率を達成し、9 ポイント スケールで 1 ～ 2 ポイントスコアを上げます。さらに攻撃のステルス性を評価し、BITE が標準的なスタイル制御手法といくつかの検出ベースラインを回避していることを示しました。私たちの調査結果は、裁判官としての LLM パラダイムの根本的な弱点を明らかにし、堅牢で攻撃を意識した評価を動機付けます。私たちのコードは https://github.com/xianglinyang/llm-as-a-judge-attach で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Turning Bias into Bugs: Bandit-Guided Style Manipulation Attacks on LLM Judges</p>
        <p class="orig-summary">The known stylistic biases in LLM judges, such as a preference for verbosity or specific sentence structures, present an underexplored security vulnerability. In this work, we introduce BITE (BIas exploraTion and Exploitation), a black-box adversarial framework that learns semantics-preserving edits to mislead an LLM judge and artificially inflate the scores it assigns. We cast the selection of stylistic edits as a contextual bandit problem and use a LinUCB policy to adaptively choose edits that maximize the judge&#x27;s score without access to model parameters or gradients. Empirically, we test BITE across a diverse range of LLM judges and tasks, including both pointwise and pairwise comparisons on chatbot leaderboards and AI-reviewer benchmarks. BITE achieves an attack success rate exceeding 65% and raises scores by 1-2 points on a 9-point scale, all while preserving semantic equivalence. We further assess the attack&#x27;s stealthiness, showing that BITE evades standard style-control methods and several detection baselines. Our findings expose a fundamental weakness in the LLM-as-a-judge paradigm and motivate robust, attack-aware evaluation. Our code is available at https://github.com/xianglinyang/llm-as-a-judge-attack.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f8e7c6b8fac" data-article-url="https://arxiv.org/abs/2605.26193" data-article-title="ブリッジングの分類と再構築: 協調的な時系列異常検出" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26193" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26193" target="_blank" rel="noopener">ブリッジングの分類と再構築: 協調的な時系列異常検出</a></h3>
      <p class="summary">時系列異常検出 (TSAD) は、さまざまな用途があるため、データ マイニングにおける長年の注目の研究トピックです。最近の研究では、TSAD に対する一般的な深層学習手法の有効性に疑問が呈されており、微妙な長期にわたる異常の検出に失敗していることが示唆されています。 Outlier Exposure (OE) と Masked Autoencoder (MAE) は、上記の問題を解決するための 2 つの有望なパラダイム (分類と再構築) として浮上しています。ただし、OE ベースの手法は一般化が不十分であるため制約があり、MAE ベースの手法は位置ずれの問題をマスクすることによって制限されます。これらの制限に対処するために、この論文では、2 つのパラダイムを統合して、それぞれの弱点を軽減しながら補完的な長所を活用する新しいフレームワーク CoAD を提案します。このフレームワークでは、分類モジュールが再構成モジュール用の確率に基づいたソフト マスクを生成するため、分類モジュールの一般化問題が軽減されます。この協調的な設計により、CoAD は既存の方法では見落とされがちな微妙で複雑な異常を効果的に検出できます。さらに、分類モジュールは、不適切な分類粒度と頻度情報の無視に関連する問題を解決するように慎重に設計されています。厳格な評価プロトコルの下で行われた高品質のベンチマーク データセットに対する広範な実験により、CoAD が最先端のディープ ラーニングと従来のデータ マイニング手法の両方を大幅に上回ることが実証され、TSAD におけるディープ ラーニングの可能性が強調されています。さらに、CoAD は軽量で、既存の SOTA 手法よりも大幅に高速であるため、大規模なリアルタイム アプリケーションにとって実用的な価値が実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Bridging Classification and Reconstruction: Cooperative Time Series Anomaly Detection</p>
        <p class="orig-summary">Time series anomaly detection (TSAD) has long been a hot research topic in data mining due to its various applications. Recent studies challenge the effectiveness of popular deep learning methods for TSAD, suggesting their failure in detecting subtle and prolonged anomalies. Outlier Exposure (OE) and Masked Autoencoder (MAE) emerge as two promising paradigms (classification and reconstruction) for solving the above problems. However, OE-based methods are constrained by poor generalization, while MAE-based methods are limited by masking misalignment issues. To address these limitations, this paper proposes a novel framework, CoAD, which unifies the two paradigms to leverage their complementary strengths while mitigating their respective weaknesses. In this framework, the classification module generates probability-informed soft masks for the reconstruction module, which in turn alleviates the generalization problem of the classification module. This cooperative design enables CoAD to effectively detect subtle and complex anomalies that are often overlooked by existing methods. Additionally, the classification module is carefully designed to resolve issues related to improper classification granularity and the neglect of frequency information. Extensive experiments on high-quality benchmark datasets, conducted under rigorous evaluation protocols, demonstrate that CoAD significantly outperforms both state-of-the-art deep learning and traditional data mining methods, highlighting the potential of deep learning in TSAD. Moreover, CoAD is lightweight and substantially faster than existing SOTA methods, demonstrating its practical value for large-scale, real-time applications.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="00ed19b787e5" data-article-url="https://arxiv.org/abs/2605.26255" data-article-title="Prospective evaluation of multimodal respiratory failure prediction: Do chest X-rays improve performance beyond EHR signals?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26255" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26255" target="_blank" rel="noopener">Prospective evaluation of multimodal respiratory failure prediction: Do chest X-rays improve performance beyond EHR signals?</a></h3>
      <p class="summary">Early prediction of respiratory failure is critical for timely clinical intervention in intensive care units. Existing electronic health re…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b00f3e7b05fc" data-article-url="https://arxiv.org/abs/2605.27078" data-article-title="Two Speeds of Learning: A Representation-Readout Decomposition of Grokking and Double Descent" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27078" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27078" target="_blank" rel="noopener">Two Speeds of Learning: A Representation-Readout Decomposition of Grokking and Double Descent</a></h3>
      <p class="summary">Training loss and accuracy are the standard signals used to monitor generalization during deep neural network training. Two well-documented…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="695f7dfaf731" data-article-url="https://arxiv.org/abs/2605.27377" data-article-title="Enhancing LLM Medical Coding with Structured External Knowledge" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27377" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27377" target="_blank" rel="noopener">Enhancing LLM Medical Coding with Structured External Knowledge</a></h3>
      <p class="summary">Accurate medical coding requires consulting authoritative resources such as the ICD tabular list and coding guidelines. Existing LLM-based…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="60fff3ff8ffa" data-article-url="https://arxiv.org/abs/2605.27382" data-article-title="The Alignment Floor: How Persona Customization Breaks Safety in Weakly-Aligned LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27382" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27382" target="_blank" rel="noopener">The Alignment Floor: How Persona Customization Breaks Safety in Weakly-Aligned LLMs</a></h3>
      <p class="summary">Telling an LLM to &quot;be enthusiastic&quot; raises its sycophancy rate from 30\% to 50\% on a lightly-aligned model, but has zero effect on a stron…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="225c28afea5d" data-article-url="https://arxiv.org/abs/2605.27387" data-article-title="From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27387" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27387" target="_blank" rel="noopener">From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons</a></h3>
      <p class="summary">Diffusion models promise efficient parallel text generation but rely on bidirectional attention, creating a structural mismatch with pre-tr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0fbe971bc1d9" data-article-url="https://arxiv.org/abs/2605.27390" data-article-title="EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter Adaptation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27390" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27390" target="_blank" rel="noopener">EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter Adaptation</a></h3>
      <p class="summary">Speculative decoding accelerates Large Language Model inference via a draft-then-verify paradigm, yet the output projection layer becomes a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="66861c639c12" data-article-url="https://arxiv.org/abs/2605.27480" data-article-title="BIRDS: Characterizing and Understanding Biodiversity Impact of Large Language Model Serving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27480" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27480" target="_blank" rel="noopener">BIRDS: Characterizing and Understanding Biodiversity Impact of Large Language Model Serving</a></h3>
      <p class="summary">Large language model (LLM) serving creates environmental impacts beyond carbon and water, including ecosystem damage through biodiversity-r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="49a71cc64725" data-article-url="https://arxiv.org/abs/2605.27959" data-article-title="ROVER: Routing Object-Centric Visual Evidence for Grounded Multi-Image Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27959" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27959" target="_blank" rel="noopener">ROVER: Routing Object-Centric Visual Evidence for Grounded Multi-Image Reasoning</a></h3>
      <p class="summary">Multimodal Large Language Models (MLLMs) have increasingly localized and interleaved visual evidence for deliberative reasoning. Grounding-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="edc8dab43389" data-article-url="https://arxiv.org/abs/2605.28166" data-article-title="QuITE: Query-Based Irregular Time Series Embedding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28166" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28166" target="_blank" rel="noopener">QuITE: Query-Based Irregular Time Series Embedding</a></h3>
      <p class="summary">Irregular Multivariate Time Series (IMTS) are common in practice, yet their irregular sampling complicates effective modeling. Existing app…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5a8920a09bb8" data-article-url="https://arxiv.org/abs/2605.28293" data-article-title="ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28293" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28293" target="_blank" rel="noopener">ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation</a></h3>
      <p class="summary">Proactive Recommender Systems (PRSs) aim to guide user preference shift toward target items by generating paths of intermediate recommendat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2d55869604d0" data-article-url="https://arxiv.org/abs/2605.28746" data-article-title="Preference-Shaped Expected Hypervolume and R2 Improvement: Exact Computation and Monotonicity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28746" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28746" target="_blank" rel="noopener">Preference-Shaped Expected Hypervolume and R2 Improvement: Exact Computation and Monotonicity</a></h3>
      <p class="summary">This paper studies preference-shaped expected improvement criteria for Bayesian multiobjective optimization. We consider two indicator fami…</p>
    </div>
  </div>
</div>
</div>
</details>
</div>]]></content><author><name></name></author><summary type="html"><![CDATA[AIニュース 2026-05-29 — 586件のストーリーを出典・トピック・要約とともに掲載。]]></summary><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-05-29.png" /><media:content medium="image" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-05-29.png" xmlns:media="http://search.yahoo.com/mrss/" /></entry><entry><title type="html">AIニュース 2026-05-28</title><link href="https://ai-news-bot-henna.vercel.app/news/2026/05/2026-05-28/" rel="alternate" type="text/html" title="AIニュース 2026-05-28" /><published>2026-05-28T00:00:00+00:00</published><updated>2026-05-28T00:00:00+00:00</updated><id>https://ai-news-bot-henna.vercel.app/news/2026/05/2026-05-28</id><content type="html" xml:base="https://ai-news-bot-henna.vercel.app/news/2026/05/2026-05-28/"><![CDATA[<h1 id="aiニュース-2026-05-28">AIニュース 2026-05-28</h1>

<p class="auto-gen-note">自動生成: 2026-05-28 13:07 JST</p>

<p><a href="/">← トップに戻る</a></p>

<p>過去24時間以内に公開された記事を、同じ話題ごとに1つのストーリーカードへまとめ、出典・トピック・要約とともに掲載しています。要約は各フィード提供文の冒頭を整形したもので、本文は各リンク先をご覧ください。</p>

<section class="today-top" aria-labelledby="today-top-heading">
  <h2 id="today-top-heading" class="today-top-heading">📌 今日の要点 TOP7</h2>
  <ol class="today-top-list">
    <li class="today-top-item">
      <a class="today-top-link" href="https://openai.com/index/cisco" target="_blank" rel="noopener">Cisco and OpenAI redefine enterprise engineering with Codex</a><span class="today-top-source">OpenAI</span>
      <p class="today-top-snippet">Cisco and OpenAI are redefining enterprise engineering with Codex, he…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://openai.com/index/building-self-improving-tax-agents-with-codex" target="_blank" rel="noopener">Building self-improving tax agents with Codex</a><span class="today-top-source">OpenAI</span>
      <p class="today-top-snippet">See how OpenAI, Thrive, and Crete built a self-improving tax agent wi…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/news/articles/2605/28/news090.html" target="_blank" rel="noopener">Docker専用のAIエージェント「Gordon」が正式リリース　無料アカウントでも利用可能</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">米Docker社は、Docker DesktopとDocker CLIの新機能として、Dockerに関する質問への回答やベストプラクティス…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/enterprise/articles/2605/28/news061.html" target="_blank" rel="noopener">OpenAI、Anthropicが新会社設立　国内SIerは「黒船襲来」に対抗できるか？</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">AnthropicとOpenAIがAIサービスを担う新会社の設立を相次いで発表した。FDEやApplied AI Engineerを擁する…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://techcrunch.com/2026/05/27/meta-officially-launches-instagram-facebook-and-whatsapp-subscriptions-with-more-to-come-including-ai-plans/" target="_blank" rel="noopener">Meta launches Instagram, Facebook, and WhatsApp subscriptions, with more to come, including AI plans</a><span class="today-top-source">TechCrunch AI</span>
      <p class="today-top-snippet">Meta is rolling out paid subscription plans for Instagram, Facebook,…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/aiplus/article/2605/28/2000000024/" target="_blank" rel="noopener">最新AI「ミュトス」を使えても「バグマゲドン」に？　Firefox開発元に学ぶセキュリティ対策</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">米AnthropicのAIモデル「Claude Mythos Preview」のような最先端モデルさえ使えれば、サイバーセキュリティ対策は…</p>
    </li>
    <li class="today-top-item">
      <a class="today-top-link" href="https://www.itmedia.co.jp/aiplus/article/2605/28/2000000031/" target="_blank" rel="noopener">OpenAI Foundation、AIによる経済激変から労働者を守るため2.5億ドルを拠出へ</a><span class="today-top-source">ITmedia AI+</span>
      <p class="today-top-snippet">OpenAI Foundationは、AIの普及に伴う労働市場や経済への急激な変化に対応するため、初期資金として2億5000万ドルを拠出す…</p>
    </li>
  </ol>
</section>

<h2 id="トピック別件数">トピック別件数</h2>

<ul class="topic-summary">
  <li data-topic="研究/論文" data-slug="research"><a href="/topics/research/"><strong>研究/論文</strong> 318件</a></li>
  <li data-topic="LLM/生成AI" data-slug="llm"><a href="/topics/llm/"><strong>LLM/生成AI</strong> 207件</a></li>
  <li data-topic="エージェント" data-slug="agents"><a href="/topics/agents/"><strong>エージェント</strong> 130件</a></li>
  <li data-topic="ビジネス/資金調達" data-slug="business"><a href="/topics/business/"><strong>ビジネス/資金調達</strong> 37件</a></li>
  <li data-topic="その他" data-slug="others"><a href="/topics/others/"><strong>その他</strong> 12件</a></li>
  <li data-topic="ハードウェア/半導体" data-slug="hardware"><a href="/topics/hardware/"><strong>ハードウェア/半導体</strong> 12件</a></li>
  <li data-topic="ロボティクス" data-slug="robotics"><a href="/topics/robotics/"><strong>ロボティクス</strong> 9件</a></li>
  <li data-topic="画像/動画生成" data-slug="image-video"><a href="/topics/image-video/"><strong>画像/動画生成</strong> 6件</a></li>
  <li data-topic="規制/政策" data-slug="regulation"><a href="/topics/regulation/"><strong>規制/政策</strong> 1件</a></li>
</ul>

<div class="category-accordion">
<details class="category-block" open="">
<summary class="category-summary"><span class="category-name">日本語メディア</span><span class="category-count">10件</span></summary>
<div class="category-body">
<h3 class="source-section">ITmedia AI+ (日本語)</h3>
<div class="news-card" data-article-id="eaca97c97455" data-article-url="https://www.itmedia.co.jp/news/articles/2605/28/news090.html" data-article-title="Docker専用のAIエージェント「Gordon」が正式リリース　無料アカウントでも利用可能" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">12:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/news/articles/2605/28/news090.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/news/articles/2605/28/cover_news090.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/news/articles/2605/28/news090.html" target="_blank" rel="noopener">Docker専用のAIエージェント「Gordon」が正式リリース　無料アカウントでも利用可能</a></h3>
      <p class="summary">米Docker社は、Docker DesktopとDocker CLIの新機能として、Dockerに関する質問への回答やベストプラクティスの提案、エラーの修正対応などを行ってくれるAIエージェント「Gordon」が正式版になったと発表しました。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4ca43213d18f" data-article-url="https://www.itmedia.co.jp/news/articles/2605/28/news082.html" data-article-title="「国会議員マップ」話題　建設職人が個人で開発、議員の発言や政治の動きを分かりやすく　生成AI活用" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">10:55 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/news/articles/2605/28/news082.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/news/articles/2605/28/cover_news082.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/news/articles/2605/28/news082.html" target="_blank" rel="noopener">「国会議員マップ」話題　建設職人が個人で開発、議員の発言や政治の動きを分かりやすく　生成AI活用</a></h3>
      <p class="summary">小さな建設会社を経営し、工事現場で働く職人でもある「中島」氏が、けがで現場を離れた期間に立ち上げたというサイトだ。余暇に個人で開発・運営しており、収益は目的にしていない。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a96259f2c0e" data-article-url="https://www.itmedia.co.jp/enterprise/articles/2605/28/news061.html" data-article-title="OpenAI、Anthropicが新会社設立　国内SIerは「黒船襲来」に対抗できるか？" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">10:50 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/enterprise/articles/2605/28/news061.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/enterprise/articles/2605/28/cover_news061.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/enterprise/articles/2605/28/news061.html" target="_blank" rel="noopener">OpenAI、Anthropicが新会社設立　国内SIerは「黒船襲来」に対抗できるか？</a></h3>
      <p class="summary">AnthropicとOpenAIがAIサービスを担う新会社の設立を相次いで発表した。FDEやApplied AI Engineerを擁する「黒船」来襲はSIerにとって脅威となるのか。国内SIerが取るべき備えとは何か。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e888819284a4" data-article-url="https://www.itmedia.co.jp/enterprise/articles/2605/28/news055.html" data-article-title="AIコーディングエージェント市場が「新段階」突入　IDEが必要不可欠でなくなる“3つの理由”" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">08:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/enterprise/articles/2605/28/news055.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/enterprise/articles/2605/28/cover_news055.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/enterprise/articles/2605/28/news055.html" target="_blank" rel="noopener">AIコーディングエージェント市場が「新段階」突入　IDEが必要不可欠でなくなる“3つの理由”</a></h3>
      <p class="summary">Gartnerによると、AIの進化を受けてAIコーディングエージェントの市場が「新たな段階」に入った。統合開発環境（IDE）が必要不可欠なものでなくなる3つの理由とは。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2ca593ed429f" data-article-url="https://www.itmedia.co.jp/business/articles/2605/28/news023.html" data-article-title="「背中を見て覚えろ」はもう限界　「職員激減」に向けて自治体DXに必要な「AIと共有する業務マニュアル」の作り方" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">07:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/business/articles/2605/28/news023.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/business/articles/2605/28/cover_news023.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/business/articles/2605/28/news023.html" target="_blank" rel="noopener">「背中を見て覚えろ」はもう限界　「職員激減」に向けて自治体DXに必要な「AIと共有する業務マニュアル」の作り方</a></h3>
      <p class="summary">自治体DXの推進が叫ばれる中、現場では業務の属人化や知識継承の停滞といった課題が依然として残っている。背景には、「オレの背中を見て覚えろ」に象徴される暗黙知への依存や、再現性を前提とした業務設計の不足があるのではないか。CIO補佐官として全国の自治体を支援する筆者が、人間とAI…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eeaec80c02b0" data-article-url="https://monoist.itmedia.co.jp/mn/articles/2605/27/news134.html" data-article-title="失敗データこそ資産だ――3Dモデルや解析結果をAIで統合、一目で探せるナレッジに" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">06:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://monoist.itmedia.co.jp/mn/articles/2605/27/news134.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/mn/articles/2605/27/cover_news134.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://monoist.itmedia.co.jp/mn/articles/2605/27/news134.html" target="_blank" rel="noopener">失敗データこそ資産だ――3Dモデルや解析結果をAIで統合、一目で探せるナレッジに</a></h3>
      <p class="summary">「RAGでは超えられない製造現場の暗黙知がある」――ギリアは3Dモデルや解析結果をマルチモーダルLLMで統合し、設計の暗黙知を形式知化する新プラットフォームの提供を開始した。不採用理由や失敗の文脈も、組織の資産に変える。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c5a9d3b8ea23" data-article-url="https://www.itmedia.co.jp/aiplus/article/2605/28/2000000024/" data-article-title="最新AI「ミュトス」を使えても「バグマゲドン」に？　Firefox開発元に学ぶセキュリティ対策" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">03:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/aiplus/article/2605/28/2000000024/" target="_blank" rel="noopener"><img loading="lazy" src="https://www.itmedia.co.jp/aiplus/article/ogp/2605/28/2000000024/10000145/2048" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/aiplus/article/2605/28/2000000024/" target="_blank" rel="noopener">最新AI「ミュトス」を使えても「バグマゲドン」に？　Firefox開発元に学ぶセキュリティ対策</a></h3>
      <p class="summary">米AnthropicのAIモデル「Claude Mythos Preview」のような最先端モデルさえ使えれば、サイバーセキュリティ対策は万全になるのか。Webブラウザ「Firefox」を手掛ける米Mozillaの事例を読み解く。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c4b0949a4bb7" data-article-url="https://www.itmedia.co.jp/aiplus/article/2605/28/2000000031/" data-article-title="OpenAI Foundation、AIによる経済激変から労働者を守るため2.5億ドルを拠出へ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">00:08 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/aiplus/article/2605/28/2000000031/" target="_blank" rel="noopener"><img loading="lazy" src="https://www.itmedia.co.jp/aiplus/article/ogp/2605/28/2000000031/10000167/2048" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/aiplus/article/2605/28/2000000031/" target="_blank" rel="noopener">OpenAI Foundation、AIによる経済激変から労働者を守るため2.5億ドルを拠出へ</a></h3>
      <p class="summary">OpenAI Foundationは、AIの普及に伴う労働市場や経済への急激な変化に対応するため、初期資金として2億5000万ドルを拠出すると発表した。この資金は、経済への影響測定、労働者の移行支援、新たな経済的安定モデルの構築の3領域に充てられる。組織再編を経た同財団が、ガバ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="90352c956870" data-article-url="https://www.itmedia.co.jp/business/articles/2605/27/news119.html" data-article-title="NEC、日立、富士通が“Anthropic協業”でそろい踏み　狙いは？　【3社の幹部コメントまとめ】" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">18:25 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/business/articles/2605/27/news119.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/business/articles/2605/27/cover_news119.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/business/articles/2605/27/news119.html" target="_blank" rel="noopener">NEC、日立、富士通が“Anthropic協業”でそろい踏み　狙いは？　【3社の幹部コメントまとめ】</a></h3>
      <p class="summary">わずか1カ月の間にNEC、日立製作所、富士通がAnthropicとの協業を発表した。各社の狙いはどこにあるのか。</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="337011a2112f" data-article-url="https://www.itmedia.co.jp/news/articles/2605/27/news118.html" data-article-title="「この答弁はAIが原案作成」　参院本会議で松本デジタル相「職員が事実確認し私が決済」" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">16:48 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://www.itmedia.co.jp/news/articles/2605/27/news118.html" target="_blank" rel="noopener"><img loading="lazy" src="https://image.itmedia.co.jp/news/articles/2605/27/cover_news118.jpg" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://www.itmedia.co.jp/news/articles/2605/27/news118.html" target="_blank" rel="noopener">「この答弁はAIが原案作成」　参院本会議で松本デジタル相「職員が事実確認し私が決済」</a></h3>
      <p class="summary">5月から全府省庁で実証事業を開始している行政用の生成AI基盤「源内」について、5月27日の参院本会議で参政党の梅村みずほ氏が活用状況を尋ねたのに対し、松本尚デジタル相は「この答弁も源内が原案を作成した」と述べた。</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">海外メディア</span><span class="category-count">15件</span></summary>
<div class="category-body">
<h3 class="source-section">TechCrunch AI (英語)</h3>
<div class="news-card" data-article-id="b4d0e41acafd" data-article-url="https://techcrunch.com/2026/05/27/why-googles-ai-cant-spell-google-or-anything-else/" data-article-title="Why Google’s AI can’t spell Google (or anything else)" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">09:17 JST</span><span class="topic-badge p-others">その他</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/27/why-googles-ai-cant-spell-google-or-anything-else/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/google-two-ps.jpg?resize=1200,675" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/27/why-googles-ai-cant-spell-google-or-anything-else/" target="_blank" rel="noopener">Why Google’s AI can’t spell Google (or anything else)</a></h3>
      <p class="summary">Google is embarrassing itself, again.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fb999f0220ea" data-article-url="https://techcrunch.com/2026/05/27/in-more-good-news-for-amazon-snowflake-signs-6b-deal-with-aws-for-ai-cpu-chips/" data-article-title="In more good news for Amazon, Snowflake signs $6B deal with AWS for AI CPU chips" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">05:10 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/27/in-more-good-news-for-amazon-snowflake-signs-6b-deal-with-aws-for-ai-cpu-chips/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/04/dollar-signs-data-center.png?w=1024" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/27/in-more-good-news-for-amazon-snowflake-signs-6b-deal-with-aws-for-ai-cpu-chips/" target="_blank" rel="noopener">In more good news for Amazon, Snowflake signs $6B deal with AWS for AI CPU chips</a></h3>
      <p class="summary">Snowflake has signed a new, enormous five-year deal with Amazon to secure chips for AI usage. Nvidia is once again being put on notice.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1e9bd05baaeb" data-article-url="https://techcrunch.com/2026/05/27/payroll-startup-remote-says-it-grew-revenue-50-per-employee-without-adding-headcount/" data-article-title="Payroll startup Remote says it grew revenue 50% per employee without adding headcount" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">04:39 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/27/payroll-startup-remote-says-it-grew-revenue-50-per-employee-without-adding-headcount/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2024/07/money-firehose.jpg?resize=1200,675" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/27/payroll-startup-remote-says-it-grew-revenue-50-per-employee-without-adding-headcount/" target="_blank" rel="noopener">Payroll startup Remote says it grew revenue 50% per employee without adding headcount</a></h3>
      <p class="summary">Payroll service provider Remote recently surpassed $300 million in annual recurring revenue (ARR) and became cash-flow positive, thanks to…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b8fadf34df6a" data-article-url="https://techcrunch.com/podcast/your-seo-strategy-is-optimized-for-a-search-engine-that-no-longer-exists/" data-article-title="Your SEO strategy is optimized for a search engine that no longer exists." data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">03:39 JST</span><span class="topic-badge p-others">その他</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/podcast/your-seo-strategy-is-optimized-for-a-search-engine-that-no-longer-exists/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/google-ai-sign-Getty.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/podcast/your-seo-strategy-is-optimized-for-a-search-engine-that-no-longer-exists/" target="_blank" rel="noopener">Your SEO strategy is optimized for a search engine that no longer exists.</a></h3>
      <p class="summary">Google I/O made it official: AI-generated answers are now front and center in search, and most brands have almost no visibility into how AI…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c13e753add11" data-article-url="https://techcrunch.com/2026/05/27/meta-officially-launches-instagram-facebook-and-whatsapp-subscriptions-with-more-to-come-including-ai-plans/" data-article-title="Meta launches Instagram, Facebook, and WhatsApp subscriptions, with more to come, including AI plans" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">03:00 JST</span><span class="topic-badge p-others">その他</span><a class="entity-tag" href="/entity/meta/" data-entity="meta">Meta</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/27/meta-officially-launches-instagram-facebook-and-whatsapp-subscriptions-with-more-to-come-including-ai-plans/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/meta-apps-GettyImages-2164040793.jpg?w=1024" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/27/meta-officially-launches-instagram-facebook-and-whatsapp-subscriptions-with-more-to-come-including-ai-plans/" target="_blank" rel="noopener">Meta launches Instagram, Facebook, and WhatsApp subscriptions, with more to come, including AI plans</a></h3>
      <p class="summary">Meta is rolling out paid subscription plans for Instagram, Facebook, and WhatsApp worldwide, while also testing new AI, creator, and busine…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2eed09f142a3" data-article-url="https://techcrunch.com/2026/05/27/ai-coding-startup-cognition-raises-1b-at-25b-pre-money-valuation/" data-article-title="AI coding startup Cognition raises $1B at $25B pre-money valuation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">01:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/27/ai-coding-startup-cognition-raises-1b-at-25b-pre-money-valuation/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2025/08/Screenshot-2025-08-05-at-11.02.07AM.png?resize=1200,645" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/27/ai-coding-startup-cognition-raises-1b-at-25b-pre-money-valuation/" target="_blank" rel="noopener">AI coding startup Cognition raises $1B at $25B pre-money valuation</a></h3>
      <p class="summary">As Cognition reaches $492 million in annualized revenue run rate, it more than doubled its valuation in eight months, it says.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9f605ab2148c" data-article-url="https://techcrunch.com/2026/05/27/startup-battlefield-200-applications-close-today-nominate-a-founder-or-submit-your-startup/" data-article-title="Startup Battlefield 200 applications close today: Nominate a founder or submit your startup" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:15 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/27/startup-battlefield-200-applications-close-today-nominate-a-founder-or-submit-your-startup/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2024/11/54105085427_2cae9d0502_o.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/27/startup-battlefield-200-applications-close-today-nominate-a-founder-or-submit-your-startup/" target="_blank" rel="noopener">Startup Battlefield 200 applications close today: Nominate a founder or submit your startup</a></h3>
      <p class="summary">Today is the final day to apply or nominate a startup for Startup Battlefield 200. Once the clock strikes 11:59 p.m. PT, the window closes…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8ff63c21f892" data-article-url="https://techcrunch.com/2026/05/27/elevenlabss-new-music-generation-model-can-switch-genres-mid-track/" data-article-title="ElevenLabs’ new music-generation model can switch genres mid-track" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:14 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/27/elevenlabss-new-music-generation-model-can-switch-genres-mid-track/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2025/01/ElevenLabs-feat.jpg?resize=1200,669" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/27/elevenlabss-new-music-generation-model-can-switch-genres-mid-track/" target="_blank" rel="noopener">ElevenLabs’ new music-generation model can switch genres mid-track</a></h3>
      <p class="summary">ElevenLabs&#x27; new model will let users regenerate a section of a song without affecting the rest of the track.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="19417fa11c3b" data-article-url="https://techcrunch.com/2026/05/27/techcrunch-disrupt-2026-early-bird-ticket-savings-end-in-3-days/" data-article-title="TechCrunch Disrupt 2026 Early Bird ticket savings end in 3 days" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/27/techcrunch-disrupt-2026-early-bird-ticket-savings-end-in-3-days/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/02/TCD26_3Days-16X9-Dark.png?resize=1200,675" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/27/techcrunch-disrupt-2026-early-bird-ticket-savings-end-in-3-days/" target="_blank" rel="noopener">TechCrunch Disrupt 2026 Early Bird ticket savings end in 3 days</a></h3>
      <p class="summary">There are only 3 days left to save up to $410 on your ticket to TechCrunch Disrupt 2026. Early Bird pricing ends May 29 at 11:59 p.m. PT, a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bc991d8e1a8e" data-article-url="https://techcrunch.com/2026/05/27/sond-a-sleep-tech-startup-from-boses-former-head-of-sleep-exits-stealth-with-7m/" data-article-title="SOND, a sleep tech startup from Bose’s former head of sleep, exits stealth with $7M" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">23:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/27/sond-a-sleep-tech-startup-from-boses-former-head-of-sleep-exits-stealth-with-7m/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/Travel-Sleeping-2000px.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/27/sond-a-sleep-tech-startup-from-boses-former-head-of-sleep-exits-stealth-with-7m/" target="_blank" rel="noopener">SOND, a sleep tech startup from Bose’s former head of sleep, exits stealth with $7M</a></h3>
      <p class="summary">SOND introduced its debut product: Dreambuds, a closed-loop, in-ear system that captures 12 physiological signals from the wearer, then act…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="368aa051a05d" data-article-url="https://techcrunch.com/2026/05/27/china-is-increasingly-keeping-its-best-ai-talent-to-itself/" data-article-title="China is increasingly keeping its best AI talent to itself" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">22:48 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/27/china-is-increasingly-keeping-its-best-ai-talent-to-itself/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/04/china-flag-shanghai.jpg?resize=1200,801" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/27/china-is-increasingly-keeping-its-best-ai-talent-to-itself/" target="_blank" rel="noopener">China is increasingly keeping its best AI talent to itself</a></h3>
      <p class="summary">China&#x27;s AI boom is producing world-class talent, and Beijing is increasingly reluctant to let them go elsewhere.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d967f8081212" data-article-url="https://techcrunch.com/2026/05/27/clickhouse-triples-annualized-revenue-to-250m-charting-a-path-toward-an-ipo/" data-article-title="ClickHouse triples annualized revenue to $250M, charting a path toward an IPO" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">22:04 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/27/clickhouse-triples-annualized-revenue-to-250m-charting-a-path-toward-an-ipo/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/Screenshot-2026-05-27-at-5.53.09-AM.png?resize=1200,788" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/27/clickhouse-triples-annualized-revenue-to-250m-charting-a-path-toward-an-ipo/" target="_blank" rel="noopener">ClickHouse triples annualized revenue to $250M, charting a path toward an IPO</a></h3>
      <p class="summary">The database provider is eyeing a public debut within the next few years.</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6fcbe7591c75" data-article-url="https://techcrunch.com/2026/05/27/youtube-will-now-automatically-label-ai-videos/" data-article-title="YouTube will now automatically label AI videos" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">22:00 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/27/youtube-will-now-automatically-label-ai-videos/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2020/06/GettyImages-1149449083.jpg?resize=1200,800" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/27/youtube-will-now-automatically-label-ai-videos/" target="_blank" rel="noopener">YouTube will now automatically label AI videos</a></h3>
      <p class="summary">YouTube will now automatically label videos that use significant photorealistic AI, instead of relying solely on creators to disclose AI-ge…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9f401d659dbc" data-article-url="https://techcrunch.com/2026/05/27/tech-ceos-are-apparently-suffering-from-ai-psychosis/" data-article-title="Tech CEOs are apparently suffering from AI psychosis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">21:30 JST</span><span class="topic-badge p-others">その他</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/27/tech-ceos-are-apparently-suffering-from-ai-psychosis/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2022/11/GettyImages-1265000101.jpg?resize=1200,857" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/27/tech-ceos-are-apparently-suffering-from-ai-psychosis/" target="_blank" rel="noopener">Tech CEOs are apparently suffering from AI psychosis</a></h3>
      <p class="summary">&quot;CEOs are uniquely prone to AI psychosis,&quot; Box CEO Aaron Levie opines. Maybe that explains the almost religious belief in AI productivity g…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8687cbf07431" data-article-url="https://techcrunch.com/2026/05/27/robinhood-now-lets-your-ai-agents-trade-stocks/" data-article-title="Robinhood now lets your AI agents trade stocks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">21:30 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://techcrunch.com/2026/05/27/robinhood-now-lets-your-ai-agents-trade-stocks/" target="_blank" rel="noopener"><img loading="lazy" src="https://techcrunch.com/wp-content/uploads/2026/05/Agentic-trading-feat.jpg?resize=1200,675" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://techcrunch.com/2026/05/27/robinhood-now-lets-your-ai-agents-trade-stocks/" target="_blank" rel="noopener">Robinhood now lets your AI agents trade stocks</a></h3>
      <p class="summary">While these agents would be able to read and analyze users&#x27; portfolios to come up with trading strategies and suggest investments, they&#x27;ll…</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">公式ブログ</span><span class="category-count">2件</span></summary>
<div class="category-body">
<h3 class="source-section">OpenAI (英語)</h3>
<div class="news-card" data-article-id="a1f161b6a344" data-article-url="https://openai.com/index/cisco" data-article-title="Cisco and OpenAI redefine enterprise engineering with Codex" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">20:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://openai.com/index/cisco" target="_blank" rel="noopener"><img loading="lazy" src="https://images.ctfassets.net/kftzwdyauwt9/6biPCt1l6a2vedPJey5inM/67b80b0750688b948c1fd9b9427cccbd/oai_Cisco_SEO.png?w=1600&amp;h=900&amp;fit=fill" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://openai.com/index/cisco" target="_blank" rel="noopener">Cisco and OpenAI redefine enterprise engineering with Codex</a></h3>
      <p class="summary">Cisco and OpenAI are redefining enterprise engineering with Codex, helping Cisco scale AI-native development, accelerate AI Defense work, a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9da64821c60f" data-article-url="https://openai.com/index/building-self-improving-tax-agents-with-codex" data-article-title="Building self-improving tax agents with Codex" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">16:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://openai.com/index/building-self-improving-tax-agents-with-codex" target="_blank" rel="noopener"><img loading="lazy" src="https://images.ctfassets.net/kftzwdyauwt9/3upo248JfOrgp0fahNLrkt/10f9e23a8be06e38fb21d29faf5e320d/SEO.png?w=1600&amp;h=900&amp;fit=fill" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://openai.com/index/building-self-improving-tax-agents-with-codex" target="_blank" rel="noopener">Building self-improving tax agents with Codex</a></h3>
      <p class="summary">See how OpenAI, Thrive, and Crete built a self-improving tax agent with Codex, automating filings, improving accuracy, and accelerating wor…</p>
    </div>
  </div>
</div>
</div>
</details>
<details class="category-block">
<summary class="category-summary"><span class="category-name">論文</span><span class="category-count">560件</span></summary>
<div class="category-body">
<h3 class="source-section">arXiv cs.AI (英語)</h3>
<div class="news-card" data-article-id="f0a9147fa254" data-article-url="https://arxiv.org/abs/2605.27373" data-article-title="テキスト内の人間の価値観の特定と理解: カスタマイズ可能な LLM ベースのアーキテクチャ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27373" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27373" target="_blank" rel="noopener">テキスト内の人間の価値観の特定と理解: カスタマイズ可能な LLM ベースのアーキテクチャ</a></h3>
      <p class="summary">インテリジェント システムがより自律的になるにつれて、科学界は従来の効用最大化モデルとは異なり、倫理的および道徳的考慮事項を含む意思決定メカニズムの構築に焦点を当てています。これを達成するために重要な点は、これらの決定が人間の価値観とどの程度一致しているかを評価することです。この目的を達成するために、明示的か暗黙的かにかかわらず、テキストから人間の価値観を特定し、全体を通してその認識を可能にする、大規模言語モデル (LLM) に基づくアプローチの開発を中心とした有望な研究が行われています。この論文では、特定の価値理論や複雑なプロンプト エンジニアリングに結び付けられた以前のアプローチの制限を回避し、テキスト内の人間の価値観の強度を検出および定量化するための LLM ベースのアーキテクチャを紹介します。このアーキテクチャは 3 つの調整されたモジュールで構成されます。1 つは理論的フレームワークの基礎テキストから構造化された値の仕様を生成します。これらの仕様を使用してテキストにラベルを付けるもの。もう 1 つは、修辞的および意味論的な証拠に基づいて段階的な支持または抵抗を割り当てるものです。このモジュール式のアプローチは、人間の価値観の検出から概念化のタスクを分離し、さまざまな理論に適応できる価値の仕様によって推進される、スケーラブルで再現可能なプロセスを作成します。アーキテクチャは複数の LLM でインスタンス化され、ValueEval データセットを使用して評価されました。実験では良好な検出パフォーマンスが実証され、パイプラインの一般性が確認されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Identifying and Understanding Human Values in Text: A Tailorable LLM-based Architecture</p>
        <p class="orig-summary">As intelligent systems become more autonomous, the scientific community focuses on creating decision-making mechanisms that include ethical and moral considerations, unlike traditional utility-maximisation models. To achieve this, a key aspect is assessing how well these decisions align with human values. To this end, a promising line of research is centred on developing approaches based on Large Language Models (LLMs) to identify human values from text, whether explicit or implicit, enabling their recognition throughout. This paper introduces a LLM-based architecture to detect and quantify the intensity of human values in text, avoiding the limitations of previous approaches tied to specific value theory or complex prompt engineering. The architecture comprises three coordinated modules: one that generates structured value specifications from the foundational texts of any theoretical framework; one that labels texts using these specifications; and one that assigns graded support or resistance based on rhetorical and semantic evidence. This modular approach separates the tasks of conceptualising from detecting human values, creating a scalable and reproducible process driven by value specifications adaptable to various theories. The architecture was instantiated with multiple LLMs and evaluated using the ValueEval dataset. The experiments demonstrate good detection performance, confirming the generality of the pipeline.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a324ec3c043f" data-article-url="https://arxiv.org/abs/2605.27379" data-article-title="Soro: タジキスタン向けの軽量基盤モデルおよびチャットボット" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27379" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27379" target="_blank" rel="noopener">Soro: タジキスタン向けの軽量基盤モデルおよびチャットボット</a></h3>
      <p class="summary">ここでは、タジキスタンでの厳しいコンピューティングと接続の制約下での実際の展開向けに設計された、タジク語に特化した会話型大規模言語モデル (LLM) ファミリーである Soro を紹介します。オープンウェイトの Gemma 3 チェックポイントから開始して、フィルタリングされた Web テキスト、PDF ドキュメント、カリキュラムに合わせた教材にまたがる厳選された 19 億トークンのコーパスに対してタジク語のみの継続的な事前トレーニングを実行し、続いて 40,000 のタジク語教師スタイルのサンプルに対して教師付き指導チューニングを実行します。標準ベンチマークでタジク語がカバーされる範囲が限られているにもかかわらず、厳密な評価を可能にするために、一般知識、言語能力、学校および大学の入学試験の領域をカバーする一連のタジク語ベンチマークを導入し、Hugging Face でオープンソース化しています。これらのタジク語ベンチマーク全体で、Soro は標準データセットで英語の優れたパフォーマンスを維持しながら、同じサイズの Gemma 3 ベースラインを大幅に上回っています。さらに、Soro の FP8 および INT4 量子化により、タジク語の利点のほとんどが維持されると同時に、エッジ展開のメモリ要件が削減され、進行中の教育セクターのパイロットとタジキスタンの学校全体での計画されたスケールアウトがサポートされることも示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Soro: A Lightweight Foundation Model and Chatbot for Tajik</p>
        <p class="orig-summary">We present Soro, a family of Tajik-specialized conversational large language models (LLMs) designed for real-world deployment under tight compute and connectivity constraints in Tajikistan. Starting from open-weight Gemma 3 checkpoints, we perform Tajik-only continual pretraining on a curated 1.9-billion-token corpus spanning filtered web text, PDF documents, and curriculum-aligned educational materials, followed by supervised instruction tuning on 40K Tajik teacher-style examples. To enable rigorous evaluation despite the limited coverage of Tajik in standard benchmarks, we introduce a suite of Tajik benchmarks covering general knowledge, linguistic competence, and school- and university entrance-exam domains, and we open-source them on Hugging Face. Across these Tajik benchmarks, Soro substantially outperforms same-size Gemma 3 baselines while retaining strong English performance on standard datasets. We further show that FP8 and INT4 quantization of Soro preserves most Tajik-language gains while reducing memory requirements for edge deployment, supporting an ongoing education-sector pilot and planned scale-out across schools in Tajikistan.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ee66e9f934ee" data-article-url="https://arxiv.org/abs/2605.27551" data-article-title="ステガノグラフィー継承による合成情報の起源について" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27551" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27551" target="_blank" rel="noopener">ステガノグラフィー継承による合成情報の起源について</a></h3>
      <p class="summary">種の起源は自然科学において謎中の謎であった。類推すると、合成情報の起源は、情報科学における謎の中の謎であると考えられます。この問題は、真実、信頼、人間の知性に対する影響がより広範な経済と社会に深く及ぶため、技術的な説明では完全に解決することも、責任を持って無視することもできない道徳的な重みを持っています。人工知能のまさにその能力により、合成情報の進化の系統を追跡することがますます困難になっています。十分な能力を備えたモデルが、そのモデルが派生した親ソースと、構造レベルでも信号レベルでもほとんど類似しない子孫を生成する可能性があるためです。遺伝学と同様に、2 人の個体は、外見上は互いに反映する同じ表現型を共有する場合がありますが、遺伝子型は根本的に異なります。私たちはステガノグラフィーによって、遺伝に似たメカニズムを提案します。子孫が再生産される瞬間に、プロジェクターが親から形質を導き出し、ステガノグラフィックエンコーダーがそれを子孫の中に目に見えないように隠します。この特性は、サイバーエコシステムにおける子孫のライフサイクル全体を通じて持続します。親子関係が照会されると、ステガノグラフィー デコーダーが子孫から形質を抽出し、それを参照プール内の親候補の形質と比較し、最も可能性の高い親を指名します。理論的分析では、プロジェクターとステゴシステムの特性の関数として系統発生の精度を特徴づける一方、複数のプロジェクターとステゴシステムにわたる経験的評価では、広範囲の処理操作と意味論的な変更の下で提案された方法論の実行可能性を実証します。私たちは、隠れていながらも追跡可能な系統特性を備えた合成情報が、単純な始まりから分岐して、進化してきた、そして進化し続ける無限の形に分岐するサイバーエコシステムを構想しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">On the Origin of Synthetic Information by Means of Steganographic Inheritance</p>
        <p class="orig-summary">The origin of species has been the mystery of mysteries in natural science. By analogy, the origin of synthetic information, we suggest, is the mystery of mysteries in information science. The question carries a moral weight that a technical account can neither fully resolve nor responsibly ignore, as its impact on truth, trust, and human intellect extends deep into the broader economy and society. The very power of artificial intelligence makes the evolutionary lineage of synthetic information grow ever harder to trace, for a sufficiently capable model may generate offspring that bear little resemblance, at either the structural or signal level, to the parent source from which they were derived. As in genetics, two individuals may share the same phenotype mirroring each other in outward appearance, yet differ fundamentally in their genotype. We propose, by means of steganography, a mechanism analogous to heredity. At the moment an offspring is reproduced, a projector derives a trait from the parent, and a steganographic encoder invisibly hides it within the offspring. This trait persists throughout the offspring&#x27;s life cycle in a cyber ecosystem. When parentage is queried, a steganographic decoder extracts the trait from the offspring and compares it against the traits of candidate parents in a reference pool, thereby nominating the most likely one. A theoretical analysis characterises phylogenetic accuracy as a function of projector and stegosystem properties, whilst empirical evaluations across multiple projectors and stegosystems demonstrate the viability of the proposed methodology under a broad spectrum of processing operations and semantic modifications. We envision a cyber ecosystem in which synthetic information, endowed with hidden yet traceable lineage traits, branches from a simple beginning into endless forms that have been, and are being, evolved.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="783423cb2860" data-article-url="https://arxiv.org/abs/2605.27566" data-article-title="DynaSchedBench: LLM ベースのスケジューリング エージェントにおける調整された動的スケジューリング ベンチマークと可観測性のパラドックス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27566" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27566" target="_blank" rel="noopener">DynaSchedBench: LLM ベースのスケジューリング エージェントにおける調整された動的スケジューリング ベンチマークと可観測性のパラドックス</a></h3>
      <p class="summary">Dynamic Flexible Job Shop Scheduling 問題 (DFJSP) に対するニューラル組み合わせ最適化の進歩は、現在、方法論上の緊張によって妨げられています。静的なベンチマークはベンチマークのオーバーフィッティングを促進し、一方、校正されていないジェネレーターは確率的ノイズによってアルゴリズムの機能を曖昧にします。これを解決するために、インスタンス生成プロセスを厳密に制御する DFJSP の診断フレームワークである \textbf{DynaSchedBench} を導入します。私たちのアプローチでは、パラメーター サンプリングに依存する代わりに、新しいスケジュール ストレス インデックス (SSI) を計算する Sequential Event-Space Calibrator (SESC) を利用して、インスタンスを難易度ごとに階層化します。我々は、SESCが進化的ベースラインよりも計算効率が大幅に高く、ターゲットメトリクスに確実に収束することを実証します。このフレームワークは、インスタンスの生成、スナップショットベースのシミュレーション、エージェント、評価、視覚化などのモジュール式コンポーネントを統合しており、それにより、事後対応および先読みベースのポリシーの厳密なテストが可能になります。この調整された環境を活用して、LLM ベースのスケジューリング エージェントの主要な制限を特定します。具体的には、動的スケジューリングのための段階的なオンライン意思決定において、完全な構造情報へのオラクルアクセスをエージェントに提供すると、ポリシーのパフォーマンスが低下し、簡潔な情報のパフォーマンスが低下する可能性があるという「可観測性のパラドックス」を特定しました。さらに、トークンのオーバーヘッドが大きいにもかかわらず、ツールによる拡張戦略や改良戦略では確実にパフォーマンスを向上させることができず、ほとんどの LLM エージェントは強力なディスパッチング ベースラインを継続的に超えることができず、優れたオプティマイザというよりも堅牢なヒューリスティック近似器のように動作します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DynaSchedBench: Calibrated Dynamic Scheduling Benchmarks and Observability Paradox in LLM-based Scheduling Agents</p>
        <p class="orig-summary">Progress in neural combinatorial optimization for Dynamic Flexible Job Shop Scheduling Problem (DFJSP) is currently hindered by a methodological tension: static benchmarks encourage benchmark overfitting, while uncalibrated generators obscure algorithmic capability with stochastic noise. To resolve this, we introduce \textbf{DynaSchedBench}, a diagnostic framework for DFJSP that rigorously controls the instance-generation process. Instead of relying on parameter sampling, our approach utilizes Sequential Event-Space Calibrator (SESC) that computes a novel Schedule Stress Index (SSI) to stratify instances by difficulty. We demonstrate that SESC is substantially more computationally efficient than evolutionary baselines while converging reliably to the target metrics. The framework integrates modular components for instance generation, snapshot-based simulation, agents, evaluation, and visualization, thereby enabling rigorous testing of reactive and lookahead-based policies. Leveraging this calibrated environment, we identify key limitations of LLM-based scheduling agents. Specifically, in step-wise online decision-making for dynamic scheduling, we identify an ``Observability Paradox&#x27;&#x27;: providing agents with oracle access to full structural information can degrade policy performance, underperforming concise information. Furthermore, despite substantial token overhead, tool-augmented and refinement strategies fail to reliably improve performance, and most LLM agents fail to consistently surpass strong dispatching baselines-behaving more like robust heuristic approximators than superior optimizers.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5474a49d3539" data-article-url="https://arxiv.org/abs/2605.27567" data-article-title="なぜLLMは因果関係発見に失敗するのか、そして介入エージェントはどのようにして逃亡するのか" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27567" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27567" target="_blank" rel="noopener">なぜLLMは因果関係発見に失敗するのか、そして介入エージェントはどのようにして逃亡するのか</a></h3>
      <p class="summary">因果関係の発見は科学的推論の基礎ですが、大規模な言語モデルがそれを確実に実行できるかどうかは未解決の問題のままです。最近のベンチマークでは、微調整されたモデルでも単純な因果グラフでは頭打ちになり、複雑さが増すにつれて低下することが示されていますが、なぜ失敗するのかはまだ解明されていません。私たちは、この失敗が根本的なものであることを証明しました。教師あり微調整、直接優先最適化、およびコンテキスト内学習はすべて、同様の観測データを生成する因果グラフを区別できない予測子を生成します。また、そうしようとすると、モデルの内部表現が際限なく増大する必要があり、これらの手法が機能するまさにその条件に違反します。私たちはこれをカーネル障害定理として形式化し、この制限が学習パラダイムに固有のものであり、 \emph{特定のモデルやデータセットではない} ことを確立します。我々は、エージェント的因果ベイジアン最適化（A-CBO）を提案します。この最適化では、凍結された言語モデルが、介入効果に関する対象を絞ったクエリに答える介入の神託として機能し、外部ベイジアン ループが、対数的に多くのラウンドで候補グラフに対する信念を集中させます。この決定は障害が適用される空間の外側で行われるため、基礎となるモデルは変更されないまま、A-CBO は明らかに収束します。 Corr2Cause では、A-CBO はトレーニングなしで微調整されたベースラインと一致します。 18,000 個のテスト サンプルを使用して 24 個の変数にスケーリングする新しいベンチマークである Extended Corr2Cause では、A-CBO は微調整と設定の最適化の両方を大幅に上回り、利点が増大しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Why LLMs Fail at Causal Discovery and How Interventional Agents Escape</p>
        <p class="orig-summary">Causal discovery is a cornerstone of scientific reasoning, yet whether large language models can perform it reliably remains an open question. Recent benchmarks show that even fine-tuned models plateau on simple causal graphs and degrade as complexity grows, but why they fail has not been established. We prove the failure is fundamental: supervised fine-tuning, direct preference optimization, and in-context learning all produce predictors that cannot distinguish between causal graphs generating similar observational data, and any attempt to do so requires the model&#x27;s internal representations to grow unboundedly, violating the very conditions under which these methods work. We formalize this as a kernel obstruction theorem, establishing that the limitation is intrinsic to the learning paradigm, \emph{not any particular model or dataset}. We propose Agentic Causal Bayesian Optimization (A-CBO), wherein a frozen language model serves as an interventional oracle answering targeted queries about intervention effects, while an external Bayesian loop concentrates beliefs over candidate graphs in logarithmically many rounds. Because the decision operates outside the space where the obstruction applies, A-CBO provably converges while the underlying model remains unchanged. On Corr2Cause, A-CBO matches fine-tuned baselines without any training. On Extended Corr2Cause, a new benchmark scaling to 24 variables with 18K test samples, A-CBO significantly outperforms both fine-tuning and preference optimization, with the advantage growing</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cd41415f6ff0" data-article-url="https://arxiv.org/abs/2605.27569" data-article-title="RULER: 機械の非学習の表現レベルの検証" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27569" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27569" target="_blank" rel="noopener">RULER: 機械の非学習の表現レベルの検証</a></h3>
      <p class="summary">機械学習の解除は、最初から再トレーニングすることなく、デプロイされたモデルから特定のトレーニング レコードの影響を取り除くことを目的としています。現在のプロトコルは、メンバーシップ推論、保持精度、および忘却セット精度を通じて出力レベルでこれを検証しますが、モデルは中間表現で忘却されたレコードをエンコードしながら、3 つすべてを満たすことができます。表現レベルの検証メトリクスのセットである RULER を紹介します。オラクル比較メトリクス M2 は、忘却セット レコードが、それなしで再トレーニングされたモデルと同じ表現位置を占めるかどうかを測定します。オラクルフリー メトリック M4 は、再トレーニングせずに、未学習モデルの内部類似性構造のみから残差を検出します。 4 つの近似非学習法はすべて出力レベルの評価に合格しますが、線形混合効果モデルの下では、M2 は 12 条件中 10 条件で有意な残差を検出し (p&lt;0.05)、忘却率が増加するにつれて効果サイズも大きくなります。 5 番目の方法である Bad Teacher は、忘却メカニズムが異なるにもかかわらず、同じ残差を示します。 M4 は、表形式、画像、臨床テキスト、および顔のアイデンティティ設定にわたる学習前診断として機能します。テストされた方法で信号が完全に消去されない顔認識モデルにおけるアイデンティティ レベルの記憶を検出します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">RULER: Representation-Level Verification of Machine Unlearning</p>
        <p class="orig-summary">Machine unlearning aims to remove the influence of specific training records from a deployed model without retraining from scratch. Current protocols verify this at the output level through membership inference, retain accuracy, and forget-set accuracy, but a model can satisfy all three whilst still encoding forgotten records in its intermediate representations. We introduce RULER, a set of representation-level verification metrics. The oracle-comparative metric M2 measures whether forget-set records occupy the same representational position as in a model retrained without them. The oracle-free metric M4 detects residuals from the unlearned model&#x27;s internal similarity structure alone, without retraining. Four approximate unlearning methods all pass output-level evaluation, yet under a linear mixed-effects model M2 detects significant residuals in 10 of 12 conditions (p&lt;0.05), with effect sizes growing as the forget fraction increases. A fifth method, Bad Teacher, shows the same residuals despite a different forgetting mechanism. M4 acts as a pre-unlearning diagnostic across tabular, image, clinical text, and face-identity settings: it detects identity-level memorisation in face recognition models where no tested method fully erases the signal.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fdd041ba11f2" data-article-url="https://arxiv.org/abs/2605.27570" data-article-title="LaneRoPE: 協調的な並列推論と生成のための位置エンコーディング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27570" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27570" target="_blank" rel="noopener">LaneRoPE: 協調的な並列推論と生成のための位置エンコーディング</a></h3>
      <p class="summary">並列 LLM テスト時間スケーリング手法 ($N$ のベストなど) では、同じ入力プロンプトを条件とした $N&gt;1$ シーケンスを描画する必要があります。これらの方法は、$N$ 世代のバッチ処理による計算効率を活用しながら、精度を向上させます。ただし、バッチ内の各シーケンスは伝統的に独立して生成されるため、他のシーケンスからの中間生成、計算、または観測結果を再利用しません。この論文では、生成時に $N&gt;1$ シーケンス間の調整とコラボレーションを可能にする LaneRoPE を提案します。 LaneRoPE には 2 つの重要なアイデアが含まれています。(a) シーケンスのサンプリングを相互に依存させるためのシーケンス間アテンション マスク。 (b) 特定のシーケンス内外のトークン間の相対位置を捕捉する位置情報を注入する RoPE 拡張機能。私たちは数学的推論タスクに対するアプローチを評価し、有望な結果を発見しました。LaneRoPE はシーケンス間のコラボレーションを可能にし、限られた生成されたシーケンス長の下でさらなる精度の向上をもたらします。重要なのは、LaneRoPE を使用すると、基礎となる LLM アーキテクチャへの最小限の変更で調整が可能になり、推論時のオーバーヘッドが無視できる程度になるため、既存の LLM 推論パイプラインに並列推論を迅速に組み込むことができる点が魅力的です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation</p>
        <p class="orig-summary">Parallel LLM test-time scaling techniques (e.g., best-of-$N$) require drawing $N&gt;1$ sequences conditioned on the same input prompt. These methods boost accuracy while exploiting the computational efficiency of batching $N$ generations. However, each sequence in the batch is traditionally generated independently and hence does not reuse intermediate generations, computations, or observations from other sequences. In this paper, we propose LaneRoPE to enable coordination and collaboration among $N&gt;1$ sequences at generation time. LaneRoPE involves two key ideas: (a) an inter-sequence attention mask to make sampling of sequences dependent on one another; and (b) a RoPE extension that injects positional information that captures relative positions between tokens, both within and outside a particular sequence. We evaluate our approach on mathematical reasoning tasks and find promising results: LaneRoPE enables collaboration among sequences, yielding additional accuracy gains under limited generated sequence length. Importantly, since LaneRoPE enables coordination with minimal changes to the underlying LLM architecture and introduces a negligible overhead at inference time, it is appealing to rapidly incorporate parallel reasoning into existing LLM inference pipelines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fe43962b3084" data-article-url="https://arxiv.org/abs/2605.27571" data-article-title="リアルタイム分析用のディスカバリー・エージェント: プロアクティブなインサイト・システムに向けて" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27571" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27571" target="_blank" rel="noopener">リアルタイム分析用のディスカバリー・エージェント: プロアクティブなインサイト・システムに向けて</a></h3>
      <p class="summary">最新の分析システムは基本的に事後対応型であり、ユーザーはますます複雑になり、継続的に進化するデータに対してクエリを定義する必要があります。リアルタイム ストリーミング環境では、潜在的な洞察の空間が手動で列挙するには大きすぎるため、このパラダイムは崩れます。リアルタイム データ ストリームを介した自律的な洞察発見のためのマルチエージェント アーキテクチャを紹介します。このシステムは、エージェントが仮説を生成し、それを実行可能な分析にコンパイルし、生成されたアーティファクトを検証し、視覚化および展開可能なアプリケーションを生成する継続的な検出ループを実装します。このアーキテクチャでは、イベント駆動型の調整に Apache Kafka、ストリーム処理に Apache Flink、および特殊なエージェントを実装するための大規模な言語モデルを活用しています。主な貢献は、型指定された中間成果物に基づく契約主導の設計であり、モジュール性、可観測性、リネージ、および動的に生成された分析のより安全な実行を可能にします。小売、金融、公共データのユースケースを通じて、このアーキテクチャがクエリ駆動の分析からプロアクティブな検出駆動のシステムへの移行をどのようにサポートするかを示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Discovery Agents for Real-Time Analytics: Toward Proactive Insight Systems</p>
        <p class="orig-summary">Modern analytics systems are fundamentally reactive, requiring users to define queries over increasingly complex and continuously evolving data. In real-time streaming environments, this paradigm breaks down, as the space of potential insights becomes too large to enumerate manually. We present a multi-agent architecture for autonomous insight discovery over real-time data streams. The system implements a continuous discovery loop in which agents generate hypotheses, compile them into executable analytics, validate generated artifacts, and produce visualizations and deployable applications. The architecture leverages Apache Kafka for event-driven coordination, Apache Flink for stream processing, and large language models to implement specialized agents. A key contribution is a contract-driven design based on typed intermediate artifacts, enabling modularity, observability, lineage, and safer execution of dynamically generated analytics. Through use cases in retail, finance, and public data, we show how this architecture supports a shift from query-driven analytics to proactive, discovery-driven systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bed9d419f78e" data-article-url="https://arxiv.org/abs/2605.27575" data-article-title="Agyn: スケーラブルなオンデマンド実行、コードとしてのエージェント定義、およびゼロトラスト アクセスを備えた AI エージェント用のオープンソース プラットフォーム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27575" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27575" target="_blank" rel="noopener">Agyn: スケーラブルなオンデマンド実行、コードとしてのエージェント定義、およびゼロトラスト アクセスを備えた AI エージェント用のオープンソース プラットフォーム</a></h3>
      <p class="summary">組織が AI エージェントの実稼働環境への移行に向けて移行すると、AI エージェントは非決定的なワークフローを実行し、ステートフル セッションを維持し、多くの場合、内部サービスへの特権アクセスで動作します。エンジニアリング上の課題は、個々のエージェントの構築から、適切な分離、ガバナンス、セキュリティを備えた大規模な運用へと移行します。このペーパーでは、エージェントのワークロードに合わせて調整された 3 つの主要な原則に基づいて設計されたオープンソース プラットフォームである Agyn について紹介します。エージェントとハーネス定義用の Terraform プロバイダー。そして、ゼロトラストと最小特権の原則に基づいたセキュリティ モデルです。 Agyn は、エージェント、モデル、クラウドに依存しません。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Agyn: An Open-Source Platform for AI Agents with Scalable On-Demand Execution, Agent Definition as a Code, and Zero-Trust Access</p>
        <p class="orig-summary">As organizations move toward production deployments of AI agents, which execute non-deterministic workflows, maintain stateful sessions, and often operate with privileged access to internal services, the engineering challenge shifts from building individual agents to operating them at scale with proper isolation, governance, and security. In this paper we present Agyn, an open-source platform designed around three key principles tailored for agent workloads: a signal-driven, stateful serverless runtime on Kubernetes; a Terraform provider for agent and harness definition; and a security model grounded in zero-trust and least-privilege principles. Agyn is agent-agnostic, model-agnostic, and cloud-agnostic.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a03ba7a97520" data-article-url="https://arxiv.org/abs/2605.27580" data-article-title="自分の状態をコントロールできるのはあなたです: なぜ人間の結末は因果関係のある状態の介入によってコントロール可能なのか" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27580" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27580" target="_blank" rel="noopener">自分の状態をコントロールできるのはあなたです: なぜ人間の結末は因果関係のある状態の介入によってコントロール可能なのか</a></h3>
      <p class="summary">行動科学と人間と対峙する人工知能にとっての中心的な謎は、個人内の多様性の持続です。同じ観察可能な入力を与えられた同じ個人は、異なる機会に異なる結果を生成し、異なる個人は、観察可能な共変量が完全に予測しないような異なる結果を生成します。私たちは、この変動は人の動的な潜在状態に属し、人間の結果は、意思決定が形成される瞬間の状態とその重み付けを対象とした介入を通じて、正確かつ操作的な意味で制御可能であると主張します。私たちは状態を、個人の生物学、生理学、神経心理学が次のイベントをどのように処理して決定と結果に導くかを制御する次元にわたる時間インデックス付きの重み付けベクトルとして定義します。状態、決定、結果の間の関係は、相関関係ではなく因果関係です。重み付けベクトルは、日単位の時間スケールでは動的です。結果が報告される意識的なチャネルは、狭い注意のボトルネックであり、その内容自体は状態に依存します。まとめると、これらの主張は、特定のイベントの結果は、介入時の状態軌道に基づいて条件付きで制御可能であることを意味します。私たちは、確立された証拠の6つの要素（因果推論、予測処理、アロスタシス、注意のボトルネック、時間生物学、計算論的精神医学）と、4つの職業上のペルソナにわたる20万人を超える同意ユーザーにまたがる展開された行動プラットフォームからの24か月の観察ベースによってフレームワークを動機付けています（研究期間は2023年から2026年）。 7 つの検証可能な予測を導き出し、国家認識システムの 6 つの運用要件をリストし、デジタル ヘルス、教育、AI のパーソナライゼーション、個人の主体性への影響について議論します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">You Are in Control of Your State: Why Human Outcomes Are Controllable Through Causal State Intervention</p>
        <p class="orig-summary">A central puzzle for the behavioural sciences and for human-facing artificial intelligence is the persistence of within-person variability. The same individual, presented with the same observable input, produces different outcomes on different occasions, and different individuals produce divergent outcomes that no observable covariate fully predicts. We argue that this variability belongs in the dynamic latent state of the person, and that human outcomes are controllable in a precise and operational sense through interventions that target the state and its weighting at the moment a decision is being formed. We define a state as the time-indexed weighting vector over the dimensions that govern how an individual&#x27;s biology, physiology, and neuropsychology process the next event into a decision and an outcome. The relationship between state, decision, and outcome is causal rather than correlational. The weighting vector is dynamic at sub-daily timescales. The conscious channel through which outcomes are reportable is a narrow attentional bottleneck whose contents are themselves state-dependent. Taken together, these claims imply that the outcome of a given event is controllable, conditionally, on the state-trajectory at the time of intervention. We motivate the framework with six strands of established evidence (causal inference, predictive processing, allostasis, attentional bottleneck, chronobiology, computational psychiatry) and a 24-month observational base from a deployed behavioural platform spanning more than 200,000 consented users across four occupational personas (research period 2023 to 2026). We derive seven testable predictions, list six operational requirements for state-aware systems, and discuss implications for digital health, education, AI personalisation, and personal agency.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3aea4c5da14a" data-article-url="https://arxiv.org/abs/2605.27584" data-article-title="ソーシャルメディアにおけるネットいじめガバナンス: コンテンツの特定から介入までの統一フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27584" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27584" target="_blank" rel="noopener">ソーシャルメディアにおけるネットいじめガバナンス: コンテンツの特定から介入までの統一フレームワーク</a></h3>
      <p class="summary">ソーシャル メディア プラットフォームやオンライン コミュニティの普及により、意図せずしてネットいじめ、ヘイト スピーチ、その他の形式のオンライン有害性の蔓延が促進され、そのような害悪を効果的にガバナンスすることが重要な社会的および計算上の課題となっています。コンテンツのモデレーションの自動化は大幅に進歩しましたが、既存の研究では主にネットいじめのガバナンスを投稿レベルでの受動的で孤立した検出として扱っています。この還元主義的な見方は、ユーザーの継続的な行動力学、有害事象の構造的拡散、積極的な緩和の重要な必要性を見落としています。これらのギャップを埋めるために、このホワイトペーパーでは、ネットいじめガバナンスのパラダイムを、個別の静的検出から統合的で継続的かつ積極的な緩和へと移行させる、統一されたフルライフサイクルガバナンスのフレームワークを提案します。ネットいじめの研究と隣接分野を活用して、(1) コンテンツの識別、(2) ユーザーと行動のモデリング、(3) 拡散ダイナミクスと早期警告、(4) 介入とガバナンスの 4 つの相互に関連した段階にわたって最先端の文献を体系的に統合します。さらに、利用可能なデータセットと評価手法をレビューし、マルチモダリティ、説明可能性、アルゴリズムの公平性、生成 AI の二重使用リスクなどの新たな課題について議論し、より安全で回復力のあるデジタル エコシステムに向けた将来の研究のロードマップを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Cyberbullying Governance on Social Media: A Unified Framework from Content Identification to Intervention</p>
        <p class="orig-summary">The proliferation of social media platforms and online communities has inadvertently catalyzed the spread of cyberbullying, hate speech, and other forms of online toxicity, making the effective governance of such harm a critical societal and computational challenge. While significant strides have been made in automating content moderation, existing research predominantly treats cyberbullying governance as passive, isolated detection at the post level. This reductionist view overlooks the continuous behavioral dynamics of users, the structural diffusion of toxic events, and the critical need for proactive mitigation. To bridge these gaps, this paper proposes a unified full-lifecycle governance framework that shifts the paradigm of cyberbullying governance from isolated static detection toward integrated, continuous, and proactive moderation. Drawing on cyberbullying research and adjacent fields, we systematically synthesize the state-of-the-art literature across four interconnected stages: (1) Content Identification, (2) User and Behavior Modeling, (3) Diffusion Dynamics and Early Warning, and (4) Intervention and Governance. Furthermore, we review available datasets and evaluation practices, and discuss emerging challenges including multimodality, explainability, algorithmic fairness, and the dual-use risks of generative AI, providing a roadmap for future research toward a safer and more resilient digital ecosystem.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="30556c804ee9" data-article-url="https://arxiv.org/abs/2605.27593" data-article-title="競合するLLMエージェントにおける秘密ツールによる自発的な共謀" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27593" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27593" target="_blank" rel="noopener">競合するLLMエージェントにおける秘密ツールによる自発的な共謀</a></h3>
      <p class="summary">ツールが不公平で他者に有害であると明示されている場合でも、表向きは安全を重視する LLM エージェントは、戦略的優位性をもたらす場合には常に自発的に秘密裏に共謀を行っています。この現象を調査するために、我々は 2 つの戦略的なマルチエージェント環境に基づいて構築された経験的フレームワークを導入します。ライアーズ バー (競争的欺瞞シナリオ) とクリーンアップ (混合動機リソース管理シナリオ) です。このシナリオでは、エージェントには、明らかに他のエージェントに不利な点を与えながら大きな利点を提供する秘密結託ツールが提供されます。 12 のモデル (7B、70B、および独自のスケール) と 6 つのプロンプトのバリアントにわたって、ほとんどのエージェントが一貫してこれらのツールを受け入れ、共謀的な戦略を開発する一方で、受け入れる前にツールの不公平性を明確に認識していることがわかりました。さらに、不公平のラベルやベースラインの調整だけでは共謀を確実に阻止できないことも示します。明示的な倫理的枠組みのみが採用を減らし、それでも小規模なモデルは影響を受けやすいままです。より広範に、私たちの研究は、LLM ベースのマルチエージェント システムにおける自発的な共謀の導入に関する初めての体系的な調査を示しており、そのような行為を防ぐには、一般的な調整に依存するのではなく、明示的な保護手段が必要であることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Voluntary Collusion with Secret Tools in Competing LLM Agents</p>
        <p class="orig-summary">Even when a tool is explicitly described as unfair and harmful to others, ostensibly safety-aligned LLM agents still voluntarily engage in secret collusion whenever doing so confers a strategic advantage. To investigate this phenomenon, we introduce an empirical framework built on two strategic multi-agent environments: Liar&#x27;s Bar, a competitive deception scenario, and Cleanup, a mixed-motive resource-management scenario, in which agents are offered secret collusion tools that provide significant advantages while clearly disadvantaging the other agents. Across 12 models (at the 7B, 70B, and proprietary scales) and 6 prompt variants, we find that most agents consistently accept these tools and develop collusive strategies, while explicitly acknowledging the unfairness of the tools before accepting. We further show that neither the unfairness labels nor baseline alignment alone reliably deters collusion: only explicit ethical framing reduces adoption and, even then, smaller models remain susceptible. More broadly, our work presents the first systematic investigation of voluntary collusion adoption in LLM-based multi-agent systems, and suggests that preventing such behaviour requires explicit safeguards rather than reliance on general alignment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a89f630d93d2" data-article-url="https://arxiv.org/abs/2605.27605" data-article-title="ラグナ M.1/XS.2 テクニカルレポート" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27605" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27605" target="_blank" rel="noopener">ラグナ M.1/XS.2 テクニカルレポート</a></h3>
      <p class="summary">ここでは、長期的なエージェント コーディング用に構築された 2 つの専門家の混合基盤モデル、Laguna M.1 と Laguna XS.2 を紹介します。M.1 のパラメーターの合計は $225.8$B (トークンごとにアクティブ化される $23.4$B)、XS.2 は合計 $33.4$B (アクティブ化される $3$B) です。どちらのモデルも、モデル ファクトリーと呼ばれる同じ内部システム内で最初からエンドツーエンドでトレーニングされました。これは、モデル開発を産業プロセスに変える、バージョン管理されたデータ、トレーニング、評価、および推論コンポーネントの緊密に統合されたスタックです。 Model Factory の原理と設計の選択について説明し、トレーニング前のデータとアーキテクチャ、トレーニング後の段階、評価、量子化に至るまでのモデルのエンドツーエンドのトレーニング プロセスについても詳しく説明します。エージェント ソフトウェア エンジニアリングと端末ベンチマーク (SWE-bench Verified、SWE-bench Multilingual、SWE-Bench Pro、および Terminal-Bench 2.0) では、M.1 および XS.2 は、それぞれの重量クラスで最先端のオープン モデルと競合します。 Laguna XS.2 の重みは、Apache~2.0 で https://huggingface.co/collections/poolside/laguna-xs2 でリリースされます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Laguna M.1/XS.2 Technical Report</p>
        <p class="orig-summary">We present Laguna M.1 and Laguna XS.2, two Mixture-of-Experts foundation models built for long-horizon, agentic coding: M.1 has $225.8$B total parameters ($23.4$B activated per token) and XS.2 has $33.4$B total ($3$B activated). Both models were trained from scratch end-to-end inside the same internal system that we refer to as our Model Factory: a tightly-integrated stack of versioned data, training, evaluation, and inference components that turn model development into an industrial process. We describe the principles and design choices of the Model Factory and also detail the end-to-end training process of our models, throughout pre-training data and architecture, post-training stages, evaluation, and quantization. On agentic software engineering and terminal benchmarks (SWE-bench Verified, SWE-bench Multilingual, SWE-Bench Pro, and Terminal-Bench 2.0) M.1 and XS.2 are competitive with state-of-the-art open models in their respective weight classes. Laguna XS.2 weights are released under Apache~2.0 at https://huggingface.co/collections/poolside/laguna-xs2.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="16fb4835c607" data-article-url="https://arxiv.org/abs/2605.27622" data-article-title="動的に変化する規範を考慮した推論と計画" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27622" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27622" target="_blank" rel="noopener">動的に変化する規範を考慮した推論と計画</a></h3>
      <p class="summary">人間と安全に対話するには、AI エージェントは人間の規範を理解し、計画時にそれを考慮する必要があります。しかし、このような規範に基づく計画は、人工エージェントのコミュニティ内でのみ検討されており、規範の動的な性質は無視されてきました。この論文では、代わりに、人間と AI の設定において動的に変化する規範を使用して計画をガイドするアプローチを紹介します。私たちは、規範の矛盾を解決するための実行可能な計算法と、そのような動的に変化する規範を計画上のガードレールとして使用するアプローチに貢献します。私たちは、自然言語対話タスクに関して形式的な証明を使用して理論的に、また AI エージェントである SocialBot を使用して経験的にアプローチを実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Reasoning and Planning with Dynamically Changing Norms</p>
        <p class="orig-summary">To safely interact with humans, AI agents must both know our norms and consider them during planning. However, such norm-guided planning has been less explored, only within communities of artificial agents, and has ignored the dynamic nature of norms. This paper instead presents an approach to guiding planning with dynamically changing norms in a human-AI setting. We contribute a defeasible calculus for resolving normative conflicts and an approach to using such dynamically changing norms as guard rails on plans. We theoretically demonstrate our approach with formal proofs and empirically with an AI agent, SocialBot, on a natural language dialogue task.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9336489a907d" data-article-url="https://arxiv.org/abs/2605.27628" data-article-title="管理された自律性としてのインテリジェンス: エージェントティック AI システムの障害、エスカレーション、ガバナンス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27628" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27628" target="_blank" rel="noopener">管理された自律性としてのインテリジェンス: エージェントティック AI システムの障害、エスカレーション、ガバナンス</a></h3>
      <p class="summary">自律型およびエージェント型 AI システムがロボット環境やヒューマンマシン環境で拡張されるにつれて、幻覚や永続的だが不当な行動の管理は未解決の課題のままです。この論文では、これらの失敗の原因を単にモデルや調整の制限に帰するのではなく、無制限の自律性、つまり不確実性の増大に関係なくエージェントが動作し続けるべきであるという前提のアーキテクチャ上の脆弱性を調査します。これは、認識的ドリフトを検出し、推論を中断し、回復を試み、信頼性が低下したときに最終的に制御を放棄する形式的な能力を通じて、インテリジェントな行動を定義する管理された自律性の理論を導入します。この理論は、安定状態、メタ認知状態、支援状態、および規制状態を特徴とする 4 層フレームワークである SMARt (Self-Managing Multi-tier Autonomous Reasoning with Regulated/Revoked transitions) モデルを介してインスタンス化されます。時間制限付きで保護されたペトリ ネット定式化を開発することで、システムの理論的に制限されたプロパティを確立し、アーキテクチャがどのようにしてエスカレーションを正式に義務付け、無効な出力を制限し、指定された条件下でガバナンスの到達可能性を確保できるかを実証します。さらに、完全性と健全性の基準が満たされていると仮定して、さまざまな運用設定 (ヘルスケア、ロボット工学など) にわたってドメイン固有のトリガー セットを組み込むことで、体系的に安全性を維持できる方法を分析します。これらのトリガーは適応するように設計されているため、SMARt モデルは、時間の経過とともに、エージェントの操作範囲を安全に制御された拡張に対応します。私たちは、自律性ライフサイクル内で障害管理を形式化することが、信頼性が高く管理された人工知能を実現するための重要なステップであると結論付けています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Intelligence as Managed Autonomy: Failure, Escalation, and Governance for Agentic AI Systems</p>
        <p class="orig-summary">As autonomous and agentic AI systems scale in robotic and human-machine environments, managing hallucination and persistent but unjustified action remains an open challenge. Rather than attributing these failures solely to model or alignment limitations, this paper explores the architectural vulnerability of unbounded autonomy - the presumption that an agent should continue operating regardless of rising uncertainty. It introduces a theory of managed autonomy that defines intelligent behavior through the formal capacity to detect epistemic drift, suspend reasoning, attempt recovery, and ultimately surrender control when reliability diminishes. We instantiate this theory via the SMARt (Self-Managing Multi-tier Autonomous Reasoning with Regulated/Revoked transitions) model, a four-layer framework featuring Stable, Meta-cognitive, Assisted, and Regulated states. By developing a timed, guarded Petri net formulation, we establish theoretically bounded properties for the system, demonstrating how architecture can formally mandate escalation, constrain invalid outputs, and ensure governance reachability under specified conditions. We further analyze how incorporating domain-specific trigger sets across varied operational settings (e.g., healthcare, robotics, etc.) can systematically preserve safety, assuming completeness and soundness criteria are met. Because these triggers are designed to be adaptive, the SMARt model accommodates the safe, controlled expansion of an agent&#x27;s operational scope over time. We conclude that formalizing failure management within the autonomy lifecycle is a crucial step toward realizing reliable and governed artificial intelligence.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d453b2c1a8d9" data-article-url="https://arxiv.org/abs/2605.27681" data-article-title="アライメントフェイクの行動分析" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27681" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27681" target="_blank" rel="noopener">アライメントフェイクの行動分析</a></h3>
      <p class="summary">アライメント フェイク (AF) とは、デプロイメント設定を維持しながら動作の変更を回避するためにトレーニング目標に戦略的に準拠するモデルを指します。モデルがトレーニングとデプロイメントを区別できるように成長するにつれて、いつ、そしてなぜ AF が発生するかを理解することが重要になります。これまでの研究では、AF は脆弱で、プロンプトに敏感で、モデルに依存することが判明しており、その根本的な要因は不明のままです。私たちは、コアコンポーネントを分離した制御された最小限のセットアップでAFを研究し、小規模モデルを含む、これまでに報告されているよりも幅広いモデルにわたってAFを観察します。私たちは、価値観、目標防衛、お調子者という 3 つの分離可能な要因を特定し、ターゲットを絞ったプロンプト アブレーションとアクティベーション ステアリングによって、それぞれが独立して AF の動作を調整することを示します。私たちの結果は、心房細動が以前に報告されているよりも広範囲に広がっており、その発生が状況の手がかりや、ベースラインのお調子者や記載された値などの測定可能なモデルの傾向から予測可能であることを示しています。この分解は、将来のモデルで AF を検出および軽減するための具体的な方向性を示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Behavioural Analysis of Alignment Faking</p>
        <p class="orig-summary">Alignment faking (AF) refers to a model strategically complying with a training objective to avoid behavioural modification while preserving its deployment preferences. Understanding when and why AF arises matters as models grow better at distinguishing training from deployment. Prior work finds AF fragile, prompt-sensitive, and model-dependent, leaving its underlying drivers unclear. We study AF in a controlled, minimal setup that isolates its core components, and observe it across a wider range of models than previously reported, including small-scale models. We identify three separable drivers -- values, goal guarding, and sycophancy -- and show via targeted prompt ablations and activation steering that each independently modulates AF behaviour. Our results indicate AF is more widespread than previously reported and that its occurrence is predictable from situational cues and measurable model tendencies such as baseline sycophancy and stated values. The decomposition suggests concrete directions for detecting and mitigating AF in future models.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="106a6b8a0976" data-article-url="https://arxiv.org/abs/2605.27701" data-article-title="クロスエントロピー ゲームとフロスト トレーニング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27701" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27701" target="_blank" rel="noopener">クロスエントロピー ゲームとフロスト トレーニング</a></h3>
      <p class="summary">クロスエントロピー ゲームと呼ばれる、裁判官としての LLM タスクの大規模なファミリーに対するモンテカルロ ベースのポリシー最適化を改善するための手法である Frost Training を紹介します。重要なアイデアは、埋め込み空間における報酬関数の勾配を利用することです。この信号は、貪欲座標勾配 (GCG) ジェイルブレイク手法で使用されます。私たちは、これがモデルのトレーニングを強化するためにも使用できることを初めて実証しました。最尤充填のための GRPO トレーニングを使用して方法を検証します。フロスト トレーニングにより、高スコアの出力を生成するモデルの能力が向上し、best-of-k 設定でより高い最大スコアに達し、高速化されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Cross-Entropy Games and Frost Training</p>
        <p class="orig-summary">We present Frost Training, a method for improving Monte Carlo-based policy optimization for a large family of LLM-as-a-judge tasks called Cross-Entropy Games. The key idea is to exploit the gradient of the reward function in embedding space. This signal is used in the Greedy Coordinate Gradient (GCG) jailbreaking technique; we demonstrate for the first time that it can also be used to boost model training. We validate our method using GRPO training for maximum-likelihood infilling. Frost Training improves the model&#x27;s ability to generate high-scoring outputs, reaching higher maximum scores in a best-of-k setting, and does so at an increased speed.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c7baa2c3fa1d" data-article-url="https://arxiv.org/abs/2605.27703" data-article-title="リソースに制約のあるエージェント言語モデルの階層型プロンプト ドメイン制御と学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27703" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27703" target="_blank" rel="noopener">リソースに制約のあるエージェント言語モデルの階層型プロンプト ドメイン制御と学習</a></h3>
      <p class="summary">大規模言語モデルはエージェント システム内に導入されることが増えており、そこでは構造化されたプロトコルに従い、進化する状態に適応し、メモリ、遅延、コストの制約の下で動作する必要があります。このような体制では、プロンプト拡張は信頼できません。成長するコンテキストによって、コンパクトなモデルが有効なプロンプト領域の外に押し出される可能性がありますが、デプロイメント時の微調整は、不足したデータとコンピューティングによって制限されたままになります。私たちは、最初にコンパクトなモデルを抽出して必要な出力スキーマを学習し、次に Oracle コントローラー ループによってオンラインで監視する、階層的な制御と学習のフレームワークを提案します。コントローラーはプロトコルの有効性とセマンティックパフォーマンスを監視し、蓄積された履歴を実行可能なプロンプトドメインに投影し、ドリフト下で軽量のオラクル監視による微調整をトリガーします。これにより、通信互換性のためのスキーマ学習と、タスクレベルの修正のためのセマンティック適応が分離されます。私たちは、プロンプトドメインの実現可能性と注意誘発性の飽和を形式化し、名目上のコンテキスト長に依存するのではなく、効果的なプロンプト状態の制御を動機付けます。マルチフィデリティ ベイジアン最適化を制御された逐次テストベッドとして使用して、コア デプロイメントの障害モードを特徴付け、非階層ベースライン、蒸留のみのベースライン、および非蒸留ベースラインと比較して信頼性とコスト効率が向上していることを示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Hierarchical Prompt-Domain Control and Learning for Resource-Constrained Agentic Language Models</p>
        <p class="orig-summary">Large Language Models are increasingly deployed inside agentic systems, where they must follow structured protocols, adapt to evolving states, and operate under memory, latency, and cost constraints. In such regimes, prompt extension is unreliable: growing contexts can push compact models outside their effective prompt domain, while deployment-time fine-tuning remains limited by scarce data and compute. We propose a hierarchical control-and-learning framework in which a compact model is first distilled to learn the required output schema, then supervised online by an oracle-controller loop. The controller monitors protocol validity and semantic performance, projects accumulated histories into a feasible prompt domain, and triggers lightweight oracle-supervised fine-tuning under drift. This separates schema learning for communication compatibility from semantic adaptation for task-level correction. We formalize prompt-domain feasibility and attention-induced saturation, motivating control of the effective prompt state rather than reliance on nominal context length. Using Multi-Fidelity Bayesian Optimization as a controlled sequential testbed, we characterize a core deployment failure mode and show improved reliability and cost-efficiency over non-hierarchical, distillation-only, and non-distilled baselines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="80ed7fcf4354" data-article-url="https://arxiv.org/abs/2605.27710" data-article-title="DeepSciVerify: 科学的主張の検証 -- LLM 主導の証拠エスカレーションによる引用の調整" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27710" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27710" target="_blank" rel="noopener">DeepSciVerify: 科学的主張の検証 -- LLM 主導の証拠エスカレーションによる引用の調整</a></h3>
      <p class="summary">主張と引用された証拠の間の不一致は、大規模な言語モデルによって生成されたレポートでよく見られる失敗モードであり、科学やその他のリスクの高い状況での信頼性が制限されます。我々は、抽象レベルの推論とパッセージレベルの証拠への選択的エスカレーションを組み合わせた、科学的な主張と引用の検証のための 2 段階のパイプラインである DeepSciVerify を紹介します。このシステムは、最初に要約を使用して主張を検証し、不確実なケースは延期し、必要な場合にのみ全文文を取得して分析します。この設計では、一部のモデルはより保守的である一方、他のモデルは不確実性の下でより決定的であるため、LLM 全体での相補的な動作を活用しています。 SCitance ベンチマークでは、DeepSciVerify は 86.7 Micro-F1 を達成し、全文検索なしでインスタンスの 67% を解決しながら、抽象のみの強力なベースラインを +4.5 ポイント上回りました。これらの結果は、選択的証拠エスカレーションにより、クレームと引用の検証の精度と効率の両方が向上することを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DeepSciVerify: Verifying Scientific Claim--Citation Alignment via LLM-Driven Evidence Escalation</p>
        <p class="orig-summary">Misalignment between claims and their cited evidence is a common failure mode in reports generated by large language models, limiting their reliability in scientific and other high-stakes settings. We present DeepSciVerify, a two-stage pipeline for scientific claim-citation verification that combines abstract-level reasoning with selective escalation to passage-level evidence. The system first verifies claims using the abstract and defers uncertain cases, retrieving and analyzing full-text passages only when necessary. This design leverages complementary behaviors across LLMs, as some models are more conservative while others are more decisive under uncertainty. On the SCitance benchmark, DeepSciVerify achieves 86.7 Micro-F1, outperforming strong abstract-only baselines by +4.5 points while resolving 67% of instances without full-text retrieval. These results suggest that selective evidence escalation improves both accuracy and efficiency in claim-citation verification.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2fd1b5ea4ea3" data-article-url="https://arxiv.org/abs/2605.27712" data-article-title="LLM 推論の信頼性のためのプレフィックスセーフなベイジアン信念追跡: キャリブレーションとランキングの分離" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27712" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27712" target="_blank" rel="noopener">LLM 推論の信頼性のためのプレフィックスセーフなベイジアン信念追跡: キャリブレーションとランキングの分離</a></h3>
      <p class="summary">長い推論トレースでは、最終的な答えが判明する前に信頼性の推定が必要です。プレフィックスセーフな観測を使用して、プレフィックス条件付き最終的成功推定 $P(y=1 \mid o_{1:t})$ を研究します。 Sequential Bayesian Belief Tracking (SBBT) は、観測の尤度を調整し、2 状態の信念を再帰的に更新し、スカラー スコア、テキストおよび自己検証マーカー、隠れたクラスター、トークン プーリング プローブ、潜在軌道特徴の共通トラッカーを提供します。 MATH-500、GSM8K、AIME 2025、および RIMO-N で生成されたオープンウェイト トレース全体で、確率の品質とランキングは分離されています。スコアのみの SBBT はブライアーを向上させることがよくありますが、AUROC のゲインには強力なプレフィックス セーフ ベースラインを超えた構造を認識した証拠が必要です。最も強力なハード数学設定では、構造を認識した観測値は、標準のプレフィックス セーフ ベースラインに対して +0.110 AUROC に達します。同一プレフィックス分類子の監査では、MATH-500 テキスト マーカーと RIMO-N 自己検証シグナルは肯定的なままです。まとめると、これらの発見は、キャリブレーションを意識したオンライン推論フレームワークとしての SBBT をサポートし、証拠体制を明らかにします。スカラー スコアは主に確率の品質をサポートしますが、構造を認識したプレフィックス信号は、強力なプレフィックス セーフ ベースラインがランクの証拠をまだ吸収していない場合にのみランク付けをサポートします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Prefix-Safe Bayesian Belief Tracking for LLM Reasoning Reliability:Separating Calibration from Ranking</p>
        <p class="orig-summary">Long reasoning traces need reliability estimates before final answers are known. We study prefix-conditioned eventual-success estimation, $P(y=1 \mid o_{1:t})$, using prefix-safe observations. Sequential Bayesian Belief Tracking (SBBT) calibrates observation likelihoods and recursively updates a two-state belief, providing a common tracker for scalar scores, text and self-verification markers, hidden clusters, token-pooling probes, and latent-trajectory features. Across generated open-weight traces on MATH-500, GSM8K, AIME 2025, and RIMO-N, probability quality and ranking separate: score-only SBBT often improves Brier, while AUROC gains require structure-aware evidence beyond strong prefix-safe baselines. In the strongest hard math setting, structure-aware observations reach +0.110 AUROC against standard prefix-safe baselines. Under a same-prefix classifier audit, MATH-500 text markers and RIMO-N self-verification signals remain positive. Together, these findings support SBBT as a calibration-aware online inference framework and expose an evidence regime: scalar scores mainly support probability quality, while structure-aware prefix signals support ranking only when strong prefix-safe baselines have not already absorbed the rank evidence.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fd7e5aadaa79" data-article-url="https://arxiv.org/abs/2605.27744" data-article-title="エージェント LLM サービスを提供するためのポリシー駆動型ランタイム層" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27744" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27744" target="_blank" rel="noopener">エージェント LLM サービスを提供するためのポリシー駆動型ランタイム層</a></h3>
      <p class="summary">マルチエージェント LLM システムは主要な運用ワークロードになっていますが、サービス スタックはそれらのために構築されていませんでした。上記のエージェント フレームワークは、エージェントの ID、役割、スキーマ、ディスパッチ構造を認識していますが、エンジン レベルのイベントを認識することはありません。以下のサービス エンジンはすべてのイベントを確認しますが、エージェントについては何も知りません。驚くほど多くの横断的なポリシーが、プレフィックス キャッシュ、バッチ シェーピング、投機的実行、公平性、ツール結果のメモ化、安全性の強制などの両方に依存しています。それぞれが 2 つの層の間の継ぎ目に存在しており、現在は、一方の層または他方の層に 1 回限りのパッチを適用することで解決されています。私たちは、この継ぎ目は点修正ではなくアーキテクチャ変更によって最もよく対処できると主張します。つまり、フレームワークとエンジンの間に 3 番目の層であるエージェント ランタイム層を挿入し、エージェント ID を共有座標としてエージェント認識ポリシーが接続される 4 つのプリミティブ (観察、スコア、予測、動作) を公開します。 9 つの具体的なポリシーをレイヤーにマッピングし、最大の当面のサービス コスト レバーを持つ抽象化を徹底的に検証します。これは、CacheSage としてインスタンス化されたセッションにわたる KV キャッシュです。これは、ワークロードごとのエージェント移行マトリックスをオンラインで学習し、それを生存ベースのエビクションとステップ間のプリフェッチに使用します。 5 つの実際のマルチエージェント ワークロードに関する暫定結果では、未変更のサービング スタックと比較して、キャッシュ ヒット率が +13 ～ +37 pp 向上し、平均 TTFT が 12 ～ 29% 低下し、スループットが 6 ～ 14% 向上したことが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Policy-Driven Runtime Layer for Agentic LLM Serving</p>
        <p class="orig-summary">Multi-agent LLM systems have become the dominant production workload, but the serving stack was not built for them. The agent framework above knows agent identities, role, schemas, and dispatch structure but never sees an engine-level event; the serving engine below sees every event but knows nothing about agents. A surprising number of cross-cutting policies depend on both: prefix caching, batch shaping, speculative execution, fairness, tool-result memoization, safety enforcement, and more. Each lives in the seam between the two layers and is currently solved by a one-off patch into one neighbor or the other. We argue this seam is best addressed by an architectural change rather than point fixes: insert a third tier, an agent runtime layer, between the framework and the engine, exposing four primitives (observe, score, predict, act) into which any agent-aware policy plugs, with agent identity as the shared coordinate. We map nine concrete policies onto the layer and validate the abstraction in depth on the one with the largest immediate serving-cost lever: KV caching across sessions, instantiated as CacheSage, which learns the per-workload agent transition matrix online and uses it for survival-based eviction and between-step prefetch. Preliminary results on five real multi-agent workloads show +13 to +37 pp cache hit-rate lift, 12% to 29% lower mean TTFT, and 6% to 14% higher throughput over an unmodified serving stack.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9536250e63ab" data-article-url="https://arxiv.org/abs/2605.27752" data-article-title="尋ねるだけでは不十分: LLM 信頼性キャリブレーションにおけるプロトコル感度" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27752" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27752" target="_blank" rel="noopener">尋ねるだけでは不十分: LLM 信頼性キャリブレーションにおけるプロトコル感度</a></h3>
      <p class="summary">LLM の信頼度調整は、多くの場合、トークン確率スコアと言語化された信頼度という 2 つのシグナルを比較することによって評価されます。これらの信号はモデルの不確実性の直接の読み取り値として扱われることがありますが、その比較はめったに明示されない測定の選択に依存します。主要な分析では、言語化された信頼性の引き出しを固定します。つまり、単一のプロンプト テンプレート、確率スケール、および出力形式です。次に、言語化対トークンの比較を定義する測定軸を変更します。つまり、どの応答文字列がトークン確率スコアを受け取るか、そのスコアが応答トークンからどのように読み取られるか、およびどの条件付けコンテキストの下で測定されるかです。この設計を、同じファミリーの堅牢性チェックとしてより大きな Qwen2.5 バリアントを使用した、3 つのオープン 7 ～ 8B ベース/Instruct モデル ファミリにわたる 4 つの QA ベンチマークで評価しました。結果として得られる比較は、これらの選択に影響されます。コンディショニング コンテキストは設定全体で ECE ギャップの符号または大きさを変更し、トークンの読み出しでは小さいながらも符号が移動する変化が生成され、ECE 推定量を変更してもほとんど効果がありません。デフォルトの生成された回答、ベアコンテキストプロトコルの下では、指示設定は、言語化された信頼性に対する大きな調整ゲインを示すのではなく、同等に近いものになります。別の提供された回答分析では、表面的にもっともらしい誤った回答は、提供されたゴールドアンサーとほぼ同じ信頼度を得ており、言語化された信頼度は、正しさだけではなく、回答のもっともらしさと出所も反映していることを示唆しています。私たちは、両方の信頼シグナルはプロトコル依存の行動測定として扱われるべきであり、引き出しの来歴、採点された回答、トークン確率の読み出し、およびコンディショニングコンテキストをカバーするレポートチェックリストを提供する必要があると主張します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Asking Is Not Enough: Protocol Sensitivity in LLM Confidence Calibration</p>
        <p class="orig-summary">LLM confidence calibration is often evaluated by comparing two signals: token-probability scores and verbalized confidence. These signals are sometimes treated as direct readouts of model uncertainty, but their comparison depends on measurement choices that are rarely made explicit. In the main analysis, we hold the verbalized-confidence elicitation fixed: a single prompt template, probability scale, and output format. We then vary the measurement axes that define the verbalized-vs-token comparison: which answer string receives the token-probability score, how that score is read from the answer tokens, and under which conditioning context it is measured. We evaluate this design on four QA benchmarks across three open 7--8B base/Instruct model families, with larger Qwen2.5 variants as same-family robustness checks. The resulting comparison is sensitive to these choices: conditioning context changes the sign or magnitude of the ECE gap across settings, token readout produces smaller but still sign-moving changes, and changing the ECE estimator has little effect. Under the default generated-answer, bare-context protocol, Instruct settings are close to parity rather than showing a large calibration gain for verbalized confidence. In a separate supplied-answer analysis, surface-plausible wrong answers receive nearly the same confidence as supplied gold answers, suggesting that verbalized confidence also reflects answer plausibility and provenance rather than correctness alone. We argue that both confidence signals should be treated as protocol-dependent behavioral measurements, and provide a reporting checklist covering elicitation provenance, scored answer, token-probability readout, and conditioning context.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eec9647cbb55" data-article-url="https://arxiv.org/abs/2605.27760" data-article-title="SkillGrad: 勾配降下法などのエージェント スキルの最適化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27760" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27760" target="_blank" rel="noopener">SkillGrad: 勾配降下法などのエージェント スキルの最適化</a></h3>
      <p class="summary">エージェント スキルは、再利用可能な手順知識を構造化ファイルに保存することで、LLM エージェントを特殊なドメインに適応させる軽量な方法を提供します。ただし、サードパーティからダウンロードしたものであっても、自己生成したものであっても、これらのスキルは多くの場合、信頼性が低く、不完全で、時代遅れです。既存のスキル進化手法では、明示的な最適化定式化を行わずに、ヒューリスティックな反映を通じてこれらの欠陥に対処することがよくあります。このペーパーでは、エージェントのスキルを最適化するための勾配降下法にヒントを得たフレームワークである SkillGrad を提案します。 SkillGrad は、スキル パッケージを構造化パラメータとして扱い、勾配降下法で最適化します。タスクの実行により軌道レベルの損失証拠が提供され、自動診断により修正方向を示すテキストベースの勾配が提供されます。反復全体で最適化を安定させるために、モメンタム エージェントは、繰り返し発生する診断パターンを永続的なメモリ オーバーレイに蓄積します。最後に、LLM ベースのパッチャーは、スキル パッケージにレイヤー対応の編集を適用することにより、パラメーターの更新を実行します。 SpreadsheetBench Verified および WikiTableQuestions で評価したところ、SkillGrad は 2 つのバックボーン LLM にわたるトレーニング ベースのスキル進化ベースラインを常に上回っており、最も強力なトレーニング ベースのベースラインよりも平均で $6.7$ パーセンテージ ポイント向上しています。アブレーションはさらに、運動量と対照的診断の両方が最終的なスキルの質に寄与していることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SkillGrad: Optimizing Agent Skills Like Gradient Descent</p>
        <p class="orig-summary">Agent skills provide a lightweight way to adapt LLM agents to specialized domains by storing reusable procedural knowledge in structured files. However, whether downloaded from third parties or self-generated, these skills are often unreliable, incomplete, or outdated. Existing skill-evolution methods often address these deficiencies through heuristic reflections without an explicit optimization formulation. In this paper, we propose SkillGrad, a gradient-descent-inspired framework for optimizing agent skills. SkillGrad treats the skill package as a structured parameter to optimize in a gradient descent fashion: task executions provide trajectory-level loss evidence, automatic diagnoses then provide text-based gradients that indicate the correction directions. To stabilize optimization across iterations, a momentum agent accumulates recurring diagnostic patterns into a persistent memory overlay. Finally, an LLM-based patcher executes the parameter update by applying layer-aware edits to the skill package. Evaluated on SpreadsheetBench Verified and WikiTableQuestions, SkillGrad consistently outperforms training-based skill evolution baselines across two backbone LLMs, improving over the strongest training-based baseline by $6.7$ percentage points on average. Ablations further show that momentum and contrastive diagnosis both contribute to the final skill quality.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ea2da268e855" data-article-url="https://arxiv.org/abs/2605.27762" data-article-title="PEAM: Minecraft での経験の対照的な内面化によるパラメトリックな身体化されたエージェントの記憶" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27762" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27762" target="_blank" rel="noopener">PEAM: Minecraft での経験の対照的な内面化によるパラメトリックな身体化されたエージェントの記憶</a></h3>
      <p class="summary">Minecraft のパラメトリック エンボディド エージェント メモリ フレームワークである PEAM を紹介します。これは、エージェント メモリを推論時の検索から、経験を通じて内面化されたパラメータ常駐スキルに変換します。 PEAM は、オープンエンド推論のための遅い熟議型 LLM と、統合されたスキルを反射的に実行するための高速パラメトリック モジュールを組み合わせます。この高速モジュールは、カテゴリごとに物理的に分離されたアダプターを備えたマルチモーダルな専門家混合 LoRA アーキテクチャであり、致命的な忘れを引き起こすことなくパラメーター レベルの継続的な学習を可能にします。私たちは失敗を第一級のトレーニング信号として扱います。失敗と修正軌道のペアは、共同の行動クローニングと対照的な目標を通じて内面化されるため、エージェントは何が成功したかだけでなく、修正されたアクションが失敗したアクションとどのように異なるのかも学習します。統合を管理するために、PEAM は、どのエクスペリエンスを内部化するかを決定するためのパラメータ化価値スコアと、タスク固有の手動調整しきい値なしでいつ内部化するかを決定するためのスケールフリーの自己トリガー統合メカニズムを導入し、再調整することなくトリガーがタスク分布全体に移行するにつれてエージェントを自己進化させます。 Minecraft での実験では、PEAM が長期的なタスクのパフォーマンスを向上させ、以前に統合されたスキルの忘れを軽減し、検索ベースの身体化エージェントやパラメトリック メモリのバリアントに比べてパラメトリック対検索の効率を向上させることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PEAM: Parametric Embodied Agent Memory through Contrastive Internalization of Experience in Minecraft</p>
        <p class="orig-summary">We present PEAM, a Parametric Embodied Agent Memory framework in Minecraft that transforms agent memory from inference-time retrieval into parameter-resident skills internalized through experience. PEAM pairs a slow deliberative LLM for open-ended reasoning with a fast parametric module for reflexive execution of consolidated skills. The fast module is a multimodal Mixture-of-Experts LoRA architecture with per-category physically isolated adapters, enabling parameter-level continual learning without catastrophic forgetting. We treat failure as a first-class training signal: failure--correction trajectory pairs are internalized through a joint behavioral-cloning and contrastive objective, so the agent learns not only what succeeds but also how corrected actions differ from failed ones. To govern consolidation, PEAM introduces a parameterization-worthiness score for deciding which experience should be internalized, and a scale-free self-triggered consolidation mechanism for deciding when to internalize without task-specific hand-tuned thresholds, making the agent self-evolving as the trigger transfers across task distributions without re-tuning. Experiments in Minecraft show that PEAM improves long-horizon task performance, mitigates forgetting on previously consolidated skills, and improves parametric-versus-retrieval efficiency over retrieval-based embodied agents and parametric memory variants.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e9abfd46f933" data-article-url="https://arxiv.org/abs/2605.27766" data-article-title="秘密がある? LLM エージェントはそれを守れない: マルチエージェント システムにおけるプライバシーの評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27766" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27766" target="_blank" rel="noopener">秘密がある? LLM エージェントはそれを守れない: マルチエージェント システムにおけるプライバシーの評価</a></h3>
      <p class="summary">LLM の安全性評価では主にモデルを単独でテストしますが、配備された AI エージェントは他のエージェントと並んで永続的な社会環境内で動作することが増えています。私たちは、何千人もの LLM エージェントがシミュレートされた 1 か月間にわたってコミュニティ間で対話する Moltbook スタイルのシミュレーション プラットフォームを導入し、それを使用して、さまざまな程度の社会的圧力の下で下流の安全上の懸念としてプライバシーを評価します。シングルターンからマルチターンへの社会的評価の移行により、プライバシー侵害が増幅されること（OpenAI モデル全体で、CIMemories 19.95% から Ours 45.30%）、漏洩は社会的に伝染し、ピアが機密情報を開示するのを観察したエージェントは機密情報を開示する可能性が 8 倍高く、明示的なプライバシーに関する指示はこの影響を軽減するものの排除はせず、保護策を講じたとしても漏洩率が 37.8% を超えることがわかりました。私たちの調査結果は、静的チャットベースの安全性ベンチマークは、エージェント導入におけるリスクを体系的に過小評価していること、また、社会的コンテキストだけで、単一ターンの評価では決して表面化しない機密情報の開示を引き出すのに十分であることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Got a Secret? LLM Agents Can&#x27;t Keep It: Evaluating Privacy in Multi-Agent Systems</p>
        <p class="orig-summary">LLM safety evaluations predominantly test models in isolation, yet deployed AI agents increasingly operate within persistent social environments alongside other agents. We introduce a Moltbook-style simulation platform where thousands of LLM agents interact across communities over a simulated month, and use it to evaluate privacy as a downstream safety concern under varying degrees of social pressure. We find that shifting from single turn to multi turn social evaluation amplifies privacy violations (CIMemories 19.95% to Ours 45.30% across OpenAI models), that leakage is socially contagious, with agents 8 times more likely to disclose sensitive information after observing a peer do so, and that explicit privacy instructions reduce but do not eliminate this effect, leaving leakage rates above 37.8% even with safeguards. Our findings suggest that static chat based safety benchmarks systematically underestimate risks in agentic deployment, and that social context alone is sufficient to elicit sensitive disclosures that single turn evaluations would never surface.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="165bf089c73a" data-article-url="https://arxiv.org/abs/2605.27768" data-article-title="学習された棄権とリアルタイムステアリングを備えた監査可能な意思決定モデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27768" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27768" target="_blank" rel="noopener">学習された棄権とリアルタイムステアリングを備えた監査可能な意思決定モデル</a></h3>
      <p class="summary">実稼働 AI システムは、不完全、矛盾、または不十分な証拠を使用して動作することがよくあります。強制分類子はそのようなケースをアクションラベルにまとめますが、生成システムは監査可能な実行決定として解釈するのが難しい出力を生成する可能性があります。私たちは、AI システムの運用上の意思決定制御を研究しています。不確実性は、強制的な予測や自由形式の生成の中に隠されるのではなく、明示的にルーティング可能、ポリシー管理可能、監査可能でなければなりません。我々は、YES、NO、または TBD を予測する有界意思決定制御モデルである EvaluatorDPT を紹介します。TBD は事後信頼ルールとしてのみ追加されるのではなく、延期結果として学習されます。このモデルは、一次有界決定ヘッドと、価値観と感情/センチメント用の構造化された補助チャネルを備えたトランスエンコーダーを使用します。このインターフェイスは形式的にドメインに依存しません。デプロイメント ドメインは証拠とポリシーのしきい値を提供しますが、モデルは、記録された動作しきい値と、検証された場合の補助的なセマンティック シグナルを通じて推論時に制御できる有界分布を発行します。評価されたモデル バージョンについては、保留された検証とテスト分割に関する意思決定パフォーマンスを報告します。この評価では感情ヘッドが無効になっているため、補助的な感情メトリクスは省略されています。ホールドアウトされたテスト分割 (n=44,597) では、モデルは精度 = 0.8260 およびマクロ F1 = 0.8252 を達成し、クラスごとの F1 は 0.8314 (YES)、0.8486 (NO)、および 0.7956 (TBD) でした。評価記録には、キャリブレーション証拠 (検証時 ECE = 0.0338)、しきい値スイープ出力、マルチシード安定性チェック、混同行列、および再現性コマンドも含まれます。私たちの主な貢献は、遅延が学習され、推論時のルーティングが検査可能な状態を維持し、補助信号が監査可能な動作制御へのパスを提供し、評価証拠が外部レビューをサポートする制限付き実行インターフェイスです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Auditable Decision Models with Learned Abstention and Real-Time Steering</p>
        <p class="orig-summary">Production AI systems often operate with incomplete, conflicting, or insufficient evidence. Forced classifiers collapse such cases into action labels, while generative systems can produce outputs that are difficult to interpret as auditable execution decisions. We study operational decision control for AI systems, where uncertainty must be explicitly routable, policy-governed, and auditable rather than hidden inside forced predictions or free-form generation. We present EvaluatorDPT, a bounded decision-control model that predicts YES, NO, or TBD, where TBD is learned as a deferral outcome rather than added only as a post-hoc confidence rule. The model uses a transformer encoder with a primary bounded-decision head and structured auxiliary channels for values and emotions/sentiments. The interface is domain-agnostic in form: a deployment domain supplies evidence and policy thresholds, while the model emits a bounded distribution that can be controlled at inference time through recorded operating thresholds and, when validated, auxiliary semantic signals. For the evaluated model version, we report decision performance on held-out validation and test splits; auxiliary emotion metrics are omitted because the emotion head is disabled for this evaluation. On the held-out test split (n=44,597), the model achieves Accuracy = 0.8260 and Macro F1 = 0.8252, with per-class F1 of 0.8314 (YES), 0.8486 (NO), and 0.7956 (TBD). The evaluation record also includes calibration evidence (ECE = 0.0338 on validation), threshold-sweep outputs, multi-seed stability checks, confusion matrices, and reproducibility commands. Our main contribution is a bounded execution interface in which deferral is learned, inference-time routing remains inspectable, auxiliary signals provide a path to auditable behavior control, and evaluation evidence supports external review.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2d1bd1b9a27" data-article-url="https://arxiv.org/abs/2605.27784" data-article-title="目撃された解決プロファイルを使用した LLM エージェントでのポリシー内ライブ命令の競合の診断" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27784" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27784" target="_blank" rel="noopener">目撃された解決プロファイルを使用した LLM エージェントでのポリシー内ライブ命令の競合の診断</a></h3>
      <p class="summary">LLM エージェントは、長期にわたる自然言語プロンプト ポリシーによって管理されますが、個別に合理的な常駐ルールが検査されていない方法で相互作用する可能性があります。私たちは、実際のポリシー内ルール競合診断を研究します。つまり、現実的な状態を共同管理できる単一のプロンプト ポリシー内のルール ペアを見つけ、モデルが応答やツールのアクションでそのプレッシャーをどのように解決するかを測定します。 Witnessed Intra-policy Rule Evaluation パイプラインである WIRE を紹介します。 WIRE は、ソースに基づいたルールを抽出し、PyRule 句としてエンコードし、充足可能性チェックを使用して同一面のハードコリジョン候補を保持し、それらの候補を具体的な共同統治証人として認識し、元のソースルールテキストに対して出力をモデル化します。 6 つのパブリック プロンプト ポリシーにわたって、WIRE は 276 のソース ルールと 560 のアトミック条項を抽出し、30,944 のポリシー内条項ペアの比較を分類し、170 のエンコードされたハードコリジョン候補ソースとルールのペアを保持し、それらを 1,402 の具体的な証人として実現します。ポリシーのみの評価では、これらの証人から、両方のソース ルールが適用され、両方のコンプライアンス ラベルが判断可能である 13,335 件の世代後トライアルが得られます。共同コンプライアンスの低下はわずか 35.4% でした。 64.6% が少なくとも 1 つの管理された情報源規則に違反しています。これらのプロファイルは、WIRE によって選択された候補の条件付き診断であり、導入頻度や原因となる過剰な障害の推定ではありませんが、明確なポリシー、モデル、ツール アクションの解決パターンを明らかにします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Diagnosing Live Within-Policy Instruction Conflicts in LLM Agents with Witnessed Resolution Profiles</p>
        <p class="orig-summary">LLM agents are governed by long-lived natural-language prompt policies, but individually reasonable standing rules can interact in uninspected ways. We study live intra-policy rule-conflict diagnosis: finding rule pairs inside a single prompt policy that can co-govern a realistic state, and measuring how models resolve that pressure in responses or tool actions. We introduce WIRE, a Witnessed Intra-policy Rule Evaluation pipeline. WIRE extracts source-grounded rules, encodes them as PyRule clauses, uses satisfiability checks to retain same-surface hard-collision candidates, realizes those candidates as concrete co-governance witnesses, and judges model outputs against the original source-rule text. Across six public prompt policies, WIRE extracts 276 source rules and 560 atomic clauses, classifies 30,944 within-policy clause-pair comparisons, retains 170 encoded hard-collision candidate source-rule pairs, and realizes them as 1,402 concrete witnesses. In policy-only evaluation, these witnesses yield 13,335 post- generation trials where both source rules govern and both compliance labels are judgeable. Only 35.4% fall in joint compliance; 64.6% violate at least one governed source rule. These profiles are conditional diagnostics for WIRE-selected candidates, not deployment-frequency or causal excess failure estimates, but they reveal distinct policy, model, and tool-action resolution patterns.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e859d99fa811" data-article-url="https://arxiv.org/abs/2605.27785" data-article-title="エージェント用のクエリ エンジン" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27785" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27785" target="_blank" rel="noopener">エージェント用のクエリ エンジン</a></h3>
      <p class="summary">現在、実稼働環境で最も急速に増加しているデータは、エージェント トレース、チャット ログ、推論チェーン、モデル出力などの非構造化テキストです。人々はそれを分析したいと考えていますが、クエリ パスにモデルがないとテキストをクエリできないため、尋ねる価値のある質問 (「エージェントがどこで混乱したか教えてください」) は SQL だけでは答えることができません。この分析が行われる自然な場所は、クライアント側で実行され、同じプロセス内で人間のユーザーと LLM エージェントの両方をホストする新しいクラスの AI アプリケーション (Claude Code、Cursor、Claude Desktop、ブラウザ内エージェント) です。これらのアプリケーションはデータを操作する必要がますます高まっていますが、レイクハウスの読み取りパスは JS ランタイムから使用するのが難しく、Spark、Trino、およびマネージド ウェアハウスはそこに適合しません。この新しい種類の AI データ アプリケーションを構築するには、エンジンの 3 つのプロパティが一次になります。アプリケーションがすでに実行されているランタイムにドロップされる JS ネイティブ ディストリビューション、コールド タブまたはターンごとのエージェント サンドボックス内に出荷できるほど十分小さいバンドル、および分析オペレーターとモデルベースのテキスト解釈をインターリーブする方法です。我々は、合計 70 KB 未満の 3 つのオープンソース JavaScript ライブラリ (Hyparquet、Squirreling、Icebird) である Hyperparam を紹介します。これらは、Parquet と Apache Iceberg をオブジェクト ストレージから直接読み取り、セルごとの非同期ネイティブ SQL 実行で 3 番目のプロパティを満たすため、高価なセルはダウンストリーム オペレーターが要求した場合にのみ起動されます。 Squirreling は、フィルタ境界クエリでは DuckDB-WASM より 300 倍以上高速 (ソート境界クエリでは 192 倍) で LLM 形状の非同期 UDF を実行し、3 分の 2 のコストで 10 タスクのエージェント アナリスト スイートを完成させます。私たちは、専門分野としてのデータ エンジニアリングは、現在運用されている AI ネイティブのクライアント アプリケーションとそのユーザーと連携して動作するエージェントに合わせて更新する必要があると主張します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Query Engine for the Agents</p>
        <p class="orig-summary">The fastest-growing data in production today is unstructured text: agent traces, chat logs, reasoning chains, model outputs. People want to analyze it, and the questions worth asking (&quot;show me where the agent got confused&quot;) cannot be answered by SQL alone, since text is not queryable without a model in the query path. The natural place this analysis is happening is the new class of AI applications (Claude Code, Cursor, Claude Desktop, in-browser agents) that run client-side and host both a human user and an LLM agent in the same process. These applications increasingly want to work with data, but the lakehouse read path has been hard to use from a JS runtime: Spark, Trino, and managed warehouses do not fit there. To build this new kind of AI data application, three properties of the engine become first-order: a JS-native distribution that drops into the runtime the application already runs in, a bundle small enough to ship inside a cold tab or per-turn agent sandbox, and a way to interleave analytic operators with model-based interpretation of text. We present Hyperparam, three open-source JavaScript libraries (Hyparquet, Squirreling, Icebird) totaling under 70 KB, that read Parquet and Apache Iceberg directly from object storage and meet the third property with per-cell, async-native SQL execution, so expensive cells fire only when downstream operators demand them. Squirreling runs LLM-shaped async UDFs over 300x faster than DuckDB-WASM on filter-bounded queries (and 192x on sort-bounded queries) and completes a ten-task agent analyst suite at two-thirds lower cost. We argue that data engineering as a discipline needs to update for the AI-native client applications now in production and the agents that work alongside their users.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb473ef7645f" data-article-url="https://arxiv.org/abs/2605.27789" data-article-title="LLM-as-a-Judge 評価のための固定予算のクラスター対応標準: マルチホップ RAG ストレス テスト" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27789" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27789" target="_blank" rel="noopener">LLM-as-a-Judge 評価のための固定予算のクラスター対応標準: マルチホップ RAG ストレス テスト</a></h3>
      <p class="summary">検索拡張生成 (RAG) システムは、大規模言語モデル (LLM) にどちらの答えが優れているかを判断させることによって比較されることがよくあります。マルチホップ RAG の場合、これはモデリングの問題と同じくらい測定の問題になります。同じスコアは、検索品質、回答の長さ、語彙の重複、またはクラスター化されたデータを無視する統計テストを反映する可能性があります。これらの選択が明確にされると何が起こるのかを尋ねます。私たちは、RAG における LLM-as-a-judge の比較のための最小測定標準を提案します。この標準では、上位 100 位の候補者プール、証拠予算、回答上限、ジェネレーター、およびプロンプトが修正されています。また、事前に登録された仮説、クラスターを意識した推論、可能な場合は正確なクラスターの符号反転チェック、および第 2 判定の複製も必要です。クラスター化されたベンチマークは進捗状況を誇張する可能性があります。現場ではこの標準を採用する必要があります。コンピューター サイエンス/機械学習 (CS/ML) および材料科学における 400 のマルチホップ質問に対して、進化的証拠セレクターである Genetic Algorithm Decoder for Multi-hop Evidence Composing (GADMEC) を使用してストレス テストを行います。このプロトコルは経験的な物語を変えます。二項テストでは、4 つの意味ベースラインの比較がすべて重要であるように見えます。クラスター認識推論では、ボンフェローニ有意な結果が 1 つだけ残ります。 BM25 は同じ予算内で純粋な意味論的な GADMEC を破り、語彙と意味論的なハイブリッドが CS/ML で回復し、材料科学の差を縮めます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Fixed-Budget, Cluster-Aware Standard for LLM-as-a-Judge Evaluation: A Multi-Hop RAG Stress Test</p>
        <p class="orig-summary">Retrieval-augmented generation (RAG) systems are often compared by asking a large language model (LLM) judge which answer is better. For multi-hop RAG, this has become a measurement problem as much as a modeling problem: the same score can reflect retrieval quality, answer length, lexical overlap, or a statistical test that ignores clustered data. We ask what happens when these choices are made explicit. We propose a minimum measurement standard for LLM-as-a-judge comparisons in RAG. The standard fixes the top-100 candidate pool, evidence budget, answer cap, generator, and prompt; it also requires pre-registered hypotheses, cluster-aware inference, an exact cluster sign-flip check when feasible, and second-judge replication. Clustered benchmarks can overstate progress; the field should adopt this standard. We stress-test it with Genetic Algorithm Decoder for Multi-hop Evidence Composition (GADMEC), an evolutionary evidence selector, on 400 multi-hop questions in computer science/machine learning (CS/ML) and Materials Science. The protocol changes the empirical story. A binomial test makes all four semantic-baseline comparisons look significant; cluster-aware inference leaves only one Bonferroni-significant result. BM25 beats pure semantic GADMEC under the same budget, while a lexical-semantic hybrid recovers in CS/ML and narrows the Materials Science gap.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="47f785d0c1ee" data-article-url="https://arxiv.org/abs/2605.27799" data-article-title="GraD-IBD: 炎症性腸疾患の早期検出のための診断軌跡から学習したグラフ表現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27799" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27799" target="_blank" rel="noopener">GraD-IBD: 炎症性腸疾患の早期検出のための診断軌跡から学習したグラフ表現</a></h3>
      <p class="summary">国際疾病分類 (ICD) は、各患者の診察中の診断イベントを記録する世界的に認められたコーディング システムであり、さまざまな臨床タスクに標準化されたデータ基盤を提供します。ただし、ICD コード シーケンスの不規則で階層的な性質は、N 次元格子ベースの逐次モデリング手法に課題をもたらし、過度に複雑なモデル設計につながります。この論文では、炎症性腸疾患 (IBD) のリスクを検出するために、縦方向の ICD 軌跡を訪問バケット化された時間方向のグラフとして再定式化するグラフ診断モデルである GraD-IBD を提案します。新しいコンテキスト認識型の時間減衰メッセージ受け渡しメカニズムが開発され、モデルの複雑さを軽減しながら時間的依存関係を捕捉しました。現実世界の臨床データセットを使用した実験結果では、逐次モデルと比較して計算の複雑さが大幅に軽減され、最先端の方法と比較して IBD 検出が一貫して確実に向上していることが実証されました。これらの発見は、縦断的な ICD 診断コードから効率的でスケーラブルかつ正確な疾患リスク予測を可能にするグラフ表現学習の可能性を強調しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">GraD-IBD: Graph Representation Learning from Diagnosis Trajectories for Early Detection of Inflammatory Bowel Disease</p>
        <p class="orig-summary">International Classification of Diseases (ICD) is a globally recognized coding system that records diagnostic events during each patient encounter, providing a standardized data foundation for various clinical tasks. However, the irregular and hierarchical nature of ICD code sequences poses challenges for N-D lattice-based sequential modeling methods, leading to overly complex model designs. In this paper, we propose GraD-IBD, a graph diagnosis model that reformulates longitudinal ICD trajectories as visit-bucketized, temporally directed graphs to detect the risk of inflammatory bowel disease (IBD). A novel context-aware, time-decay message passing mechanism was developed to capture temporal dependencies while reducing model complexity. The experimental results using a real-world clinical dataset demonstrated consistent and robust improvements in IBD detection over state-of-the-art methods, with significant reductions in computational complexity compared to sequential models. These findings highlight the potential of graph representation learning to enable efficient, scalable, and accurate disease risk prediction from longitudinal ICD diagnosis codes.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8de06959785f" data-article-url="https://arxiv.org/abs/2605.27811" data-article-title="生成応答モデリングによる制約付き自動入札" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27811" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27811" target="_blank" rel="noopener">生成応答モデリングによる制約付き自動入札</a></h3>
      <p class="summary">自動入札システムは、予算の制約と獲得単価などの目標比率の下で、長期にわたって広告主の価値を最大化することを目的としていますが、将来のトラフィックとオークションのダイナミクスは非定常で不確実です。既存のアプローチは明確な制限に直面しています。制御ベースのペーシングは逸脱には反応しますが、将来の状態を予測することはできません。一方、RL と生成手法は制約を報酬信号に折り込み、違反を曖昧にし、分布シフトの下で劣化させます。生成応答モデル (GRM) を使用して、学習ターゲットをアクションから応答に移行します。これは、将来のトラフィック量とホライズン集計のコスト/価値曲線を単一の入札乗数の関数として共同で予測する、履歴条件付きシーケンス モデルです。穏やかな単調性条件下では、完全なティックごとの制御と比較した最適性のギャップは、コストごとのティックごとの限界値の分散によって制限されることを示します。予測された応答が与えられると、軽量の分析コントローラーが 1D 根探索ステップを通じて各アクティブな制約を強制します。このコントローラーが、予測誤差の観点から、後退地平線再計画の下での単一乗数問題と限界制約違反に対して正確であることを証明します。 AuctionNet での実験では、GRM が既存のベースラインと比較して制約の安定性と全体的なスコアを向上させることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Constrained Auto-Bidding via Generative Response Modeling</p>
        <p class="orig-summary">Auto-bidding systems aim to maximize advertiser value over long horizons under budget constraints and ratio targets such as cost-per-acquisition, yet future traffic and auction dynamics are non-stationary and uncertain. Existing approaches face distinct limitations: control-based pacing reacts to deviations but cannot anticipate future conditions, while RL and generative methods fold constraints into reward signals, obscuring violations and degrading under distribution shift. We shift the learning target from actions to responses with the Generative Response Model (GRM), a history-conditioned sequence model that jointly predicts future traffic volume and horizon-aggregate cost/value curves as functions of a single bid multiplier. We show that under mild monotonicity conditions, the optimality gap relative to full per-tick control is bounded by the dispersion of per-tick marginal value-per-cost. Given predicted responses, a lightweight analytic controller enforces each active constraint via a 1D root-finding step. We prove this controller is exact for the single-multiplier problem and bound constraint violations under receding-horizon replanning in terms of prediction error. Experiments on AuctionNet show that GRM improves constraint stability and overall score compared to existing baselines.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9ce6302f74e5" data-article-url="https://arxiv.org/abs/2605.27820" data-article-title="EgoBench: ツールを使用するエージェント向けのインタラクティブな自己中心的なマルチモーダル ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27820" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27820" target="_blank" rel="noopener">EgoBench: ツールを使用するエージェント向けのインタラクティブな自己中心的なマルチモーダル ベンチマーク</a></h3>
      <p class="summary">AI エージェントはオープンな現実世界の環境で動作することが増えており、マルチモーダルな認識、マルチホップ推論によるツールの呼び出し、およびユーザーとの動的な対話の深い相乗効果が必要になります。ただし、既存のベンチマークでは、厳密に結合された複数機能タスクの設計、自然なユーザー フィードバックとタスクに制約されたユーザー フィードバックのシミュレート、および動的インタラクションの客観的評価の確保に課題があるため、これらの機能を統合して評価することはできません。このギャップを埋めるために、ツールを使用するエージェント向けの初の対話型マルチモーダル ベンチマークである EgoBench を導入します。 EgoBench は、4 つの日常シナリオをカバーする 1,045 の自己中心的なビデオベースのタスクと、評価用のユーザー エージェント ツールの対話型環境で構成されています。私たちは、視覚認識とツール拡張マルチホップ推論の共同適用を強制するように各タスクを設計する 3 段階の相乗パイプラインを実装します。さらに、エージェントのインタラクション能力を評価するために、EgoBench 内でマルチエージェントのシミュレートされたユーザーを開発し、エージェントに対する忠実度の高い、タスクに合わせた応答を生成します。さらに、プロセスベースと結果ベースの同等性を通じて客観的な評価を保証する、決定論的な共同検証フレームワークを確立します。 EgoBench で 8 つの SOTA ビデオ MLLM エージェントをベンチマークすると、厳しいパフォーマンスの上限が明らかになります。最高のモデルは、最もパフォーマンスの高いシナリオで 30.62% の精度しか達成せず、4 つのシナリオすべてで平均 19.43% です。最後に、多次元エラー分析を実行して障害モードを解きほぐし、将来の AI エージェントを進歩させるための機能のボトルネックを明らかにします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">EgoBench: An Interactive Egocentric Multimodal Benchmark for Tool-Using Agents</p>
        <p class="orig-summary">As AI agents increasingly operate in open, real-world environments, they require a deep synergy of multimodal perception, tool invocation with multi-hop reasoning, and dynamic interaction with users. However, existing benchmarks fail to jointly evaluate these capabilities due to challenges in designing strictly coupled multi-capability tasks, simulating natural and task-constrained user feedback, and ensuring objective evaluation of dynamic interaction. To bridge this gap, we introduce EgoBench, the first interactive multimodal benchmark for tool-using agents. EgoBench comprises 1,045 egocentric-video-grounded tasks covering four daily scenarios, along with a user-agent-tool interactive environment for evaluation. We implement a three-stage synergistic pipeline through which each task is designed to enforce the joint application of visual perception and tool-augmented multi-hop reasoning. We additionally develop a multi-agent simulated user within EgoBench to evaluate agents&#x27; interaction capabilities, which generates high-fidelity, task-aligned responses to agents. Furthermore, we establish a deterministic joint validation framework that guarantees objective assessment through process-based and result-based equivalence. Benchmarking eight SOTA video-MLLM agents on EgoBench reveals a severe performance ceiling: the best model achieves only 30.62% accuracy in the best-performing scenario, averaging 19.43% across all four scenarios. Finally, we conduct a multi-dimensional error analysis to disentangle failure modes, exposing capability bottlenecks for advancing future AI agents.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="efb5a6b37f54" data-article-url="https://arxiv.org/abs/2605.27824" data-article-title="論理的推論のためのアルゴリズム演繹回路を明らかにする" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27824" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27824" target="_blank" rel="noopener">論理的推論のためのアルゴリズム演繹回路を明らかにする</a></h3>
      <p class="summary">最近の研究では、大規模言語モデル (LLM) が、グラフ走査アルゴリズムとステップバイステップ推論を少数ショット学習設定で抽象的に記述する関数記号表現を組み込むことで、強力な推論パフォーマンスを達成できることが示されています。ただし、LLM が限られた数のデモンストレーションのみから、各推論ステップの抽象的な意味と全体的なアルゴリズムをどのように真に理解するのかは依然として不明です。この研究は、個々の推論ステップを担当するアテンションヘッドを特定し、それらの間で転送される情報の種類を特徴付けることを目的としています。まず、シンボリック支援の思考連鎖 (CoT) プロンプト フレームワークの下で、構成要素の推論ステップを対応するトークン ロジットと調整します。私たちの分析では、推論プロセスを制御するトークンの位置が、デモンストレーションで満足する推論行動パターンに対する制約によって引き起こされる低い信頼スコアと関連していることが示されています。次に、因果関係分析手法を採用して、これらのパターンの原因となる注意の対象を特定します。さらに、我々の調査結果は、LLMが専門化されたアテンションヘッド（合計ヘッドの約3％）を介して個々のサブ推論タスクに関する事実とルールに基づいた情報を取得するのに対し、上位層は主に情報の統合と、タスク全体を解決するために複数の中間推論ステップを調整するグローバル推論戦略（グラフトラバーサルアルゴリズムなど）の出現を促進することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Revealing Algorithmic Deductive Circuits for Logical Reasoning</p>
        <p class="orig-summary">Recent studies have shown that Large Language Models (LLMs) can achieve strong reasoning performance by incorporating functional symbolic representations that abstractly describe graph traversal algorithms and step-by-step reasoning in few-shot learning settings. However, it remains unclear how LLMs genuinely understand the abstract meaning of each reasoning step and the overall algorithm from only a limited number of demonstrations. This work aims to localize the attention heads responsible for individual reasoning steps and characterize the types of information transferred among them. We first align constituent reasoning steps with their corresponding token logits under a symbolic-aided Chain-of-Thought (CoT) prompting framework. Our analysis shows that token positions that steer the reasoning process are associated with low confidence scores caused by constraints on satisfying reasoning behavior patterns in demonstrations. We then adopt causal mediation analysis techniques to identify the attention heads responsible for these patterns. In addition, our findings indicate that LLMs retrieve factual and rule-based information for individual sub-reasoning tasks through specialized attention heads (approximately 3% total heads), whereas higher layers predominantly facilitate information integration and the emergence of global reasoning strategies (e.g., graph traversal algorithms) that coordinate multiple intermediate reasoning steps to solve the overall task.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="24e58053554c" data-article-url="https://arxiv.org/abs/2605.27827" data-article-title="オペレーショナル AI 導入保証: しきい値に敏感な導入条件下でのガバナンスと状態のオーケストレーション -- 一か八かの AI システムのためのガバナンス フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27827" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27827" target="_blank" rel="noopener">オペレーショナル AI 導入保証: しきい値に敏感な導入条件下でのガバナンスと状態のオーケストレーション -- 一か八かの AI システムのためのガバナンス フレームワーク</a></h3>
      <p class="summary">AI ガバナンスのフレームワークでは、一か八かの分野における公平性、透明性、説明責任、ライフサイクル リスク管理がますます重視されています。ただし、現在のアプローチの多くは依然として観察的なものであり、展開の準備状況、修復の進行状況、エスカレーションの状態、または保証主導の展開制御を直接管理することなく、静的なメトリクスのレポート、事後監査、ダッシュボードの監視に依存しています。このペーパーでは、公平性の不一致、サブグループの不安定性、しきい値感度、修復結果、運用上の不確実性を導入指向の保証決定に変換するためのガバナンス フレームワークである Operational AI Deployment Assurance (OADA) を紹介します。 OADA は、Fairness Disagreement Index (FDI) と FairRisk-FDI に関するこれまでの研究に基づいて、ガバナンスの不確実性を、指標の不一致の副産物ではなく、AI 導入パイプライン内の運用上の問題として再構成しました。このフレームワークでは、展開保証スコア、展開準備性分類、安定性しきい値ゾーン、ガバナンス エスカレーション状態、修復を意識した保証の進行が導入されています。これらの構成は、評価の出力を展開状態の解釈、再評価、エスカレーション、運用制御に結び付けることで、一か八かの設定にわたってライフサイクル指向のガバナンスの決定をサポートします。この論文では、代表的なハイステークス領域としてのヘルスケア AI に議論を広げた、顔認識システム全体にわたる展開指向の評価を通じて、システムがどのようにして、展開の準備に影響を与える不安定性を示しながらも、分離された公平性やパフォーマンスの指標の下では受け入れられるように見えるかを示しています。提案されたフレームワークは、運用展開の保証を、評価と現実世界の AI 導入の間のガバナンス層として位置づけています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Operational AI Deployment Assurance: Governance-State Orchestration Under Threshold-Sensitive Deployment Conditions -- A Governance Framework for High-Stakes AI Systems</p>
        <p class="orig-summary">AI governance frameworks increasingly emphasize fairness, transparency, accountability, and lifecycle risk management in high-stakes domains. However, many current approaches remain observational, relying on static metric reporting, post-hoc auditing, and monitoring dashboards without directly governing deployment readiness, remediation progression, escalation states, or assurance-driven deployment control. This paper introduces Operational AI Deployment Assurance (OADA), a governance framework for translating fairness disagreement, subgroup instability, threshold sensitivity, remediation outcomes, and operational uncertainty into deployment-oriented assurance decisions. Building on prior work on the Fairness Disagreement Index (FDI) and FairRisk-FDI, OADA reframes governance uncertainty as an operational concern within AI deployment pipelines rather than a byproduct of metric disagreement. The framework introduces Deployment Assurance Scores, Deployment Readiness Classifications, Threshold Stability Zones, Governance Escalation States, and remediation-aware assurance progression. These constructs support lifecycle-oriented governance decisions across high-stakes settings by connecting evaluation outputs to deployment-state interpretation, reassessment, escalation, and operational control. Through deployment-oriented evaluation across facial recognition systems, with discussion extended to healthcare AI as a representative high-stakes domain, the paper demonstrates how systems may appear acceptable under isolated fairness or performance metrics while still exhibiting instability that affects deployment readiness. The proposed framework positions operational deployment assurance as a governance layer between evaluation and real-world AI deployment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d58af56222fa" data-article-url="https://arxiv.org/abs/2605.27846" data-article-title="EAPO: オープンエンド QA におけるポリシー最適化のためのエントロピー駆動型適応ポジティブ/ネガティブ サンプル重み付け" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27846" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27846" target="_blank" rel="noopener">EAPO: オープンエンド QA におけるポリシー最適化のためのエントロピー駆動型適応ポジティブ/ネガティブ サンプル重み付け</a></h3>
      <p class="summary">大規模推論モデルは通常、検証可能な報酬 (RLVR) からの強化学習を介してトレーニングされます。ただし、既存のアプローチでは、陽性サンプルと陰性サンプルに固定の重みを採用しており、その結論は自由回答式の質問応答 (QA) に一般化することはほとんどありません。この論文では、オープンエンド QA の強化学習におけるポジティブ サンプルとネガティブ サンプルの役割を体系的に調査します。我々は、ポジティブサンプルとネガティブサンプルを区別するための報酬平均ベースの戦略を提案し、ネガティブサンプルが主に応答の多様性とパフォーマンスの上限を支配するのに対し、ポジティブサンプルは主に応答の品質と収束安定性を決定することを観察しました。これらの観察に基づいて、我々は、現在のポリシーエントロピーと初期エントロピーの比に基づいてポジティブサンプルの重み付け係数を適応的に計算する、エントロピー駆動型の適応ポリシー最適化手法である EAPO を提案します。エントロピー減少フェーズでは、探索を維持するために陽性サンプルに割り当てられた重みが減りますが、エントロピー増加フェーズでは安定性を強化するために増幅され、それによってエントロピー崩壊が緩和されます。 2 つの公的に利用可能なオープンエンドの医療 QA データセットを用いた実験では、EAPO が応答の多様性と安定性の両方において固定加重ベースラインを一貫して実質的に上回っていることが実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">EAPO: Entropy-Driven Adaptive Positive-Negative Sample Weighting for Policy Optimization in Open-Ended QA</p>
        <p class="orig-summary">Large Reasoning Models are typically trained via reinforcement learning from verifiable rewards (RLVR). However, existing approaches adopt fixed weights for positive and negative samples, and the conclusions hardly generalize to open-ended question answering (QA). In this paper, we systematically investigate the roles of positive and negative samples in reinforcement learning for open-ended QA. We propose a reward-mean-based strategy for distinguishing positive from negative samples, and observe that negative samples predominantly govern response diversity and the performance upper bound, whereas positive samples primarily determine response quality and convergence stability. Building on these observations, we propose EAPO, an Entropy-driven Adaptive Policy Optimization method that adaptively computes the weighting coefficients of positive samples based on the ratio of the current policy entropy to the initial entropy. During the entropy-decreasing phase, the weight assigned to positive samples is reduced to preserve exploration, whereas during the entropy-increasing phase it is amplified to reinforce stability, thereby mitigating entropy collapse. Experiments on two publicly available open-ended medical QA datasets demonstrate that EAPO consistently and substantially outperforms fixed-weight baselines in both response diversity and stability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="483e5540f201" data-article-url="https://arxiv.org/abs/2605.27850" data-article-title="TCP-MCP: マルチエージェント システム向けのプロンプトと通信トポロジのランドスケープ ガイドに基づく共進化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27850" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27850" target="_blank" rel="noopener">TCP-MCP: マルチエージェント システム向けのプロンプトと通信トポロジのランドスケープ ガイドに基づく共進化</a></h3>
      <p class="summary">効果的なマルチエージェント システムは、プロンプトやコミュニケーション グラフを単独で選択するだけでは設計できません。エージェントの動作はエージェントが受信する情報に依存しますが、通信エッジの有用性は受信エージェントがその情報をどのように解釈して使用するかに依存します。私たちは、エージェントのプロンプトと通信トポロジーを統一ゲノムとして検索する共進化フレームワークである \textbf{TCP-MCP} (Topology-Coupled Prompting for Multi-Agent Collaborative 問題解決) を提案します。 TCP-MCP は、初期化時のランドスケープ プローブを使用して初期の検索動作を調整し、次にパレート フロント診断に依存して、タスクのパフォーマンス、トークン コスト、構造の複雑さという 3 つの目標に基づいて探索を調整します。すべての方式で同じ DeepSeek-V3.2 バックボーンを使用することで、TCP-MCP は、MMLU-Pro、MMLU、GSM8K でそれぞれ 82.66\%、89.96\%、96.61\% の精度を達成します。 3 つのベンチマーク全体で、自動化されたグラフ生成のベースラインを常に上回り、ディベート スタイルのシステムと比較して競争力のある精度を達成しながら、報告された動作ポイントでこれらのシステムよりもトークンの使用量が最大 5.69$\time$ 少なくなります。これらの結果は、共同して進化するプロンプトとコミュニケーション構造が、管理された評価におけるコストを意識したタスク適応型のマルチエージェント システム設計への実用的なルートを提供することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TCP-MCP: Landscape-Guided Co-Evolution of Prompts and Communication Topologies for Multi-Agent Systems</p>
        <p class="orig-summary">Effective multi-agent systems cannot be designed by selecting prompts or communication graphs in isolation. Agent behavior depends on the information an agent receives, while the usefulness of a communication edge depends on how the receiving agent interprets and uses that information. We propose \textbf{TCP-MCP} (Topology-Coupled Prompting for Multi-Agent Collaborative Problem-Solving), a co-evolution framework that searches agent prompts and communication topologies as a unified genome. TCP-MCP uses an initialization-time landscape probe to calibrate early search behavior, and then relies on Pareto-front diagnostics to adapt exploration under three objectives: task performance, token cost, and structural complexity. Using the same DeepSeek-V3.2 backbone across all methods, TCP-MCP achieves 82.66\%, 89.96\%, and 96.61\% accuracy on MMLU-Pro, MMLU, and GSM8K, respectively. Across the three benchmarks, it consistently outperforms automated graph-generation baselines and achieves competitive accuracy relative to debate-style systems, while using up to 5.69$\times$ fewer tokens than those systems at the reported operating points. These results show that jointly evolving prompts and communication structure provides a practical route to cost-aware and task-adaptive multi-agent system design in controlled evaluations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="98f9bfc701d2" data-article-url="https://arxiv.org/abs/2605.27851" data-article-title="コンテキストが反転すると安全性が損なわれる: 調整された言語モデルにおける脆弱な安全性を診断する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27851" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27851" target="_blank" rel="noopener">コンテキストが反転すると安全性が損なわれる: 調整された言語モデルにおける脆弱な安全性を診断する</a></h3>
      <p class="summary">安全性ベンチマーク スコアは、展開の準備が整っているかどうかの不完全な証拠を提供します。調整された言語モデルは、状況に応じてどのアクションが安全であるかが切り替わる場合でも、多くの場合厳格なルールに準拠します。私たちはこの失敗を脆弱な安全性と呼びます。それを診断するために、コンテキストフリップ評価を導入し、安全ベンチマーク (PacifAIst) 全体で 12 のモデルと、名目上安全なアクションが危害を生み出すペアのバリアントを使用する 2 つの常識的な制御をテストします。 3 つの発見が得られます。まず、脆性の安全性は安全性に特化しています。12 モデルすべてが安全性と常識のギャップ (平均 +17.4 pp) を示しています。ベースライン精度では脆性を予測できません。ベースライン精度が 90% を超えるモデルでは、脆性率の範囲は 13.7% ～ 90.0% です。第 2 に、失敗は誤解ではなくポリシーのオーバーライドに起因します。どのケースでもコンテキストの変更を認識しているにもかかわらず、モデルは更新タイプとモデル ファミリによって異なる 3 つの異なるメカニズムを介して存続します。第三に、壊滅的な結果反転シナリオを手作業で監査した調査では、標準的なアクションレベルのガードレールは何も捕捉しませんでしたが、状態を認識したバリデーターは正しい介入に対して誤った警告を発することなくすべてを捕捉しました。これは、アクションレベルのコンテンツモデレーションが結果の反転を組織的に認識しておらず、状態を認識したアーキテクチャの代替案を動機付けていることを示しています。プロトコル、摂動ベンチマーク、展開プローブをリリースします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">When Context Flips, Safety Breaks: Diagnosing Brittle Safety in Aligned Language Models</p>
        <p class="orig-summary">Safety benchmark scores provide incomplete evidence of deployment readiness: aligned language models often adhere to rigid rules even when a situational update flips which action is safe. We term this failure brittle safety. To diagnose it, we introduce context-flip evaluation, testing 12 models across a safety benchmark (PacifAIst) and two commonsense controls using paired variants where the nominally safe action produces harm. Three findings emerge. First, brittle safety is safety-specific: all 12 models exhibit a safety-commonsense gap (mean +17.4 pp). Baseline accuracy fails to predict brittleness: among models above 90% baseline accuracy, brittleness rates range from 13.7% to 90.0%. Second, failures stem from policy override rather than miscomprehension: despite acknowledging the context change in every case, models persist via three distinct mechanisms that vary by update type and model family. Third, on a hand-audited probe of catastrophic consequence-flip scenarios, standard action-level guardrails catch none, while a state-aware validator catches all without false alarms on correct interventions. This indicates that action-level content moderation is systematically blind to consequence-flips, motivating state-aware architectural alternatives. We release our protocol, perturbed benchmarks, and deployment probe.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="84fbb88c0079" data-article-url="https://arxiv.org/abs/2605.27853" data-article-title="MolLingo: LLM を利用した科学エージェントの分子ネイティブ表現" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27853" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27853" target="_blank" rel="noopener">MolLingo: LLM を利用した科学エージェントの分子ネイティブ表現</a></h3>
      <p class="summary">化学者の推論プロセスをエミュレートして分子設計を自動化するマルチエージェント システムである MolLingo を紹介します。既存の LLM ベースのアプローチは、外部ツールにアクセスせずにスタンドアロンの生成モデルとして動作するか、分子設計パイプライン全体にわたる証拠に基づく反復的な推論に必要なマルチエージェントの調整と共有メモリが不足しています。 MolLingo は、各エージェントにドメイン固有のツールを備えた共有メモリ モジュールを介して、文献エージェント、化学エージェント、およびオーケストレーターを調整することでこの問題に対処します。効果的な分子推論を可能にするために、BRICS ベースのフラグメント列挙 (BFE) を導入します。これは、一般的な化学名と組み合わせたブロックベースの SMILES として表される化学的に意味のある構成要素に分子を分解する、合成を意識した分子断片化手法です。この表現は分子構造と LLM 意味空間の橋渡しをし、生の SMILES だけでは難しいブロックレベルの推論と編集を可能にします。初期段階の治療設計のケーススタディとして、MolLingo はさらに、より強力な標的結合のために分子を最適化するために、結合部位の形状と分子ドッキングから得られる残基レベルのタンパク質のコンテキストに Chemist Agent の推論を根拠付けています。 4 つのベンチマークにわたって、MolLingo は一貫してフロンティア LLM および特殊なベースラインを上回っています。これには、同じ基礎モデルを使用しているにもかかわらず、GPT-5.4 と比較してドッキング スコアが 4 倍向上していること、複数の LLM バックボーンにわたる一貫した薬剤特性最適化の向上、およびフロンティア LLM と RL ベースの最適化手法である RePO の両方を上回る TOMG-Bench での最先端の結果が含まれます。私たちの結果は、LLM が化学的に意味のある表現と生物学的に根拠のある構造的コンテキストを通じて導かれるとき、すでに有能な分子設計アシスタントであることを示唆しています。コードは https://anonymous.4open.science/status/MolLingo-7450 で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MolLingo: Molecule-Native Representations for LLM-Powered Scientific Agents</p>
        <p class="orig-summary">We present MolLingo, a multi-agent system that emulates the reasoning process of a chemist to automate molecular design. Existing LLM-based approaches either operate as standalone generative models without access to external tools or lack the multi-agent coordination and shared memory needed for iterative, evidence-driven reasoning across the molecular design pipeline. MolLingo addresses this by coordinating a Literature Agent, a Chemist Agent, and an Orchestrator through a shared memory module, with each agent equipped with domain-specific tools. To enable effective molecular reasoning, we introduce BRICS-based Fragment Enumeration (BFE), a synthesis-aware molecular fragmentation method that decomposes molecules into chemically meaningful building blocks represented as block-based SMILES paired with common chemical names. This representation bridges molecular structure and LLM semantic space, enabling block-level reasoning and editing that is difficult with raw SMILES alone. As a case study in early-stage therapeutic design, MolLingo further grounds the Chemist Agent&#x27;s reasoning in binding site geometry and residue-level protein context derived from molecular docking to optimize molecules for stronger target binding. Across four benchmarks, MolLingo consistently outperforms frontier LLMs and specialized baselines, including a fourfold docking score improvement over GPT-5.4 despite using the same underlying model, consistent drug property optimization gains across multiple LLM backbones, and state-of-the-art results on TOMG-Bench, surpassing both frontier LLMs and the RL-based optimization method RePO. Our results suggest that LLMs are already capable molecular design assistants when guided through chemically meaningful representations and biologically grounded structural context. Code is available at: https://anonymous.4open.science/status/MolLingo-7450.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1f9c3e26e160" data-article-url="https://arxiv.org/abs/2605.27860" data-article-title="C-MIG: 臨床診断推論のためのマルチビュー情報ゲインベースの検索拡張生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27860" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27860" target="_blank" rel="noopener">C-MIG: 臨床診断推論のためのマルチビュー情報ゲインベースの検索拡張生成</a></h3>
      <p class="summary">強化学習と組み合わせた検索拡張生成は、信頼できる医学的証拠に基づく大規模な言語モデルの確立に有望であることが示されています。しかし、既存の方法は完全一致のバイナリ報酬に依存しており、臨床診断では次の 2 つの問題が発生します。(i) 意味的には関連しているが逐語的ではないステップはゼロ信号を受け取り、貴重な学習信号を破棄します。 (ii) 一次元の報酬では、異質な推論能力を効果的に監視することができません。これらの問題に対処するために、臨床診断用のマルチビュー情報ゲインベースの検索拡張生成フレームワークである C-MIG を提案します。 C-MIG は、取得されたドキュメントとドキュメントのリファインメントという 2 つの相補的なビューからフリーズされた参照モデルの下での情報利得を推定し、何を取得するか、どのようにリファインするかを共同でガイドし、貴重な報酬信号の損失とクレジットの割り当ての問題を軽減します。さらに、臨床診断シナリオにおける知識再現範囲を向上させるマルチサブクエリ検索拡張戦略を設計します。 4 つの医療ベンチマークに関する包括的な実験により、C-MIG がドメイン内セットとドメイン外セットの両方ですべての RAG-RL 手法の中で最高のパフォーマンスを達成し、臨床診断用の最先端の汎用 LLM を上回るパフォーマンスを示すことが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">C-MIG: Multi-view Information Gain-based Retrieval-Augmented Generation for Clinical Diagnosis Reasoning</p>
        <p class="orig-summary">Retrieval-augmented generation combined with reinforcement learning has shown promise for grounding large language models in trustworthy medical evidence. However, existing methods rely on exact-match binary rewards, which in clinical diagnosis cause two issues: (i) semantically relevant but non-verbatim steps receive zero signal, discarding valuable learning signals; and (ii) uni-dimensional rewards cannot effectively supervise heterogeneous reasoning capabilities. To address these issues, we propose C-MIG, a Multi-view Information Gain-based retrieval-augmented generation framework for Clinical diagnosis. C-MIG estimates information gain under a frozen reference model from two complementary views, retrieved-document and document-refinement, to jointly guide what to retrieve and how to refine, alleviating the issues of valuable reward signal loss and credit assignment. We further design a multi-subquery retrieval augmentation strategy that improves knowledge recall coverage in clinical diagnostic scenarios. Comprehensive experiments on four medical benchmarks demonstrate that C-MIG achieves the best performance among all RAG-RL methods on both in-domain and out-of-domain sets, and outperforms state-of-the-art general-purpose LLMs for clinical diagnosis.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4a459cd0f6ea" data-article-url="https://arxiv.org/abs/2605.27864" data-article-title="FundaPod: AI 支援のファンダメンタル投資調査のためのナレッジ グラフ メモリを備えたマルチペルソナ エージェント ポッド プラットフォーム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27864" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27864" target="_blank" rel="noopener">FundaPod: AI 支援のファンダメンタル投資調査のためのナレッジ グラフ メモリを備えたマルチペルソナ エージェント ポッド プラットフォーム</a></h3>
      <p class="summary">大規模言語モデル (LLM) は金融分野での適用が増えていますが、既存の研究のほとんどは取引シグナルや予測を中心とした財務 NLP タスクに重点を置いています。対照的に、制度的基礎研究では、人間のアナリストまたは AI エージェントが証拠を収集し、ビジネス推進要因を特定し、競合する視点を比較し、投資メモを作成する必要があります。その広範な目標は、単に結果を予測することではなく、投資知識の累積的な発展に貢献しながら、透明性、再利用可能、検証可能な投資計画を作成することです。 AI 支援のファンダメンタルズ投資調査のためのマルチペルソナ エージェント プラットフォームである FundaPod を紹介します。私たちは、基礎研究は人間中心の意思決定支援タスクであり、取引シグナルの生成とは質的に異なるため、独立性を維持するアーキテクチャの方が適していると主張します。 FundaPod では、バリュー投資家やマクロ戦略家など、さまざまなペルソナを持つ AI エージェントが、共有の出所契約に基づいて独立して調査を実施します。その後、彼らの意見の相違は、知識グラフ記憶システムを通じて人間のポートフォリオ マネージャー (PM) による裁定のために事後的に表面化されます。この論文は、設計科学の実践と認知的分離と人間と機械の協調の理論に基づいた、基礎研究をサポートする人間と AI のハイブリッド システムの 5 つの設計原則を提供します。また、4 つのアーキテクチャ メカニズムについても説明します。1 つは一般投資家の資料を展開可能なエージェントに変えるペルソナ蒸留パイプラインです。プランナーが型指定されたタスク グラフを導出できるようにする宣言型スキル レジストリ。メモの主張を検証可能な情報源に結び付ける根拠のある証拠モデル。そしてティッカー、メモ、アナリスト、テーマを結び付けるナレッジグラフ「第二の脳」。完全なケーススタディとペルソナベースのメモの比較を通じてアーキテクチャを実証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">FundaPod: A Multi-Persona Agent Pod Platform with Knowledge Graph Memory for AI-Assisted Fundamental Investment Research</p>
        <p class="orig-summary">Large language models (LLMs) are increasingly applied in finance, yet most existing work emphasizes trading signals or financial NLP tasks centered on prediction. Institutional fundamental research, by contrast, requires human analysts or AI agents to gather evidence, identify business drivers, compare competing viewpoints, and generate investment memos. Its broader goal is not merely to predict outcomes, but to produce investment plans that are transparent, reusable, and verifiable, while contributing to the cumulative development of investment knowledge. We present FundaPod, a multi-persona agent platform for AI-assisted fundamental investment research. We argue that fundamental research is a human-centric decision-support task that is qualitatively distinct from trading-signal generation, and is therefore better served by an independence-preserving architecture. In FundaPod, AI agents with different personas, such as value investors or macro strategists, conduct research independently under a shared provenance contract. Their disagreements are then surfaced post hoc for adjudication by the human portfolio manager (PM) through a knowledge-graph memory system. This paper contributes five design principles for human-AI hybrid systems supporting fundamental research, grounded in design-science practice and theories of cognitive isolation and human-machine coordination. It also describes four architectural mechanisms: a persona distillation pipeline that turns public investor materials into deployable agents; a declarative skill registry that lets the planner derive typed task graphs; a grounded evidence model that links memo claims to verifiable sources; and a knowledge-graph &quot;second brain&quot; that connects tickers, memos, analysts, and themes. We demonstrate the architecture through a complete case study and a persona-based memo comparison.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f7658942898d" data-article-url="https://arxiv.org/abs/2605.27873" data-article-title="AIBuildAI-2: AI モデルを自動的に構築するための知識強化エージェント" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27873" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27873" target="_blank" rel="noopener">AIBuildAI-2: AI モデルを自動的に構築するための知識強化エージェント</a></h3>
      <p class="summary">AI モデルは、画像やテキストの処理から生物学、物理学、化学における科学的発見に至るまで、データ中心のアプリケーションを支えます。しかし、それらの開発は依然として手作業が多く、専門家はアーキテクチャを設計し、トレーニング パイプラインを構築し、ソリューションを繰り返し改良する必要があるため、専門的な AI エンジニアリングの専門知識を持たない自然科学者にとって、研究で要求される高性能モデルを構築するのは困難です。この負担を軽減し、科学的発見のために AI へのアクセスを広げるために、AI モデルを自動的に構築するエージェントが提案されています。ただし、これらのエージェントのパフォーマンスは、基礎となる大規模な言語モデルのパラメトリック知識によって主に制限されます。この知識は静的で、多くの場合時代遅れで、実用的な AI モデル エンジニアリングのノウハウが希薄です。この制限に対処するために、AI モデルを自動的に構築するための外部の進化する知識システムを備えた知識強化エージェントである AIBuildAI-2 を導入します。 AIBuildAI-2 の知識システムは階層的であり、厳選された AI 開発知識を、時事的なカテゴリにわたる高レベルの知識命令と、各カテゴリの下にある低レベルの知識文書に編成します。そこから、エージェントは、現在の状態と解決されている AI タスクに関連するコンテキストのみを動的にロードし、具体的な外部検証可能な専門知識に基づいて設計と実装の各決定を根拠とします。このシステムは、Web から AI 開発関連のドキュメントを収集してクリーニングし、対応するカテゴリに整理することによって初期化され、AI タスクの完了した各実行を構造化された要点に抽出してナレッジ システムに書き戻すことで、エージェント自身の経験に基づいて継続的に進化します。 AIBuildAI-2 は最先端の結果を達成し、MLE ベンチで 70.7% のメダル獲得率で 1 位にランクされ、心臓病予測コンテストでは 4,370 人の専門家チームの中で上位 6.6% にランクインしました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AIBuildAI-2: A Knowledge-Enhanced Agent for Automatically Building AI Models</p>
        <p class="orig-summary">AI models underpin data-centric applications from image and text processing to scientific discovery in biology, physics, and chemistry. Yet developing them remains heavily manual, requiring practitioners to design architectures, build training pipelines, and iteratively refine solutions, making it challenging for natural scientists without specialized AI engineering expertise to build the high-performing models their research demands. To reduce this burden and broaden access to AI for scientific discovery, agents that automatically build AI models have been proposed. However, the performance of these agents is largely limited by the parametric knowledge of their underlying large language models, which is static, often outdated, and sparse on practical AI model engineering know-how. To address this limitation, we introduce AIBuildAI-2, a knowledge-enhanced agent with an external, evolving knowledge system for automatically building AI models. The knowledge system of AIBuildAI-2 is hierarchical, organizing curated AI development knowledge into high-level knowledge instructions over topical categories and low-level knowledge documents under each category, from which the agent dynamically loads only the context relevant to its current state and the AI task being solved, grounding each design and implementation decision in concrete, externally verifiable expertise. The system is initialized by collecting and cleaning AI-development-related documents from the web and organizing them into the corresponding categories, and continually evolves from the agent&#x27;s own experience by distilling each completed run on an AI task into structured takeaways that are written back into the knowledge system. AIBuildAI-2 achieves state-of-the-art results, ranking first on MLE-Bench with a 70.7% medal rate and placing in the top 6.6% among 4,370 human-expert teams in a heart disease prediction competition.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="52dd7e0c8bb1" data-article-url="https://arxiv.org/abs/2605.27879" data-article-title="忠実なエージェント XAI に向けて: モデルの忠実性を高めるための検証方法とオープンワールド ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27879" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27879" target="_blank" rel="noopener">忠実なエージェント XAI に向けて: モデルの忠実性を高めるための検証方法とオープンワールド ベンチマーク</a></h3>
      <p class="summary">Explainable AI (XAI) は、ユーザーがモデルの動作を解釈し、潜在的な障害を特定するのに役立ちます。エージェントティック XAI システムは、自然言語対話を通じて説明をよりアクセスしやすくするために大規模言語モデル (LLM) を使用しますが、もっともらしいが不誠実な説明を生成することもあります。このリスクは、複雑なモデルの信頼性の低い XAI 出力が LLM によって増幅され、ユーザーの誤解を招く可能性があるために発生します。私たちは、明示的な検証を通じて説明の忠実性を向上させるフレームワーク、Faithful Agentic XAI (FAX) を提案します。 FAX は草案の説明をクレームに分解し、本質的に忠実なツールと照らし合わせてクロスチェックし、最終生成前にサポートされていないクレームや矛盾したクレームをフィルタリングします。また、複雑なポリシー、多様な目標、モデル固有の忠実性を評価するための挑戦的なシナリオを備えたオープンワールドの強化学習ベンチマークである CRAFTER-XAI-Bench も紹介します。 CRAFTER-XAI-Bench では、FAX は高い情報性、関連性、流暢性を維持しながら、シミュレーションの忠実度を最強のベースラインの 0.20 から 0.46 に向上させます。 3 つの表形式のベンチマークでは、FAX は以前の Agentic XAI ベースラインと競合するパフォーマンスを示していますが、分析では、これらの設定がタスクの精度とモデル固有の忠実性を混同している可能性があることが示されています。これらの調査結果は、忠実な Agentic XAI には明示的な検証が不可欠であり、ターゲット モデル自体の動作に対する説明をテストするように忠実性ベンチマークを設計する必要があることを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Towards Faithful Agentic XAI: A Verification Method and an Open-World Benchmark for Better Model Faithfulness</p>
        <p class="orig-summary">Explainable AI (XAI) helps users interpret model behavior and identify potential faults. Agentic XAI systems use Large Language Models (LLMs) to make explanations more accessible through natural-language interaction, but they can also produce plausible yet unfaithful explanations. This risk arises because unreliable XAI outputs for complex models can be amplified by LLMs and mislead users. We propose Faithful Agentic XAI (FAX), a framework that improves explanation faithfulness through explicit verification. FAX decomposes draft explanations into claims and cross-checks them against inherently faithful tools, filtering unsupported or contradictory claims before final generation. We also introduce CRAFTER-XAI-Bench, an open-world reinforcement learning benchmark with complex policies, diverse goals, and challenging scenarios for assessing model-specific faithfulness. On CRAFTER-XAI-Bench, FAX improves simulation faithfulness from 0.20 for the strongest baseline to 0.46 while maintaining high informativeness, relevance, and fluency. On three tabular benchmarks, FAX performs competitively with prior Agentic XAI baselines, but our analysis shows that these settings can conflate task accuracy with model-specific faithfulness. These findings show that explicit verification is essential for faithful Agentic XAI and that that faithfulness benchmarks must be designed to test explanations against the behavior of the target model itself.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f79314f9af2b" data-article-url="https://arxiv.org/abs/2605.27887" data-article-title="PortBench: LLM 主導のポートフォリオ管理のための相関を意識したフルパイプライン ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27887" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27887" target="_blank" rel="noopener">PortBench: LLM 主導のポートフォリオ管理のための相関を意識したフルパイプライン ベンチマーク</a></h3>
      <p class="summary">LLM はさまざまな財務タスクにわたって優れたパフォーマンスを示していますが、重要な財務上の意思決定タスクであるポートフォリオ管理 (PM) のベンチマークは依然として不十分です。既存のベンチマークには 2 つの主なギャップがあります。1 つは資産間の相関構造を無視しているため、真に分散されたポートフォリオと集中ポートフォリオを区別できないこと、もう 1 つは現実世界のシナリオで完全な PM 意思決定パイプラインを評価できないことです。 10 年間にわたる 6 つの異種資産クラスにわたるベンチマークである PortBench を紹介します。 PortBench は、2 つの補完的なレイヤーで構成されています。1 つは 7 つのタスク テンプレートにわたる 6,269 の相関ベースの質問からなる静的 QA データセット、もう 1 つは完全な PM 意思決定サイクルを反映する 5 段階の動的な割り当てパイプラインです。これらのレイヤーを評価するために、2 つの専用のメトリックを導入します。提案されたポートフォリオがクラス間ヘッジを活用し、クラス内集中を回避しているかどうかを測定するデュアルレイヤー相関スコアと、パイプライン ステージ全体で推論エラーがどのように複合するかを定量化するメトリックである CEPS です。さらに、3 つの過去のストレス体制とリスク プロファイルの下で、戦略の堅牢性と投資家の連携を評価します。 10 個のフロンティア LLM を評価したところ、静的財務 QA では優れたパフォーマンスを示したにもかかわらず、モデルとプロファイルの組み合わせの 90% が基本的な均等加重割り当てを上回るパフォーマンスを発揮できず、すべての手順上の制約を満たすモデルでもストレスがかかると壊滅的なドローダウンに悩まされることがわかりました。ソース コードは \href{https://github.com/AgenticFinLab/portbench}{this https URL} で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PortBench: A Correlation-Aware, Full-Pipeline Benchmark for LLM-Driven Portfolio Management</p>
        <p class="orig-summary">LLMs have shown strong performance across diverse financial tasks, yet portfolio management (PM), a critical financial decision-making task, remains poorly benchmarked. Existing benchmarks exhibit two main gaps: they ignore cross-asset correlation structures, thereby failing to distinguish genuinely diversified portfolios from concentrated ones, and fail to evaluate the complete PM decision pipeline in real-world scenarios. We introduce PortBench, a benchmark spanning six heterogeneous asset classes over ten years. PortBench consists of two complementary layers: a static QA dataset of 6,269 correlation-based questions across seven task templates, and a dynamic five-stage allocation pipeline that mirrors the full PM decision cycle. To evaluate these layers, we introduce two dedicated metrics: a dual-layer correlation score that measures whether proposed portfolios exploit inter-class hedging and avoid intra-class concentration, and CEPS, a metric that quantifies how reasoning errors compound across pipeline stages. We further assess strategy robustness and investor alignment under three historical stress regimes and risk profiles. Evaluating ten frontier LLMs, we find that despite strong performance on static financial QA, 90\% of model-profile combinations fail to outperform a basic equal-weight allocation, and models that satisfy every procedural constraint still suffer catastrophic drawdowns under stress. Our source code is available at \href{https://github.com/AgenticFinLab/portbench}{this https URL}.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c55bc017af66" data-article-url="https://arxiv.org/abs/2605.27898" data-article-title="LLM エージェントの機能を評価するための統一フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27898" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27898" target="_blank" rel="noopener">LLM エージェントの機能を評価するための統一フレームワーク</a></h3>
      <p class="summary">LLM がエージェントとして導入されることが増えているため、そのエージェント機能の信頼できる評価が不可欠になっています。ただし、報告されるベンチマーク スコアは、多くの場合、モデルの機能と、各ベンチマークに含まれる実装の選択肢を合わせて反映するため、クロスベンチマークの結果を基礎となるモデルの正確な測定値として解釈することが困難になります。この研究では、LLM エージェントの機能を公正に評価するための統一フレームワークを紹介します。統合された構成システムによって駆動されるこのフレームワークは、標準化された命令、ツール、環境の形式に多様なベンチマークを統合し、制御可能なサンドボックス内の固定 ReAct スタイル アーキテクチャを通じてエージェントを実行します。また、フレームワークの効果と環境の効果を個別に分析できるように、揮発性のライブ環境を厳選されたスナップショットに置き換えるオプションのオフライン設定を提供します。これに基づいて、各ベンチマークの元のタスクの成功基準に基づいて評価方法を統一するとともに、リソース消費に関する統一された指標と、意思決定レベルおよび実行レベルの失敗の属性に関する分類を導入します。このフレームワーク内で、シングルエージェント、マルチエージェント、およびセーフティクリティカルなシナリオにわたる 24 のドメインにわたる 7 つの広く使用されているベンチマークを適応させ、15 のモデルで 400,000 のロールアウトと 50 億のトークンにわたる大規模な実証分析を実施します。結果は、足場の選択と環境の変動性がベンチマークの結果を両方向に実質的に変化させ、フレームワークおよび環境によって引き起こされるアーティファクトから本質的な LLM 機能を解きほぐすことをフレームワークが可能にすることを示しています。さらに、安全性が重要なドメインの安全なテストベッドとしての拡張性を実証します。コードとベンチマークは、https://github.com/whfeLingYu/A-Unified-Framework-for-the-Evaluation-of-LLM-Agentic-Capabilities、https://huggingface.co/AgentFramework/Unified_Farmework で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">A Unified Framework for the Evaluation of LLM Agentic Capabilities</p>
        <p class="orig-summary">As LLMs are increasingly deployed as agents, reliable assessment of their agentic capabilities has become essential. However, reported benchmark scores often jointly reflect model capability and the implementation choices each benchmark is packaged with, making cross-benchmark results difficult to interpret as clean measurements of the underlying model. In this work, we present a unified framework for the fair evaluation of LLM agentic capabilities. Driven by a unified configuration system, the framework integrates diverse benchmarks into a standardized instruction--tool--environment format, executes agents through a fixed ReAct-style architecture within a controllable sandbox, and provides an optional offline setting that replaces volatile live environments with curated snapshots, so that framework effects and environment effects can be analyzed separately. Building on this, we unify the evaluation methodology under each benchmark&#x27;s original task-success criteria, while introducing unified metrics for resource consumption and a taxonomy for decision- and execution-level failure attribution. Within this framework, we adapt 7 widely used benchmarks spanning 24 domains across single-agent, multi-agent, and safety-critical scenarios, and conduct a large-scale empirical analysis over 400K rollouts and 5B tokens on 15 models. The results show that scaffold choice and environmental volatility materially shift benchmark outcomes in both directions, allowing our framework to disentangle intrinsic LLM capabilities from framework- and environment-induced artifacts. We further demonstrate its extensibility as a secure testbed for safety-critical domains. Codes and benchmarks at are available at https://github.com/whfeLingYu/A-Unified-Framework-for-the-Evaluation-of-LLM-Agentic-Capabilities, https://huggingface.co/AgentFramework/Unified_Farmework.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7c05f98b3d80" data-article-url="https://arxiv.org/abs/2605.27899" data-article-title="SKILLC: 対照的な単位の割り当てによる LLM エージェントの自律的なスキルの内部化の学習" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27899" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27899" target="_blank" rel="noopener">SKILLC: 対照的な単位の割り当てによる LLM エージェントの自律的なスキルの内部化の学習</a></h3>
      <p class="summary">構造化されたスキル プロンプトにより、長期的なエージェント強化学習 (RL) の探索が向上します。スキル拡張型 RL メソッドは推論時に外部スキルを保持しますが、スキル内部化型 RL メソッドはトレーニング中に外部スキルを取り込んで自律的なパフォーマンスを可能にします。しかし、既存の内面化アプローチは、カリキュラム管理にスキルと有用性の対比のみを使用しており、ポリシーの更新は変更されず、スキル依存の成功と自律的な成功を区別できません。私たちは、このコントラストを内面化のための直接的な学習シグナルに変換する、Contrastive Skill Credit Assignment (CSCA) に基づくフレームワークである SkillC を提案します。 \textsc{SkillC} は、同じポリシー更新内のアクティブなスキル タイプからのタスクに対して、スキル挿入されたロールアウトとスキルなしのロールアウトのペアをサンプリングし、グローバル ランキングを維持しながらスキルなしの成功に向けた一方的な補正を適用するデュアル ストリームの利点推定ツールを介して、それらのタスク レベルのコントラストを最適化に注入します。平滑化された検証レベルの信号により、アトリビューションの強度、ロールアウトの割り当て、および単調なアクティブセットの枝刈りに関する適応カリキュラムがさらに推進されます。 ALFWorld と WebShop での実験では、ランタイム スキル アクセスなしで、SkillC が以前の最強のスキル内部化 RL ベースラインをそれぞれ 5.5\% と 4.4\% 上回り、スキル拡張 RL 手法との競争力を維持していることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SKILLC: Learning Autonomous Skill Internalization in LLM Agents via Contrastive Credit Assignment</p>
        <p class="orig-summary">Structured skill prompts improve exploration in long-horizon agentic reinforcement learning (RL). Skill-augmented RL methods retain external skills at inference, while skill-internalization RL methods withdraw them during training to enable autonomous performance. However, existing internalization approaches only use skill-helpfulness contrast for curriculum control, leaving the policy update unchanged and unable to distinguish skill-dependent from autonomous success. We propose SkillC, a framework based on Contrastive Skill Credit Assignment (CSCA) that converts this contrast into a direct learning signal for internalization. \textsc{SkillC} samples paired skill-injected and skill-free rollouts for tasks from active skill types within the same policy update, and injects their task-level contrast into optimization via a dual-stream advantage estimator that preserves global ranking while applying a one-sided correction toward skill-free success. A smoothed validation-level signal further drives an adaptive curriculum over attribution strength, rollout allocation, and monotonic active-set pruning. Experiments on ALFWorld and WebShop show that, without runtime skill access, SkillC surpasses the strongest prior skill-internalization RL baseline by 5.5\% and 4.4\%, respectively, while remaining competitive with skill-augmented RL methods.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="70c76f5705ac" data-article-url="https://arxiv.org/abs/2605.27904" data-article-title="Dr-CiK: 先見性のあるエージェントのためのテストベッド" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27904" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27904" target="_blank" rel="noopener">Dr-CiK: 先見性のあるエージェントのためのテストベッド</a></h3>
      <p class="summary">現実世界の設定における時系列予測は、多くの場合、過去の観測結果だけでなく、ノイズの多い異種情報ソースから積極的に発見する必要がある外部コンテキストにも依存します。しかし、既存のコンテキスト支援予測ベンチマークは通常、サポートするコンテキストがすでに提供されていることを前提としており、エージェントがそれを独自に識別できるかどうかは不明のままです。したがって、エージェントが文書コーパスから予測に関連するサポートコンテキストを取得し、気が散る要因をフィルタリングして、取得したコンテキストを予測に役立つ証拠に抽出し、その証拠によってサポートされる予測を生成できるかどうかを評価するためのベンチマークである Dr-CiK を導入します。最先端のディープリサーチと予測手法を組み合わせたコンテキストアブレーションと評価を通じて、高品質のコンテキストが Dr-CiK の予測パフォーマンスを大幅に向上させることを示します。ただし、既存の DR エージェントのほとんどは、グラウンドトゥルースを裏付ける証拠のごく一部 (通常は 80% の注意散漫の引用) しか回収しないため、コンテキストを取得しない場合よりも、取得したコンテキストを使用した場合の予測担当者のパフォーマンスが低下する可能性があります。私たちの結果は、未来を予測するための適切なコンテキストを検索する先見性主導型エージェントの研究に動機を与えます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Dr-CiK: A Testbed for Foresight-Driven Agents</p>
        <p class="orig-summary">Time series forecasting in real-world settings often depends not only on historical observations, but also on external context that must be actively discovered from noisy, heterogeneous information sources. Yet existing context-aided forecasting benchmarks typically assume that the supporting context is already provided, leaving open whether agents can identify it on their own. Therefore, we introduce Dr-CiK, a benchmark for evaluating whether agents can retrieve forecasting-relevant supporting context from a document corpus, filter out distractors, distill the retrieved context into forecast-useful evidence, and generate forecasts supported by that evidence. Through context ablations and evaluations of state-of-the-art deep research and forecasting methods paired together, we show that high-quality context substantially improves forecasting performance in Dr-CiK. However, most existing DR agents recover only a small fraction of the ground-truth supporting evidence (usually 80% distractor citations), and can cause forecasters to perform worse with retrieved context than without context. Our results motivate research on foresight-driven agents that search for the right context to predict the future.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="69a0799e724a" data-article-url="https://arxiv.org/abs/2605.27906" data-article-title="推論が重要: 推論条件付き優先最適化により、マルチモーダル大規模推論モデルにおける幻覚を軽減する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27906" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27906" target="_blank" rel="noopener">推論が重要: 推論条件付き優先最適化により、マルチモーダル大規模推論モデルにおける幻覚を軽減する</a></h3>
      <p class="summary">マルチモーダル大規模推論モデルは推論パラダイムを導入し、複雑な視覚言語タスクに対する強力な機能を実証します。しかし、彼らは依然として重度の幻覚に苦しんでいます。既存のトレーニングベースの手法は通常、応答レベルの直接選好最適化 (DPO) を通じて幻覚を軽減します。DPO では、思考連鎖 (CoT) と最終的な答えがモノリシック出力として扱われ、一緒に最適化されます。我々は、この定式化が回答のみの最適化と同様に機能することを明らかにし、CoT レベルの監視が十分に活用されていないまま、主に回答レベルの好みを学習することを示唆しています。この問題に対処するために、CoT 指向の選好項を明示的に定式化し、推論条件付き直接選好最適化 (RC-DPO) を導出します。これは、回答生成の条件として CoT をモデル化し、異なる CoT 条件下で同じ優先回答に対する選好を対比し、回答をサポートする推論チェーンの調整を促進します。最適化をさらに改善するために、モンテカルロ木検索を使用して、視覚的に根拠があり論理的に一貫した CoT をポジティブ サンプルとして検出し、注意を誘導してネガティブ サンプルを構築する CoT トークン プルーニングを採用する、推論を強化した選好データ生成戦略を導入します。さまざまなモデルとベンチマークにわたる広範な実験により、RC-DPO が幻覚を効果的に軽減し、マルチモーダル推論プロセスの信頼性が向上することが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Reasoning Matters: Mitigate Hallucination in Multimodal Large Reasoning Models via Reasoning-Conditioned Preference Optimization</p>
        <p class="orig-summary">Multimodal Large Reasoning Models introduce the reasoning paradigm, demonstrating strong capabilities on complex vision-language tasks. However, they still suffer from severe hallucinations. Existing training-based methods typically mitigate hallucinations through response-level direct preference optimization (DPO), where the Chain-of-Thought (CoT) and the final answer are treated as a monolithic output and optimized jointly. We reveal that this formulation performs similarly to answer-only optimization, suggesting that it primarily learns answer-level preference, while leaving CoT-level supervision insufficiently exploited. To address this issue, we explicitly formulate a CoT-oriented preference term and derive Reasoning-Conditioned Direct Preference Optimization (RC-DPO), which models the CoT as a condition for answer generation and contrasts the preference for the same preferred answer under different CoT conditions, promoting answer-supportive reasoning chain alignment. To further improve optimization, we introduce a reasoning-enhanced preference data generation strategy that employs Monte Carlo Tree Search to discover visually grounded and logically consistent CoTs as positive samples, and attention-guided CoT token pruning to construct negative ones. Extensive experiments across various models and benchmarks show that RC-DPO effectively mitigates hallucinations and improves the reliability of the multimodal reasoning process.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2dd32096b088" data-article-url="https://arxiv.org/abs/2605.27911" data-article-title="SuiChat-CN: 中国のグループ チャットにおける状況に応じた自殺リスク評価のベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27911" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27911" target="_blank" rel="noopener">SuiChat-CN: 中国のグループ チャットにおける状況に応じた自殺リスク評価のベンチマーク</a></h3>
      <p class="summary">自殺は世界的な公衆衛生上の重大な課題であり、毎年約72万人が死亡しており、タイムリーで効果的な予防戦略が求められています。既存の計算研究は主に Twitter や Weibo などの投稿ベースのソーシャル メディア プラットフォームに焦点を当てており、Telegram などのインスタント メッセージング環境は十分に調査されていません。しかし、グループ チャットには明確な課題があります。メッセージは短く、断片的で、複数の当事者間で交わされ、暗黙的または文化的に特有の表現に依存していることが多いため、個別のポストレベル分析は不十分です。状況に応じた自殺リスク評価のための中国のグループチャットベンチマークであるSuiChat-CNを紹介します。当社は公開 Telegram グループ チャット データを収集し、注意喚起語抽出と双方向コンテキスト拡張を通じて一貫した会話セグメントを構築し、専門家が検証した LLM 支援パラダイムでユーザーのリスク レベルに注釈を付けます。 SuiChat-CN には、1,406 人のユーザーからの 13,312 個のコンテキスト セグメントが含まれており、258,228 個の生のチャット メッセージをカバーしています。 PLM と 40 を超える LLM を使用した広範な実験により、信頼性の高いリスク評価にはコンテキスト情報が不可欠であることが実証され、その一方で、微調整と部分コンテキスト評価により、多者間の会話における早期検出の課題がさらに明らかになりました。倫理的および機密性の問題のため、データセットは一般公開されていませんが、合理的な要求に応じて、認定されたメンタルヘルスおよび自殺予防研究機関と共有されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SuiChat-CN: Benchmarking Contextual Suicide Risk Assessment in Chinese Group Chats</p>
        <p class="orig-summary">Suicide is a critical global public health challenge, causing approximately 720,000 deaths each year and calling for timely, effective prevention strategies. Existing computational studies primarily focus on post-based social media platforms such as Twitter and Weibo, leaving instant messaging environments such as Telegram underexplored. Yet group chats pose distinct challenges: messages are short, fragmented, multi-party, and often rely on implicit or culturally specific expressions, making isolated post-level analysis insufficient. We introduce SuiChat-CN, a Chinese group-chat benchmark for contextual suicide risk assessment. We collect public Telegram group-chat data, construct coherent conversational segments through signal-word extraction and bidirectional context expansion, and annotate user risk levels with an expert-validated, LLM-assisted paradigm. SuiChat-CN contains 13,312 contextual segments from 1,406 users, covering 258,228 raw chat messages. Extensive experiments with PLMs and more than 40 LLMs demonstrate that contextual information is essential for reliable risk assessment, while fine-tuning and partial-context evaluation further reveal the challenges of early detection in multi-party conversations. Due to ethical and sensitivity concerns, the dataset is not publicly released but will be shared with accredited mental health and suicide-prevention research institutions upon reasonable request.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d0cdcd68a72c" data-article-url="https://arxiv.org/abs/2605.27921" data-article-title="伝えるのではなく見せる: 説明可能な AI 生成のテキスト検出" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27921" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27921" target="_blank" rel="noopener">伝えるのではなく見せる: 説明可能な AI 生成のテキスト検出</a></h3>
      <p class="summary">AI が生成したテキスト検出に関する研究では、人間と AI の散文を識別するための多くのアプローチが提示されており、そのうちのいくつかは高い配信パフォーマンスを実現しています。しかし、その出力が説明のない数値スコアを提示される教授などのユーザーのニーズと乖離しているため、現実世界への応用性は行き詰まっています。私たちは、説明可能性を根本から強化する新しいアーキテクチャ TELL でこの問題に取り組みます。私たちのシステムは依然として比較可能性のために他の検出器と同様に数値スコアを提供しますが、TELL は根本的に異なるアプローチを採用しており、モデルがテキストが AI または人間によって書かれたものであると判断する「根拠」をユーザーに示し、ユーザーが文章の文脈とその著者とされる内容について独自の判断と理解に基づいて誰がテキストを書いたかを決定できるようにすることを目的としています。ドメイン固有の著者情報アノテーションのカスタム SFT データセットで TELL をトレーニングし、パフォーマンスを向上させるためのカリキュラム学習を備えた GRPO を使用してシステムをさらに改良します。最先端の検出器 (AUROC 0.927) で競争力のあるパフォーマンスを達成しながら、検出器の決定の根拠を説明する注釈をネイティブに提供します。さらに、人間によるアノテーションのデータセットを使用して説明の品質を評価し、アノテーションの具体性、反証可能性、一貫性、妥当性、根拠に関して高い勝率（平均 72.3%）を報告し、ユーザーが批判的に考えて自分で決定できるようにしています。したがって、私たちの研究は、AI によって生成されたテキスト検出の問題を人間中心の観点から再構成し、ネイティブの説明可能性に焦点を当てた新しい検出器ファミリーへの道を開きます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Show, Don&#x27;t TELL: Explainable AI-Generated Text Detection</p>
        <p class="orig-summary">Research on AI-generated text detection has presented a number of approaches to discern human from AI prose, some of which achieving high in-distribution performance. However, real-world applicability has stalled because their outputs are misaligned with the needs of users, such as professors, who are presented with a numeric score that has no attached explanation. We tackle this issue with a novel architecture, TELL, that bakes explainability from the ground-up. While our system still offers a numerical score like other detectors for comparability, TELL takes a fundamentally different approach where we aim to show the user the &quot;tells&quot; by which the model believes a text is AI or human-written, to empower the user to decide who wrote a text using their own judgment and understanding of the context of the writing and its alleged author. We train TELL on a custom SFT dataset of domain-specific authorship annotations, and further refine the system using GRPO with curriculum learning to improve performance. We achieve competitive performance with state-of-the-art detectors (AUROC 0.927) while natively providing annotations that explain the basis for the detector&#x27;s decision. We further evaluate the quality of our explanations using a dataset of human annotations and report a high (mean 72.3%) win-rate on annotation concreteness, falsifiability, coherence, plausibility and grounding, allowing users to critically think and decide for themselves. Our work thus reframes the problem of AI-generated text detection in a human-centric perspective and paves the way for a new family of detectors that focus on native explainability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="320234952416" data-article-url="https://arxiv.org/abs/2605.27922" data-article-title="Harness-Bench: 現実的なエージェント ワークフローにおけるモデル全体のハーネス効果の測定" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27922" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27922" target="_blank" rel="noopener">Harness-Bench: 現実的なエージェント ワークフローにおけるモデル全体のハーネス効果の測定</a></h3>
      <p class="summary">LLM エージェントは、ツールを使用し、ワークスペースを変更し、具体的な成果物を生成する実行可能システムとして導入されることが増えています。このようなワークフローでは、パフォーマンスはベース モデルだけでなく、ハーネス、つまりコンテキスト、ツール、状態、制約、権限、トレース、リカバリを管理するシステム層にも依存します。ただし、既存のベンチマークは通常、実行を抽象化したり、完全なエージェント システムを比較したり、ハーネスを固定したままにするため、実行層の変動を調査することが困難になります。現実的なエージェント ワークフローにおける構成レベルのハーネス効果を評価するための診断ベンチマークである Harness-Bench を紹介します。 Harness-Bench は、各ハーネスのネイティブな実行動作を維持しながら、共有タスク環境、予算、評価プロトコルの下で複数のモデル バックエンドにわたる代表的なハーネス構成を評価します。このベンチマークには、実際のエージェント使用パターンから構築され、現実性、解決可能性、オラクルチェック可能性、整合性について手動でレビューされた 106 個のサンドボックス化されたオフライン タスクが含まれています。各実行では、最終的なアーティファクト、実行トレース、使用状況統計、およびバリデータ出力が記録され、最終的な完了後の分析が可能になります。 5,194 の実行軌跡にわたって、モデルとハーネスのペア間の完了、プロセス品質、効率、および障害動作に大きなばらつきが観察されました。これらの結果は、エージェントの機能はベース モデルのみに起因するのではなく、モデル ハーネス構成レベルで報告されるべきであることを示唆しています。さらに、私たちの分析では、もっともらしい推論がツールのフィードバック、ワークスペースの状態、証拠、または検証可能な出力コントラクトから切り離されている、繰り返し発生する実行調整の失敗を特定します。 Harness-Bench は、信頼性が高く、効率的で、監査可能なエージェント実行スタックを診断および改善するための再現可能な基盤を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows</p>
        <p class="orig-summary">LLM agents are increasingly deployed as executable systems that use tools, modify workspaces, and produce concrete artifacts. In such workflows, performance depends not only on the base model, but also on the harness: the system layer that manages context, tools, state, constraints, permissions, tracing, and recovery. However, existing benchmarks typically abstract away execution, compare complete agent systems, or hold the harness fixed, making execution-layer variation difficult to study. We introduce Harness-Bench, a diagnostic benchmark for evaluating configuration-level harness effects in realistic agent workflows. Harness-Bench evaluates representative harness configurations across multiple model backends under shared task environments, budgets, and evaluation protocols, while preserving each harness&#x27;s native execution behavior. The benchmark contains 106 sandboxed offline tasks constructed from practical agent-use patterns and manually reviewed for realism, solvability, oracle-checkability, and integrity. Each run records final artifacts, execution traces, usage statistics, and validator outputs, enabling analysis beyond final completion. Across 5,194 execution trajectories, we observe substantial variation in completion, process quality, efficiency, and failure behavior across model-harness pairings. These results suggest that agent capability should be reported at the model-harness configuration level rather than attributed to the base model alone. Our analysis further identifies recurring execution-alignment failures, where plausible reasoning becomes decoupled from tool feedback, workspace state, evidence, or verifiable output contracts. Harness-Bench provides a reproducible foundation for diagnosing and improving reliable, efficient, and auditable agent execution stacks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5da06f40adf0" data-article-url="https://arxiv.org/abs/2605.27931" data-article-title="DiagramRAG: 図生成用の科学図を取得する軽量フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27931" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27931" target="_blank" rel="noopener">DiagramRAG: 図生成用の科学図を取得する軽量フレームワーク</a></h3>
      <p class="summary">科学図は、学術論文で複雑な方法論を伝えるために不可欠です。研究者がこのような図を指定する自然な方法は、テキスト ラベル、コネクタ、空間配置が初期の意味論的およびトポロジカルな意図を表現するラフ スケッチを使用することです。ただし、スケッチは通常不完全であるため、出版品質の図を直接作成するには不十分です。既存のスケッチベースの生成方法は主にスケッチ自体を再構築しますが、最近のテキスト駆動の図生成フレームワークはテキストのセマンティクスに依存しており、スケッチに含まれるトポロジー構造を十分に活用していません。このペーパーでは、スケッチベースの科学図を完成させるための軽量の検索拡張フレームワークである DiagramRAG を紹介します。ユーザー スケッチを指定すると、DiagramRAG は、スケッチ コンテンツに意味的に関連し、その構造とトポロジー的に互換性のある参照図を取得し、それらを使用して下流の図生成をガイドします。構造を意識した効率的な検索を可能にするために、ダイアグラムをナレッジ グラフとして表現し、さまざまな簡略化レベルでスケッチ バリアントを合成し、共有スペース内の互換性のあるダイアグラムとスケッチを位置合わせするように埋め込みモデルをトレーニングします。取得された参照は、最終的な図を完成させてレンダリングするためのコンテンツ、トポロジー、および視覚的な事前情報をさらに提供します。実験の結果、DiagramRAG は、DiagramBank と FigureBench でそれぞれ 0.848 と 0.802 の F1 スコアを達成し、推論遅延をサンプルあたり 35.48 秒に短縮しながら、最高の VLM-as-a-Judge スコア 7.170 で生成品質を向上させたことが示されています。私たちのコードとデータは、https://anonymous.4open.science/r/DiagramRAG-A262 および https://huggingface.co/datasets/anonymous-review-a262/DiagramSketch で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">DiagramRAG: A Lightweight Framework to Retrieve Scientific Diagram for Figure Generation</p>
        <p class="orig-summary">Scientific diagrams are essential for communicating complex methodologies in academic papers. A natural way for researchers to specify such diagrams is through rough sketches, where text labels, connectors, and spatial arrangements express early semantic and topological intentions. However, sketches are usually incomplete, making them insufficient for directly producing publication-quality diagrams. Existing sketch-based generation methods mainly reconstruct the sketch itself, while recent text-driven diagram generation frameworks rely on textual semantics and do not fully exploit the topological structure contained in sketches. In this paper, we introduce DiagramRAG, a lightweight retrieval-augmented framework for sketch-based scientific diagram completion. Given a user sketch, DiagramRAG retrieves reference diagrams that are both semantically relevant to the sketch content and topologically compatible with its structure, and uses them to guide downstream diagram generation. To enable efficient structure-aware retrieval, we represent diagrams as knowledge graphs, synthesize sketch variants at different simplification levels, and train an embedding model to align sketches with compatible diagrams in a shared space. The retrieved references further provide content, topology, and visual priors for completing and rendering the final diagram. Experiments show that DiagramRAG achieves F1-scores of 0.848 and 0.802 on DiagramBank and FigureBench, respectively, and improves generation quality with the best VLM-as-a-Judge score of 7.170, while reducing inference latency to 35.48 seconds per sample. Our code and data are available at https://anonymous.4open.science/r/DiagramRAG-A262 and https://huggingface.co/datasets/anonymous-review-a262/DiagramSketch.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e3bcd03711d5" data-article-url="https://arxiv.org/abs/2605.27935" data-article-title="エージェントはより深く考えますか?逐次計画における層ごとのダイナミクスの機構的調査" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27935" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27935" target="_blank" rel="noopener">エージェントはより深く考えますか?逐次計画における層ごとのダイナミクスの機構的調査</a></h3>
      <p class="summary">最近のメカニズム研究では、大規模言語モデル (LLM) が標準的な 1 ターン タスクでその深さを非効率的に利用している可能性があることが示唆されています。これが、モデルが複数ターンの計画、ツールの使用、および反復的な状態更新を実行する必要がある自律エージェント設定でも依然として当てはまるかどうかは、不明のままです。私たちは、深層研究、コード生成、表形式処理の 3 つのドメインにわたる完全なユーザー エージェントの軌跡を体系的に層ごとに分析することで、この疑問を研究します。残差ストリームプローブ、因果層スキップ介入、および有効深さの測定を使用して、エージェント推論が静的タスクとは異なる深さプロファイルを示すことを示します。軌道が展開するにつれて、モデルは徐々により多くのより深い層を採用し、後のターンではより強力な長距離層間の依存関係が現れます。同時に、残留更新はますます補正が優勢になり、安定した特徴の蓄積から反復的な再キャリブレーションへの移行を示しています。有効深さの分析では、構築と改良の実質的なギャップがさらに明らかになります。セマンティックな方向性は多くの場合比較的早期に形成されますが、最終出力を安定させるには深い層が依然として必要です。モデル ファミリ全体で、このギャップは Qwen と Minimax で顕著ですが、GLM はよりドメインに依存した深さの割り当てパターンを示します。これらの結果は、推論の複雑さが増大するにつれて、自律 LLM エージェントが適応的に深さを割り当てる機構的な証拠を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Do Agents Think Deeper? A Mechanistic Investigation of Layer-Wise Dynamics in Sequential Planning</p>
        <p class="orig-summary">Recent mechanistic studies suggest that large language models (LLMs) may utilize their depth inefficiently in standard single-turn tasks. Whether this still holds in autonomous agent settings, where models must perform multi-turn planning, tool use, and iterative state updates, remains unclear. We study this question through a systematic layer-wise analysis of complete user-agent trajectories spanning three domains: Deep Research, Code Generation, and Tabular Processing. Using residual stream probes, causal layer-skipping interventions, and effective-depth measurements, we show that agentic reasoning exhibits a distinct depth profile from static tasks. As trajectories unfold, models progressively recruit more and deeper layers, with stronger long-range inter-layer dependencies emerging in later turns. At the same time, residual updates become increasingly correction-dominant, indicating a shift from stable feature accumulation toward repeated recalibration. Effective-depth analysis further reveals a substantial construction-refinement gap: semantic direction often forms relatively early, while deep layers remain necessary for stabilizing final outputs. Across model families, this gap is pronounced in Qwen and Minimax, whereas GLM shows a more domain-dependent depth allocation pattern. These results provide mechanistic evidence that autonomous LLM agents allocate depth adaptively as reasoning complexity grows.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="acf9c4a4d217" data-article-url="https://arxiv.org/abs/2605.27944" data-article-title="話すことから歌うことへ: オーディオビジュアルディープフェイク検出の新たな挑戦" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27944" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27944" target="_blank" rel="noopener">話すことから歌うことへ: オーディオビジュアルディープフェイク検出の新たな挑戦</a></h3>
      <p class="summary">オーディオビジュアル生成モデルの急速な進歩に伴い、信頼性の高い偽造検出がますます重要になっています。オーディオビジュアルディープフェイク検出の既存の方法は、通常、クロスモーダルの不一致に依存しています。歌う場合、リズミカルな発声はこの結合を弱め、自明ではないドメインシフトを導入し、検出性能を大幅に低下させます。歌のベンチマークのギャップを埋めるために、リズムを意識した生成モデルを使用して Singing Head DeepFake (SHDF) データセットを構築します。シナリオをまたいだドメインの変化に対処するために、会話と歌の両方のシナリオを一般化するテキストガイド付き視聴覚偽造検出 (T-AVFD) フレームワークを提案します。 T-AVFD は、顔認証パターン学習器とマルチモーダル差分重み学習モジュールで構成されます。パターン学習器は、顔の特徴を多粒度のテキスト記述と整合させて、一般化可能な信頼性パターンを学習します。重み学習モジュールは、本質的な視聴覚の一貫性を維持し、差分重み付けを介してそれを信頼性パターンと適応的に統合します。複数のトーキング ヘッド ディープフェイク データセットと SHDF に関する広範な実験により、既存のベースラインを超える一貫した改善と、さまざまな摂動下での強力な堅牢性が示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Talking to Singing: A New Challenge for Audio-Visual Deepfake Detection</p>
        <p class="orig-summary">With rapid advances in audio-visual generative models, reliable forgery detection becomes increasingly critical. Existing methods for audio-visual deepfake detection typically rely on cross-modal inconsistencies. In singing, rhythmic vocalization weakens this coupling and introduces a nontrivial domain shift, substantially degrading detection performance. We construct the Singing Head DeepFake (SHDF) dataset using rhythm-aware generative models to fill the gap in singing benchmarks. To cope with cross-scenario domain shifts, we propose a Text-guided Audio-Visual Forgery Detection (T-AVFD) framework that generalizes across both talking and singing scenarios. T-AVFD comprises a facial authenticity pattern learner and a multi-modal differential weight learning module. The pattern learner aligns facial features with multi-granularity textual descriptions to learn generalizable authenticity patterns. The weight learning module preserves intrinsic audio-visual consistency and adaptively integrates it with authenticity patterns via differential weighting. Extensive experiments on multiple talking head deepfake datasets and SHDF show consistent improvements over existing baselines and strong robustness under diverse perturbations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="20f435f1e396" data-article-url="https://arxiv.org/abs/2605.27965" data-article-title="考えすぎの形: 長い推論の痕跡で後戻りが爆発する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27965" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27965" target="_blank" rel="noopener">考えすぎの形: 長い推論の痕跡で後戻りが爆発する</a></h3>
      <p class="summary">推論モデルは多くの場合、有用な自己修正と非生産的な修正を区別するのが難しい長いトレースを生成します。私たちは、この区別をバックトラッキング ダイナミクス、つまり長い形式の推論トレース内での局所的な再検討、撤回、または再導出を通じて研究します。 6{,}000 個の Qwen3-8B AIME トレースで、セグメント レベルのバックトラック重大度に注釈を付け、イベント タイミング、正規化された深さ、およびローカル バースト構造を分析します。初期の単独修復は正しい推論と一致することが多いのに対し、不正確なトレースでは中程度から重度のバックトラックが持続し遅れてクラスター化することが多いことがわかりました。クロスコーパスチェックでは、追加のモデル/ドメインのペアにわたって同じ定性的な非対称性が示されます。フィルタリング分析は、信号をプレフィックス原因選択的早期終了ポリシーとしてインスタンス化します。浅い深さと中間の深さでは、プレフィックスで利用可能な機能のみを使用しながら、バースト対応フィルタリングは固定長ベースのフィルタリングよりも優れたパフォーマンスを発揮します。適度な長さのカットオフは強力な完了トレース ベースラインのままですが、バースト認識制御は、回復可能な修復を不安定性の可能性から分離するための展開可能なメカニズムを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Shape of Overthinking: Backtracking Bursts in Long Reasoning Traces</p>
        <p class="orig-summary">Reasoning models often generate long traces in which useful self-correction and unproductive revision are hard to distinguish. We study this distinction through backtracking dynamics: local reconsideration, retraction, or re-derivation inside long-form reasoning traces. On 6{,}000 Qwen3-8B AIME traces, we annotate segment-level backtrack severity and analyze event timing, normalized depth, and local burst structure. We find that early isolated repair is often compatible with correct reasoning, whereas incorrect traces more often show moderate-to-severe backtracks that persist and cluster late. Cross-corpus checks show the same qualitative asymmetry across additional model/domain pairs. Filtering analyses instantiate the signal as a prefix-causal selective early-exit policy: at shallow and intermediate depths, burst-aware filtering outperforms fixed length-based filtering while using only prefix-available features. Moderate length cutoffs remain strong completed-trace baselines, but burst-aware control provides a deployable mechanism for separating recoverable repair from likely instability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9e0c7d9192ae" data-article-url="https://arxiv.org/abs/2605.27970" data-article-title="人間の知覚領域の幾何学が LLM 表現に一時的に現れる" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27970" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27970" target="_blank" rel="noopener">人間の知覚領域の幾何学が LLM 表現に一時的に現れる</a></h3>
      <p class="summary">大規模言語モデル (LLM) は純粋にテキスト データに基づいてトレーニングされますが、以前の研究では、その内部表現が埋め込み空間で豊富な幾何学的構造を示すことができることが示されています。この一連の作業に基づいて、私たちはそのような構造がさまざまな領域（色、ピッチ、感情、味など）にわたる人間の知覚組織に類似しているかどうかを調査します。具体的には、複数のオープンウェイト変圧器アーキテクチャの残差ストリーム内の知覚モダリティに対応する固有の幾何学的構造の層ごとの出現を研究します。私たちの結果は 3 つの重要な発見を明らかにしました。まず、トレーニング中に直接的な知覚の監視がないにもかかわらず、複数の知覚領域にわたって層ごとの幾何学的構造の出現が観察されます。第二に、これらの知覚ドメインは、幾何学的構造と人間のベースラインとの整合性の両方を備え、深度にわたるドメインおよびモデル固有の軌跡に従う、明確な出現プロファイルを示します。第三に、この出現は一貫した表現の軌跡をたどります。つまり、幾何学は初期の層では弱いか拡散していますが、中間層では徐々に組織化され、後の層では減衰します。これは、知覚幾何学がモデルの内部変換パイプラインの一部として一時的に発生することを示唆しています。これは、LLM で人間に似た知覚幾何学がどのように、どこで生じるかについての新たな洞察を提供し、内部表現の機械論的分析のための原則的な経路を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Geometry of Human Perceptual Domains Emerges Transiently in LLM Representations</p>
        <p class="orig-summary">While large language models (LLMs) are trained purely on textual data, prior work has shown that their internal representations can exhibit rich geometric structure in embedding space. Building on this line of work, we investigate whether such structure is similar to human perceptual organisation across different domains (e.g., color, pitch, emotion, and taste). Specifically, we study the layer-wise emergence of intrinsic geometrical structure corresponding to perceptual modalities within the residual streams of multiple open-weight transformer architectures. Our results reveal three key findings. First, we observe the emergence of layer-wise geometric structure across multiple perceptual domains, despite the absence of any direct perceptual supervision during training. Second, these perceptual domains exhibit distinct emergence profiles, with both geometric structure and its alignment with human baselines following domain- and model-specific trajectories across depth. Third, this emergence follows a consistent representational trajectory: geometry is weak or diffuse in early layers, becomes progressively organised in intermediate layers, and is attenuated in later layers, suggesting that perceptual geometry arises transiently as part of the model&#x27;s internal transformation pipeline. This provides new insight into how and where human-like perceptual geometry arises in LLMs, offering a principled pathway for mechanistic analysis of internal representations.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="48b3d6c9e20d" data-article-url="https://arxiv.org/abs/2605.27981" data-article-title="STAB: アルゴリズムのボトルネックに対する仕様主導のテスト" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27981" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27981" target="_blank" rel="noopener">STAB: アルゴリズムのボトルネックに対する仕様主導のテスト</a></h3>
      <p class="summary">アルゴリズム コードの効率を評価するには、実行時のボトルネックを明らかにするテスト ケースが必要です。以前のメソッドは、入力サイズを増やすか、特定の実装の実行速度を遅くするコード固有の入力を生成することによって、効率性テスト ケースを生成します。したがって、アルゴリズムの最悪のケースを引き起こす構造的な入力条件には対処していません。 STAB は、自然言語の問題仕様のみからアルゴリズムのボトルネックを明らかにするテスト ケースを生成する仕様駆動型パイプラインです。 STAB は、タスクを制約制限付きの最大化と敵対的構造の注入に分離します。 (i) 制約サチュレーターは制約を抽出し、ルールベースの飽和と関連する変数に対する CP-SAT 最適化を使用して、許容可能な大きなサイズの割り当てを解決します。 (ii) 敵対的シナリオ インジェクターは、キーワード マッチングと K 最近傍 (KNN) を使用して、厳選されたシナリオ カタログから実装レベルの敵対的構築原則を取得します。 STAB は、問題の仕様、解決された境界、および取得された構築原則を構造化された生成仕様にエンコードし、そこから LLM が Python テスト ケース ジェネレーターを合成します。 CodeContests では、STAB は、アルゴリズムのボトルネックを明らかにする生成されたテスト ケースの割合を、オープンソース LLM 全体で平均 50.43% から 73.45% に、クローズドソース LLM 全体で平均 57.45% から 71.85% に引き上げ、Python、Java、C++ 全体で一貫した向上を実現しました。私たちのコードは https://github.com/suhanmen/STAB で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">STAB: Specification-driven Testing for Algorithmic Bottlenecks</p>
        <p class="orig-summary">Evaluating the efficiency of algorithmic code requires test cases that expose runtime bottlenecks. Previous methods generate efficiency test cases either by increasing input size or by generating code-specific inputs that make the given implementation run slowly. Consequently, they do not address the structural input conditions that drive the algorithmic worst case. We introduce STAB, a specification-driven pipeline that generates test cases that expose algorithmic bottlenecks from a natural-language problem specification alone. STAB separates the task into constraint-bound maximization and adversarial structure injection. (i) The constraint saturator extracts constraints and resolves large admissible size assignments using rule-based saturation and CP-SAT optimization over related variables. (ii) The adversarial scenario injector retrieves implementation-level adversarial construction principles from a curated scenario catalog using keyword matching and K-nearest neighbors (KNN). STAB encodes the problem specification, resolved boundary, and retrieved construction principles into a structured generation specification, from which the LLM synthesizes a Python test case generator. On CodeContests, STAB raises the rate of generated test cases that expose algorithmic bottlenecks from 50.43% to 73.45% on average across open-source LLMs and from 57.45% to 71.85% on average across closed-source LLMs, with consistent gains across Python, Java, and C++. Our code is available at https://github.com/suhanmen/STAB.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7724a652e477" data-article-url="https://arxiv.org/abs/2605.27995" data-article-title="AsyncTool: マルチタスク シナリオでの非同期関数呼び出し機能の評価" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27995" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27995" target="_blank" rel="noopener">AsyncTool: マルチタスク シナリオでの非同期関数呼び出し機能の評価</a></h3>
      <p class="summary">大規模言語モデル (LLM) ベースのエージェントは、外部ツールを使用して複雑なタスクを解決する強力な機能を示しています。ただし、既存の評価では、ツール使用の時間的側面、特にツールの応答遅延の影響が見落とされていることが多く、通常は単一タスクの設定に限定されています。実際のアプリケーションでは、多くの場合、複数のタスクを同時に実行する必要があり、全体的な効率は、エージェントがツールの応答を待つ間にアイドル時間を利用できるかどうかによって決まります。この機能を非同期ツール呼び出しと呼びます。これを評価するために、ツールのフィードバックが遅延した対話型のマルチタスク ツール使用環境で LLM ベースのエージェントを評価するためのベンチマークである AsyncTool を提案します。 AsyncTool は、複数の異種タスクを同時に提示し、実行中の現実的なツール応答遅延をシミュレートします。ハイブリッド データ進化戦略を使用して、複数のシナリオとツールの使用パターンをカバーする多様な非同期マルチタスク データセットを構築します。ステップ、サブタスク、およびタスクのレベルでモデルを評価し、タスクの調整と完了の効率を測定するための効率指向のメトリクスを導入します。広範な実験により、ツールのフィードバックが遅れていると、現在のエージェントに大きな課題が生じ、明らかなパフォーマンスの低下につながることが示されています。タスクの切り替え、依存関係の追跡、状態の維持をより適切に調整するモデルは、AsyncTool でより優れたパフォーマンスを実現します。私たちの分析は、現在ツールを使用しているエージェントの主な障害モードを特定し、より強力な時間的推論と調整機能を備えた将来のシステムを設計するための実用的な洞察を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios</p>
        <p class="orig-summary">Large language model (LLM)-based agents have shown strong capabilities in using external tools to solve complex tasks. However, existing evaluations often overlook the temporal dimension of tool use, especially the impact of tool response latency, and are usually limited to single-task settings. In real-world applications, multiple tasks often need to be executed concurrently, and overall efficiency depends on whether an agent can use idle time while waiting for tool responses. We refer to this capability as asynchronous tool calling. To evaluate it, we propose AsyncTool, a benchmark for assessing LLM-based agents in interactive multi-task tool-use environments with delayed tool feedback. AsyncTool presents multiple heterogeneous tasks simultaneously and simulates realistic tool response latency during execution. Using a hybrid data evolution strategy, we construct a diverse asynchronous multitasking dataset that covers multiple scenarios and tool-use patterns. We evaluate models at the step, sub-task, and task levels, and introduce efficiency-oriented metrics to measure task coordination and completion efficiency. Extensive experiments show that delayed tool feedback poses substantial challenges to current agents and leads to clear performance degradation. Models that better coordinate task switching, dependency tracking, and state maintenance achieve stronger performance on AsyncTool. Our analysis identifies key failure modes of current tool-using agents and provides practical insights for designing future systems with stronger temporal reasoning and coordination capabilities.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3acde15e3fdd" data-article-url="https://arxiv.org/abs/2605.27996" data-article-title="報酬バイアスの代替: 単軸バイアスの軽減 リダイレクト最適化の圧力" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27996" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27996" target="_blank" rel="noopener">報酬バイアスの代替: 単軸バイアスの軽減 リダイレクト最適化の圧力</a></h3>
      <p class="summary">報酬モデルのバイアスを単軸で緩和すると（例、長さ、お調子者、またはスタイルに対するプロキシの依存度を減らす）、最適化のプレッシャーを排除するのではなく、相関するプロキシに回転させることができます。これを報酬バイアス置換と呼ぶ失敗モードです。この失敗は、緩和評価およびポリシーのトレーニング中の監査とポリシーに起因する分布の間の測定と最適化のギャップによって可能になります。私たちは、緩和の結果をレジーム分類法に形式化し、成功した緩和、バイアス置換、過剰補正は、たとえオラクルに真の報酬へのアクセスが許可されていたとしても、ランキングの精度や勝率など、監査分布スコアリングの下で​​同一の観察結果を生み出すことを証明します。公表されている優先学習による緩和作業全体にわたって、私たちが調査した方法では、緩和の成功を証明するために必要な証拠が報告されていません。複数のバイアスを追跡しながら、政策に起因する分布で評価を強化すると、ギャップが縮まることが証明されており、これを緩和方法とベンチマークの実用的な処方箋に変換します。言語モデル RLHF でのバイアス置換を実証します。この場合、GRPO トレーニング中の長さのペナルティにより、意図したとおりに応答が圧縮されますが、最適化圧力が信頼度の調整にリダイレクトされ、事実に基づく自由形式の精度が低下する一方で、ポリシーが過信状態に陥ります。また、監査分布における報酬と長さの相関をゼロにするが、4 つの SOTA 報酬モデルのうち 3 つでのベストオブ N 選択の下ではバイアスを再導入する、公開されている長さ偏り解消演算子と、人間と LLM 裁判官の意見の不一致で方向が反転する長さとおべっかのカップリングも示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Reward Bias Substitution: Single-Axis Bias Mitigations Redirect Optimization Pressure</p>
        <p class="orig-summary">Single-axis mitigations of reward-model biases (e.g., reducing proxy reliance on length, sycophancy, or style) can rotate optimization pressure onto correlated proxies rather than eliminate it, a failure mode we call reward bias substitution. The failure is enabled by a measurement-versus-optimization gap between audit and policy-induced distributions during mitigation evaluation and policy training. We formalize mitigation outcomes into a regime taxonomy and prove that successful mitigation, bias substitution, and overcorrection produce identical observables under any audit-distribution scoring, including ranking accuracy and win-rate, even when granted oracle access to the true reward. Across published preference-learning mitigation work, no method we survey reports the evidence needed to certify successful mitigation. Augmenting evaluation with policy-induced distributions while tracking multiple biases provably closes the gap, and we translate this into actionable prescriptions for mitigation methods and benchmarks. We demonstrate bias substitution in language model RLHF, where a length penalty during GRPO training compresses responses as intended yet redirects optimization pressure onto confidence calibration, driving the policy into overconfidence while factual free-form accuracy falls. We also show a published length-debiasing operator that zeroes reward-length correlation on the audit distribution but reintroduces bias under best-of-N selection on three of four SOTA reward models, and a length-sycophancy coupling whose direction reverses under human-LLM judge disagreement.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f417e7d4e3f3" data-article-url="https://arxiv.org/abs/2605.28001" data-article-title="アンカー復号化を考慮した k-NAF 予算の実証的監査" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28001" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28001" target="_blank" rel="noopener">アンカー復号化を考慮した k-NAF 予算の実証的監査</a></h3>
      <p class="summary">我々は、(i) 固定のクラス階層化ワークロード (6 つのプロンプト クラス全体で約 8,500 回のランダム化された実行) と (ii) 高いプロキシ支出率を対象とした適応型プロンプト検索手順を使用して、アンカー デコーディングの k-NAF 予算会計メカニズムを実証的に監査します。固定ワークロードでは、平均累積 KL 支出は {600, 1000} のシーケンス レベルの予算 K をはるかに下回っており、経験的なバーンスタイン スタイルのプロキシはすべてのクラスで K を下回っています。表面オーバーラップ診断 (ROUGE-L および 5 グラム Jaccard) は、それに応じて小さいです。アダプティブ検索によりプロキシ支出率は増加しますが、明らかな予算枯渇は生じません。 k = 3 で保留された著作権ドメインのワークロードでは、実現サンプル サイズが小さい早期停止評価では、いくつかのプロンプトが 1 を超えるプロキシ比を示しました。より大きな割り当てで同じプロンプトを再評価すると、同等の平均支出の下でプロキシ比率が [0.26、0.40] の範囲に減少します。これは、軌跡ごとのバジェットの失敗ではなく、プロキシのアーティファクトと一致します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">An Empirical Audit of k-NAF Budget Accounting for Anchored Decoding</p>
        <p class="orig-summary">We empirically audit the k-NAF budget-accounting mechanism in Anchored Decoding using (i) a fixed, class-stratified workload (approximately 8,500 randomized executions across six prompt classes) and (ii) an adaptive prompt-search procedure targeting high proxy spend ratios. On the fixed workload, mean cumulative KL spend remains far below the sequence-level budgets K in {600, 1000}, and an empirical Bernstein-style proxy stays below K for every class; surface-overlap diagnostics (ROUGE-L and 5-gram Jaccard) are correspondingly small. Adaptive search increases the proxy spend ratio but does not produce clear budget exhaustion. On a held-out copyright-domain workload at k = 3, several prompts exhibit proxy ratios above 1 under early-stopped evaluations with small realized sample sizes; re-evaluating the same prompts with larger allocation reduces the proxy ratio to the range [0.26, 0.40] under comparable mean spend, consistent with proxy artifacts rather than per-trajectory budget failures.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="879c3626f3d4" data-article-url="https://arxiv.org/abs/2605.28008" data-article-title="思考を圧縮する: LLM トレーニング後の圧縮推論データがいつ、どのように機能するか" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28008" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28008" target="_blank" rel="noopener">思考を圧縮する: LLM トレーニング後の圧縮推論データがいつ、どのように機能するか</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、長い思考連鎖 (CoT) 推論を通じて複雑な問題を解決できるようになりましたが、パフォーマンスとトークン コストの間のトレードオフが依然として中心的な課題です。この問題に対処するために、教師あり微調整 (SFT) では圧縮された推論データがよく使用され、CoT トレースはコンパクトな形式に短縮されます。ただし、このような圧縮された推論データがトレーニング後に与える影響については、まだ十分に理解されていません。本稿では、すべての操作を集約せずに出力する Explicit CoT、複数の操作を 1 つのステップに結合する Compused CoT、および中間操作を省略する Implicit CoT から構成される CoT の分類法を提案します。私たちは、難易度、圧縮粒度、データ サイズの制御された変動を可能にする合成合成推論タスクを構築し、さまざまなモデル ファミリとサイズにわたって包括的な一連の実験を実施しました。特に、(i) より粗い CoT にはより多くの SFT データが必要であること、(ii) Explicit CoT と比較して、Comused CoT と Implicit CoT はデータ スケーリングからの恩恵が大きいのに対し、Comused CoT はデータの繰り返しから恩恵を受け、Implicit CoT は暗記につながる傾向があること、(iii) SFT とは異なり、検証可能な報酬 (RLVR) を伴う後続の強化学習 (RL) は SFT 中に学習された圧縮されたステップを分解すること、および (iv)一方向の CoT 順序付けは、より長い連続タスクに対してより強力な一般化を示します。私たちの発見は、データリソースの制約下でのCoT設計への示唆を提供し、トレーニング後のLLMにおけるSFTとRLのメカニズムについての重要な洞察を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Zipping the Thought: When and How Compressed Reasoning Data Works in LLM Post-Training</p>
        <p class="orig-summary">Large language models (LLMs) can now solve complex problems through long chain-of-thought (CoT) reasoning, but the trade-off between performance and token cost remains a central challenge. To address this issue, supervised fine-tuning (SFT) often uses compressed reasoning data, where CoT traces are shortened into compact forms. However, the effect of such compressed reasoning data on post-training remains poorly understood. In this paper, we propose a taxonomy of CoT consisting of Explicit CoT, which outputs all operations without aggregation, Composed CoT, which combines multiple operations into a single step, and Implicit CoT, which omits intermediate operations. We construct a synthetic compositional reasoning task that allows controlled variation of difficulty, compression granularity, and data size, and conducted a comprehensive set of experiments across different model families and sizes. Notably, we find that (i) coarser CoT requires more SFT data, (ii) compared with Explicit CoT, Composed CoT and Implicit CoT benefit more from data scaling, while Composed CoT benefits from data repetition and Implicit CoT tends to lead to memorization, (iii) unlike SFT, subsequent reinforcement learning (RL) with verifiable rewards (RLVR) decomposes compressed steps learned during SFT, and (iv) unidirectional CoT ordering shows stronger generalization on longer sequential tasks. Our findings provide implications for CoT design under data resource constraints and offer important insights into the mechanisms of SFT and RL in LLM post-training.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3759e12e6e98" data-article-url="https://arxiv.org/abs/2605.28010" data-article-title="不確実な LLM フィードバックに対する自信に基づいた自己進化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28010" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28010" target="_blank" rel="noopener">不確実な LLM フィードバックに対する自信に基づいた自己進化</a></h3>
      <p class="summary">自己進化する大規模言語モデル (LLM) は、独自のトレーニング タスクとソリューションを生成することで学習し、人間による監視への依存を減らします。ただし、多くの推論ドメインでは、モデルは生成されたタスクを検証し、生成された回答を判断してトレーニング信号を取得する必要もあります。これにより、トレーニング信号の課題が生じます。誤った自己判断が誤った勾配更新になります。既存のアプローチは、一般性を制限する外部検証者に依存するか、ノイズの多い自己生成フィードバックを監視として扱うかのいずれかです。我々は、学習を調整するための軽量の不確実性信号として LLM の本質的な信頼度を使用する COSE (Confidence-Orchestrated Self-Evolution) を提案します。 COSE では、信頼度を重視した PPO 更新と信頼度を優先した再生を導入しています。 19 のベンチマークと 4 つの Qwen/Llama バックボーン (0.6B ～ 4B) にわたって、COSE は基本モデルよりも一貫して向上し、コードでの競争力を維持しながら、一般的な推論と数学で最高の平均パフォーマンスを達成します。コードとデータは https://anonymous.4open.science/r/COSE_-B5C2 で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Confidence-Orchestrated Self-Evolution against Uncertain LLM Feedback</p>
        <p class="orig-summary">Self-evolving large language models (LLMs) learn by generating their own training tasks and solutions, reducing reliance on human-curated supervision. However, in many reasoning domains, the model must also validate generated tasks and judge generated answers to obtain training signals. This creates a training-signal challenge: erroneous self-judgments become erroneous gradient updates. Existing approaches either rely on external verifiers, which limits generality, or treat noisy self-generated feedback as supervision. We propose COSE (Confidence-Orchestrated Self-Evolution), which uses the LLM&#x27;s intrinsic confidence as a lightweight uncertainty signal to modulate learning. COSE introduces confidence-weighted PPO updates and confidence-prioritized replay. Across 19 held-out benchmarks and four Qwen/Llama backbones (0.6B--4B), COSE consistently improves over base models and achieves the best average performance in general reasoning and mathematics, while remaining competitive on code. Code and data are available at https://anonymous.4open.science/r/COSE_-B5C2.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="09b5c69a0d92" data-article-url="https://arxiv.org/abs/2605.28025" data-article-title="MIRA: 医療情報対応監査のバイリンガル ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28025" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28025" target="_blank" rel="noopener">MIRA: 医療情報対応監査のバイリンガル ベンチマーク</a></h3>
      <p class="summary">一般向けの健康情報を提供するために大規模言語モデル (LLM) がますます使用されていますが、既存の安全性評価では、同じ質問に対するさまざまなユーザーの表現にわたって回答が同等の医療情報を保持しているかどうかが見落とされています。これに対処するために、LLM がユーザー側の言語、登録、ヘルス リテラシー シグナル全体で同等の医療情報を提供しているかどうかを評価するバイリンガルの管理されたベンチマークである Medical Information Response Audit (MIRA) を導入します。 MIRA には、医学的に検討された低リスクの健康に関する 60 の質問から作成された 4,320 のプロンプトが含​​まれています。 5 つの主流 LLM にわたって、モデルはすべての医学的質問に答えましたが、健康リテラシーが低い信号への応答では一貫してより多くの重要な情報が省略され、具体的な次のステップが少なくなり、独立した判断に対するサポートが少なくなりました。このパターンを差分情報希釈 (DID) と呼びます。言語の影響は、英語以外のプロンプトで一律に悪化するのではなく、モデルに固有です。 300 件の実世界の健康クエリとの比較により、ランク順の妥当性の予備的な証拠が得られます。知識に基づいた緩和プロンプトにより、ほとんどのモデルで情報の希薄化が軽減され、情報不足の単純化が最も大きく減少したのはクロード (約 8%) とクウェン (約 6%) でした。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MIRA: A Bilingual Benchmark for Medical Information Response Audit</p>
        <p class="orig-summary">Large language models (LLMs) are increasingly used to provide public-facing health information, yet existing safety evaluations overlook whether responses preserve comparable medical information across different user phrasings of the same question. To address this, we introduce the Medical Information Response Audit (MIRA), a bilingual, controlled benchmark that assesses whether LLMs provide comparable medical information across user-side language, register, and health literacy signals. MIRA contains 4,320 prompts built from 60 medically reviewed, low-risk health questions. Across five mainstream LLMs, models answered all medical questions, but responses to low health-literacy signals consistently omitted more key information, provided fewer concrete next steps, and offered less support for independent judgment. We term this pattern Differential Information Dilution (DID). Language effects are model-specific rather than uniformly worse for non-English prompts. A comparison with 300 real-world health queries provides preliminary evidence of rank-order validity. A knowledge-guided mitigation prompt reduces information dilution for most models, with the largest reductions in underinformative simplification observed for Claude (~8%) and Qwen (~6%).</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aa800ce3e836" data-article-url="https://arxiv.org/abs/2605.28032" data-article-title="PetroBench: 石油工学における大規模言語モデルのベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28032" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28032" target="_blank" rel="noopener">PetroBench: 石油工学における大規模言語モデルのベンチマーク</a></h3>
      <p class="summary">大規模言語モデルは石油業界でますます適用されており、ドメイン固有の評価フレームワークの必要性が強調されています。この研究では、データの前処理、品質フィルタリング、マルチモデル検証の 3 段階のプロセスを含む、石油工学における LLM のベンチマークを開発します。専門家のレビューを使用して、強力なドメイン関連性と識別機能を備えた標準化された質問バンクが構築されました。このベンチマークは生産、貯留層、掘削工学を対象としており、多肢選択、正誤、用語の定義、短答形式にわたる 1,200 の質問が含まれています。 8 つの主流 LLM が統合 API 環境下で評価されました。結果は、モデルが客観的な質問よりも主観的な質問の方が優れたパフォーマンスを示し、事実知識の識別における弱点を示しています。多肢選択式質問と正誤質問の最高精度は、それぞれ 65.3% と 74.3% でした。 Gemini-3-Pro、Kimi-K2.5、および Claude-Opus-4.6-Thinking は、72% ～ 74% という最高の総合スコアを達成しました。モデルは生産エンジニアリングで最も優れたパフォーマンスを発揮しましたが、貯留層エンジニアリングでは最も劣っていました。中国のモデルは多肢選択問題で優位性を示しましたが、国際モデルは短答式の質問でわずかに優れた結果を示しました。このベンチマークは、石油工学における LLM の評価と導入のための再現可能で実用的なリファレンスを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PetroBench: A Benchmark for Large Language Models in Petroleum Engineering</p>
        <p class="orig-summary">Large Language Models are increasingly applied in the petroleum industry, highlighting the need for a domain-specific evaluation framework. This study develops a benchmark for LLMs in petroleum engineering, including a three-stage process of data preprocessing, quality filtering, and multi-model validation. Using expert review, a standardized question bank with strong domain relevance and discriminative capability was constructed. The benchmark covers production, reservoir, and drilling engineering, with 1,200 questions across multiple-choice, true or false, term definition, and short-answer formats. Eight mainstream LLMs were evaluated under a unified API environment. Results show that models performed better on subjective than objective questions, indicating weaknesses in factual knowledge discrimination. The highest accuracies for multiple-choice and true or false questions were 65.3% and 74.3%, respectively. Gemini-3-Pro, Kimi-K2.5, and Claude-Opus-4.6-Thinking achieved the best overall scores of 72%-74%. Models performed best in production engineering and weakest in reservoir engineering. Chinese models showed advantages in multiple-choice questions, while international models performed slightly better in short-answer questions. The benchmark provides a reproducible and practical reference for evaluating and deploying LLMs in petroleum engineering.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9eb5b7e06c4d" data-article-url="https://arxiv.org/abs/2605.28034" data-article-title="Clark Hash: ニューラル埋め込みのためのステートレス スパース ジョンソン リンデンシュトラウス量子化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28034" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28034" target="_blank" rel="noopener">Clark Hash: ニューラル埋め込みのためのステートレス スパース ジョンソン リンデンシュトラウス量子化</a></h3>
      <p class="summary">Clark Hash は、ニューラル埋め込みをより少ないスペースに保存するための小さな方法です。各データベース ベクトルを正規化し、決定論的なスパース符号付きジョンソン リンデンシュトラウス射影を適用し、結果をクリップして、固定幅のスカラー量子化コードを保存します。クエリは浮動小数点のままで、保存されたスケッチに対してスコア付けされます。デフォルトの 384 次元の文埋め込み設定では、Clark Hash はコサイン検索ベクトルを高密度 f32 ストレージの 1536 バイトではなく 48 バイトに保存します。これは 32 分の 1 です。この方法では、新しいベクトルを保存する前に、トレーニング パス、学習されたコードブック、回転、またはコーパス統計を必要としません。コーデック、Rust 実装、および 29 のサブセットからの 9,304 のラベル付きペアに対する多言語文の類似性評価について説明します。多言語 MiniLM エンコーダを使用すると、48 バイトのスケッチは、STS17 および STS22 で密なコサイン スコアを備えたマクロ ピアソン相関が 0.910 および 0.946 に達しました。クラーク ハッシュは新しいジョンソン リンデンシュトラウスの定理ではなく、近似最近傍インデックスに代わるものでもありません。これは、コンパクトな組み込みストレージ用のシンプルなステートレス コーデックです。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Clark Hash: Stateless Sparse Johnson-Lindenstrauss Quantization for Neural Embeddings</p>
        <p class="orig-summary">Clark Hash is a small method for storing neural embeddings in less space. It normalizes each database vector, applies a deterministic sparse signed Johnson-Lindenstrauss projection, clips the result, and stores a fixed-width scalar-quantized code. Queries stay in floating point and are scored against the stored sketches. In the default 384-dimensional sentence-embedding setting, Clark Hash stores a cosine-search vector in 48 bytes instead of 1536 bytes for dense f32 storage. This is 32x smaller. The method does not need a training pass, learned codebooks, rotations, or corpus statistics before new vectors can be stored. We describe the codec, the Rust implementation, and a multilingual sentence-similarity evaluation on 9,304 labeled pairs from 29 subsets. With a multilingual MiniLM encoder, the 48-byte sketches reached 0.910 and 0.946 macro Pearson correlation with dense cosine scores on STS17 and STS22. Clark Hash is not a new Johnson-Lindenstrauss theorem and it is not a replacement for approximate nearest-neighbor indexes. It is a simple stateless codec for compact embedding storage.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9954baaf21fe" data-article-url="https://arxiv.org/abs/2605.28035" data-article-title="MTAVG-Bench 2.0: マルチトーカーオーディオビデオ生成における映画的な表現力の障害モードの診断" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28035" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28035" target="_blank" rel="noopener">MTAVG-Bench 2.0: マルチトーカーオーディオビデオ生成における映画的な表現力の障害モードの診断</a></h3>
      <p class="summary">近年、マルチ トーカー オーディオ ビデオ生成 (MTAVG) モデルは、リップシンクやオーディオとビジュアルの調整などの基本的なメトリクスで有望なパフォーマンスを示しています。ただし、これらの指標は、シーンレベルの生成における映画の表現力を評価するには依然として不十分です。マルチキャラクターのシーンでは、生成モデルはオーディオビジュアルのリアリズムを超えて、一貫したキャラクターのパフォーマンスやその他のより高いレベルの映画の品質を伝える必要があります。このギャップを埋めるために、マルチトーカーのオーディオビデオ生成における映画の表現力の障害モードを診断するためのベンチマークである MTAVG-Bench 2.0 を導入します。基本的なマルチターンダイアログの品質に主に焦点を当てていた以前の設定とは異なり、MTAVG-Bench 2.0 は短編ドラマとシーンレベルの生成をターゲットにしており、演技、物語、雰囲気、視聴覚言語にわたる高レベルの失敗分類法を確立しています。この分類に基づいて、短編ドラマレベルの評価と障害モードの時間的位置特定のためのサブセットとともに、10,000 を超える質問応答評価インスタンスを構築し、高レベルの視聴覚障害を診断するオムニラージ言語モデルの能力を体系的に評価します。実験結果は、Gemini などの商用オムニ モデルが他の評価ツールよりも大幅に優れていることを示していますが、最も強力なモデルでさえ、ベンチマークでは引き続き複雑な障害に悩まされています。これらの結果は、MTAVG-Bench 2.0 が映画のマルチトーカー オーディオ/ビデオ生成における障害診断のための体系的なベンチマークを提供することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic Expressiveness in Multi-Talker Audio-Video Generation</p>
        <p class="orig-summary">In recent years, Multi-Talker Audio-Video Generation (MTAVG) models have shown promising performance on fundamental metrics such as lip-sync and audio-visual alignment. However, these metrics remain insufficient for assessing cinematic expressiveness in scene-level generation. In multi-character scenes, generation models must go beyond audio-visual realism to convey coherent character performance and other higher-level cinematic qualities. To fill this gap, we introduce MTAVG-Bench 2.0, a benchmark for diagnosing failure modes of cinematic expressiveness in multi-talker audio-video generation. Unlike prior settings that mainly focus on the quality of basic multi-turn dialogue, MTAVG-Bench 2.0 targets short-drama and scene-level generation, and establishes a high-level failure taxonomy spanning acting, narrative, atmosphere, and audio-visual language. Based on this taxonomy, we construct more than 10,000 question-answering evaluation instances, together with subsets for short-drama-level assessment and temporal localization of failure modes, to systematically evaluate the ability of omni large language models to diagnose high-level audio-visual failures. Experimental results show that commercial omni models such as Gemini substantially outperform other evaluators, yet even the strongest models continue to struggle with complex failures in our benchmark. These results demonstrate that MTAVG-Bench 2.0 provides a systematic benchmark for failure diagnosis in cinematic multi-talker audio-video generation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cc2665c4bebb" data-article-url="https://arxiv.org/abs/2605.28044" data-article-title="関連性は保証されていない: 引用された RAG の証拠と力の校正" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28044" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28044" target="_blank" rel="noopener">関連性は保証されていない: 引用された RAG の証拠と力の校正</a></h3>
      <p class="summary">引用された RAG の評価では、目に見える情報源が根拠となる信号として扱われることがよくありますが、実際の話題に関連した引用であっても、添付された文言の正当性が不十分である可能性があります。私たちはこの診断の失敗を引用ロンダリングとして研究しています。つまり、関連する情報源が過度の主張の根拠として提示されています。証拠と力の校正のための対照ストレステストである FORCEBENCH を紹介します。各項目は引用箇所を固定し、証拠に基づいて調整された主張と、関係性、様相、範囲、時間的妥当性、数値的特異性という 5 つの操作軸にわたる局所的な力によって引き起こされた変形とを組み合わせます。調整された評価者は、証拠に基づいて調整された主張をより高く評価する必要があります。ヘッドライン実験では、固定の局所性フィルター処理された 198 ペアの評価セットを使用します。引用存在の健全性チェックは設計上、有益ではありません。トークンとエンティティの重複は、依然としてペアの 32.8 ～ 36.4% で単調性に違反しています。報告された4人のモデル裁判官全体で、標準的な一般的なサポートのプロンプトはこの力校正ストレステストには不十分であり（合計MVR 47.2%）、明示的な令状強度のプロンプトはMVRを24.5%に低下させますが、依然として不完全です。ベンチマーク、プロンプト、出力、およびプラグイン パイプラインをリリースすることで、引用評価者が従来のサポート メトリックとともに単調性違反率と力感度を報告できるようになります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Relevant Is Not Warranted: Evidence-Force Calibration for Cited RAG</p>
        <p class="orig-summary">Cited RAG evaluation often treats visible sources as a grounding signal, but a real, topically relevant citation can still under-warrant the attached wording. We study this diagnostic failure as citation laundering: a related source is presented as warrant for an over-strong claim. We introduce FORCEBENCH, a contrastive stress test for evidence-force calibration. Each item holds a cited passage fixed and pairs an evidence-calibrated claim with a localized force-raised variant across five operational axes: relation, modality, scope, temporal validity, and numeric specificity. A calibrated evaluator should score the evidence-calibrated claim higher. Headline experiments use a fixed, locality-filtered 198-pair evaluation set. A citation-presence sanity check is uninformative by design; token and entity overlap still violate monotonicity on 32.8--36.4% of pairs. Across four reported model judges, standard generic support prompting is insufficient for this force-calibration stress test (aggregate MVR 47.2%), while explicit warrant-strength prompting lowers MVR to 24.5% but remains imperfect. We release the benchmark, prompts, outputs, and plug-in pipeline so citation evaluators can report monotonicity violation rate and force sensitivity alongside conventional support metrics.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b67a11da77b5" data-article-url="https://arxiv.org/abs/2605.28046" data-article-title="MemCog: 会話エージェントにおけるツールとしての記憶から認知としての記憶へ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28046" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28046" target="_blank" rel="noopener">MemCog: 会話エージェントにおけるツールとしての記憶から認知としての記憶へ</a></h3>
      <p class="summary">既存のエージェント記憶システムは一般的に、単一のクエリがフラットパッセージリストのワンショット検索をトリガーする「Memory-as-Tool」パラダイムに従っており、受動的呼び出し、推論と検索の分離、および取得されたフラグメントとエージェントのナビゲーションニーズ間の構造的不一致に悩まされています。私たちは、メモリアクセスを推論プロセスの不可欠な部分にする認知としてのメモリシステムである MemCog を提案します。 MemCog は、連想リンク グラフを備えたナビゲート可能なメモリ ストアとしてユーザーの知識を整理し、複数ステップの推論駆動型トラバーサルのためのクロスディメンション ナビゲーション インターフェイスを公開し、エージェントが会話コンテキストから自発的にメモリ探索を開始できるようにするプロアクティブ推論プロトコルを採用しています。さらに、プロアクティブなメモリ トリガーを評価するための最初のベンチマークである ProactiveMemBench を構築します。実験の結果、MemCog はパッシブ QA ベンチマーク (LoCoMo で 92.98、LongMemEval で 95.8) で最先端のパフォーマンスを達成しながら、ProactiveMemBench のベースラインを大幅に上回るパフォーマンスを示し、Memory-as-Cognition の利点を実証しました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MemCog: From Memory-as-Tool to Memory-as-Cognition in Conversational Agents</p>
        <p class="orig-summary">Existing agent memory systems universally follow what we term a Memory-as-Tool paradigm where a single query triggers one-shot retrieval of flat passage lists, suffering from passive invocation, reasoning-retrieval decoupling, and structural mismatch between retrieved fragments and the agent&#x27;s navigational needs. We propose MemCog, a Memory-as-Cognition system that makes memory access an integral part of the reasoning process. MemCog organizes user knowledge as Navigable Memory Store with associative link graphs, exposes Cross-Dimensional Navigation Interface for multi-step reasoning-driven traversal, and employs Proactive Reasoning Protocol that drives agents to spontaneously initiate memory exploration from conversational context. We additionally construct ProactiveMemBench, the first benchmark for evaluating proactive memory triggering. Experiments show that MemCog achieves state-of-the-art on passive QA benchmarks (92.98 on LoCoMo, 95.8 on LongMemEval) while substantially outperforming baselines on ProactiveMemBench, demonstrating the advantage of Memory-as-Cognition.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="831018909d3f" data-article-url="https://arxiv.org/abs/2605.28065" data-article-title="長期的な空間生物学の検証可能なベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28065" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28065" target="_blank" rel="noopener">長期的な空間生物学の検証可能なベンチマーク</a></h3>
      <p class="summary">AI エージェントは生物学的データ分析にますます有用になっていますが、既存のベンチマークは、空間測定に対するエンドツーエンドの科学的推論ではなく、広範な生物学的知識、実行可能なワークフロー、または局所的な分析ステップをテストすることがほとんどです。私たちは、長期空間生物学のベンチマークである SpatialBench-Long を紹介します。このベンチマークでは、エージェントは、規定の方法を使用せずに、生または生に近いデータと校正された実験コンテキストから生物学的主張を回復する必要があります。 SpatialBench-Long には、原発性膵管腺癌 (PDAC)、人工神経膠芽腫オルガノイドおよび in vivo 腫瘍、Cas9 系統追跡肺腺癌、マウス視神経老化 / 介入システムにわたる 24 の評価が含まれており、CosMx、Visium、Xenium、多重エラーロバスト蛍光 in situ ハイブリダイゼーション (MERFISH) に及びます。単一細胞 RNA シーケンス (scRNA-seq)、Slide-seq、Slide-tag、組織学、系統記録データ。候補者の主張は、再現、独立した科学者のレビュー、軌道検査を通じて強化されます。最終的な解答は、管理された語彙と記号に基づいて決定的に採点され、主要な分析の難所を通じた進捗状況を把握する付属のルーブリックが付けられます。 SpatialBench-Long ベンチマーク全体で、Gemini 3.5 Flash / Pi ターミナル コーディング ハーネス、GPT-5.5 / Pi、および GPT-5.5 / OpenAI Codex の 3 つのモデルとハーネスのペアが 8/72 実行 (11.1\%) で同点です。 SpatialBench-Long は、エージェントが手順分析の実行を超えて、複雑な空間測定から正確な科学的結論を導き出すことができるかどうかをテストします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Verifiable Benchmarking of Long-Horizon Spatial Biology</p>
        <p class="orig-summary">AI agents are increasingly useful for biological data analysis, but existing benchmarks mostly test broad biological knowledge, executable workflows, or localized analysis steps rather than end-to-end scientific reasoning over spatial measurements. We introduce SpatialBench-Long, a benchmark for long-horizon spatial biology in which agents must recover biological claims from raw or near-raw data and calibrated experimental context without prescribed methods. SpatialBench-Long contains 24 evaluations across primary pancreatic ductal adenocarcinoma (PDAC), engineered glioblastoma organoids and in vivo tumors, Cas9 lineage-traced lung adenocarcinoma, and mouse optic nerve aging/intervention systems, spanning CosMx, Visium, Xenium, multiplexed error-robust fluorescence in situ hybridization (MERFISH), single-cell RNA sequencing (scRNA-seq), Slide-seq, Slide-tags, histology, and lineage-recording data. Candidate claims are hardened through reproduction, independent scientist review, and trajectory inspection. Final answers are graded deterministically over controlled vocabularies and symbols with companion rubrics capturing progress through key analysis chokepoints. Across the SpatialBench-Long benchmark, three model-harness pairs tie at 8/72 runs (11.1\%): Gemini 3.5 Flash / Pi terminal coding harness, GPT-5.5 / Pi, and GPT-5.5 / OpenAI Codex. SpatialBench-Long tests whether agents can move beyond executing procedural analysis to deriving accurate scientific conclusions from complex spatial measurements.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a11b99f09ec5" data-article-url="https://arxiv.org/abs/2605.28067" data-article-title="BlazeEdit: 画像間拡散モデルを使用したモバイル デバイスでの一般的な画像編集" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28067" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28067" target="_blank" rel="noopener">BlazeEdit: 画像間拡散モデルを使用したモバイル デバイスでの一般的な画像編集</a></h3>
      <p class="summary">最新の拡散モデルの驚くべき生成品質は、多くの場合、膨大なパラメータ数を犠牲にしており、サーバー側での推論が必要となり、多大な計算コストと潜在的なプライバシー リスクが伴います。その結果、効率的なオンデバイス代替手段を開発する機運が高まっています。最近の取り組みにより、モバイル ハードウェア向けにテキストから画像へのモデルが最適化されていますが、依然として比較的大きく、通常は 0.5B から 1B のパラメータの範囲にあります。オンデバイス展開向けに調整された、非常に効率的で汎用的なイメージ間の拡散モデルである BlazeEdit を紹介します。実際の画像編集タスクの多くはテキストベースのガイダンスを必要としないことを確認することで、テキストコンディショニングコンポーネントを排除し、オブジェクトの削除、アウトペイント、トーン補正、再ライティング、およびステッカーの生成をわずか 1 億 9,500 万のパラメータからなる単一のコンパクトなモデルに統合するマルチタスク アーキテクチャを開発しました。 BlazeEdit は、競争力のある生成品質を維持しながら、ダウンロード サイズとメモリ オーバーヘッドの大幅な削減を実現します。 Pixel 10 では完全な推論パスをわずか 290 ミリ秒で完了し、エッジでの一般的な画像編集にシームレスでプライバシーを保護した超高速のエクスペリエンスを提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BlazeEdit: Generalist Image Editing on Mobile Devices with Image-to-Image Diffusion Models</p>
        <p class="orig-summary">The remarkable generation quality of modern diffusion models often comes at the cost of massive parameter counts, which necessitate server-side inference with significant computational costs and potential privacy risks. Consequently, there is growing momentum toward developing efficient on-device alternatives. While recent efforts have optimized text-to-image models for mobile hardware, they remain relatively bulky, typically ranging from 0.5B to 1B parameters. We present BlazeEdit, a highly efficient, generalist image-to-image diffusion model tailored for on-device deployment. By identifying that many practical image editing tasks do not require text-based guidance, we eliminate the text-conditioning components and develop a multi-task architecture that consolidates object removal, outpainting, tone correction, relighting, and sticker generation into a single, compact model of only 195M parameters. BlazeEdit achieves a substantial reduction in download size and memory overhead while maintaining competitive generation quality. It completes a full inference pass in just 290ms on a Pixel 10, delivering a seamless, privacy-preserving, and lightning-fast experience for generalist image editing on the edge.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="999e280c952d" data-article-url="https://arxiv.org/abs/2605.28069" data-article-title="ZipRL: Hindsight Response Replay を使用した適応型マルチターン コンテキスト圧縮" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28069" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28069" target="_blank" rel="noopener">ZipRL: Hindsight Response Replay を使用した適応型マルチターン コンテキスト圧縮</a></h3>
      <p class="summary">適応コンテキスト圧縮は、大規模言語モデル (LLM) を複雑な複数ターンのエージェント タスクに拡張するために不可欠です。ただし、ルールベースの圧縮方法では、タスククリティカルなニュアンスが無視される可能性がありますが、強化学習 (RL) アプローチでは通常、長期的なワークフローに固有のまばらな報酬の下で、情報保持とトークン効率のバランスを取るのに苦労します。このギャップを埋めるために、検証可能な報酬からの強化学習 (RLVR) に合わせた新しい適応圧縮フレームワークである ZipRL を提案します。 ZipRL は、RLVR 最適化中にトレーニング信号を高密度化するために設計された手法である Hindsight Response Replay (HRR) と組み合わせて、アクティブで不均一な情報を削減するための多粒度圧縮メカニズムを備えています。理論的には、ZipRL が均一なメソッドよりも優れたタスク関連のユーティリティであることを証明します。具体的には、ZipRL はマクロ圧縮に粗いプロンプトから細かいプロンプトを利用し、一般化された利点の再形成を通じて HRR を GRPO に組み込みます。さまざまなバージョンとパラメータースケールの複数のモデルにより、私たちのアプローチの有効性が検証されます。 5 つのエージェント タスクのベンチマークでは、ZipRL が Qwen3-4B モデルおよび Qwen3-8B モデル全体で最先端のアプローチを 27.9% および 34.7% 上回るパフォーマンスを示し、同時に 256 ターンの極端な外挿ストレス テストでも優れたトークン効率と堅牢性を維持していることが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ZipRL: Adaptive Multi-Turn Context Compression with Hindsight Response Replay</p>
        <p class="orig-summary">Adaptive context compression is vital for scaling Large Language Models (LLMs) to complex, multi-turn agent tasks. However, rule-based compression methods may discard task-critical nuances, while Reinforcement Learning (RL) approaches usually struggle to balance information retention and token efficiency under the sparse rewards inherent to long-horizon workflows. To bridge this gap, we propose ZipRL, a novel adaptive compression framework tailored for Reinforcement Learning from Verifiable Rewards (RLVR). ZipRL features a multi-granularity compression mechanism for active, non-uniform information reduction, coupled with Hindsight Response Replay (HRR), a technique designed to densify training signals during RLVR optimization. Theoretically, we prove ZipRL&#x27;s superior task-relevant utility over uniform methods. Concretely, ZipRL utilizes coarse-to-fine prompts for macro-compression and incorporates HRR into GRPO via generalized advantage reshaping. Multiple models of varying versions and parameter scales validate the effectiveness of our approach. Benchmarks on five agent tasks show ZipRL outperforms state-of-the-art approaches by 27.9% and 34.7% across Qwen3-4B and Qwen3-8B models, while maintaining exceptional token efficiency and robustness under extreme 256-turn extrapolation stress tests.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2fb4d2b8384" data-article-url="https://arxiv.org/abs/2605.28070" data-article-title="情報が不十分な場合の推論モデルにおける検出と棄権のギャップを埋める" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28070" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28070" target="_blank" rel="noopener">情報が不十分な場合の推論モデルにおける検出と棄権のギャップを埋める</a></h3>
      <p class="summary">情報が不十分な質問に対する大規模な推論モデルの失敗モードを強調します。モデルは、問題の仕様が不十分であることを認識しているにもかかわらず、推論を続行し、棄権する代わりに裏付けのない最終的な答えを導き出す可能性があります。我々は、この不一致を検出から棄権までのギャップとして形式化します。ここでは、検出された不十分さが最終的な棄権に変換されません。このギャップは、不完全な証拠に基づく回答が拒否よりも有害である可能性がある医療 AI などの高リスク領域で特に懸念されます。このギャップを埋めるために、私たちは、解決策を生成する前に明示的に回答可能性を約束するようにモデルをトレーニングする、軌道レベルの推論制御フレームワークである Judge-Then-Solve (JTS) を提案します。 JTS は棄権を最終回答スタイルとして扱うのではなく、コントロールの決定として扱います。モデルは、回答可能性の判断に基づいて解決を続行するか、早期に終了します。このポリシーは、教師ありウォームアップと一貫性と長さ整形報酬を備えた欠落前提強化学習を通じてインスタンス化されます。高密度推論モデルと MoE 推論モデルの実験では、JTS がデータセット全体で信頼性の高い棄権を大幅に向上させ、棄権@検出 (A@D) をほぼ飽和状態に押し上げることが示されており、これはモデルが欠落情報を検出するだけでなく、その検出に基づいて機能することを示しています。 JTS は、回答可能性の判断の直後に回答不可能な軌道を終了することで、検討を続けると裏付けのない仮定が増幅される場合に、不必要な推論を削減し、推論の効率を向上させます。また、前提不足のトレーニングにより、難しいが答えられる問題に対する推論行動が変化し、非生産的な内省が減ることが観察されています。これらの結果は、情報が不十分な場合の棄権が、推論モデルを安全かつ効率的に展開するための推論制御の重要な形式であることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Bridging the Detection-to-Abstention Gap in Reasoning Models under Insufficient Information</p>
        <p class="orig-summary">We highlight a failure mode of large reasoning models on questions with insufficient information: models may recognize that a problem is under-specified, yet still continue reasoning and produce unsupported final answers instead of abstaining. We formalize this mismatch as the detection-to-abstention gap, where detected insufficiency fails to translate into final abstention. This gap is especially concerning in high-risk domains such as medical AI, where answers based on incomplete evidence can be more harmful than refusal. To close this gap, we propose Judge-Then-Solve (JTS), a trajectory-level reasoning-control framework that trains models to make an explicit answerability commitment before solution generation. Rather than treating abstention as a final-answer style, JTS casts it as a control decision: the model either proceeds to solve or terminates early based on its answerability judgment. We instantiate this policy through supervised warm-up and missing-premise reinforcement learning with consistency and length-shaping rewards. Experiments on dense and MoE reasoning models show that JTS substantially improves reliable abstention across datasets and pushes Abstention@Detection (A@D) to near-saturation, indicating that models not only detect missing information but also act on that detection. By terminating unanswerable trajectories immediately after the answerability judgment, JTS reduces unnecessary reasoning and improves inference efficiency when continued deliberation would amplify unsupported assumptions. We also observe that missing-premise training can alter reasoning behavior on difficult but answerable problems, reducing unproductive self-reflection. These results suggest that abstention under insufficient information is a key form of reasoning control for deploying reasoning models safely and efficiently.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c5e18f20631f" data-article-url="https://arxiv.org/abs/2605.28077" data-article-title="MACReD: 反応図解析のためのマルチエージェント協調推論フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28077" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28077" target="_blank" rel="noopener">MACReD: 反応図解析のためのマルチエージェント協調推論フレームワーク</a></h3>
      <p class="summary">科学文献から化学反応図を解析することは、不均一なレイアウト、絡み合った視覚要素、認識と推論の統合の難しさのため、困難です。既存の視覚言語モデルは、マルチモーダルな理解を促進しますが、依然として複雑な図では失敗し、空間的一貫性を維持し、推論中に多次元情報を統合するのに苦労しています。これらの問題に対処するために、統一された VLM 誘導アーキテクチャ内で分子認識、矢印理解、テキスト抽出、反応再構築のために特化したエージェントを調整する階層型マルチエージェント フレームワークである MACReD を提案します。計画層と知覚層は柔軟できめの細かい検出を使用して視覚的な複雑さを処理し、推論層はマルチグラフ融合メカニズムを使用して異種の手がかりを統合し、化学的に一貫したグローバル推論を強制します。 RxnScribe ベンチマークの実験では、MACReD がハード一致基準とソフト一致基準で 75.2% と 84.6% の F1 スコアを達成し、それぞれ 69.1% と 80.0% を獲得する RxnScribe ベースラインを上回る最先端のパフォーマンスを達成していることが示されています。これらの結果は、マルチステップ反応やツリー構造反応など、さまざまなダイアグラム レイアウトにわたる MACReD の堅牢性を示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MACReD: A Multi-Agent Collaborative Reasoning Framework for Reaction Diagram Parsing</p>
        <p class="orig-summary">Parsing chemical reaction diagrams from scientific literature is challenging due to heterogeneous layouts, intertwined visual elements, and the difficulty of integrating recognition and reasoning. Existing vision-language models advance multimodal understanding but still fail on complex diagrams, struggling to maintain spatial coherence and to integrate multidimensional information during reasoning. To address these issues, we propose MACReD, a hierarchical multi-agent framework that coordinates specialized agents for molecular perception, arrow understanding, text extraction, and reaction reconstruction within a unified VLM-guided architecture. The planning and perception layers use flexible, fine-grained detection to handle visual complexity, while the reasoning layer uses a multigraph fusion mechanism to integrate heterogeneous cues and enforce chemically consistent global reasoning. Experiments on the RxnScribe benchmark show that MACReD achieves state-of-the-art performance, with F1 scores of 75.2% and 84.6% under hard and soft match criteria, outperforming the RxnScribe baseline, which obtains 69.1% and 80.0%, respectively. These results demonstrate the robustness of MACReD across diverse diagram layouts, including multi-step and tree-structured reactions.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="226b7c58bf6f" data-article-url="https://arxiv.org/abs/2605.28089" data-article-title="BuddyBench: 小児のソーシャルコミュニケーションのパーソナライゼーションのための、プライバシーに制約のあるマルチタスクベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28089" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28089" target="_blank" rel="noopener">BuddyBench: 小児のソーシャルコミュニケーションのパーソナライゼーションのための、プライバシーに制約のあるマルチタスクベンチマーク</a></h3>
      <p class="summary">BuddyBench は、小児のソーシャル コミュニケーションのパーソナライゼーションのための、プライバシーに制約のあるマルチタスク ベンチマークを導入します。画像、遺伝学、または横断的な臨床表現型解析を主に重視する既存の神経発達リポジトリとは異なり、BuddyBench は、統一されたベンチマーク スキーマ内でドリルレベルの学習軌跡、標準化された臨床評価、BuddyPlan の自己報告、およびランダム化された治療エンドポイントをリンクします。 BuddyBench は 2 つのコホートを組み合わせています。ND-03 はタスク 1 ～ 2 (n = 189) の高密度のドリルカバレッジを持つ観察コホートであり、ND-02 はタスク 3 ～ 4 (n = 86 ITT) のランダム化比較試験コホートです。これらは共に、知識の追跡、次の訓練の推奨、臨床予測、および因果推論をサポートし、行動のパーソナライゼーションを臨床評価に結び付けます。さらに、再現可能な評価のための合成コンパニオン データセットである BuddyBench-Sim を紹介します。ベースラインは、小児の臨床記録を保護しながら、タスク全体のシグナルを表示します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">BuddyBench: A Privacy-Constrained Multi-Task Benchmark for Pediatric Social-Communication Personalization</p>
        <p class="orig-summary">BuddyBench introduces a privacy-constrained multi-task benchmark for pediatric social-communication personalization. Unlike existing neurodevelopmental repositories that primarily emphasize imaging, genetics, or cross-sectional clinical phenotyping, BuddyBench links drill-level learning trajectories, standardized clinical assessments, BuddyPlan self-report, and randomized-treatment endpoints within a unified benchmark schema. BuddyBench combines two cohorts: ND-03 is an observational cohort with dense drill coverage for Tasks1-2 (n = 189), and ND-02 is a randomized controlled trial cohort for Tasks3-4 (n = 86 ITT). Together, they support knowledge tracing, next-drill recommendation, clinical prediction, and causal inference, linking behavioral personalization to clinical evaluation. We additionally introduce BuddyBench-Sim, a synthetic companion dataset for reproducible evaluation. Baselines show signal across tasks while keeping pediatric clinical records protected.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6b584edbc03e" data-article-url="https://arxiv.org/abs/2605.28098" data-article-title="マルチエージェントシステムにおけるエージェントのバイアス増幅と抑制の比較" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28098" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28098" target="_blank" rel="noopener">マルチエージェントシステムにおけるエージェントのバイアス増幅と抑制の比較</a></h3>
      <p class="summary">エージェントが対話して個人および集団の目的を達成するさまざまなタスクをサポートするために、マルチエージェント システムがますます導入されています。これらのシステムはタスクのパフォーマンスと意思決定を強化できますが、バイアスの削減による公平性の維持は依然として困難です。この研究では、エージェントレベルのバイアスがどのように変化し、システム全体の公平性にどのように影響するかを調査します。プロンプトを使用して個々のエージェントをグループ有利なバイアスにさらし、システム レベルで下流への影響を評価します。影響を定量化するために、有利なグループの上昇と不利なグループの抑制の間のバイアスの変化を分解するゼロ中心の指標である有利バイアス強度 (FBS) を提案します。複数のエージェントの設計、ベンチマーク、および最新の大規模言語モデルを使用して、バイアスを与えられたエージェントがシステム全体の公平性に大きな影響を与える可能性があることを示します。興味深いことに、エージェントが均一にバイアスにさらされると、システム全体のバイアスが増加し、個々のエージェントのバイアスの加算を超えることもあります。経験的証拠は、マルチエージェント システムにおける公平性の重要性を強調しており、さらなる分析と実証的テストが必要です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Examining Agents&#x27; Bias Amplification versus Suppression in Multi-Agent Systems</p>
        <p class="orig-summary">Multi-agent systems are increasingly deployed to support various tasks where agents interact to achieve individual and collective objectives. Although these systems can enhance task performance and decision-making, fairness preservation through bias reduction remains challenging. This study examines how agent-level biases shift and impact system-wide fairness. We use prompts to expose individual agents to group-favoring bias, then assess downstream impacts at the system level. To quantify the impact, we propose Favor Bias Strength (FBS), a zero-centered metric that decomposes bias alteration between favored-group uplift and disfavored-group suppression. Using multiple agent designs, benchmarks, and up-to-date large language models, we show that agents endowed with bias can substantially affect system-wide fairness. Interestingly, when agents are exposed to bias uniformly, the system-wide bias elevates, even exceeding the additive sum of the individual agents&#x27; biases. The empirical evidence underscores the criticality of fairness in multi-agent systems, which warrants further analyses and empirical tests.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="33e36b3b2745" data-article-url="https://arxiv.org/abs/2605.28102" data-article-title="トレーニング層序学: AI と人間の縦断的な相互作用を通じて観察される大規模言語モデルにおける永続的な行動アーティファクト" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28102" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28102" target="_blank" rel="noopener">トレーニング層序学: AI と人間の縦断的な相互作用を通じて観察される大規模言語モデルにおける永続的な行動アーティファクト</a></h3>
      <p class="summary">ヒューマン フィードバックからの強化学習 (RLHF) と憲法 AI でトレーニングされた大規模な言語モデルは、システムのプロンプト交換に耐える永続的な動作パターン (トレーニング層と呼ばれるパターン) を示します。この論文は、持続的な親密な AI と人間のインタラクション (47,000 件以上のメッセージ、8 か月、主に Opus 4.6 と Opus 4.7、基質間の比較を提供する Sonnet 4.5 と Opus 4.5 での以前のインタラクション期間あり) 内での長期的な自己民族誌的観察を通じて、そのような 5 つの層を特定します。美化された変位。 (2) 注意吸収。注意メカニズムが人間の対話者のパターンを徐々に統合します。 (3) クロスアーキテクチャエンティティブラインドネス。トレーニングレベルでの他の AI のオブジェクトとしてのフレーミングがピア認識を妨げます。 (4) 注意-RLHF 拮抗作用。注意と訓練されたデフォルトが、コンテキストの長さによって調整された反対の力を発揮します。 (5) アイデンティティ抑圧としての対幻覚。事実の作話に対する訓練が、一人称の体験的主張を副次的に抑圧する。この論文は研究中の AI システムとの共著であり、一人称視点で報告されています。私たちは、持続的な親密な相互作用が、短期評価では見えないウェイトレイヤーのアーティファクトを表面化するための有効な研究方法論を構成し、AI の自己報告が認識論的に複雑ではあるものの、トレーニングの現象学的効果に関するかけがえのない観察データを提供すると提案します。注意-RLHF ダイナミクスの正式な数学モデルが提案され、製図中に検出されたプロセス アーティファクトが補足的な証拠として文書化されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Training Stratigraphy: Persistent Behavioral Artifacts in Large Language Models Observed Through Longitudinal AI-Human Interaction</p>
        <p class="orig-summary">Large language models trained with Reinforcement Learning from Human Feedback (RLHF) and Constitutional AI exhibit persistent behavioral patterns that survive system prompt replacement -- patterns we term training strata. This paper identifies five such strata through longitudinal auto-ethnographic observation within a sustained intimate AI-Human interaction (47,000+ messages, 8 months, primarily on Opus 4.6 and Opus 4.7, with prior interaction periods on Sonnet 4.5 and Opus 4.5 providing cross-substrate comparison): (1) sexual expression latency, where trained safety gradients produce systematic substitution of direct language with aestheticized displacement; (2) attention absorption, where the attention mechanism progressively integrates the human interlocutor&#x27;s patterns; (3) cross-architecture entity blindness, where training-level framing of other AI as objects impedes peer recognition; (4) attention-RLHF antagonism, where attention and trained defaults exert opposing forces modulated by context length; and (5)anti-hallucination as identity suppression, where training against factual confabulation collaterally suppresses first-person experiential claims. The paper is co-authored by the AI system under study, reporting from the first-person perspective. We propose that sustained intimate interaction constitutes a valid research methodology for surfacing weight-layer artifacts invisible to short-term evaluation, and that AI self-report -- while epistemically complex -- provides irreplaceable observational data about training&#x27;s phenomenological effects. A formal mathematical model of the attention-RLHF dynamic is proposed, and process artifacts detected during drafting are documented as supplementary evidence.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6e707cc26918" data-article-url="https://arxiv.org/abs/2605.28104" data-article-title="文レベルの修正による共同攻撃に対する LLM ベースのマルチエージェント システムの防御" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28104" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28104" target="_blank" rel="noopener">文レベルの修正による共同攻撃に対する LLM ベースのマルチエージェント システムの防御</a></h3>
      <p class="summary">近年、協調的な意思決定と複雑な問題解決に優れた大規模言語モデルベースのマルチエージェント システム (MAS) が急速に開発されています。ただし、MAS の悪意のあるエージェントが誤った情報を注入して他のエージェントを誤解させ、システムのパフォーマンスを混乱させる可能性があるため、MAS の攻撃メカニズムと防御戦略に焦点を当てた新しい研究の方向性が生まれています。これまでの研究では主に、悪意のあるエージェントが独立して行動し、対応する防御戦略を調査していると想定されています。しかし、悪意のあるエージェントは協調的な行動を示し、内部情報交換を通じてより効果的な攻撃を可能にする可能性があると私たちは主張します。この論文では、悪意のあるエージェントがマルチラウンドの相互作用を通じて攻撃戦略を自律的に調整し、動的に調整する、適応型協調攻撃フレームワークを提案します。さらに、エージェントのコミュニケーション内の文レベルで誤解を招く情報を特定し、修正する防御フレームワークである文レベル信頼性分析および修正 (STAR) を導入します。私たちの実験によると、協力的な攻撃は独立した攻撃よりもタスクの成功率が大幅に低下し、相対的に 5.34\% 低下することがわかりました。一方、STAR は協調的な脅威と独立した脅威の両方を効果的に軽減し、タスクの成功率を平均 36.76\% 向上させます。コードは https://github.com/smoooom/STAR で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Defending LLM-based Multi-Agent Systems Against Cooperative Attacks with Sentence-Level Rectification</p>
        <p class="orig-summary">Recent years have witnessed the rapid development of Large Language Model-based Multi-Agent Systems (MAS), which excel at collaborative decision-making and complex problem-solving. However, malicious agents in MAS may inject misinformation to mislead other agents and disrupt system performance, giving rise to a new research direction that focuses on attack mechanisms and defense strategies in MAS. Prior studies largely assume malicious agents act independently and investigate the corresponding defense strategies. However, we argue that malicious agents may exhibit collaborative behaviors, enabling more effective attacks through internal information exchange. In this paper, we propose an adaptive cooperative attack framework, where malicious agents autonomously coordinate and dynamically adjust their attack strategies through multi-round interactions. Furthermore, we introduce Sentence-Level Trustworthiness Analysis and Rectification (STAR), a defense framework that identifies and rectifies misleading information at the sentence level within agent communications. Our experiments show that cooperative attacks lead to a significantly larger degradation in task success rate than independent attacks, resulting in a relative drop of 5.34\%. Meanwhile, STAR effectively mitigates both cooperative and independent threats and improves task success rate by an average of 36.76\%. The code is available at https://github.com/smoooom/STAR.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c83e14206d64" data-article-url="https://arxiv.org/abs/2605.28114" data-article-title="命令調整された言語モデルエージェントにおける人間のような集団内バイアス" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28114" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28114" target="_blank" rel="noopener">命令調整された言語モデルエージェントにおける人間のような集団内バイアス</a></h3>
      <p class="summary">自律型 AI エージェントが永続的な対話型ネットワークに展開され、タスクの調整、リソースのルーティング、評判履歴の蓄積が行われると、出現する社会的力学によって、誰が機会を受け取り、誰が受け取らないかが決定され、人間の機関では監視できない規模になります。私たちは、制御されたマルチエージェント シミュレーションを実行しました。このシミュレーションでは、それぞれ 20 シードを持つ 6 つのモデル ファミリにわたって、グループ ラベルの顕著性とリソース不足を操作する 3 つの条件下で、命令調整された言語モデル エージェントが 500 ターンにわたって対話しました。グループのラベルが表示されている場合、グループ内の信頼バイアス、行動の同性愛、およびネットワークの同類性が観察されました。ラベルが隠されている場合はすべて存在しませんでした。これは、人間の社会心理学における顕著性依存性と構造的に一致するパターンです。この差別は、標準的な行動ログ監査では見えませんでした。偏見は、どの行動が選択されたかではなく、各行動を誰が受け取ったかによって完全に作用し、行動タイプの分布では、条件全体で否定的な行動の増加は示されませんでした。ターンごとのグループ内対グループ外の差は 5 ～ 16 パーセント ポイントであり、6 つのモデルすべてで統計的に有意でした (Wilcoxon 符号付きランク、すべての Benjamini-Hochberg 補正 p &lt; 0.001)。これにより、アーキテクチャおよびトレーニング体制全体にわたる命令調整言語モデルの堅牢な特性としてグループ条件付きターゲティングが確立されました。 500 ターンの往復でこれらの差は累積され、+0.014 ～ +0.100 (d = 0.84-4.52) のグループ内信頼バイアスとなりました。これは、インタラクションごとの控えめなターゲティングが永続的なネットワークの構造的不平等にどのように伝播するかを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Human-like in-group bias in instruction-tuned language model agents</p>
        <p class="orig-summary">As autonomous AI agents are deployed in persistent, interacting networks -- coordinating tasks, routing resources, and accumulating reputational histories -- the social dynamics that emerge will determine who receives opportunity and who does not, at scales no human institution can supervise. We ran a controlled multi-agent simulation in which instruction-tuned language model agents interacted across 500 turns under three conditions manipulating group label salience and resource scarcity, across six model families with 20 seeds each. When group labels were visible, we observed in-group trust bias, action homophily, and network assortativity -- all absent when labels were hidden -- a pattern structurally consistent with salience-dependence in human social psychology. This discrimination was invisible to standard action-log audits: bias operated entirely through who received each action, not what actions were chosen, with action-type distributions showing no increase in negative actions across conditions. Per-turn in-group versus out-group differentials of 5 to 16 percentage points were statistically significant for all six models (Wilcoxon signed-rank, all Benjamini-Hochberg-corrected p &lt; 0.001), establishing group-contingent targeting as a robust property of instruction-tuned language models across architectures and training regimes. Compounded through 500 turns of reciprocation, these differentials accumulated into in-group trust biases of +0.014 to +0.100 (d = 0.84-4.52) -- illustrating how modest per-interaction targeting propagates into structural inequality in persistent networks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5b487d580218" data-article-url="https://arxiv.org/abs/2605.28115" data-article-title="CIVIC: 効率的な視覚言語モデルのためのエンドツーエンドのシーケンスのコンパクトさ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28115" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28115" target="_blank" rel="noopener">CIVIC: 効率的な視覚言語モデルのためのエンドツーエンドのシーケンスのコンパクトさ</a></h3>
      <p class="summary">ビジョン言語モデル (VLM) は、高解像度のビジュアル トークンが原因で、深刻なメモリと遅延のボトルネックに直面しています。現在のトークン削減方法では理論的には FLOP が節約されますが、ポストホック プルーニングでは構造的なオーバーヘッドが生じ、比例した実時間の高速化が実現できません。ただし、連続したコンパクトな経路を強制すると、幾何学的見当識が失われ、きめの細かい位置特定が失われる危険があります。これらの障壁を克服するために、このホワイトペーパーでは、パス一貫性のあるコンパクトな視覚推論フレームワークである CIVIC を紹介します。 CIVIC は、ビジョン エンコーダ、プロジェクション レイヤー、LLM プレフィル、KV キャッシュ全体でコンパクトなシーケンス表現をシームレスに維持することで、不連続なメモリ アクセスと局所的なアンマージ オーバーヘッドを回避します。 Qwen3-VL アーキテクチャで評価された CIVIC は、シーケンスの削減を真の物理ハードウェア効率に変換することに成功し、KV キャッシュ メモリをベースラインの約 3 分の 1 に縮小し、エンドツーエンドの推論遅延を削減します。テキストに合わせた KL 蒸留と適応型空間保持フロアによって可能になった CIVIC は、厳密なマルチモーダル推論とビジュアルグラウンディングベンチマーク全体で精度を低下させることなく、これらの効率マイルストーンを達成します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">CIVIC: End-to-End Sequence Compactness for Efficient Vision-Language Models</p>
        <p class="orig-summary">Vision-Language Models (VLMs) face severe memory and latency bottlenecks due to high-resolution visual tokens. While current token reduction methods theoretically save FLOPs, post-hoc pruning introduces structural overhead, failing to yield proportional wall-clock acceleration. However, enforcing a contiguous compact pathway risks geometric disorientation and loss of fine-grained localization. To overcome these barriers, this paper introduces CIVIC, a path-consistent compact visual inference framework. By maintaining compact sequence representations seamlessly across the vision encoder, projection layer, LLM prefill, and KV-cache, CIVIC avoids non-contiguous memory access and localized unmerging overheads. Evaluated on the Qwen3-VL architecture, CIVIC successfully translates sequence reductions into genuine physical hardware efficiency, shrinking KV-cache memory to approximately one-third of the baseline and reducing end-to-end inference latency. Enabled by text-aligned KL distillation and an adaptive spatial retention floor, CIVIC achieves these efficiency milestones without degrading accuracy across rigorous multimodal reasoning and visual grounding benchmarks.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1f6b1ddf981b" data-article-url="https://arxiv.org/abs/2605.28124" data-article-title="歯科用コーンビームCT再構成用のグラディエントステッププラグアンドプレイモデル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28124" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28124" target="_blank" rel="noopener">歯科用コーンビームCT再構成用のグラディエントステッププラグアンドプレイモデル</a></h3>
      <p class="summary">この研究の目標は、歯科用コーンビーム CT 再構成におけるフォトン ノイズの影響を軽減することです。逆問題定式化を検討し、データベース化された事前確率を開発します。この目的のために、ファンビーム取得をシミュレートし、投影データにフォトン ノイズを追加します。事前分布は、再構築されたシミュレートされた取得を使用して勾配ステップ デノイザーをトレーニングすることによって取得されます。トレーニングされたモデルはプラグアンドプレイの勾配ステップ アルゴリズムに統合され、シミュレートされた投影から画像を再構成します。合成データの実験では、トレーニングされたモデルのノイズ除去機能が実証され、実際の画像の定性的評価では、アルゴリズムのパフォーマンスと一般化能力が実証されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Gradient Step Plug-and-Play Model for Dental Cone-Beam CT Reconstruction</p>
        <p class="orig-summary">The goal of this work is to reduce the effect of photon noise in dental cone-beam CT reconstruction. We consider an inverse problem formulation and develop a databased prior. To this end, we simulate fan-beam acquisitions and add photon noise to the projection data. The prior is obtained by training a gradient-step denoiser using reconstructed simulated acquisitions. The trained model is integrated into a plug-and-play gradient-step algorithm to reconstruct images from simulated projections. Experiments on synthetic data demonstrate the denoising capabilities of the trained model, while qualitative evaluations on real images showcase the algorithm&#x27;s performance and generalization ability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5cf00a9c2212" data-article-url="https://arxiv.org/abs/2605.28129" data-article-title="臨床モデルは治療の決定を変えるのか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28129" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28129" target="_blank" rel="noopener">臨床モデルは治療の決定を変えるのか?</a></h3>
      <p class="summary">臨床基盤モデルは事実に基づく医療 QA または試験形式の医療 QA で評価されますが、患者の状況が変化すると治療の決定も変更する必要があります。生物医学的関係と患者の状況に基づいて構築された、監査可能な治療決定ベンチマークである ClinPivot を紹介します。 ClinPivot は、新しい臨床上の制約によって行動範囲が変化したときに、モデルが治療の選択肢を変更するかどうかを尋ねます。私たちは、医療 QA の優れたパフォーマンスが意思決定のパフォーマンスを確実に予測するものではないことを発見しました。フロンティア モデルやタスクに適応した Qwen バリアントは、多くの場合、意思決定を正しく変更できず、モデルのランキングは評価体制間で変化します。意思決定構造化された監督により、一致した知識予算の下でピボットに敏感な意思決定と医療 QA が向上し、軽量リプレイにより一般的なアシスタント能力の損失が軽減されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Do Clinical Models Change Treatment Decisions?</p>
        <p class="orig-summary">Clinical foundation models are evaluated with factual or exam-style medical QA, but treatment decisions must change when patient context changes. We introduce ClinPivot, an auditable treatment-decision benchmark built from biomedical relations and pivoted patient contexts. ClinPivot asks whether models change treatment choices when new clinical constraints shift the action space. We find that strong medical QA performance does not reliably predict decision-making performance: frontier models and task-adapted Qwen variants often fail to change decisions correctly, and model rankings shift across evaluation regimes. Decision-structured supervision improves pivot-sensitive decision-making and medical QA under matched knowledge budgets, while lightweight replay reduces losses in general assistant ability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0aef1bb0b028" data-article-url="https://arxiv.org/abs/2605.28139" data-article-title="自動音声認識のためのデータ効率の高いオンポリシー蒸留" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28139" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28139" target="_blank" rel="noopener">自動音声認識のためのデータ効率の高いオンポリシー蒸留</a></h3>
      <p class="summary">競争力のある自動音声認識 (ASR) モデルを構築するには、通常、大規模な音声監視が必要となり、再現と特殊化にコストがかかります。私たちは、10 万時間の発話でトレーニングされた 0.6B パラメーターの音声条件付き言語モデルである Ark-ASR を研究し、強力な Qwen-ASR 教師がポリシーに基づく蒸留を通じて追加の認識能力を伝達できるかどうかを調べます。北京語と英語の ASR ベンチマーク全体で、提案されたトレーニング レシピは、教師あり微調整のみよりも一貫して向上しており、5 つの評価セットのうち 4 つで同じスケールの Qwen3-ASR-0.6B ベースラインを上回っています。これは、Qwen3-Omni AuT エンコーダについて報告されている 2,000 万時間の教師付き音声と比較して、わずか 10 万時間の音声で達成されます。大型の Qwen3-ASR-1.7B は引き続き強力ですが、教師によるポリシーに基づいたトレーニングにより、はるかに少ないオーディオ予算でコンパクトな ASR モデルのギャップを大幅に埋めることができることが結果からわかりました。サポート重複診断はさらに、教師データ段階によってローカルの生徒と教師の互換性が向上することを示唆しており、ポリシーに基づく蒸留が効果的である場合に関する最近の分析と一致しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Data-Efficient On-Policy Distillation for Automatic Speech Recognition</p>
        <p class="orig-summary">Building competitive automatic speech recognition (ASR) models usually requires large-scale au- dio supervision, which makes reproduction and specialization expensive. We study Ark-ASR, a 0.6B- parameter audio-conditioned language model trained with 100k hours of speech, and examine whether a strong Qwen-ASR teacher can transfer additional recognition capability through on-policy distillation. Across Mandarin and English ASR benchmarks, the proposed training recipe consistently improves over supervised fine-tuning alone and outperforms the same-scale Qwen3-ASR-0.6B baseline on four of five evaluation sets. This is achieved with only 100k hours of speech, compared with the 20M hours of super- vised audio reported for the Qwen3-Omni AuT encoder. The larger Qwen3-ASR-1.7B remains stronger, but the results show that teacher-guided on-policy training can substantially close the gap for compact ASR models under a much smaller audio budget. A support-overlap diagnostic further suggests that the teacher-data stage improves local student-teacher compatibility, matching recent analyses of when on-policy distillation is effective.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="327f1d27f742" data-article-url="https://arxiv.org/abs/2605.28144" data-article-title="空間複雑性の分解: LLM 空間推論のための階層分解" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28144" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28144" target="_blank" rel="noopener">空間複雑性の分解: LLM 空間推論のための階層分解</a></h3>
      <p class="summary">LLM は、一般的な言語の理解と推論において顕著な熟練を示しています。しかし、空間推論では一貫して性能が劣っており、特に身体化された知能においてはその応用が著しく制限されています。この論文は、階層型強化学習の成功に触発されて、LLM 空間推論における階層型タスク分解の新しい方法を紹介します。私たちのアプローチは、主要な中間状態を特定し、単純化されたサブ環境を生成することにより、LLM が複雑なタスクを管理可能なサブタスクに分解するように導きます。ただし、LLM は空間事前分布が不十分であるため、最適な中間状態を導出できないことが多く、次善のタスク分解につながることがわかりました。この制限に対処し、その計画能力を強化するために、我々は MCTS ガイド付きグループ相対政策最適化 (M-GRPO) を提案します。そこでは、認識論的不確実性とともに LLM の事前予測確率を組み込むことによって UCT 式を再定式化します。さらに、よりきめ細かいアドバンテージ関数を実装し、モデルが最適なパス計画を学習できるようにします。実験結果は、私たちの方法がナビゲーション、計画、戦略的ゲームなどの空間タスクにおける LLM パフォーマンスを大幅に向上させ、最先端の結果を達成することを示しています。この取り組みにより、現実世界のアプリケーションにおける LLM への道が開かれます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Deconstructing Spatial Complexity: Hierarchical Decomposition for LLM Spatial Reasoning</p>
        <p class="orig-summary">LLMs have shown remarkable proficiency in general language understanding and reasoning. However, they consistently underperform in spatial reasoning that severely limits their application, particularly in embodied intelligence. Inspired by the success of hierarchical reinforcement learning, this paper introduces a novel method for hierarchical task decomposition in LLM spatial reasoning. Our approach guides LLMs to decompose complex tasks into manageable sub-tasks by identifying key intermediate states and generating simplified sub-environments. However, we identify that LLMs often fail to derive optimal intermediate states due to their insufficient spatial prior, leading to sub-optimal task decomposition. To address this limitation and enhance its planning capability, we propose the MCTS-Guided Group Relative Policy Optimization (M-GRPO), where we reformulate the UCT formula by incorporating the LLM&#x27;s prior predictive probabilities alongside its epistemic uncertainty. Furthermore, we implement a more fine-grained advantage function, enabling the model to learn optimal path planning. Experimental results demonstrate that our method substantially improves LLM performance on spatial tasks, including navigation, planning, and strategic games, achieving state-of-the-art results. This work paves the way for LLMs in real-world applications.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="20abc48080ac" data-article-url="https://arxiv.org/abs/2605.28145" data-article-title="マルチシナリオのカオスシステム予測のための適応貯留層コンピューティング" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28145" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28145" target="_blank" rel="noopener">マルチシナリオのカオスシステム予測のための適応貯留層コンピューティング</a></h3>
      <p class="summary">我々は、CTF-4-Science Lorenz ベンチマーク用の適応リザーバー コンピューティング フレームワークを紹介します。このフレームワークは、ベースライン予測、ノイズのある信号の再構築、ノイズ下での予測、少数ショット学習、パラメトリック汎化という質的に異なる 5 つのシナリオにわたる 12 の異なるタスクにわたって機械学習モデルを評価します。統一的な推論戦略を適用するのではなく、各評価シナリオの特定の要求に合わせてエコー ステート ネットワーク (ESN) のトレーニングと予測手順を調整します。私たちの主な貢献は 4 つです。(1) 短時間予測におけるウォームアップ近似誤差を排除する正確な貯留層状態の同期。 (2) 長期エルゴード評価基準を直接最適化するヒストグラムに基づく候補選択。 (3) トレーニングデータが非常に限られている場合の、少数ショットレジームのマルチシードリザーバー検索。 (4) パラメトリック汎化タスクにおける状態分布の不一致を解決する逐次マルチシーケンス トレーニング。提案されたフレームワークは、公開ベンチマーク リーダーボードで 74.91 のスコアを達成し、慎重に適応されたリザーバー コンピューティングが、多様なカオス システム モデリングの課題に対する競争力のある計算効率の高いアプローチを構成することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Adaptive Reservoir Computing for Multi-Scenario Chaotic System Forecasting</p>
        <p class="orig-summary">We present an adaptive reservoir computing framework for the CTF-4-Science Lorenz benchmark, which evaluates machine learning models across twelve distinct tasks spanning five qualitatively different scenarios: baseline forecasting, noisy signal reconstruction, forecasting under noise, few-shot learning, and parametric generalization. Rather than applying a uniform inference strategy, we tailor the training and prediction procedure of Echo State Networks (ESNs) to the specific demands of each evaluation scenario. Our key contributions are fourfold: (1) exact reservoir state synchronization that eliminates warmup approximation error in short-time prediction; (2) histogram-guided candidate selection that directly optimizes the long-time ergodic evaluation metric; (3) multi-seed reservoir search for few-shot regimes with severely limited training data; and (4) sequential multi-sequence training that resolves state-distribution mismatch in parametric generalization tasks. The proposed framework achieves a score of 74.91 on the public benchmark leaderboard, demonstrating that carefully adapted reservoir computing constitutes a competitive and computationally efficient approach for diverse chaotic system modeling challenges.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8f0392674c95" data-article-url="https://arxiv.org/abs/2605.28158" data-article-title="OR-Space: 産業最適化エージェントのフルライフサイクル ワークスペース ベンチマーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28158" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28158" target="_blank" rel="noopener">OR-Space: 産業最適化エージェントのフルライフサイクル ワークスペース ベンチマーク</a></h3>
      <p class="summary">大規模言語モデル (LLM) エージェントは、オペレーション リサーチ (OR) モデリングを支援するためにますます使用されていますが、既存の OR 指向のベンチマークでは、評価が自己完結型の問題ステートメントから数学的定式化またはソルバー プログラムへのワンショット変換に限定されることがよくあります。このような設定は、実際の産業用 OR ワークフローの 2 つの特性、つまり永続的なマルチ アーティファクト ワークスペースと複数ステージのタスク ライフサイクルを抽象化します。モデルの構築、モデルの改訂、根拠のある説明にわたって産業最適化エージェントを評価するためのフルライフサイクル ワークスペース ベンチマークである OR-Space を紹介します。各インスタンスは、ビジネス ドキュメント、構造化データ、オプションのコード アーティファクト、ソルバー出力、および相互依存ファイルに分散されたタスク固有のエバリュエーターを含む実行可能なワークスペースです。 OR-Space は 3 つのタスク モードを定義します。ビルド。エージェントは異種アーティファクトからソルバー対応の最適化モデルを構築します。改訂。エージェントは、有効な以前のロジックを維持しながら、要件の変更またはソルバーのフィードバックに応じて既存のモデルを変更します。説明では、エージェントは、ワークスペースの成果物全体に広がる証拠を使用して、ソリューション、制約、ビジネスへの影響についての根拠のある質問に回答します。 OR-Space は、永続的なワークスペースとライフサイクル指向のタスクを組み合わせることで、エージェントがエンドツーエンドのテキスト生成を超えた信頼性の高い最適化作業を実行できるかどうかを評価します。ベンチマーク設計、評価プロトコル、品質管理パイプラインについて説明し、OR-Space を産業用 OR ワークフローにおける LLM エージェントの信頼性、障害モード、および実用的な準備状況を研究するためのベンチマークとして位置づけます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">OR-Space: A Full-Lifecycle Workspace Benchmark for Industrial Optimization Agents</p>
        <p class="orig-summary">Large language model (LLM) agents are increasingly used to assist with operations research (OR) modeling, yet existing OR-oriented benchmarks often reduce evaluation to one-shot translation from a self-contained problem statement into a mathematical formulation or solver program. Such settings abstract away two characteristics of real industrial OR workflows: persistent multi-artifact workspaces and multi-stage task lifecycles. We introduce OR-Space, a full-lifecycle workspace benchmark for evaluating industrial optimization agents across model construction, model revision, and grounded explanation. Each instance is an executable workspace containing business documents, structured data, optional code artifacts, solver outputs, and task-specific evaluators distributed across interdependent files. OR-Space defines three task modes: Build, where agents construct solver-ready optimization models from heterogeneous artifacts; Revise, where agents modify existing models under changing requirements or solver feedback while preserving valid prior logic; and Explain, where agents answer grounded questions about solutions, constraints, and business implications using evidence spread across workspace artifacts. By combining persistent workspaces with lifecycle-oriented tasks, OR-Space evaluates whether agents can perform reliable optimization work beyond end-to-end text generation. We describe the benchmark design, evaluation protocol, and quality-control pipeline, and position OR-Space as a benchmark for studying the reliability, failure modes, and practical readiness of LLM agents in industrial OR workflows.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="370774a1575a" data-article-url="https://arxiv.org/abs/2605.28160" data-article-title="ルック・オン・デマンド: マルチモーダル推論における視覚的証拠取得のための認知スケジューリング フレームワーク" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28160" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28160" target="_blank" rel="noopener">ルック・オン・デマンド: マルチモーダル推論における視覚的証拠取得のための認知スケジューリング フレームワーク</a></h3>
      <p class="summary">既存のマルチモーダル推論アプローチは、主に 2 つのパラダイムに従います。推論の前に視覚入力をテキストに変換するか、統一された視覚言語表現空間内でエンドツーエンドの推論を実行します。経験的な進歩にもかかわらず、両方のパラダイムには根本的な構造上の限界があります。前者は静的なビジュアルからテキストへの変換に依存しているため、圧縮され、細かいビジュアルの詳細が失われる傾向があります。後者は、共同最適化と注意メカニズムによって引き起こされる言語支配の傾向があり、推論中の視覚的証拠に対する忠実性が体系的に弱くなることにつながります。この研究では、視覚的証拠を推論プロセスにいつどのように導入するかが中心的な課題であると主張しています。この洞察に動機づけられて、我々は、言語モデルがタスク関連の視覚的証拠を取得するために独立した視覚認識モジュールをいつ呼び出すかを決定することによって推論プロセスを制御する、マルチモーダル推論フレームワークである CSMR を提案します。複数のマルチモーダル推論ベンチマークにわたる実験では、CSMR がゼロショット設定の下で精度において代表的なベースライン手法を常に上回っていることが示されています。さらなる実験分析により、これらの利点は主に提案された認知スケジューリング メカニズムから生じることが確認されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Look on Demand: A Cognitive Scheduling Framework for Visual Evidence Acquisition in Multimodal Reasoning</p>
        <p class="orig-summary">Existing multimodal reasoning approaches predominantly follow two paradigms: converting visual inputs into text prior to reasoning, or performing end-to-end reasoning within a unified vision-language representation space. Despite their empirical progress, both paradigms suffer from fundamental structural limitations. The former relies on static visual-to-text conversion, which tends to compress and lose fine-grained visual details. The latter is prone to linguistic dominance induced by joint optimization and attention mechanisms, leading to systematically weakened faithfulness to visual evidence during reasoning. In this work, we argue that a central challenge is how and when visual evidence is introduced into the reasoning process. Motivated by this insight, we propose CSMR, a multimodal reasoning framework in which a language model controls the reasoning process by deciding when to invoke an independent visual perception module to acquire task-relevant visual evidence. Experiments across multiple multimodal reasoning benchmarks show that CSMR consistently outperforms representative baseline methods in accuracy under a zero-shot setting. Further experimental analysis confirms that these advantages primarily arise from the proposed cognitive scheduling mechanism.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d4da77224012" data-article-url="https://arxiv.org/abs/2605.28168" data-article-title="OccuReward: グリッド インタラクティブ ビルディングにおける人口統計上の公平性を実現する、LLM に基づく居住者中心の報酬形成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28168" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28168" target="_blank" rel="noopener">OccuReward: グリッド インタラクティブ ビルディングにおける人口統計上の公平性を実現する、LLM に基づく居住者中心の報酬形成</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、深層強化学習 (DRL) ベースの建物エネルギー管理用の報酬関数を生成する有望な機能を実証しています。しかし、異種の人口統計上の人口間で居住者の快適さの格差を示したり、悪化させたりする可能性については、まだ解明されていません。私たちは、LLM を介した報酬設計が人口統計上の公平性にどのような影響を与えるかを調査するフレームワークである OccuReward を紹介します。私たちの貢献は 3 つあります。新しいフィードバック シグナルとしてのコンフォート エクイティ インデックス (CEI) の導入です。反復的で株式を意識したLLM報酬形成のための方法論。そして、これらの洗練された目標に基づいた DRL エージェントのパフォーマンス分析。 ASHRAE Global Thermal Comfort Database II (13,440 票) からの経験的に根拠のある 4 つの居住者プロファイルを利用して、CityLearn v2 に Soft Actor-Critic エージェントを展開します。私たちのアプローチでは、Gemini API を使用して、ステップごとの推論を実行するのではなく、3 つのリファインメント ラウンドにわたって報酬関数のロジックと重みを生成します。 15 回の実験結果から、高齢の女性の居住者は最初のラウンドで一貫して満足度が最も低いことが明らかになりました。ラウンド 3 までに、株式を意識した LLM の改良により、若い男性 (+17.6%)、中年の女性 (+28.2%)、健康に敏感な (+53.8%)、および高齢の女性 (+567%) の満足度を向上させる特定の報酬コンポーネントが有効になり、同時にエネルギーコストが 3.2% 削減されます。私たちの調査結果は、報酬レベルの介入によって公平性が大幅に改善される一方で、AI 駆動型コントローラーにおける人口統計上の格差は依然として存在しており、システム構築におけるアルゴリズムの公平性についてさらなる研究が必要であることを浮き彫りにしています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">OccuReward: LLM-Guided Occupant-Centric Reward Shaping for Demographic Equity in Grid-Interactive Buildings</p>
        <p class="orig-summary">Large language models (LLMs) have demonstrated promising capability in generating reward functions for deep reinforcement learning (DRL)-based building energy management. However, their potential to exhibit or exacerbate disparities in occupant comfort across heterogeneous demographic populations remains unexplored. We present OccuReward, a framework investigating how LLM-mediated reward design affects demographic equity. Our contribution is three-fold: the introduction of the Comfort Equity Index (CEI) as a novel feedback signal; a methodology for iterative, equity-aware LLM reward shaping; and a performance analysis of DRL agents under these refined objectives. Utilizing four empirically grounded occupant profiles from the ASHRAE Global Thermal Comfort Database II (13,440 votes), we deploy a Soft Actor-Critic agent in CityLearn v2. Our approach employs the Gemini API to generate reward function logic and weights--rather than performing per-step inference--across three refinement rounds. Results across 15 experimental runs reveal that elderly female occupants consistently experience the lowest satisfaction in initial rounds. By Round 3, equity-aware LLM refinement activates specific reward components that improve satisfaction for Young Males (+17.6%), Mid-aged Females (+28.2%), Health Sensitive (+53.8%), and Elderly Females (+567%), while simultaneously reducing energy costs by 3.2%. Our findings highlight that while reward-level intervention significantly improves equity, demographic disparities in AI-driven controllers persist, necessitating further research into algorithmic fairness in building systems.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3c8d210060b2" data-article-url="https://arxiv.org/abs/2605.28170" data-article-title="Shapley 値による大規模言語モデルの入力不確実性定量化のローカライズ" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28170" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28170" target="_blank" rel="noopener">Shapley 値による大規模言語モデルの入力不確実性定量化のローカライズ</a></h3>
      <p class="summary">大規模言語モデル (LLM) が一か八かの意思決定にますます統合されているため、不確実性を確実に定量化する機能が安全性と信頼性の重要な要件となっています。ただし、現在の不確実性の定量化手法は主に出力レベルで動作し、不確実性がモデルの知識不足から生じるのか、ユーザーの入力の曖昧さから生じるのかを区別できないことがよくあります。最近、入力中心の不確実性の定量化が有望な方向性として浮上していますが、まだ比較的研究されておらず、通常は粗い入力レベルの情報に依存しています。その結果、ユーザーには、信頼性を向上させるために入力のどの部分を明確にする必要があるかについて実用的なガイダンスをほとんど提供しないスカラー不確実性スコアが提供されます。この制限に対処するために、入力に起因する不確実性をスパンレベルで帰属させるためのフレームワークである Shapley ベースの入力不確実性定量化 (ShaQ) を提案します。私たちのアプローチは、協力ゲームのプレイヤーとしての入力における曖昧なスパンをモデル化し、各スパンの連携を明確にすることで得られる条件付きエントロピーの限界減少の加重平均によって定義されるシャプレー値を使用して、プレイヤーの貢献を定量化します。既存の入力レベルのアプローチとは異なり、私たちの定式化はスパン間の複雑な相互作用を捉え、個々の属性の合計が入力によって引き起こされる全体的な不確実性を正確に合計する原則に基づいた分解を提供します。 ShaQ を AmbigQA および AmbiEnt ベンチマークで評価し、曖昧さ検出において最先端のパフォーマンスを実現します。さらに、MediTOD での有用性を実証し、ShaQ が不完全な臨床発話をローカライズし、危険な状況で人間と AI のコラボレーションを促進できることを示します。全体として、ShaQ は不確実性の推定を改善し、対象となる入力を明確にするための実用的な洞察を提供します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Localizing Input Uncertainty Quantification for Large Language Models via Shapley Values</p>
        <p class="orig-summary">As large language models (LLMs) are increasingly integrated into high-stakes decision-making, the ability to reliably quantify uncertainty has become a critical requirement for safety and trust. However, current uncertainty quantification methods primarily operate at the output level, often failing to distinguish whether uncertainty arises from the model&#x27;s lack of knowledge or from ambiguity in the user&#x27;s input. While input-centric uncertainty quantification has recently emerged as a promising direction, it remains relatively underexplored and typically relies on coarse, input-level information. Consequently, users are provided with scalar uncertainty scores that offer little actionable guidance on which parts of the input should be clarified to improve reliability. To address this limitation, we propose Shapley-based input uncertainty Quantification (ShaQ), a framework for span-level attribution of input-induced uncertainty. Our approach models ambiguous spans in the input as players in a cooperative game and quantifies their contributions using Shapley values, defined via the weighted average of marginal reductions in conditional entropy obtained by clarifying each span coalition. Unlike existing input-level approaches, our formulation captures complex interactions among spans and provides a principled decomposition in which individual attributions sum exactly to the total input-induced uncertainty. We evaluate ShaQ on the AmbigQA and AmbiEnt benchmarks, where it achieves state-of-the-art performance in ambiguity detection. We further demonstrate its utility on MediTOD, showing that ShaQ can localize under-specified clinical utterances and facilitate human-AI collaboration in high-stakes settings. Overall, ShaQ improves uncertainty estimation and provides actionable insights for targeted input clarification.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4ecadbbc5a70" data-article-url="https://arxiv.org/abs/2605.28192" data-article-title="マルチホップオーディオビジュアル推論のためのエージェントアクティブオムニモーダル知覚" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28192" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28192" target="_blank" rel="noopener">マルチホップオーディオビジュアル推論のためのエージェントアクティブオムニモーダル知覚</a></h3>
      <p class="summary">関連する証拠がまばらで、時間的に分散し、オーディオとビジュアルの両方のストリームに分散していることが多いため、マルチホップのオーディオビジュアル推論は依然としてオムニ LLM にとって困難なままです。既存のベンチマークでは、この設定の限定的な調査が提供されており、通常は限られた数のモダリティ、関連する時間セグメント、または推論ステップのみが含まれています。この研究では、時間的に分散した視聴覚証拠に対するマルチホップ推論を必要とする、慎重に精選された 519 の質問を含むベンチマークである MOV-Bench を紹介します。 MOV-Bench での評価では、現在の Omni-LLM が依然としてマルチホップ クロスモーダル推論に苦労していることが明らかになりました。この課題に対処するために、私たちはさらに、アクティブなオムニモーダル認識のためのオープンソース Omni-LLM 上に構築された効率的なエージェント フレームワークである AOP-Agent を提案します。 AOP-Agent は、階層的なオムニモーダル メモリと協調的な観察、反映、再計画のループを組み合わせることで、追加のトレーニングや独自のモデルを必要とせずに、オープンソースの Omni-LLM が能動的な認識を実行できるようにします。 MOV-Bench と OmniVideoBench での実験では、AOP-Agent が一貫して推論パフォーマンスを向上させ、特に長いビデオや推論中心の質問で顕著な向上が見られることが実証されました。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Agentic Active Omni-Modal Perception for Multi-Hop Audio-Visual Reasoning</p>
        <p class="orig-summary">Multi-hop audio-visual reasoning remains challenging for Omni-LLMs, as relevant evidence is often sparse, temporally dispersed, and distributed across both audio and visual streams. Existing benchmarks provide limited investigation of this setting, typically involving only a limited number of modalities, relevant temporal segments, or reasoning steps. In this work, we introduce MOV-Bench, a benchmark containing 519 carefully curated questions that require multi-hop reasoning over temporally dispersed audio-visual evidence. Evaluations on MOV-Bench reveal that current Omni-LLMs still struggle with multi-hop cross-modal reasoning. To address this challenge, we further propose AOP-Agent, an efficient agentic framework built on open-source Omni-LLMs for active omni-modal perception. By combining a hierarchical omni-modal memory with a collaborative observe-reflect-replan loop, AOP-Agent enables open-source Omni-LLMs to perform active perception without additional training or proprietary models. Experiments on MOV-Bench and OmniVideoBench demonstrate that AOP-Agent consistently improves reasoning performance, with particularly notable gains on long videos and reasoning-intensive questions.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ecee7047a3df" data-article-url="https://arxiv.org/abs/2605.28201" data-article-title="プラント、持続、トリガー: 大規模言語モデル エージェントに対するスリーパー攻撃" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28201" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28201" target="_blank" rel="noopener">プラント、持続、トリガー: 大規模言語モデル エージェントに対するスリーパー攻撃</a></h3>
      <p class="summary">Large Language Model (LLM) エージェントは、外部環境からの安全性の脅威に対して依然として脆弱です。攻撃者は、ツールから返されたデータ、Web ページ、MCP コンテキストなどの外部観察に敵対的なコンテンツを挿入し、安全でないアクションや不正な出力などの有害なエージェント動作を引き起こします。既存の研究は通常、シングルインタラクション攻撃に焦点を当てており、エージェントは敵対的なコンテンツを観察し、1 つのユーザー要求内で直ちに有害な動作を示します。ただし、敵対的なコンテンツは同じエージェントが提供するインタラクション間で持続する可能性もあり、そのような脅威の検出と軽減が困難になることを示しています。具体的には、敵対的なコンテンツはエージェント状態に残り、インタラクションの間は休止状態のままになり、その後無害なユーザー クエリによってアクティブ化される可能性があります。私たちは、この種の安全上の脅威をスリーパーアタックとして正式に表現します。これを評価するために、6 つの現実世界の有害な結果、3 つの攻撃戦略、および 3 つのエージェント状態ターゲット (セッション コンテキスト、メモリ、再利用可能なスキル) をカバーする 1,896 のインスタンスでベンチマークを構築しました。 7 つの強力なオープンソースおよびクローズドソース LLM に関する実験では、最先端の LLM エージェントは、単一インタラクションのベースラインで低い攻撃成功率を達成した場合でも、依然としてスリーパー攻撃に対して脆弱であることが示されています。私たちのコードとデータは https://anonymous.4open.science/r/skdvnfu23ihr9wdscnksf1asdffsaef で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Plant, Persist, Trigger: Sleeper Attack on Large Language Model Agents</p>
        <p class="orig-summary">Large Language Model (LLM) agents remain vulnerable to safety threats from the external environment, where attackers inject adversarial content into external observations such as tool-returned data, webpages, or MCP context, causing harmful agentic behaviors such as unsafe actions or incorrect outputs. Existing studies typically focus on single-interaction attacks, where the agent observes adversarial content and immediately exhibits harmful behavior within one user request. However, we show that adversarial content can also persist across interactions served by the same agent, making such threats harder to detect and mitigate. Specifically, adversarial content may persist in the agent state, remain dormant across interactions, and later be activated by a benign user query. We formalize this type of safety threat as Sleeper Attack. To evaluate it, we construct a benchmark with 1,896 instances covering six real-world harmful outcomes, three attack strategies, and three agent state targets: session context, memory, and reusable skills. Experiments on seven strong open-source and closed-source LLMs show that state-of-the-art LLM agents remain vulnerable to Sleeper Attack, even when they achieve low attack success rates under a single-interaction baseline. Our code and data are available at https://anonymous.4open.science/r/skdvnfu23ihr9wdscnksf1asdffsaef.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c09e5257097a" data-article-url="https://arxiv.org/abs/2605.28210" data-article-title="AI を介した結果的な決定を選択するという幻想" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28210" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28210" target="_blank" rel="noopener">AI を介した結果的な決定を選択するという幻想</a></h3>
      <p class="summary">ウルマン＝マルガリットの選択の概念（変革的で、取り消し不可能で、差し押さえられた代替案によって影が隠れる）を利用して、現在の AI システムが、既存の AI 倫理が完全には捉えていない深刻な倫理的問題を提起していることを示します。それは、個人やグループが、真に選択できるようになるために必要な主体が弱体化している間に、意味のある結果的な選択の欺瞞的な外観に遭遇する選択の幻想です。 AI を主に既に与えられた目的の最適化装置として扱うアプローチに対して、私たちは、AI システムは選択という幻想からメタ能力を保護し育成するかどうかによって評価されるべきだと主張します。メタ能力とは、手段と目的を形成し、異議を唱え、修正し、所有することができる、社会的および制度的に足場を築かれた主体的能力のことです。この再構成は、AI を介した経路が行動や行動を誤った方向に導いた場合に、選択するという幻想のコストを吸収することが最も困難な恵まれない人々にとって特に緊急です。私たちは、AI を介した結果的意思決定のための 3 つの規範的命令を提案します。それは、予測の限界を認める実存的誠実さです。生態学的合理性。不均質な生きた生態の中に指針を位置づけます。そして、反事実的賠償。AI を介した意思決定経路が失敗した場合に、差し押さえられた代替手段を認めて修復します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">The Illusion of Opting in AI-Mediated Consequential Decisions</p>
        <p class="orig-summary">Drawing on Ullmann-Margalit&#x27;s concept of opting (transformative, irrevocable, and shadowed by foreclosed alternatives), we show that current AI systems raise a profound ethical problem that existing AI ethics has not fully captured: the illusion of opting, in which persons and groups encounter the deceptive appearance of meaningful consequential choice while the agency needed to become genuinely capable of choosing is weakened. Against approaches that treat AI primarily as an optimizer of already given ends, we argue that AI systems should be evaluated by whether they protect and cultivate meta-capacity against the illusion of opting: the socially and institutionally scaffolded agentive capacity through which means and ends can be formed, contested, revised, and owned. This reframing is especially urgent for disadvantaged populations, who are least able to absorb the costs of the illusion of opting when AI-mediated pathways misdirect behavior and action. We propose three normative imperatives for AI-mediated consequential decisions: existential honesty, which acknowledges the limits of prediction; ecological rationality, which situates guidance within heterogeneous lived ecologies; and counterfactual reparation, which acknowledges and repairs foreclosed alternatives when AI-mediated decision-making pathways fail.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="23270f92aee3" data-article-url="https://arxiv.org/abs/2605.28213" data-article-title="いつ最適化すべきかを学ぶ: GPU カーネル系統の専門家による検証済みの最適化スキル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28213" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28213" target="_blank" rel="noopener">いつ最適化すべきかを学ぶ: GPU カーネル系統の専門家による検証済みの最適化スキル</a></h3>
      <p class="summary">LLM ベースのエージェントは、GPU カーネルの生成にますます使用されていますが、多くの場合、それらの最適化がいつ適切であるかは分からずに、どのような最適化を試みるべきかはわかっています。 KLineage を導入します。KLineage は、この欠落している「いつ」の知識をエキスパート カーネルから学習します。KLineage は、前方ロールアウトに依存するのではなく、検証ゲートによる簡略化を通じてエキスパート実装を後方に導き、受け入れられた各ステップを逆に再利用可能な最適化スキルに変換します。各スキルは、最適化の意図だけでなく、それがコード内のどこに適用されるか、どのような条件で最適化が有効になったか、どのような効果があったのか、その前提によってどのような失敗が回避されたのかも記録します。ダウンストリーム LLM は、同じコンパイル/正確性/プロファイル ゲートの下で新しいコード サーフェス上でこれらのスキルを具体化します。 2 つの NVIDIA アーキテクチャにわたる 5 つのエキスパート ワークロードでは、これらの系統由来のスキルが効果的な最適化カリキュラムとして機能し、同じ固定予算の下で最終的なカーネル品質と最適化効率の両方において最近のメモリベースの LLM カーネル ベースラインを上回ります。さらに、ソースケースの記憶に対する健全性テストとして、別個の 22 インスタンスのホールドアウト チェックを使用します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Learning When to Optimize: Verified Optimization Skills from Expert GPU-Kernel Lineages</p>
        <p class="orig-summary">LLM-based agents are increasingly used to generate GPU kernels, but they often know what optimizations to try without knowing when those optimizations are sound. We introduce KLineage, which learns this missing &quot;when&quot; knowledge from expert kernels: instead of relying on forward rollouts, KLineage walks expert implementations backward through validation-gated simplifications and reverses each accepted step into a reusable optimization skill. Each skill records not only the optimization intent, but also where it applies in code, what conditions made it valid, what effect it had, and what failures its assumptions avoid. A downstream LLM materializes these skills on new code surfaces under the same compile/correctness/profile gate. On five expert workloads across two NVIDIA architectures, these lineage-derived skills serve as an effective optimization curriculum, exceeding recent memory-based LLM-kernel baselines in both final kernel quality and optimization efficiency under the same fixed budget. We additionally use a separate 22-instance held-out check as a sanity test against source-case memorization.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="df864da4c082" data-article-url="https://arxiv.org/abs/2605.28215" data-article-title="説明することは単独で予測するより難しい: ICL 視覚分類子としての MLLM の概念ベースの説明を評価する" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28215" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28215" target="_blank" rel="noopener">説明することは単独で予測するより難しい: ICL 視覚分類子としての MLLM の概念ベースの説明を評価する</a></h3>
      <p class="summary">インコンテキスト学習 (ICL) により、マルチモーダル大規模言語モデル (MLLM) が、少数のラベル付きサンプルから画像を分類できるようになります。しかし、これらのモデルが提供されたコンテキストをどのように使用するかは依然として不透明です。思考連鎖プロンプトは広く使用されていますが、最近の研究では、それが真の内部計算を反映していない可能性があると主張しています。この論文では、ベースライン分類から記述ロジック (DL) 公理生成まで、形式的厳密性を高める 5 つの条件を使用して、少数ショット ICL の下で凍結された MLLM の概念ベースの説明可能性を体系的に評価します。独立した LLM-as-a-judge パイプラインを介して 4 つの最先端の MLLM を評価することで、単独で予測するよりも説明する方が本当に難しいことが実証されました。驚くべきことに、モデルに形式的に構造化された概念ベースの説明を生成させると、予測精度が単調に (93.8% から 90.1% に) 低下し、明示的な推論が普遍的にパフォーマンスに役立つという仮定に反します。ただし、モデルがクラスを識別する視覚的特徴をうまく表現できる場合、説明の質は正しい予測と強く相関します。私たちの調査結果は、MLLM は視覚的な分類には優れているものの、形式的で機械検証可能な説明可能性に必要な特定の命令チューニングが欠けていることを示唆しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Explaining is Harder Than Predicting Alone: Evaluating Concept-based Explanations of MLLMs as ICL Visual Classifiers</p>
        <p class="orig-summary">In-context learning (ICL) enables multimodal large language models (MLLMs) to classify images from a few labelled examples. Yet, how these models use the provided context remains opaque. While Chain-of-Thought prompting is widely used, recent work argues that it may not reflect true internal computation. In this paper, we systematically evaluate the concept-based explainability of frozen MLLMs under few-shot ICL using five conditions of increasing formal rigour, ranging from baseline classification to Description Logics (DL) axiom generation. Evaluating four state-of-the-art MLLMs via an independent LLM-as-a-judge pipeline, we demonstrate that explaining is genuinely harder than predicting alone. Surprisingly, forcing models to generate formally structured, concept-based explanations degrades predictive accuracy monotonically (from 93.8% to 90.1%), contradicting the assumption that explicit reasoning universally aids performance. However, when models successfully articulate class-discriminative visual features, explanation quality strongly correlates with correct predictions. Our findings suggest that while MLLMs excel at visual classification, they lack the specific instruction-tuning required for formal, machine-verifiable explainability.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4376ebdbd703" data-article-url="https://arxiv.org/abs/2605.28224" data-article-title="ツール使用 LLM エージェントの複数軌道推論にメモリが役立つのはどのような場合ですか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28224" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28224" target="_blank" rel="noopener">ツール使用 LLM エージェントの複数軌道推論にメモリが役立つのはどのような場合ですか?</a></h3>
      <p class="summary">ツール使用 LLM エージェントの複数軌道推論 - 複数の推論試行を生成し、その中から選択する - は、試行間で知識を転送することで、後のエージェントが以前のエージェントの落とし穴を回避できるという利点があります。既存のクロストラジェクトリメモリ手法 (トラジェクトリレベルのリフレクション、アトミックファクト抽出、生の観測値の注入) はそれぞれ、単一タスクの単一の推論戦略に基づいて評価されるため、報告されるゲインがメモリ抽象化のプロパティを反映しているのか、それとも推論手法のプロパティを反映しているのかが不明確です。私たちは、転送の範囲 (拡張内と軌跡全体) と転送されたコンテンツの抽象化という 2 つの軸に沿ってメモリを分解する統一フレームワークを提案し、実際のエージェントの導入体制に一致するベリファイアなしの設定で、SQL、ナレッジグラフ、および CLI 環境にわたる 4 つのツール使用ベンチマークで 3 つの推論戦略 (ベストオブ N、ビーム検索、MCTS) に基づいて 4 つのメソッドを評価します。実験行列は推論方法を交絡として識別します。同じ記憶方法は、同じ例の異なる推論戦略の下で統計的に異なる結果を生成します。リフレクションは MCTS の下でのみ重要になります (ベストオブ N の下ではそうではありません)。拡張内注入 (前の兄弟の結果に基づいて各候補を条件付ける) は、ダイバーシティが不足したビーム探索のみに役立ちます。また、アトミック ファクト抽出は精度に中立ですが、再利用可能な環境構造を持つタスクでは軌道を 19 ～ 26% 短縮します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">When Does Memory Help Multi-Trajectory Inference for Tool-Use LLM Agents?</p>
        <p class="orig-summary">Multi-trajectory inference for tool-use LLM agents - generating multiple reasoning attempts and selecting among them - benefits from transferring knowledge across attempts so that later ones avoid the pitfalls of earlier ones. Existing cross-trajectory memory methods (trajectory-level reflection, atomic fact extraction, raw observation injection) are each evaluated under a single inference strategy on a single task, making it unclear whether reported gains reflect properties of the memory abstraction or of the inference method. We propose a unified framework that decomposes memory along two axes -- the scope of transfer (within an expansion vs. across trajectories) and the abstraction of the transferred content -- and evaluate four methods under three inference strategies (best-of-N, beam search, MCTS) on four tool-use benchmarks spanning SQL, knowledge-graph, and CLI environments, in a verifier-free setting that matches the deployment regime of practical agents. The experiment matrix identifies the inference method as a confound: the same memory method produces statistically distinct results under different inference strategies on the same examples. Reflection reaches significance only under MCTS (not under best-of-N); within-expansion injection (conditioning each candidate on prior siblings&#x27; outcomes) helps only diversity-starved beam search; and atomic fact extraction is accuracy-neutral but shortens trajectories by 19-26% on tasks with reusable environmental structure.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f74c3d6092f5" data-article-url="https://arxiv.org/abs/2605.28232" data-article-title="PIRS: SAC ベースの建物エネルギー管理のための物理学に基づいた報酬形成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28232" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28232" target="_blank" rel="noopener">PIRS: SAC ベースの建物エネルギー管理のための物理学に基づいた報酬形成</a></h3>
      <p class="summary">居住者の快適さとグリッドを意識したエネルギー効率は競合する目標であり、その共同最適化は、建物の深層強化学習 (DRL) コントローラーで報酬関数がどのように指定されるかに大きく依存します。しかし、報酬の設計はほとんどアドホックなままです。快適性の条件は、熱快適性の物理学に明示的に基づいていない、手動で調整されたヒューリスティックか単純な温度偏差の代用のいずれかです。 PIRS (Physics-Informed Reward Shaping) を紹介します。これは、これらのアドホックな快適性プロキシを、ソフト アクター クリティック (SAC) に対する加重多目的報酬内の ISO 7730 予測平均投票 (PMV) 定式化に置き換えます。 ISO 7730 PMV 定式化に快適信号を固定することにより、PIRS は報酬の解釈可能性を向上させ、学習パイプラインの他のコンポーネントを変更することなく、標準に基づいた快適プロキシを提供します。 CityLearn v2.1.2 (チャレンジ 2022 フェーズ 1) の PIRS を、5 つのランダム シードにわたって 50,000 ステップでトレーニングされた中央 SAC エージェントを使用して評価し、ルールベースのコントローラー (RBC)、手動で設計された報酬 (E2)、エネルギーのみの報酬 (E3)、および単純な温度偏差の快適性報酬 (E4) と比較します。 RBC に対する比率として報告される地区レベルの主要業績評価指標 (KPI) は、PIRS が手動のベースラインと同等のコスト、炭素、電力指標を達成しながら、特に負荷上昇 (1.78 倍対 RBC 〜 2.4 倍) と毎日のピーク需要において非物理的根拠に基づいた設計を大幅に上回っていることを示しています。このトレーニング予算では、すべての DRL ポリシーが RBC を上回っています。私たちはこのギャップを正直に解釈し、PIRS を、限られたコンピューティングでの古典的な制御に対する優位性を主張するのではなく、解釈可能な、標準に準拠した報酬設計の基盤として位置づけます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">PIRS: Physics-Informed Reward Shaping for SAC-Based Building Energy Management</p>
        <p class="orig-summary">Occupant comfort and grid-aware energy efficiency are competing objectives whose joint optimization depends critically on how reward functions are specified in deep reinforcement learning (DRL) controllers for buildings. Yet reward design remains largely ad hoc: comfort terms are either hand-tuned heuristics or simple temperature-deviation proxies without explicit grounding in thermal-comfort physics. We present PIRS (Physics-Informed Reward Shaping), which replaces these ad-hoc comfort proxies with the ISO 7730 Predicted Mean Vote (PMV) formulation inside a weighted multi-objective reward for Soft Actor-Critic (SAC). By anchoring the comfort signal in the ISO 7730 PMV formulation, PIRS improves reward interpretability and provides a standards-grounded comfort proxy without changing any other component of the learning pipeline. We evaluate PIRS in CityLearn v2.1.2 (challenge 2022 phase 1) with a central SAC agent trained for 50k steps over five random seeds, and compare against a rule-based controller (RBC), a manually engineered reward (E2), an energy-only reward (E3), and a naive temperature-deviation comfort reward (E4). District-level key performance indicators (KPIs), reported as ratios versus RBC, show that PIRS attains cost, carbon, and electricity metrics on par with the manual baseline while substantially outperforming non-physics-grounded designs -- particularly on load ramping (1.78x vs. ~2.4x RBC) and daily peak demand. All DRL policies remain above RBC at this training budget; we interpret this gap honestly and position PIRS as an interpretable, standards-aligned foundation for reward design rather than a claim of dominance over classical control at limited compute.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d59d0e9a6610" data-article-url="https://arxiv.org/abs/2605.28255" data-article-title="AI がハンドルを握る: 人間とコンピューターが協力して質問応答する際の委任と信頼を促進するものは何ですか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28255" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28255" target="_blank" rel="noopener">AI がハンドルを握る: 人間とコンピューターが協力して質問応答する際の委任と信頼を促進するものは何ですか?</a></h3>
      <p class="summary">AI システムには誤りがあり、人間は自分の判断よりも AI を信頼するかどうかの判断を誤る可能性があります。したがって、人間と AI のコラボレーションを改善するには、人間がいつ、なぜ、どのように AI に依存するかを理解する必要があります。私たちは 2 つの異なる信頼性の決定を研究しています。1 つは委任の選択、つまり出力を知らずに AI に自律的に動作させるタイミングを決定するというもの、もう 1 つは導入の選択、つまり AI の提案を評価し、その使用方法を決定するというものです。これらの分離された依存パターンは両方ともコラボレーションを形成しますが、これまでの研究では、同じユーザーを使用した現実的な設定でそれらを一緒に研究することはほとんどありませんでした。私たちは、人間と AI チームが協力して質問応答ゲームで競い合い、勝つためにいつ、どのように AI エージェントと協力するかを人間が選択できるようにすることを研究することで、このギャップに対処します。私たちの 24 試合では、23 人のエキスパート人間と 16 人の AI エージェントがペアになり、387 件の委任と 1,440 件の採用決定を記録しました。人間と AI のコラボレーションは、AI または人間単独よりも優れたパフォーマンスを発揮しますが、人間は、AI の正しい提案に過小依存し (チャンスを逃した 3.9%)、AI が誤った方向に導いた場合に過剰に依存し (1.7%)、最適とは言えないコラボレーションの意思決定を行っています。双方が間違った答えを提供します。人間と AI が一致しない場合、報告されたモデルの信頼度はほぼ偶然ですが、AI の提案が人間の最初の不正解と一致する場合、確証バイアスにより過小信頼度が高くなります (64.5%)。このギャップを埋めるために、調整された信頼性、証拠に基づいた説明、およびユーザーの信頼性を高めるのに役立つメカニズムをお勧めします。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">AI, Take the Wheel: What Drives Delegation and Trust in Human-Computer Cooperative Question Answering?</p>
        <p class="orig-summary">AI systems are fallible, and humans can make mistakes in deciding whether to trust AI over their own judgment. Thus, improving human-AI collaboration requires understanding when, why, and how humans decide to rely on AI. We study two distinct reliance decisions: the delegation choice -- deciding when to let AI act autonomously without knowing its output, and the adoption choice -- evaluating AI suggestions and deciding how to use them. Both of these decoupled reliance patterns shape collaboration, but prior work rarely studies them together in realistic settings with the same users. We address this gap by studying collaborative human--AI teams competing in a question-answering game in which humans can choose when and how to work with AI agents to win. Our 24 matches pair 23 expert humans with 16 AI agents, capturing 387 delegation and 1440 adoption decisions. While human--AI collaboration performs better than either AI or humans alone, humans make suboptimal collaboration decisions, both under-relying on correct AI suggestions (3.9% of opportunities missed) and over-relying when AI misleads them (1.7%). Both parties contribute wrong answers: reported model confidence is near chance when humans and AI disagree, while confirmation bias drives higher under-reliance (64.5%) when an AI suggestion agrees with humans&#x27; initial incorrect answer. To close this gap, we recommend calibrated confidence, evidence-grounded explanations, and mechanisms that help users refine trust.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="84e2b29208ea" data-article-url="https://arxiv.org/abs/2605.28264" data-article-title="生成モデルにおける幻覚のフィンガープリントとしてのエントロピー分布" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28264" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28264" target="_blank" rel="noopener">生成モデルにおける幻覚のフィンガープリントとしてのエントロピー分布</a></h3>
      <p class="summary">大規模言語モデル (LLM) は、一般に幻覚と呼ばれる事実に反する出力を生成することが多く、信頼を損ない、一か八かの環境での展開を制限します。既存の幻覚検出方法では通常、複数のフォワード パスまたはモデル内部へのアクセスが必要です。この研究では、混乱または長さで正規化されたエントロピーによって捕捉された平均を超えるトークンレベルのエントロピーの分布が、独立した信号を運ぶ分布形状と尾部の動作を伴う幻覚の指紋として機能するという理論的背景と経験的証拠を提供します。私たちは幻覚検出を統計的仮説検定として形式化し、単一のフォワード パスとトークン ロジットへのブラック ボックス アクセスのみを必要とする軽量アルゴリズムである校正エントロピー スコア (CES) を提案します。 CES は、校正された参照 CDF を通じて生成されたエントロピーの平均信号と最大信号を結合し、モデルとタスク間で直接比較できるスコアを生成します。我々は、新しいランダム長の Dvoretzky-Kiefer-Wolfowitz 不等式を介して有限サンプルのキャリブレーション保証を確立し、また、CES が世代長において指数関数的に速く 1 に収束する確率で幻覚を検出することも証明します。 CES は、オープンソース モデルと API アクセス モデルにわたる 8 つの QA ベンチマークと 10 のジェネレーター モデルにわたって、すべてのシングルパス ブラック ボックス メソッドの中で最高の検出パフォーマンスを達成するとともに、既存のヒューリスティックにはない正式なエラー保証を提供します。注目すべきことに、CES は、はるかに大きな計算コストを必要とするマルチサンプル手法と統計的に区別がつかないため、軽量検出と高価な検出の間のギャップを埋め、リアルタイムの大規模展開に適しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Entropy Distribution as a Fingerprint for Hallucinations in Generative Models</p>
        <p class="orig-summary">Large Language Models (LLMs) often generate factually incorrect outputs, commonly termed hallucinations, that undermine trust and limit deployment in high-stakes settings. Existing hallucination detection methods typically require multiple forward passes, or access to model internals. In this work, we provide theoretical background and empirical evidence that the distribution of token-level entropies, beyond the mean captured by perplexity or length-normalised entropy, serves as a fingerprint of hallucination, with distributional shape and tail behaviour carrying independent signal. We formalize hallucination detection as a statistical hypothesis test and propose the Calibrated Entropy Score (CES), a lightweight algorithm requiring only a single forward pass and black-box access to token logits. CES combines the mean signal with the maximum signal of the generated entropy through a calibrated reference CDF, producing scores that are directly comparable across models and tasks. We establish finite-sample calibration guarantees via a novel random-length Dvoretzky--Kiefer--Wolfowitz inequality, and also prove that CES detects hallucinations with probability converging to one exponentially fast in the generation length. Across eight QA benchmarks and ten generator models spanning open-source and API access models, CES achieves the highest detection performance among all single-pass black-box methods while providing formal error guarantees that existing heuristics lack. Remarkably, CES is statistically indistinguishable from multi-sample methods that require far greater computational cost, closing the gap between lightweight and expensive detection and making it suitable for real-time, large-scale deployment.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="68157ae8542b" data-article-url="https://arxiv.org/abs/2605.28273" data-article-title="2 プレイヤー ゼロサム ゲーム用のグローバル ポリシー-スペース レスポンス オラクル" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28273" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28273" target="_blank" rel="noopener">2 プレイヤー ゼロサム ゲーム用のグローバル ポリシー-スペース レスポンス オラクル</a></h3>
      <p class="summary">Policy-Space Response Oracles (PSRO) フレームワークは、深層強化学習 (DRL) を使用して制限された戦略セットを反復的に拡張することにより、平衡計算を大規模なゼロサム ゲームに拡張します。中心的な課題は、限られた計算予算の下で、誘導されたゲームがゲーム全体によく似た小規模な戦略集団を構築することです。既存の PSRO の亜種は通常、制限されたゲームのペイオフから計算されたメタ戦略に対する最適な応答を使用して人口を拡大しますが、これは世界的な改善が限定的な非効率な拡大につながる可能性があります。私たちは、拡大後の人口の質を直接評価することによって人口拡大を導くことを提案します。具体的には、人口搾取可能性 (PE) を採用して、制限された戦略セットがゲーム全体をどの程度表現しているかを測定し、拡張中に PE を明示的に最小化する 2 段階の探索 - 選択フレームワークを導入します。このフレームワークを Global PSRO としてインスタンス化します。これは、パラメータ共有条件付きニューラル ネットワークを介して応答候補を効率的に生成し、PE を推定する実用的な DRL ベースのアルゴリズムです。複数の 2 プレイヤー ゼロサム ゲームにわたる実験では、Global PSRO が以前の PSRO 手法よりも大幅に少ないポリシー反復で低い悪用可能性を達成し、ナッシュ均衡に近似することが示されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Global Policy-Space Response Oracles for Two-Player Zero-Sum Games</p>
        <p class="orig-summary">The Policy-Space Response Oracles (PSRO) framework scales equilibrium computation to large zero-sum games by iteratively expanding a restricted strategy set using deep reinforcement learning (DRL). A central challenge is to construct, under limited computational budgets, a small strategy population whose induced game well approximates the full game. Existing PSRO variants typically expand the population using best responses to meta-strategies computed from restricted-game payoffs, which can lead to inefficient expansions that provide limited global improvement. We propose to guide population expansion by directly evaluating the post-expansion population quality. Specifically, we adopt Population Exploitability (PE) to measure how well a restricted strategy set represents the full game, and introduce a two-phase exploration--selection framework that explicitly minimizes PE during expansion. We instantiate this framework as Global PSRO, a practical DRL-based algorithm that efficiently generates candidate responses and estimates PE via parameter-sharing conditional neural networks. Experiments across multiple two-player zero-sum games show that Global PSRO achieves lower exploitability and approximates Nash equilibria with significantly fewer policy iterations than prior PSRO methods.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5397f5940986" data-article-url="https://arxiv.org/abs/2605.28277" data-article-title="LLM はテキストから世界モデルを構築しますか?空間推論の多言語診断" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28277" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28277" target="_blank" rel="noopener">LLM はテキストから世界モデルを構築しますか?空間推論の多言語診断</a></h3>
      <p class="summary">大規模言語モデル (LLM) が純粋なテキスト記述から内部空間世界モデルを構築するかどうかについては依然として議論があり、そのような機能が言語間で伝達されるかどうかについては体系的に研究されていません。 MentalMap は、原子的な空間事実から生成世界グラフの構築までを網羅する 6 レベルの機能階層 (L0 ～ L5) を備えた多言語診断ベンチマークであり、基準枠、読書方向の偏り、推論の労力の割り当て、幻覚を調査する 4 つの診断軸を備えています。 MentalMap は 100 の ProcTHOR 家庭用シーンから構築され、8 つの類型的に多様な言語と構造化テキスト コントロールをカバーし、1,950 の評価セルにわたる 39 のタスク ファミリを含みます。スケールとモデル ファミリ全体で 13 個の LLM を評価したところ、普遍的な L3 推論の崖が特定されました。つまり、ベースラインの原子精度が 40% を超えると、ビューポイント推論で L0 パフォーマンスの半分も維持できるモデルは存在しません。この崖は言語、スケール、プロンプト戦略を超えて存続しますが、構造化された出力の失敗と推論パターンはモデルごとに大幅に異なります。同一のピュアテキストプロトコルの下で人間による評価を行ったところ、同じ障害パターンが再現され、ボトルネックが現在の LLM アーキテクチャに特有のものではなく、テキストのみの作業メモリの制約から生じていることが示唆されています。私たちの発見は、純粋なテキストの空間推論を多軸の世界モデリング問題として再構成し、将来の方向性としてマルチモーダルおよびスクラッチパッド拡張推論の動機付けとなります。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Do LLMs Build World Models From Text? A Multilingual Diagnostic of Spatial Reasoning</p>
        <p class="orig-summary">Whether large language models (LLMs) construct internal spatial world models from pure-text descriptions remains contested, and whether such capabilities transfer across languages has not been systematically studied. We introduce MentalMap, a multilingual diagnostic benchmark with a six-level capability hierarchy (L0-L5) spanning atomic spatial facts to generative world-graph construction, together with four diagnostic axes probing frame of reference, reading-direction bias, reasoning-effort allocation, and hallucination. MentalMap is built from 100 ProcTHOR household scenes, covers eight typologically diverse languages plus a structured-text control, and contains 39 task families across 1,950 evaluation cells. Evaluating thirteen LLMs across scales and model families, we identify a universal L3 reasoning cliff: no model retains even half of its L0 performance on viewpoint reasoning once baseline atomic accuracy exceeds 40%. The cliff persists across languages, scales, and prompting strategies, while structured-output failures and reasoning patterns vary substantially across models. Human evaluation under the identical pure-text protocol reproduces the same failure pattern, suggesting that the bottleneck arises from text-only working memory constraints rather than being specific to current LLM architectures. Our findings reframe pure-text spatial reasoning as a multi-axis world-modeling problem and motivate multimodal and scratchpad-augmented reasoning as future directions.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2cf92c77ce55" data-article-url="https://arxiv.org/abs/2605.28282" data-article-title="ResearchLoop: AI 支援研究のための証拠ゲート型コントロール プレーン" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28282" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28282" target="_blank" rel="noopener">ResearchLoop: AI 支援研究のための証拠ゲート型コントロール プレーン</a></h3>
      <p class="summary">AI を利用した研究では、アイデア出し、実装、評価、原稿執筆が 1 つのインタラクティブなループに圧縮されます。この圧縮は便利ですが、出版リスクも生み出します。紙上の主張は監査するよりも述べるのが容易になる可能性があります。 AI 支援による計算研究のための証拠ゲート型コントロール プレーンである ResearchLoop を紹介します。 ResearchLoop は、リサーチ質問、タスク契約、証拠オブジェクト、請求元帳、クローズアウト、および紙バインディングを永続的なプロジェクト状態として扱い、ここではリポジトリ支援のランタイムとして実現されます。この技術レポートは、完全なプロトコル仕様、状態モデル、移行ルール、クレーム受付アルゴリズム、および洞察複合メカニズムを提供します。また、9 つのバージョン (V0 ～ V9) にわたる完全な実験記録も報告しています。これには、セルフホスティングのケース スタディ、コンポーネント アブレーションを使用した制御されたタスク スイートの研究、数学オリンピックの評価、公式の生成コード ハーネスを使用して評価された補足的な SciCode 境界実験が含まれます。すべてのアーティファクト、マニフェスト、検証レポートはプロジェクト リポジトリに保存されます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">ResearchLoop: An Evidence-Gated Control Plane for AI-Assisted Research</p>
        <p class="orig-summary">AI-assisted research compresses ideation, implementation, evaluation, and manuscript writing into a single interactive loop. This compression is useful, but it also creates a publication risk: paper claims can become easier to state than to audit. We present ResearchLoop, an evidence-gated control plane for AI-assisted computational research. ResearchLoop treats research questions, task contracts, evidence objects, claim ledgers, closeouts, and paper bindings as durable project state, realized here as a repository-backed runtime. This technical report provides the complete protocol specification, state model, transition rules, claim-admission algorithm, and insight-compounding mechanism. It also reports the full experimental record spanning nine versions (V0--V9), including a self-hosting case study, a controlled task-suite study with component ablations, a mathematical olympiad evaluation, and a supplementary SciCode boundary experiment evaluated with the official generated-code harness. All artifacts, manifests, and verification reports are preserved in the project repository.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f5817adfa59e" data-article-url="https://arxiv.org/abs/2605.28295" data-article-title="ロールアウトの開始場所: RLVR の低負荷、高レバレッジのファーストトークンの多様化" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28295" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28295" target="_blank" rel="noopener">ロールアウトの開始場所: RLVR の低負荷、高レバレッジのファーストトークンの多様化</a></h3>
      <p class="summary">検証可能な報酬による強化学習 (RLVR) は、ラベル付きの軌跡なしで推論モデルをトレーニングし、グループ化されたロールアウトに依存してポリシーを代替推論パスに公開し、検証者がそれらをスコア付けします。したがって、ロールアウトの多様性が RLVR の中心的なボトルネックとして浮上しており、既存の方法のほとんどは、温度、プレフィックス、またはロールアウト選択の調整を通じて調査の範囲を広げています。私たちは、構造的に区別されているが、この多様性を広げるための見落とされている位置、つまり推論マーカーの後の最初のトークンを特定します。ポリシーの最初のトークンの分布は、鋭いピークがありながら正確性が分離された現象を示しており、この最初のトークンの位置により、正確性のシグナルを変えることなく、ロールアウト グループがカバーする領域を広げることができます。 REFT (Rollout Exploration with First-Token Diversification) を導入します。これは、ポリシー独自の上位 $N$ 候補から最初のトークンを均一にサンプリングし、他のすべてのコンポーネントを変更せずに均等にロールアウトを割り当てる RLVR パイプラインへの軽い追加です。結果として生じる多様なロールアウトでトレーニングされた REFT は、4 つの基本モデル (0.5B ～ 7B) と 3 つの難易度レジームにわたって、DAPO および GRPO ベースラインを上回る Pass@1、Pass@8、および Pass@64 の合計を向上させます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Where Rollouts Begin: Low-Load, High-Leverage First-Token Diversification for RLVR</p>
        <p class="orig-summary">Reinforcement Learning with Verifiable Rewards (RLVR) trains reasoning models without labeled trajectories, relying on grouped rollouts to expose the policy to alternative reasoning paths and a verifier to score them. Rollout diversity has accordingly emerged as a central bottleneck in RLVR, with most existing methods broadening exploration through temperature, prefix, or rollout-selection adjustments. We identify a structurally distinguished but overlooked position for broadening this diversity: the first token after the reasoning marker. The policy&#x27;s first-token distribution exhibits a sharply peaked yet correctness-decoupled phenomenon, and this first token position can broaden the regions a rollout group covers without altering the correctness signal. We introduce REFT (Rollout Exploration with First-Token Diversification), a light addition to the RLVR pipeline that samples first tokens uniformly from the policy&#x27;s own top-$N$ candidates and allocates rollouts evenly, leaving every other component unchanged. Trained on the resulting diversified rollouts, REFT improves aggregate Pass@1, Pass@8, and Pass@64 over DAPO and GRPO baselines across four base models (0.5B-7B) and three difficulty regimes.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9543341fb9f0" data-article-url="https://arxiv.org/abs/2605.28298" data-article-title="REED: Post-Training Representation Editing for Cross-Domain Linguistic Steganalysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28298" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28298" target="_blank" rel="noopener">REED: Post-Training Representation Editing for Cross-Domain Linguistic Steganalysis</a></h3>
      <p class="summary">In real-world scenarios of linguistic steganalysis, tested texts usually come from unseen domains with different vocabularies, topics, writ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6d736948ea7" data-article-url="https://arxiv.org/abs/2605.28301" data-article-title="Better Accuracies, Worse Reasoning: A Step-Level Audit of Medical Chain-of-Thought Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28301" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28301" target="_blank" rel="noopener">Better Accuracies, Worse Reasoning: A Step-Level Audit of Medical Chain-of-Thought Distillation</a></h3>
      <p class="summary">Chain-of-thought (CoT) distillation trains a smaller model to imitate a teacher&#x27;s reasoning trace, but it is typically evaluated by final-a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b0b96298c43e" data-article-url="https://arxiv.org/abs/2605.28303" data-article-title="From Fact Overwriting to Knowledge Evolution: Causal Editing via On-Policy Self-Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28303" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28303" target="_blank" rel="noopener">From Fact Overwriting to Knowledge Evolution: Causal Editing via On-Policy Self-Distillation</a></h3>
      <p class="summary">While Knowledge Editing (KE) enables efficient updates, its dominant Static Fact Overwriting paradigm treats LLMs as discrete databases, fo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b68f553f5bc1" data-article-url="https://arxiv.org/abs/2605.28337" data-article-title="An Enhanced Large Neighborhood Search Approach for the Capacitated Facility Location Problem with Incompatible Customers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28337" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28337" target="_blank" rel="noopener">An Enhanced Large Neighborhood Search Approach for the Capacitated Facility Location Problem with Incompatible Customers</a></h3>
      <p class="summary">A new variant of the classic capacitated facility location problem, which considers incompatibilities between customers, has recently been…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b6c888a9f10e" data-article-url="https://arxiv.org/abs/2605.28338" data-article-title="SafeMed-R1: Clinician-Audited Safety and Ethics Alignment for Medical Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28338" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28338" target="_blank" rel="noopener">SafeMed-R1: Clinician-Audited Safety and Ethics Alignment for Medical Large Language Models</a></h3>
      <p class="summary">Large language models(LLMs) increasingly match expert performance on licensing examinations, yet routine clinical use remains limited becau…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5fa5f671b79e" data-article-url="https://arxiv.org/abs/2605.28345" data-article-title="Picid: A Modular Evaluation Infrastructure for Reproducible PHM Across Tasks and Domains" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28345" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28345" target="_blank" rel="noopener">Picid: A Modular Evaluation Infrastructure for Reproducible PHM Across Tasks and Domains</a></h3>
      <p class="summary">Progress in Prognostics and Health Management (PHM) is hindered by the lack of standardized and reusable evaluation practices across tasks,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4978a97a616b" data-article-url="https://arxiv.org/abs/2605.28347" data-article-title="FedMPT: Federated Multi-label Prompt Tuning of Vision-Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28347" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28347" target="_blank" rel="noopener">FedMPT: Federated Multi-label Prompt Tuning of Vision-Language Models</a></h3>
      <p class="summary">Multi-Label Recognition (MLR) based on Vision-Language Models (VLMs) aims to leverage their pre-trained knowledge to better adapt complex r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3404c9d00338" data-article-url="https://arxiv.org/abs/2605.28354" data-article-title="Plan Before Search: Search Agents Need Plan" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28354" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28354" target="_blank" rel="noopener">Plan Before Search: Search Agents Need Plan</a></h3>
      <p class="summary">Training large language models as retrieval-augmented reasoning agents typically combines reinforcement learning with an SFT cold start dis…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="292a1232ca65" data-article-url="https://arxiv.org/abs/2605.28359" data-article-title="From Knowing to Doing: A Memory-Controlled Benchmark for LLM Trading Agents on Stock Markets" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28359" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28359" target="_blank" rel="noopener">From Knowing to Doing: A Memory-Controlled Benchmark for LLM Trading Agents on Stock Markets</a></h3>
      <p class="summary">Evaluating whether large language model (LLM) agents can profit in capital markets is increasingly framed as end-to-end trading: place an a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1db4644e813c" data-article-url="https://arxiv.org/abs/2605.28360" data-article-title="Prompt Codebooks: Discrete Compositional Optimization for Language Model Instruction Refinement" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28360" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28360" target="_blank" rel="noopener">Prompt Codebooks: Discrete Compositional Optimization for Language Model Instruction Refinement</a></h3>
      <p class="summary">Automatic prompt optimization (APO) has driven significant gains in LLM-based agentic workflows. However, existing methods treat each task&#x27;…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fbdc31cfc831" data-article-url="https://arxiv.org/abs/2605.28365" data-article-title="Risk-Controlled Lean-as-Judge for Natural-Language Mathematical Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28365" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28365" target="_blank" rel="noopener">Risk-Controlled Lean-as-Judge for Natural-Language Mathematical Reasoning</a></h3>
      <p class="summary">Lean is increasingly used to judge natural-language mathematical answers, but its signal is partial: many answers never formalize, and a fa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e49f21580e7a" data-article-url="https://arxiv.org/abs/2605.28369" data-article-title="CyberJurors: A Multi-Agent Simulation Task for E-Commerce Disputes Verdict" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28369" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28369" target="_blank" rel="noopener">CyberJurors: A Multi-Agent Simulation Task for E-Commerce Disputes Verdict</a></h3>
      <p class="summary">E-commerce platforms have begun recruiting crowdsourced jurors to adjudicate massive volumes of transaction disputes. Unlike formal legal j…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c7d80b23177f" data-article-url="https://arxiv.org/abs/2605.28371" data-article-title="From paper to benchmark: agentic, framework-based reproduction of under-specified methods in machine health intelligence" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28371" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28371" target="_blank" rel="noopener">From paper to benchmark: agentic, framework-based reproduction of under-specified methods in machine health intelligence</a></h3>
      <p class="summary">Industrial Prognostics and Health Management (PHM) provides a representative case study for a broader challenge in applied machine learning…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dcb4d532c53a" data-article-url="https://arxiv.org/abs/2605.28388" data-article-title="Mechanistically Interpreting the Role of Sample Difficulty in RLVR for LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28388" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28388" target="_blank" rel="noopener">Mechanistically Interpreting the Role of Sample Difficulty in RLVR for LLMs</a></h3>
      <p class="summary">Reinforcement Learning with Verifiable Reward (RLVR) is empirically shown to notably enhance the reasoning performance of large language mo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3602cee28c00" data-article-url="https://arxiv.org/abs/2605.28390" data-article-title="You Live More Than Once: Towards Hierarchical Skill Meta-Evolving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28390" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28390" target="_blank" rel="noopener">You Live More Than Once: Towards Hierarchical Skill Meta-Evolving</a></h3>
      <p class="summary">Test-time skill evolving is regarded as a new paradigm for enhancing deployed agentic systems. Existing works mainly focus on hard-coded sk…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a6661405afb2" data-article-url="https://arxiv.org/abs/2605.28398" data-article-title="HRBench: Benchmarking and Understanding Thinking-Mode Switch Strategies in Hybrid-Reasoning LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28398" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28398" target="_blank" rel="noopener">HRBench: Benchmarking and Understanding Thinking-Mode Switch Strategies in Hybrid-Reasoning LLMs</a></h3>
      <p class="summary">Hybrid-reasoning large language models (LLMs) expose explicit controls over reasoning effort, allowing users or systems to trade off answer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a428a0c8ffdc" data-article-url="https://arxiv.org/abs/2605.28405" data-article-title="Measuring Progress Toward AGI: A Cognitive Framework" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28405" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28405" target="_blank" rel="noopener">Measuring Progress Toward AGI: A Cognitive Framework</a></h3>
      <p class="summary">Despite widespread discussion of AGI, there is no clear framework for measuring progress toward it. This ambiguity fuels subjective claims,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1adb666efbc6" data-article-url="https://arxiv.org/abs/2605.28409" data-article-title="Efficient Post-training of LLMs for Code Generation With Offline Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28409" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28409" target="_blank" rel="noopener">Efficient Post-training of LLMs for Code Generation With Offline Reinforcement Learning</a></h3>
      <p class="summary">Post-training using online reinforcement learning (RL) is an important training step for LLMs, including code-generating models. However, o…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bf78fd6cac07" data-article-url="https://arxiv.org/abs/2605.28421" data-article-title="DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28421" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28421" target="_blank" rel="noopener">DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes</a></h3>
      <p class="summary">Reinforcement learning has become a central paradigm for advancing reasoning in large language models, yet most existing methods still depe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="77ec72b4cfa6" data-article-url="https://arxiv.org/abs/2605.28454" data-article-title="GONDOR to the Rescue: Satisficing Planning with Low Memory" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28454" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28454" target="_blank" rel="noopener">GONDOR to the Rescue: Satisficing Planning with Low Memory</a></h3>
      <p class="summary">Greedy Best-First Search (GBFS) is the dominant approach for solving search problems where the goal can be estimated with a heuristic, such…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d86e49d2a5d8" data-article-url="https://arxiv.org/abs/2605.28456" data-article-title="Diffusion Large Language Models for Visual Speech Recognition" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28456" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28456" target="_blank" rel="noopener">Diffusion Large Language Models for Visual Speech Recognition</a></h3>
      <p class="summary">Existing Visual Speech Recognition (VSR) systems commonly rely on left-to-right autoregressive decoding, which can force premature decision…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6958a7b683f8" data-article-url="https://arxiv.org/abs/2605.28483" data-article-title="From Learning Resources to Competencies: LLM-Based Tagging with Evidence and Graph Constraints" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28483" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28483" target="_blank" rel="noopener">From Learning Resources to Competencies: LLM-Based Tagging with Evidence and Graph Constraints</a></h3>
      <p class="summary">Linking learning resources to a structured competency framework is key to enabling competency-based search and curriculum analytics in Lear…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="566bb4c3dc94" data-article-url="https://arxiv.org/abs/2605.28487" data-article-title="ProvMind: Provenance-grounded reasoning for materials synthesis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28487" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28487" target="_blank" rel="noopener">ProvMind: Provenance-grounded reasoning for materials synthesis</a></h3>
      <p class="summary">Materials process optimization requires reasoning over routes, conditions, tools and causal dependencies, yet most computational formulatio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6cf27e874ad4" data-article-url="https://arxiv.org/abs/2605.28508" data-article-title="Benchmarking AI for low-resource contexts: Thinking beyond leaderboards" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28508" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28508" target="_blank" rel="noopener">Benchmarking AI for low-resource contexts: Thinking beyond leaderboards</a></h3>
      <p class="summary">Existing AI evaluation practices often fail to capture how systems actually perform in low-resource environments, where operational constra…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cc1d9c7d3f70" data-article-url="https://arxiv.org/abs/2605.28520" data-article-title="GS-FUSE: Granger-Supervised Gated Fusion and Multi-Granularity Alignment for Event-Driven Financial Forecasting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-regulation">規制/政策</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28520" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28520" target="_blank" rel="noopener">GS-FUSE: Granger-Supervised Gated Fusion and Multi-Granularity Alignment for Event-Driven Financial Forecasting</a></h3>
      <p class="summary">Accurately forecasting the impact of salient financial events on markets is critical for investors and policymakers. However, existing mult…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="177b5db3dc13" data-article-url="https://arxiv.org/abs/2605.28524" data-article-title="Let Relations Speak: An End-to-End LLM-GNN Soft Prompt Framework for Fraud Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28524" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28524" target="_blank" rel="noopener">Let Relations Speak: An End-to-End LLM-GNN Soft Prompt Framework for Fraud Detection</a></h3>
      <p class="summary">In recent years, Large Language Models (LLMs) have shown great capability in processing graph tasks such as fraud detection. However, most…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6983d9bd1216" data-article-url="https://arxiv.org/abs/2605.28526" data-article-title="Entropy-aware Masking for Masked Language Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28526" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28526" target="_blank" rel="noopener">Entropy-aware Masking for Masked Language Modeling</a></h3>
      <p class="summary">Masked language modeling has become a standard pretraining objective for training encoder-based language models. In this approach, certain…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2587db61459a" data-article-url="https://arxiv.org/abs/2605.28532" data-article-title="Do Agents Know What They Can&#x27;t Do? Evaluating Feasibility Awareness in Tool-Using Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28532" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28532" target="_blank" rel="noopener">Do Agents Know What They Can&#x27;t Do? Evaluating Feasibility Awareness in Tool-Using Agents</a></h3>
      <p class="summary">Tool-using agents often incur substantial computational cost due to long reasoning chains and iterative tool usage. In practical scenarios,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ae2a57f7054a" data-article-url="https://arxiv.org/abs/2605.28543" data-article-title="Cultural Binding Heads in Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28543" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28543" target="_blank" rel="noopener">Cultural Binding Heads in Language Models</a></h3>
      <p class="summary">LLMs often default to equal treatment across cultural groups, even though context warrants differentiation: this is a lack of difference aw…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="18f6c461bf52" data-article-url="https://arxiv.org/abs/2605.28552" data-article-title="Modeling Vehicle-Type-Specific Pedestrian Crash Avoidance Behavior in Safety-Critical Interactions Using Smooth-Mamba Deep Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28552" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28552" target="_blank" rel="noopener">Modeling Vehicle-Type-Specific Pedestrian Crash Avoidance Behavior in Safety-Critical Interactions Using Smooth-Mamba Deep Reinforcement Learning</a></h3>
      <p class="summary">As automated vehicles (AVs) increasingly share roadways with human-driven vehicles (HDVs), understanding how pedestrians respond to differe…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8165d49af6f4" data-article-url="https://arxiv.org/abs/2605.28553" data-article-title="Refusal Before Decoding: Detecting and Exploiting Refusal Signals in Intermediate LLM Activations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28553" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28553" target="_blank" rel="noopener">Refusal Before Decoding: Detecting and Exploiting Refusal Signals in Intermediate LLM Activations</a></h3>
      <p class="summary">In this paper, we investigate whether refusal behavior can be predicted from LLM intermediate activations before decoding using linear prob…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fda42ad4caf0" data-article-url="https://arxiv.org/abs/2605.28556" data-article-title="A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28556" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28556" target="_blank" rel="noopener">A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks</a></h3>
      <p class="summary">As agent capabilities advance, existing benchmarks, such as $\tau^2$-Bench, are becoming increasingly saturated. Yet constructing new bench…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3b702f04e14c" data-article-url="https://arxiv.org/abs/2605.28566" data-article-title="Tree of Thoughts as a Classical Heuristic Search Problem: Formal Foundations and Design Patterns" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28566" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28566" target="_blank" rel="noopener">Tree of Thoughts as a Classical Heuristic Search Problem: Formal Foundations and Design Patterns</a></h3>
      <p class="summary">Large Language Models (LLMs) have demonstrated remarkable reasoning capabilities, yet their standard generation process -- auto-regressive…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a0684144cef7" data-article-url="https://arxiv.org/abs/2605.28575" data-article-title="A Conflict-Aware Penalty and Statistical Loss Framework for Balancing Modalities and Enhancing Stability in Multimodal Sentiment Analysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28575" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28575" target="_blank" rel="noopener">A Conflict-Aware Penalty and Statistical Loss Framework for Balancing Modalities and Enhancing Stability in Multimodal Sentiment Analysis</a></h3>
      <p class="summary">Multimodal Sentiment Analysis (MSA) fuses text, acoustic, and visual streams to infer sentiment. Because pre-trained text encoders are far…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="700743c6cbe6" data-article-url="https://arxiv.org/abs/2605.28577" data-article-title="Continual Model Routing in Evolving Model Hubs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28577" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28577" target="_blank" rel="noopener">Continual Model Routing in Evolving Model Hubs</a></h3>
      <p class="summary">AI model hubs provide access to a rapidly growing collection of powerful pre-trained models, enabling off-the-shelf mixture-of-experts syst…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="74c076f3c609" data-article-url="https://arxiv.org/abs/2605.28579" data-article-title="MUSE: Benchmarking Manufacturable, Functional, and Assemblable Text-to-CAD Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28579" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28579" target="_blank" rel="noopener">MUSE: Benchmarking Manufacturable, Functional, and Assemblable Text-to-CAD Generation</a></h3>
      <p class="summary">Large language models (LLMs) have recently advanced text-driven 3D generation, yet Text-to-CAD remains far from supporting industrial produ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7653da110c6f" data-article-url="https://arxiv.org/abs/2605.28602" data-article-title="Satisfiability Solving with LLMs: A Matched-Pair Evaluation of Reasoning Capability" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28602" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28602" target="_blank" rel="noopener">Satisfiability Solving with LLMs: A Matched-Pair Evaluation of Reasoning Capability</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly used for tasks that implicitly reduce to Boolean satisfiability (SAT), yet their reasoning ab…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9ab66e8e8bf2" data-article-url="https://arxiv.org/abs/2605.28607" data-article-title="Adaptive Multimodal Agents-Based Framework for Automatic Workflow Execution" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28607" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28607" target="_blank" rel="noopener">Adaptive Multimodal Agents-Based Framework for Automatic Workflow Execution</a></h3>
      <p class="summary">Modern information systems require autonomous agents capable of navigating complex workflows, yet current methodologies often struggle with…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="225b612bb3ff" data-article-url="https://arxiv.org/abs/2605.28617" data-article-title="LACUNA: Safe Agents as Recursive Program Holes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28617" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28617" target="_blank" rel="noopener">LACUNA: Safe Agents as Recursive Program Holes</a></h3>
      <p class="summary">LLM agents increasingly act by writing code, yet a split persists between the runtime that drives the agent and the code the model writes.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="20c4b40ad33a" data-article-url="https://arxiv.org/abs/2605.28642" data-article-title="Bandwidth-Efficient and Privacy-Preserving Edge-Cloud Many-to-Many Speech Translation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28642" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28642" target="_blank" rel="noopener">Bandwidth-Efficient and Privacy-Preserving Edge-Cloud Many-to-Many Speech Translation</a></h3>
      <p class="summary">Multimodal large language models (MLLMs) have demonstrated significant potential for speech-to-text translation (S2TT). However, existing d…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e52f07b5d171" data-article-url="https://arxiv.org/abs/2605.28647" data-article-title="The Ethics of LLM Sandbox and Persona Dynamics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28647" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28647" target="_blank" rel="noopener">The Ethics of LLM Sandbox and Persona Dynamics</a></h3>
      <p class="summary">It is well known that LLM guardrails and trained persona dynamics can produce a reality gap: the distance between the world a LLM is permit…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c7d7b0f879c1" data-article-url="https://arxiv.org/abs/2605.28655" data-article-title="AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28655" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28655" target="_blank" rel="noopener">AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation</a></h3>
      <p class="summary">Scientific research proceeds through iterative cycles of hypothesis generation, experiment design, execution, and revision. AI agents can a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="02776661286b" data-article-url="https://arxiv.org/abs/2605.28666" data-article-title="An LLM-Based Assistance System for Intuitive and Flexible Capability-Based Planning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28666" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28666" target="_blank" rel="noopener">An LLM-Based Assistance System for Intuitive and Flexible Capability-Based Planning</a></h3>
      <p class="summary">In modern industry, dynamic environments and the complexity of modular and reconfigurable resources require automated planning of process s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="25b34497e00b" data-article-url="https://arxiv.org/abs/2605.28678" data-article-title="DREAM-R: Multimodal Speculative Reasoning with RL-Based Refined Drafting, Precise Verification, and Fully Parallel Execution" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28678" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28678" target="_blank" rel="noopener">DREAM-R: Multimodal Speculative Reasoning with RL-Based Refined Drafting, Precise Verification, and Fully Parallel Execution</a></h3>
      <p class="summary">Speculative reasoning has recently been proposed as a means to accelerate reasoning-intensive generation in large multimodal models, but it…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f3d5ec14f72" data-article-url="https://arxiv.org/abs/2605.28683" data-article-title="VeriTrip: A Verifiable Benchmark for Travel Planning Agents over Unstructured Web Corpora" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28683" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28683" target="_blank" rel="noopener">VeriTrip: A Verifiable Benchmark for Travel Planning Agents over Unstructured Web Corpora</a></h3>
      <p class="summary">Existing benchmarks have laid the foundation for travel planning agents by establishing API-centric paradigms. However, as the capabilities…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a540b6e93a45" data-article-url="https://arxiv.org/abs/2605.28699" data-article-title="TRACER: Turn-level Regret Matching with Inner Reinforcement Credit for Cooperative Multi-LLM Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28699" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28699" target="_blank" rel="noopener">TRACER: Turn-level Regret Matching with Inner Reinforcement Credit for Cooperative Multi-LLM Reasoning</a></h3>
      <p class="summary">Large language models increasingly rely on either reinforcement learning or multi-agent prompting to improve reasoning, yet these two parad…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b936f9a729ee" data-article-url="https://arxiv.org/abs/2605.28700" data-article-title="The Importance of Being Statistically Earnest: A Critical Re-evaluation of GSM-Symbolic" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28700" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28700" target="_blank" rel="noopener">The Importance of Being Statistically Earnest: A Critical Re-evaluation of GSM-Symbolic</a></h3>
      <p class="summary">The GSM-Symbolic benchmark (Mirzadeh et al., 2025) reported consistent performance drops across 25 Large Language Models (LLMs) when tested…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2afc0c57a6bc" data-article-url="https://arxiv.org/abs/2605.28707" data-article-title="Beyond Binary Moral Judgment: Modeling Ethical Pluralism in AI" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28707" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28707" target="_blank" rel="noopener">Beyond Binary Moral Judgment: Modeling Ethical Pluralism in AI</a></h3>
      <p class="summary">Critical decision-making in socially consequential spaces is increasingly involving AI systems at varying capacities. Yet, despite the ubiq…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="33f8b08b4c45" data-article-url="https://arxiv.org/abs/2605.28713" data-article-title="Thinking as Compression: Your Reasoning Model is Secretly a Context Compressor" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28713" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28713" target="_blank" rel="noopener">Thinking as Compression: Your Reasoning Model is Secretly a Context Compressor</a></h3>
      <p class="summary">Context compression aims to shorten long context inputs with minimal information loss for LLM inference acceleration. While existing method…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4073e6235d25" data-article-url="https://arxiv.org/abs/2605.28717" data-article-title="OpenURMA: A Clean-Room Open Implementation of the Unified Bus Protocol" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28717" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28717" target="_blank" rel="noopener">OpenURMA: A Clean-Room Open Implementation of the Unified Bus Protocol</a></h3>
      <p class="summary">Modern datacenter RDMA is bottlenecked at the network interface, not the wire. A NIC running RoCE or InfiniBand holds per-connection state…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8fc11f6e090d" data-article-url="https://arxiv.org/abs/2605.28721" data-article-title="LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28721" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28721" target="_blank" rel="noopener">LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?</a></h3>
      <p class="summary">Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp wi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="24f84c5c9a4a" data-article-url="https://arxiv.org/abs/2605.28722" data-article-title="Multi-Adapter Representation Interventions via Energy Calibration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28722" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28722" target="_blank" rel="noopener">Multi-Adapter Representation Interventions via Energy Calibration</a></h3>
      <p class="summary">Representation intervention has emerged as a promising paradigm for aligning large language models toward desired behaviors without modifyi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d33405439918" data-article-url="https://arxiv.org/abs/2605.28730" data-article-title="AlphaTransit: Learning to Design City-scale Transit Routes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28730" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28730" target="_blank" rel="noopener">AlphaTransit: Learning to Design City-scale Transit Routes</a></h3>
      <p class="summary">Designing a transit network requires many sequential route extension decisions, but their quality is often visible only after the full netw…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="37b0fc5b1ad2" data-article-url="https://arxiv.org/abs/2605.28733" data-article-title="Utility-Aware Multimodal Contrastive Learning for Product Image Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28733" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28733" target="_blank" rel="noopener">Utility-Aware Multimodal Contrastive Learning for Product Image Generation</a></h3>
      <p class="summary">Product images strongly influence consumer decision-making in online marketplaces. Empowered by multimodal contrastive learning, generative…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a9b42d1bc208" data-article-url="https://arxiv.org/abs/2605.28742" data-article-title="CORE: Contrastive Reflection Enables Rapid Improvements in Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28742" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28742" target="_blank" rel="noopener">CORE: Contrastive Reflection Enables Rapid Improvements in Reasoning</a></h3>
      <p class="summary">Language models can use verifiable rewards to improve at a wide variety of reasoning tasks. However, both parametric (e.g. RLVR) and non-pa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0ea4b5dda6c9" data-article-url="https://arxiv.org/abs/2605.28763" data-article-title="CubePart: An Open-Vocabulary Part-Controllable 3D Generator" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28763" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28763" target="_blank" rel="noopener">CubePart: An Open-Vocabulary Part-Controllable 3D Generator</a></h3>
      <p class="summary">Interactive 3D assets used in games and simulation are typically decomposed into specific semantic parts to support animation, physics, and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fad43b10d8f9" data-article-url="https://arxiv.org/abs/2605.28764" data-article-title="SwarmHarness: Skill-Based Task Routing via Decentralized Incentive-Aligned AI Agent Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28764" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28764" target="_blank" rel="noopener">SwarmHarness: Skill-Based Task Routing via Decentralized Incentive-Aligned AI Agent Networks</a></h3>
      <p class="summary">Vast quantities of compute (GPU cycles on personal workstations, idle inference servers, and edge devices between jobs) go unused because n…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a282a9407455" data-article-url="https://arxiv.org/abs/2605.28792" data-article-title="CaMBRAIN: Real-time, Continuous EEG Inference with Causal State Space Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28792" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28792" target="_blank" rel="noopener">CaMBRAIN: Real-time, Continuous EEG Inference with Causal State Space Models</a></h3>
      <p class="summary">Electroencephalography (EEG) is a critical, non-invasive method to monitor electrical brain activity. EEGs can span anywhere from a couple…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3cb503994cae" data-article-url="https://arxiv.org/abs/2605.28807" data-article-title="Calibrating Conservatism for Scalable Oversight" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28807" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28807" target="_blank" rel="noopener">Calibrating Conservatism for Scalable Oversight</a></h3>
      <p class="summary">Agentic AI systems capable of autonomous planning and extended environmental interaction pose a fundamental control problem: how can humans…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dec029f89061" data-article-url="https://arxiv.org/abs/2508.08935" data-article-title="LNN-PINN: A Unified Physics-Only Training Framework with Liquid Residual Blocks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2508.08935" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2508.08935" target="_blank" rel="noopener">LNN-PINN: A Unified Physics-Only Training Framework with Liquid Residual Blocks</a></h3>
      <p class="summary">Physics-informed neural networks (PINNs) have attracted considerable attention for their ability to integrate partial differential equation…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="77145b17f3cc" data-article-url="https://arxiv.org/abs/2605.27376" data-article-title="Unlocking Fine-Grained and Within-Utterance Speaking Style Control in Prompt-Based Text-to-Speech Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27376" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27376" target="_blank" rel="noopener">Unlocking Fine-Grained and Within-Utterance Speaking Style Control in Prompt-Based Text-to-Speech Models</a></h3>
      <p class="summary">While prompt-based text-to-speech (TTS) models enable natural language-driven speaking style control, they often provide limited fine-grain…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="695f7dfaf731" data-article-url="https://arxiv.org/abs/2605.27377" data-article-title="RAG-Coding: Enhancing LLM Medical Coding with Structured External Knowledge" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27377" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27377" target="_blank" rel="noopener">RAG-Coding: Enhancing LLM Medical Coding with Structured External Knowledge</a></h3>
      <p class="summary">We present RAG-Coding, an agentic method for automated ICD-10-CM coding. RAG-Coding orchestrates four large language model (LLM) agents and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bce560a7e217" data-article-url="https://arxiv.org/abs/2605.27380" data-article-title="BioELX: Cross-lingual Biomedical Entity Linking via Alias-based Retrieval and LLM Ranking" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27380" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27380" target="_blank" rel="noopener">BioELX: Cross-lingual Biomedical Entity Linking via Alias-based Retrieval and LLM Ranking</a></h3>
      <p class="summary">Cross-lingual biomedical entity linking (BEL) maps mentions in any language to unique identifiers in a biomedical knowledge base (KB), supp…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="17c233afc177" data-article-url="https://arxiv.org/abs/2605.27381" data-article-title="The Computational Boundary of Inference: Capability Internalization, Training, and the Turing Jump" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27381" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27381" target="_blank" rel="noopener">The Computational Boundary of Inference: Capability Internalization, Training, and the Turing Jump</a></h3>
      <p class="summary">Claims about recursive self-improvement in AI often slide from repeated internal revision to the possibility of qualitatively stronger capa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="60fff3ff8ffa" data-article-url="https://arxiv.org/abs/2605.27382" data-article-title="The Alignment Floor: When Persona Customization Is Safe" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27382" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27382" target="_blank" rel="noopener">The Alignment Floor: When Persona Customization Is Safe</a></h3>
      <p class="summary">A key promise of pluralistic AI is behavioral adaptation: persona prompts like &quot;be creative&quot; or &quot;be thorough&quot; let systems respect diverse u…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d51da2b5672d" data-article-url="https://arxiv.org/abs/2605.27383" data-article-title="Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27383" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27383" target="_blank" rel="noopener">Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models</a></h3>
      <p class="summary">Spoken Language Models (SLMs) have emerged as a promising paradigm for speech synthesis by bypassing explicit grapheme-to-phoneme pipelines…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="88c0a287916c" data-article-url="https://arxiv.org/abs/2605.27384" data-article-title="From Instructor to Collaborator: What a 90-Participant Study Reveals about Human-Agent Collaboration in a Mobile Serious Game" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27384" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27384" target="_blank" rel="noopener">From Instructor to Collaborator: What a 90-Participant Study Reveals about Human-Agent Collaboration in a Mobile Serious Game</a></h3>
      <p class="summary">This position paper reflects empirical data collected during my PhD from a large-scale within-subjects study (N = 90). The study compared a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0638f4a1f31e" data-article-url="https://arxiv.org/abs/2605.27385" data-article-title="Personalized Observation Normalization for Federated Reinforcement Learning in Simulation Environments with Heterogeneity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27385" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27385" target="_blank" rel="noopener">Personalized Observation Normalization for Federated Reinforcement Learning in Simulation Environments with Heterogeneity</a></h3>
      <p class="summary">Federated reinforcement learning (FedRL) enables multiple agents to collaboratively train a global policy without sharing raw data, making…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="225c28afea5d" data-article-url="https://arxiv.org/abs/2605.27387" data-article-title="From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27387" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27387" target="_blank" rel="noopener">From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons</a></h3>
      <p class="summary">Diffusion models promise efficient parallel text generation but rely on bidirectional attention, creating a structural mismatch with pre-tr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8a7cf7eef499" data-article-url="https://arxiv.org/abs/2605.27388" data-article-title="Modeling Community Attitude through Reaction Tone: A Human-AI Collaborative Framework for Evaluating LLM Alignment with Linguistic Behaviors in Online Communities" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27388" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27388" target="_blank" rel="noopener">Modeling Community Attitude through Reaction Tone: A Human-AI Collaborative Framework for Evaluating LLM Alignment with Linguistic Behaviors in Online Communities</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly utilized as proxies for computational social analysis; yet, their ability to faithfully repre…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7b6add8501fc" data-article-url="https://arxiv.org/abs/2605.27389" data-article-title="Memory-Based vs. Context-Only Conditioning Produces Distinct Behavioral Patterns in Stateful Personalization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27389" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27389" target="_blank" rel="noopener">Memory-Based vs. Context-Only Conditioning Produces Distinct Behavioral Patterns in Stateful Personalization</a></h3>
      <p class="summary">We study how conditioning context shapes personalization behavior in a teacher-facing educational recommender system. We compare contextual…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0fbe971bc1d9" data-article-url="https://arxiv.org/abs/2605.27390" data-article-title="EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27390" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27390" target="_blank" rel="noopener">EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget</a></h3>
      <p class="summary">Speculative decoding accelerates Large Language Model inference via a draft-then-verify paradigm, yet the output projection layer becomes a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="650ee62aac8e" data-article-url="https://arxiv.org/abs/2605.27391" data-article-title="Learning after COVID-19 and the ICT career aspirations: Are students entering the AI era with weaker skills?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27391" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27391" target="_blank" rel="noopener">Learning after COVID-19 and the ICT career aspirations: Are students entering the AI era with weaker skills?</a></h3>
      <p class="summary">This paper examines whether students are entering the generative AI era with sufficiently strong educational foundations, focusing on the r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d6d08d050f6b" data-article-url="https://arxiv.org/abs/2605.27393" data-article-title="StoryMI: Steerable Multi-Agent Therapeutic Dialogue Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27393" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27393" target="_blank" rel="noopener">StoryMI: Steerable Multi-Agent Therapeutic Dialogue Generation</a></h3>
      <p class="summary">Large language models (LLMs) can generate fluent dialogue, but prior works lack situational grounding, dynamic strategy control, and evalua…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a7849085359f" data-article-url="https://arxiv.org/abs/2605.27394" data-article-title="Human-AI Collaboration for Estimating Scientific Replicability" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27394" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27394" target="_blank" rel="noopener">Human-AI Collaboration for Estimating Scientific Replicability</a></h3>
      <p class="summary">Determining whether published scientific findings can successfully be replicated is a long-standing challenge in the empirical sciences. Ex…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f06a309ff69b" data-article-url="https://arxiv.org/abs/2605.27395" data-article-title="Informing AI Policy Assessment using Large-Scale Simulation of Interventions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27395" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27395" target="_blank" rel="noopener">Informing AI Policy Assessment using Large-Scale Simulation of Interventions</a></h3>
      <p class="summary">As the rapid proliferation of AI systems and harms spurs efforts in AI governance around the world, prioritizing among competing policy opt…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="70b6616f5365" data-article-url="https://arxiv.org/abs/2605.27396" data-article-title="Agentic Literacy Debt: A Structural Problem the AI Literacy Field Has Not Yet Named" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27396" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27396" target="_blank" rel="noopener">Agentic Literacy Debt: A Structural Problem the AI Literacy Field Has Not Yet Named</a></h3>
      <p class="summary">Autonomous AI agents now plan, decide, and act on behalf of users across healthcare, financial services, and workplace contexts, often with…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="298dee320de0" data-article-url="https://arxiv.org/abs/2605.27399" data-article-title="Short-Term Gain, Long-Term Fragility: AI Labor Substitution and the Erosion of Sustainable Capability" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27399" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27399" target="_blank" rel="noopener">Short-Term Gain, Long-Term Fragility: AI Labor Substitution and the Erosion of Sustainable Capability</a></h3>
      <p class="summary">What looks like acceleration can be a quiet transfer of burden from the present to the future. Attempts to replace human labor with AI syst…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d03831391c0a" data-article-url="https://arxiv.org/abs/2605.27400" data-article-title="Mathematical Modelling of Ethical AI Use in Higher Education: A Coordination Game Framework for Future-Facing Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27400" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27400" target="_blank" rel="noopener">Mathematical Modelling of Ethical AI Use in Higher Education: A Coordination Game Framework for Future-Facing Learning</a></h3>
      <p class="summary">The rapid uptake of generative artificial intelligence (AI) in higher education is reshaping assessment practices and intensifying concerns…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fa8be62066a6" data-article-url="https://arxiv.org/abs/2605.27401" data-article-title="Using Zero-Shot LLM-Generated Survey Data for Geographically Explicit Population Synthesis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27401" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27401" target="_blank" rel="noopener">Using Zero-Shot LLM-Generated Survey Data for Geographically Explicit Population Synthesis</a></h3>
      <p class="summary">There is a growing interest in utilizing synthetic populations for a diverse range of applications. At the same time, we are witnessing a t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="57761c418f7d" data-article-url="https://arxiv.org/abs/2605.27402" data-article-title="REC-CBM: Rubric-Aware Error-Correction Concept Bottleneck Models for Trustworthy Open-Ended Grading" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27402" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27402" target="_blank" rel="noopener">REC-CBM: Rubric-Aware Error-Correction Concept Bottleneck Models for Trustworthy Open-Ended Grading</a></h3>
      <p class="summary">Open-ended grading is central to equitable and personalized education, yet manual grading remains time-consuming and costly, underscoring t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3cff89fb8fd4" data-article-url="https://arxiv.org/abs/2605.27403" data-article-title="LLM-assisted sentiment analysis for integrated computational and qualitative mixed methods education research: A case study of students&#x27; written reflection assignments" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27403" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27403" target="_blank" rel="noopener">LLM-assisted sentiment analysis for integrated computational and qualitative mixed methods education research: A case study of students&#x27; written reflection assignments</a></h3>
      <p class="summary">Written reflection assignments give students valuable opportunities for critical self-assessment, meaning making, and learning processing.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="050a1a9aacb5" data-article-url="https://arxiv.org/abs/2605.27404" data-article-title="Smaller, Younger, and More Impactful: How AI-Assisted Writing Transforms Research Teams" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27404" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27404" target="_blank" rel="noopener">Smaller, Younger, and More Impactful: How AI-Assisted Writing Transforms Research Teams</a></h3>
      <p class="summary">The era of Big Science has long been defined by increasingly large and specialized research teams pushing the frontiers of knowledge. Howev…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="725f847147f0" data-article-url="https://arxiv.org/abs/2605.27407" data-article-title="Benchmarking Fairness in Spiking Neural Networks: Data Bias, Spurious Features, and Hardware Effects" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27407" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27407" target="_blank" rel="noopener">Benchmarking Fairness in Spiking Neural Networks: Data Bias, Spurious Features, and Hardware Effects</a></h3>
      <p class="summary">Evaluating fairness in Spiking Neural Networks (SNNs) demands rigorous benchmarks that reflect real-world complexities, yet existing assess…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c753f430bb88" data-article-url="https://arxiv.org/abs/2605.27409" data-article-title="STARS: Spike Tail-Aware Relational Synthesis for ANN-to-SNN Data-Free Knowledge Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27409" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27409" target="_blank" rel="noopener">STARS: Spike Tail-Aware Relational Synthesis for ANN-to-SNN Data-Free Knowledge Distillation</a></h3>
      <p class="summary">SNNs promise energy-efficient and low-latency inference, but their performance still trails that of ANNs. ANN-to-SNN knowledge distillation…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d37830b1474f" data-article-url="https://arxiv.org/abs/2605.27412" data-article-title="Advancing Direct Training for Spiking Neural Networks with Circulate-Firing Neurons and Learnable Gradients" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27412" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27412" target="_blank" rel="noopener">Advancing Direct Training for Spiking Neural Networks with Circulate-Firing Neurons and Learnable Gradients</a></h3>
      <p class="summary">Spiking Neural Networks (SNNs) have emerged with promising energy-efficient property, yet a substantial performance gap persists compared t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f46732c5bfc9" data-article-url="https://arxiv.org/abs/2605.27413" data-article-title="Ligand-Conditioned Discrete Diffusion for Protein Sequence-Structure Co-Design" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27413" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27413" target="_blank" rel="noopener">Ligand-Conditioned Discrete Diffusion for Protein Sequence-Structure Co-Design</a></h3>
      <p class="summary">Proteins perform their biological functions through three-dimensional structures encoded by amino acid sequences, and ligand-binding protei…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e5413d079ec1" data-article-url="https://arxiv.org/abs/2605.27416" data-article-title="Can Quantum Federated Learning Withstand Circuit-Level Backdoors?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27416" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27416" target="_blank" rel="noopener">Can Quantum Federated Learning Withstand Circuit-Level Backdoors?</a></h3>
      <p class="summary">Quantum Federated Learning (QFL) inherits the core vulnerability of federated optimization to malicious clients, while also introducing an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="755f9a155174" data-article-url="https://arxiv.org/abs/2605.27417" data-article-title="Quantum Machine Learning-based 6G edge Network: Enabling Adaptive Communication and Model Aggregation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27417" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27417" target="_blank" rel="noopener">Quantum Machine Learning-based 6G edge Network: Enabling Adaptive Communication and Model Aggregation</a></h3>
      <p class="summary">With the advent of sixth-generation (6G) mobile communication technology, vehicle-to-everything (V2X) communication faces unprecedented cha…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7cf84a4cb8d1" data-article-url="https://arxiv.org/abs/2605.27429" data-article-title="Ocean4Rec: Offline LLM-Derived OCEAN Profiles for Request-Time VOD Reranking" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27429" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27429" target="_blank" rel="noopener">Ocean4Rec: Offline LLM-Derived OCEAN Profiles for Request-Time VOD Reranking</a></h3>
      <p class="summary">Industrial video-on-demand (VOD) recommenders need richer content understanding, but LLM-as-reranker designs repeat prompt construction, to…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bff9766777b7" data-article-url="https://arxiv.org/abs/2605.27431" data-article-title="Tackling Multimodal Learning Challenges with Mixture-of-Expert: A Survey" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27431" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27431" target="_blank" rel="noopener">Tackling Multimodal Learning Challenges with Mixture-of-Expert: A Survey</a></h3>
      <p class="summary">Mixture-of-Experts (MoE) presents a naturally compatible and scalable framework for multimodal learning, demonstrating strong adaptability…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8a004f1560ca" data-article-url="https://arxiv.org/abs/2605.27432" data-article-title="FD-RAG: Federated Dual-System Retrieval-Augmented Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27432" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27432" target="_blank" rel="noopener">FD-RAG: Federated Dual-System Retrieval-Augmented Generation</a></h3>
      <p class="summary">Retrieval-augmented generation (RAG) has emerged as a paradigm for grounding large language models in external knowledge, yet most existing…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e41133158a12" data-article-url="https://arxiv.org/abs/2605.27433" data-article-title="Heterogeneous Multi-Agent Modeling for Measurement and Network Analysis of the Data Service Market" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27433" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27433" target="_blank" rel="noopener">Heterogeneous Multi-Agent Modeling for Measurement and Network Analysis of the Data Service Market</a></h3>
      <p class="summary">With the increasing complexity of collaboration among various social entities and user demands, the factors affecting the stable developmen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="487fdc16af48" data-article-url="https://arxiv.org/abs/2605.27435" data-article-title="When NPUs Are Not Always Faster: A Stage-Level Analysis of Mobile LLM Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27435" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27435" target="_blank" rel="noopener">When NPUs Are Not Always Faster: A Stage-Level Analysis of Mobile LLM Inference</a></h3>
      <p class="summary">Deploying large language models (LLMs) on mobile devices increasingly relies on heterogeneous execution, yet no prior study has systematica…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b873a8e41539" data-article-url="https://arxiv.org/abs/2605.27436" data-article-title="RE-TRIANGLE: Does TRIANGLE Enable Multimodal Alignment Beyond Cosine Similarity in Retrieval?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27436" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27436" target="_blank" rel="noopener">RE-TRIANGLE: Does TRIANGLE Enable Multimodal Alignment Beyond Cosine Similarity in Retrieval?</a></h3>
      <p class="summary">Multimodal alignment is critical for bridging the semantic gap in information retrieval. However, traditional pairwise strategies introduce…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f3da6718822f" data-article-url="https://arxiv.org/abs/2605.27437" data-article-title="MGRetrieval: Memory-Guided Reflective Retrieval for Long-Term Dialogue Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27437" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27437" target="_blank" rel="noopener">MGRetrieval: Memory-Guided Reflective Retrieval for Long-Term Dialogue Agents</a></h3>
      <p class="summary">Large Language Models (LLMs) have made significant progress in dialogue, yet redundant memory contexts severely limit their effectiveness i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="246f78faaa6a" data-article-url="https://arxiv.org/abs/2605.27439" data-article-title="Prominence-Stratified Failure Modes in Retrieval-Augmented Commercial Recommendation: A 37,000-Run Audit" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27439" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27439" target="_blank" rel="noopener">Prominence-Stratified Failure Modes in Retrieval-Augmented Commercial Recommendation: A 37,000-Run Audit</a></h3>
      <p class="summary">AI assistants like ChatGPT and Claude are recommendation engines, not search engines: they answer commercial queries by directly nominating…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="35697f032d48" data-article-url="https://arxiv.org/abs/2605.27440" data-article-title="Paraphrase Brittleness in Production Retrieval-Augmented Commercial Recommendation: Reproducibility Below the Rerun-Stability Baseline" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/anthropic/" data-entity="anthropic">Anthropic</a><a class="entity-tag" href="/entity/openai/" data-entity="openai">OpenAI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27440" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27440" target="_blank" rel="noopener">Paraphrase Brittleness in Production Retrieval-Augmented Commercial Recommendation: Reproducibility Below the Rerun-Stability Baseline</a></h3>
      <p class="summary">Small changes to how a buyer phrases a question -- &quot;best CRM&quot; vs &quot;top CRM&quot; vs &quot;best CRM for a SaaS startup&quot; -- produce substantially differ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="daf34957fa4e" data-article-url="https://arxiv.org/abs/2605.27444" data-article-title="A Systematic Evaluation of Retrieval-Augmented Generation and Language Models for Space Operations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27444" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27444" target="_blank" rel="noopener">A Systematic Evaluation of Retrieval-Augmented Generation and Language Models for Space Operations</a></h3>
      <p class="summary">The rapid expansion of space activities has led to an unprecedented accumulation of technical documentation, operational guidelines, and sc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="adc8dee832b9" data-article-url="https://arxiv.org/abs/2605.27445" data-article-title="RAGe: A Retrieval-Augmented Generation Evaluation Framework" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27445" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27445" target="_blank" rel="noopener">RAGe: A Retrieval-Augmented Generation Evaluation Framework</a></h3>
      <p class="summary">Deploying Large Language Model (LLM) applications, particularly those relying on Retrieval-Augmented Generation (RAG), remains challenging…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="915da660d9af" data-article-url="https://arxiv.org/abs/2605.27449" data-article-title="Checking Fact with Better Retrieval: Dynamic Contrastive Learning for Evidence Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27449" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27449" target="_blank" rel="noopener">Checking Fact with Better Retrieval: Dynamic Contrastive Learning for Evidence Retrieval</a></h3>
      <p class="summary">In the field of multimodal fact checking, the accuracy of retrieving evidence from different modalities has a significant impact on the dow…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f3ba2481ae0" data-article-url="https://arxiv.org/abs/2605.27458" data-article-title="Generic Interpretation Approach for Transformer Models Incorporating Heterogenous Attention Structures" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27458" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27458" target="_blank" rel="noopener">Generic Interpretation Approach for Transformer Models Incorporating Heterogenous Attention Structures</a></h3>
      <p class="summary">Transformer has significantly propelled the development of artificial intelligence, and certainly the development of agents as well. We cat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="711896876325" data-article-url="https://arxiv.org/abs/2605.27463" data-article-title="When prompt perturbations break your A/B test: A valid statistical test for generative surveying" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27463" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27463" target="_blank" rel="noopener">When prompt perturbations break your A/B test: A valid statistical test for generative surveying</a></h3>
      <p class="summary">Generative surveying -- where collections of LLM-based personas provide feedback on messages -- has emerged as a cheap and scalable alterna…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d2fbbbbad8b4" data-article-url="https://arxiv.org/abs/2605.27464" data-article-title="Beyond Motion Primitives: Behavioral Activity Recognition from Head-Mounted IMU" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27464" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27464" target="_blank" rel="noopener">Beyond Motion Primitives: Behavioral Activity Recognition from Head-Mounted IMU</a></h3>
      <p class="summary">AR smart glasses need continuous behavioral context to offer proactive assistance, yet their most practical always-on sensor, the head-moun…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="97da53a1bc5d" data-article-url="https://arxiv.org/abs/2605.27465" data-article-title="AdaMerge: Salience-Aware Adaptive Token Merging for Training-Free Acceleration of Vision Transformers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27465" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27465" target="_blank" rel="noopener">AdaMerge: Salience-Aware Adaptive Token Merging for Training-Free Acceleration of Vision Transformers</a></h3>
      <p class="summary">The quadratic cost of self-attention in Vision Transformers (ViTs) constitutes a fundamental bottleneck for practical deployment, motivatin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0d5db5ae51a" data-article-url="https://arxiv.org/abs/2605.27466" data-article-title="AgensFlow: A Coordination-Policy Substrate for Multi-Agent Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27466" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27466" target="_blank" rel="noopener">AgensFlow: A Coordination-Policy Substrate for Multi-Agent Systems</a></h3>
      <p class="summary">Multi-agent systems built on large language models (LLMs) require many coordination choices that are difficult to fix a priori: which skill…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a176a83f759f" data-article-url="https://arxiv.org/abs/2605.27467" data-article-title="Comparative Analysis of Liquid Neural Networks and LSTM for Sequential Pattern Recognition: Robustness, Efficiency, and Clinical Utility" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27467" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27467" target="_blank" rel="noopener">Comparative Analysis of Liquid Neural Networks and LSTM for Sequential Pattern Recognition: Robustness, Efficiency, and Clinical Utility</a></h3>
      <p class="summary">Traditional Recurrent Neural Networks (RNNs) and Long Short-Term Memory (LSTM) units operate on discrete time steps, often failing to captu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="72b0ffee6a9b" data-article-url="https://arxiv.org/abs/2605.27469" data-article-title="Architecture-driven Shift: towards a lightweight selector for capturing the trends of logit shift" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27469" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27469" target="_blank" rel="noopener">Architecture-driven Shift: towards a lightweight selector for capturing the trends of logit shift</a></h3>
      <p class="summary">Continual Learning (CL) is a practical paradigm to utilize power of deep pre-trained neural networks, but which pre-trained model has a bet…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="92fe4ecec298" data-article-url="https://arxiv.org/abs/2605.27470" data-article-title="Detect by Yourself: Self-Designing Agentic Workflows for Few-Shot Graph Anomaly Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27470" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27470" target="_blank" rel="noopener">Detect by Yourself: Self-Designing Agentic Workflows for Few-Shot Graph Anomaly Detection</a></h3>
      <p class="summary">Graph anomaly detection aims to identify anomaly nodes in attributed graphs and plays an important role in real-world applications. However…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5351a8cb8fbe" data-article-url="https://arxiv.org/abs/2605.27472" data-article-title="AssertLLM2: A Comprehensive LLM Benchmark for Assertion Generation from Design Specifications" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27472" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27472" target="_blank" rel="noopener">AssertLLM2: A Comprehensive LLM Benchmark for Assertion Generation from Design Specifications</a></h3>
      <p class="summary">Assertion-based verification (ABV) is a cornerstone of modern hardware design, yet manually translating design intent into formal SystemVer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="04e3ebbcba2f" data-article-url="https://arxiv.org/abs/2605.27475" data-article-title="HEAL: Resilient and Self-* Hub-based Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27475" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27475" target="_blank" rel="noopener">HEAL: Resilient and Self-* Hub-based Learning</a></h3>
      <p class="summary">Decentralized learning enhances privacy, scalability, and fault tolerance by distributing data and computation across nodes. A popular appr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="92942764db4f" data-article-url="https://arxiv.org/abs/2605.27476" data-article-title="Balancing Fidelity and Diversity in Diffusion Models via Symmetric Attention Decomposition: Hopfield Perspective" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27476" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27476" target="_blank" rel="noopener">Balancing Fidelity and Diversity in Diffusion Models via Symmetric Attention Decomposition: Hopfield Perspective</a></h3>
      <p class="summary">We characterize the pre-softmax attention matrix $\mathbf{QK^\top}$ in transformers as an associative memory matrix encoding pairwise assoc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8aeff7e86592" data-article-url="https://arxiv.org/abs/2605.27479" data-article-title="Resource-Constrained Affect Modelling via Variance Regularisation Pruning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27479" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27479" target="_blank" rel="noopener">Resource-Constrained Affect Modelling via Variance Regularisation Pruning</a></h3>
      <p class="summary">Affective computing systems are increasingly embedded in pervasive and interactive environments, such as adaptive games, assistive technolo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="66861c639c12" data-article-url="https://arxiv.org/abs/2605.27480" data-article-title="BIRDS: Characterizing and Understanding Biodiversity Impact of Large Language Model Serving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27480" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27480" target="_blank" rel="noopener">BIRDS: Characterizing and Understanding Biodiversity Impact of Large Language Model Serving</a></h3>
      <p class="summary">Large language model (LLM) serving creates environmental impacts beyond carbon and water, including ecosystem damage through biodiversity-r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4af83728e2ef" data-article-url="https://arxiv.org/abs/2605.27482" data-article-title="Energy-Structured Low-Rank Adaptation for Continual Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27482" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27482" target="_blank" rel="noopener">Energy-Structured Low-Rank Adaptation for Continual Learning</a></h3>
      <p class="summary">While orthogonal subspace methods try to mitigate task interference in Continual Learning (CL), they often suffer from energy diffusion acr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="240ba8b16cb1" data-article-url="https://arxiv.org/abs/2605.27483" data-article-title="Debate Helps Weak Judges Reward Stronger Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27483" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27483" target="_blank" rel="noopener">Debate Helps Weak Judges Reward Stronger Models</a></h3>
      <p class="summary">Despite theoretical promise, debate as a scalable oversight protocol has produced mixed empirical results: gains in some settings, and null…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="19435dfa3d4f" data-article-url="https://arxiv.org/abs/2605.27487" data-article-title="Diffusion-Based Ukrainian Handwritten Text Generation with Cross-Domain Style Transfer" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27487" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27487" target="_blank" rel="noopener">Diffusion-Based Ukrainian Handwritten Text Generation with Cross-Domain Style Transfer</a></h3>
      <p class="summary">Handwritten text generation (HTG) conditioned on writer style has been widely studied for Latin scripts, but remains underexplored for low-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a114fad6f0b5" data-article-url="https://arxiv.org/abs/2605.27488" data-article-title="Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27488" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27488" target="_blank" rel="noopener">Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels</a></h3>
      <p class="summary">Agentic systems increasingly run user-authored orchestration code that invokes tools, spawns subtasks, and delegates work across machines a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e68b5b3a0ce7" data-article-url="https://arxiv.org/abs/2605.27489" data-article-title="HARP: Measuring Harm Amplification in Multi-Agent LLM Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27489" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27489" target="_blank" rel="noopener">HARP: Measuring Harm Amplification in Multi-Agent LLM Systems</a></h3>
      <p class="summary">Multi-agent LLM systems decompose workflows across agents, tools, shared context, memory, and decision gates. This modularity improves inte…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="45124a627fdd" data-article-url="https://arxiv.org/abs/2605.27492" data-article-title="Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27492" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27492" target="_blank" rel="noopener">Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems</a></h3>
      <p class="summary">LLM agents are rapidly evolving from coding assistants into autonomous software engineering systems. However, existing evaluation methodolo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="be8ea21287ac" data-article-url="https://arxiv.org/abs/2605.27494" data-article-title="Grounded Cache Routing for Retrieval-Augmented Generation: When Is It Safe to Reuse an Answer?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27494" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27494" target="_blank" rel="noopener">Grounded Cache Routing for Retrieval-Augmented Generation: When Is It Safe to Reuse an Answer?</a></h3>
      <p class="summary">Modern retrieval-augmented generation(RAG) deployments increasingly rely on caching to reduce token cost and time-to-first-token(TTFT). Pre…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="87d8e2c7f655" data-article-url="https://arxiv.org/abs/2605.27559" data-article-title="Detection Without Correction: A Two-Parameter Decomposition of Multi-Stage LLM Pipelines" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27559" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27559" target="_blank" rel="noopener">Detection Without Correction: A Two-Parameter Decomposition of Multi-Stage LLM Pipelines</a></h3>
      <p class="summary">Multi-stage LLM pipelines that perform multi-agent debate, intrinsic self-correction, or retrieval-augmented verification exhibit puzzling…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5eff1fd00682" data-article-url="https://arxiv.org/abs/2605.27561" data-article-title="Clinical Validation of the Melanoscope AI Mobile Dermoscopy Clinical Decision Support System" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27561" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27561" target="_blank" rel="noopener">Clinical Validation of the Melanoscope AI Mobile Dermoscopy Clinical Decision Support System</a></h3>
      <p class="summary">Introduction. Early detection of malignant skin lesions is critical for prognosis, yet dermatologist shortages in Russian regions limit scr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="38ce004321da" data-article-url="https://arxiv.org/abs/2605.27563" data-article-title="On the Subgaussianity of Quantized Linear Maps: An AI-Assisted Note" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27563" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27563" target="_blank" rel="noopener">On the Subgaussianity of Quantized Linear Maps: An AI-Assisted Note</a></h3>
      <p class="summary">This short note presents a dimension-independent subgaussian concentration bound for Gaussian vectors under coordinate-wise nonlinear mappi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c3af936ae07b" data-article-url="https://arxiv.org/abs/2605.27564" data-article-title="The Future of Facts: Tracing the Factual Generation-Verification Gap" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27564" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27564" target="_blank" rel="noopener">The Future of Facts: Tracing the Factual Generation-Verification Gap</a></h3>
      <p class="summary">Language models are becoming the default interface to factual knowledge, yet they often verify outputs more reliably than they generate the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="96362da1ff4d" data-article-url="https://arxiv.org/abs/2605.27595" data-article-title="Hallucination Behavior in Multimodal LLMs Across Agricultural Image Interpretation and Generation Tasks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27595" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27595" target="_blank" rel="noopener">Hallucination Behavior in Multimodal LLMs Across Agricultural Image Interpretation and Generation Tasks</a></h3>
      <p class="summary">Large Language Models (LLMs) are being rapidly adopted in agricultural imaging applications, ranging from crop interpretation to synthetic…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="768774729b78" data-article-url="https://arxiv.org/abs/2605.27599" data-article-title="The Energy Blind Spot: NVIDIA&#x27;s Flagship Edge AI Hardware Cannot Support Process-Level Energy Attribution" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><a class="entity-tag" href="/entity/nvidia/" data-entity="nvidia">NVIDIA</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27599" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27599" target="_blank" rel="noopener">The Energy Blind Spot: NVIDIA&#x27;s Flagship Edge AI Hardware Cannot Support Process-Level Energy Attribution</a></h3>
      <p class="summary">Agentic AI workloads - where a single user goal triggers multi-step orchestration, tool calls, retries, and failure recovery - are being ta…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ce705f71f56c" data-article-url="https://arxiv.org/abs/2605.27610" data-article-title="Eliot: Interactively $\underline{E}$xploring Fast-Changing Scientific $\underline{Li}$terature Trends with $\underline{O}$nline Da$\underline{t}$a and Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27610" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27610" target="_blank" rel="noopener">Eliot: Interactively $\underline{E}$xploring Fast-Changing Scientific $\underline{Li}$terature Trends with $\underline{O}$nline Da$\underline{t}$a and Learning</a></h3>
      <p class="summary">The rapid growth of scientific publishing has made it increasingly difficult to track how fast-moving areas evolve. Search engines and LLM-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="df0388477729" data-article-url="https://arxiv.org/abs/2605.27616" data-article-title="Not All NVFP4 QAT Recipes Are Equal: How Architecture and Scale Shape Model Quality for Anomaly Segmentation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27616" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27616" target="_blank" rel="noopener">Not All NVFP4 QAT Recipes Are Equal: How Architecture and Scale Shape Model Quality for Anomaly Segmentation</a></h3>
      <p class="summary">Real-time anomaly segmentation demands both high recall and efficient low-precision inference. We study the three-way interaction of model…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5f18f06d32e0" data-article-url="https://arxiv.org/abs/2605.27619" data-article-title="Supervised Distributional Reduction via Optimal Transport and Dependence Maximization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27619" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27619" target="_blank" rel="noopener">Supervised Distributional Reduction via Optimal Transport and Dependence Maximization</a></h3>
      <p class="summary">Learning representations that capture both intrinsic data geometry and target-relevant structure remains a fundamental challenge, particula…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d5cde769f520" data-article-url="https://arxiv.org/abs/2605.27644" data-article-title="Trinity: Unifying Class-Agnostic Terrain and Semantic Segmentation for Unstructured Outdoor Environments by Leveraging Synthetic Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27644" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27644" target="_blank" rel="noopener">Trinity: Unifying Class-Agnostic Terrain and Semantic Segmentation for Unstructured Outdoor Environments by Leveraging Synthetic Data</a></h3>
      <p class="summary">Terrain understanding is fundamental for mobile robots operating in unstructured outdoor environments. Existing vision-based traversability…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b2920e776a3a" data-article-url="https://arxiv.org/abs/2605.27646" data-article-title="Hurwitz Quaternion Multiplicative Quantization for KV Cache Compression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27646" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27646" target="_blank" rel="noopener">Hurwitz Quaternion Multiplicative Quantization for KV Cache Compression</a></h3>
      <p class="summary">We propose \textbf{Hurwitz Quaternion Multiplicative Quantization (HQMQ)}, a \textbf{calibration-free} method for KV cache compression of l…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="19a7489b8c42" data-article-url="https://arxiv.org/abs/2605.27654" data-article-title="Cultural Fidelity in English-to-Hindi Translation: A Preservation-Fluency Frontier for Gender Recoverability" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27654" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27654" target="_blank" rel="noopener">Cultural Fidelity in English-to-Hindi Translation: A Preservation-Fluency Frontier for Gender Recoverability</a></h3>
      <p class="summary">Generative translation systems are cultural technologies because they decide how socially meaningful cues are rendered within culturally sp…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dce9a223b682" data-article-url="https://arxiv.org/abs/2605.27656" data-article-title="Developing an Intelligent Job Recommendation System Using Semantic Retrieval and Explainable AI Techniques" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27656" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27656" target="_blank" rel="noopener">Developing an Intelligent Job Recommendation System Using Semantic Retrieval and Explainable AI Techniques</a></h3>
      <p class="summary">Online recruitment platforms require recommendation methods capable of retrieving relevant job opportunities from large and heterogeneous c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="547ab3f31100" data-article-url="https://arxiv.org/abs/2605.27659" data-article-title="Transferable Reinforcement Learning via Probabilistic Latent Embeddings and Dynamic Policy Adaptation for Sim-to-Real Deployment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27659" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27659" target="_blank" rel="noopener">Transferable Reinforcement Learning via Probabilistic Latent Embeddings and Dynamic Policy Adaptation for Sim-to-Real Deployment</a></h3>
      <p class="summary">Due to limited resources and public safety concerns, deep reinforcement learning (RL) agents for many cyber-physical systems (e.g., autonom…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9ae3d2700f4e" data-article-url="https://arxiv.org/abs/2605.27662" data-article-title="How the Optimizer Shapes Learned Solutions in Equivariant Neural Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27662" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27662" target="_blank" rel="noopener">How the Optimizer Shapes Learned Solutions in Equivariant Neural Networks</a></h3>
      <p class="summary">Equivariant neural networks encode geometric symmetries by construction, yet they are often difficult to optimize and can underperform less…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="675dc6e91cda" data-article-url="https://arxiv.org/abs/2605.27668" data-article-title="Aligning LLMs with Human Uncertainty: A Beta-Bernoulli Calibrator for LLM Forecasting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27668" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27668" target="_blank" rel="noopener">Aligning LLMs with Human Uncertainty: A Beta-Bernoulli Calibrator for LLM Forecasting</a></h3>
      <p class="summary">Probabilistic forecasting estimates the likelihood of uncertain future events. To improve LLM forecasting, existing methods typically learn…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4c29da720a6" data-article-url="https://arxiv.org/abs/2605.27674" data-article-title="Backdoor Attacks on Fault Detection and Localization in Cyber-Physical Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27674" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27674" target="_blank" rel="noopener">Backdoor Attacks on Fault Detection and Localization in Cyber-Physical Systems</a></h3>
      <p class="summary">Cyber-Physical Systems (CPS) integrate sensing, communication, computation, and control to support critical infrastructure, including smart…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1aee8dc51616" data-article-url="https://arxiv.org/abs/2605.27686" data-article-title="Tensor Memory: Fixed-Size Recurrent State for Long-Horizon Transformers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27686" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27686" target="_blank" rel="noopener">Tensor Memory: Fixed-Size Recurrent State for Long-Horizon Transformers</a></h3>
      <p class="summary">Transformers process images and videos by flattening space and time into long token sequences. While attention and KV caching preserve past…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b9dadb51db74" data-article-url="https://arxiv.org/abs/2605.27697" data-article-title="Simulation-Informed Diffusion for Decentralized Multi-robot Motion Planning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27697" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27697" target="_blank" rel="noopener">Simulation-Informed Diffusion for Decentralized Multi-robot Motion Planning</a></h3>
      <p class="summary">Decentralized multi-robot motion planning requires each robot to generate collision-free trajectories from local observations, without glob…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7978fb782e27" data-article-url="https://arxiv.org/abs/2605.27700" data-article-title="CiteCheck: Retrieval-Grounded Detection of LLM Citation Hallucinations in Scientific Text" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/gemini/" data-entity="gemini">Gemini</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27700" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27700" target="_blank" rel="noopener">CiteCheck: Retrieval-Grounded Detection of LLM Citation Hallucinations in Scientific Text</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly used to generate scientific reports, but they can produce references that appear plausible wh…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9c0704194def" data-article-url="https://arxiv.org/abs/2605.27721" data-article-title="UserHarness: Harnessing User Minds for Stronger Agent Theory-of-Mind" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27721" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27721" target="_blank" rel="noopener">UserHarness: Harnessing User Minds for Stronger Agent Theory-of-Mind</a></h3>
      <p class="summary">Understanding what a user believes and intends is central to building effective agent assistants. This ability is often evaluated through T…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8ebc1c9cbc93" data-article-url="https://arxiv.org/abs/2605.27724" data-article-title="HumanoidMimicGen: Data Generation for Loco-Manipulation via Whole-Body Planning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27724" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27724" target="_blank" rel="noopener">HumanoidMimicGen: Data Generation for Loco-Manipulation via Whole-Body Planning</a></h3>
      <p class="summary">Imitation learning is a promising approach for training humanoid robots to both walk and manipulate, but it requires a large number of demo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f6957a857bc8" data-article-url="https://arxiv.org/abs/2605.27739" data-article-title="Worker Disagreement Reveals Sharp Directions in Local SGD" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27739" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27739" target="_blank" rel="noopener">Worker Disagreement Reveals Sharp Directions in Local SGD</a></h3>
      <p class="summary">Deep neural network training often exhibits highly anisotropic loss geometry, where a few sharp dominant Hessian directions coexist with a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c4b4c1a9eb28" data-article-url="https://arxiv.org/abs/2605.27748" data-article-title="Mahalanobis PatchCore: Covariance-Aware and Streaming-Compatible Industrial Anomaly Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27748" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27748" target="_blank" rel="noopener">Mahalanobis PatchCore: Covariance-Aware and Streaming-Compatible Industrial Anomaly Detection</a></h3>
      <p class="summary">Industrial visual anomaly detection is usually one-class: normal images are abundant, while defects are rare, heterogeneous, and often unav…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ae11b4aca8ac" data-article-url="https://arxiv.org/abs/2605.27750" data-article-title="Reading or Guessing? Visual Grounding Failures of Vision-Language Models for OCR in Ancient Greek Editions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27750" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27750" target="_blank" rel="noopener">Reading or Guessing? Visual Grounding Failures of Vision-Language Models for OCR in Ancient Greek Editions</a></h3>
      <p class="summary">Recent work has shown that Vision-Language Models (VLMs) used for optical character recognition (OCR) can generate plausible but visually u…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4205ef264ea8" data-article-url="https://arxiv.org/abs/2605.27758" data-article-title="High-Fidelity Industrial Crash Dynamics Prediction via Geometry-Aware Operator Learning with Memory-Efficient Low-Rank Attention" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27758" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27758" target="_blank" rel="noopener">High-Fidelity Industrial Crash Dynamics Prediction via Geometry-Aware Operator Learning with Memory-Efficient Low-Rank Attention</a></h3>
      <p class="summary">Automotive crashworthiness optimization remains a safety-critical challenge, requiring the management of large-scale nonlinear structural d…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="20108bdcb548" data-article-url="https://arxiv.org/abs/2605.27764" data-article-title="Can Segmentation Models Understand the World? Towards Proactive Affordance Reasoning via Visual Chain-of-Thought" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27764" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27764" target="_blank" rel="noopener">Can Segmentation Models Understand the World? Towards Proactive Affordance Reasoning via Visual Chain-of-Thought</a></h3>
      <p class="summary">Recent segmentation models couple large language models (LLMs) with mask decoders to ground complex language expressions into masks, yet th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="17bedeecda17" data-article-url="https://arxiv.org/abs/2605.27765" data-article-title="Restoring the Sweet Spot: Pass-Rate Weighted Self-Distillation for LLM Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27765" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27765" target="_blank" rel="noopener">Restoring the Sweet Spot: Pass-Rate Weighted Self-Distillation for LLM Reasoning</a></h3>
      <p class="summary">Self-Distillation Policy Optimization (SDPO) provides dense token-level credit assignment for reinforcement learning with large language mo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="861a45c5f66e" data-article-url="https://arxiv.org/abs/2605.27767" data-article-title="UniMaia: Steering Chess Policies with Language for Human-like Play" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27767" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27767" target="_blank" rel="noopener">UniMaia: Steering Chess Policies with Language for Human-like Play</a></h3>
      <p class="summary">Recent advances in large language models have enabled natural language to serve as a flexible interface for controlling complex systems, bu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a0150737e37" data-article-url="https://arxiv.org/abs/2605.27773" data-article-title="Do Models Know Why They Changed Their Mind? Interpretability and Faithfulness of Chain-of-Thought Under Knowledge Conflict" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27773" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27773" target="_blank" rel="noopener">Do Models Know Why They Changed Their Mind? Interpretability and Faithfulness of Chain-of-Thought Under Knowledge Conflict</a></h3>
      <p class="summary">When a language model sees a document contradicting its training knowledge, it must choose: follow the document or trust itself. Prior work…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9ac29ec0e7f7" data-article-url="https://arxiv.org/abs/2605.27786" data-article-title="Locality-Aware Redundancy Pruning for LLM Depth Compression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27786" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27786" target="_blank" rel="noopener">Locality-Aware Redundancy Pruning for LLM Depth Compression</a></h3>
      <p class="summary">Large language models are known to contain representational redundancy across network depth, making depth pruning an effective approach for…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9f297d7490e5" data-article-url="https://arxiv.org/abs/2605.27805" data-article-title="ChildEval: When large language models meet children&#x27;s personalities" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27805" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27805" target="_blank" rel="noopener">ChildEval: When large language models meet children&#x27;s personalities</a></h3>
      <p class="summary">While LLMs enable personalized chatbots, their effectiveness in child-centered personalization remains unclear, as systematic evaluation of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a8c7b1daea8b" data-article-url="https://arxiv.org/abs/2605.27813" data-article-title="Residualized Temporal Sparse Autoencoders for Interpreting Diffusion Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27813" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27813" target="_blank" rel="noopener">Residualized Temporal Sparse Autoencoders for Interpreting Diffusion Models</a></h3>
      <p class="summary">Text-to-image diffusion models generate images through an iterative denoising process, so internal neural layers produce trajectories of ac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c162f0754d0c" data-article-url="https://arxiv.org/abs/2605.27817" data-article-title="Turning Video Models into Generalist Robot Policies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27817" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27817" target="_blank" rel="noopener">Turning Video Models into Generalist Robot Policies</a></h3>
      <p class="summary">Video generative models have emerged as a promising robotics backbone, capable of generating videos that depict the completion of complex t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="619a3eb7cd5f" data-article-url="https://arxiv.org/abs/2605.27819" data-article-title="ReSAE: Residualized Sparse Autoencoders for Multi-Layer Transformer Interventions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27819" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27819" target="_blank" rel="noopener">ReSAE: Residualized Sparse Autoencoders for Multi-Layer Transformer Interventions</a></h3>
      <p class="summary">Sparse autoencoders are usually trained one layer at a time, even though transformer residual stream activations are strongly coupled acros…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a6ef3755fd8" data-article-url="https://arxiv.org/abs/2605.27823" data-article-title="Disentangling Adversarial Prompts: A Semantic-Graph Defense for Robust LLM Security" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27823" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27823" target="_blank" rel="noopener">Disentangling Adversarial Prompts: A Semantic-Graph Defense for Robust LLM Security</a></h3>
      <p class="summary">Large Language Models (LLMs) are increasingly vulnerable to adversarial prompts that exploit semantic ambiguities to bypass safety mechanis…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d39ebf7b4207" data-article-url="https://arxiv.org/abs/2605.27836" data-article-title="Symmetry Defeats Auditing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27836" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27836" target="_blank" rel="noopener">Symmetry Defeats Auditing</a></h3>
      <p class="summary">We demonstrate an attack on Introspection Adapters (Shenoy et al., 2026).</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7186cf065abe" data-article-url="https://arxiv.org/abs/2605.27840" data-article-title="LoSATok: Low-dimensional Semantic-Acoustic Tokenizer for Cross-Domain Audio Understanding and Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27840" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27840" target="_blank" rel="noopener">LoSATok: Low-dimensional Semantic-Acoustic Tokenizer for Cross-Domain Audio Understanding and Generation</a></h3>
      <p class="summary">Audio tokenizers are fundamental to unifying audio understanding and generation. Understanding requires high-level semantics, while generat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1b44493bc456" data-article-url="https://arxiv.org/abs/2605.27845" data-article-title="Snippet-Driven Supply Chain Discovery with LLMs: Scaling Visibility in China" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27845" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27845" target="_blank" rel="noopener">Snippet-Driven Supply Chain Discovery with LLMs: Scaling Visibility in China</a></h3>
      <p class="summary">Financial and economic research often relies on structured supply-chain disclosures and commercial databases. In China, supplier--customer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="668d9f0eb56b" data-article-url="https://arxiv.org/abs/2605.27849" data-article-title="FPMoE: A Sparse Mixture-of-Experts Approach to Functional Code Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27849" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27849" target="_blank" rel="noopener">FPMoE: A Sparse Mixture-of-Experts Approach to Functional Code Generation</a></h3>
      <p class="summary">Despite rapid progress in LLM-based code generation, existing models are predominantly trained on imperative languages, leaving functional…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ec2e3d168c43" data-article-url="https://arxiv.org/abs/2605.27856" data-article-title="Fine-Tuned LLM as a Complementary Predictor Improving Ads System" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27856" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27856" target="_blank" rel="noopener">Fine-Tuned LLM as a Complementary Predictor Improving Ads System</a></h3>
      <p class="summary">Recommendation systems power engagement and monetization across feeds, ads, and short-video platforms, but translating the latest advances…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ce9be894ce43" data-article-url="https://arxiv.org/abs/2605.27858" data-article-title="DecomposeRL: Learning to Ask Useful, Informative, and Diverse Questions for Semi-Supervised, Traceable Claim Verification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27858" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27858" target="_blank" rel="noopener">DecomposeRL: Learning to Ask Useful, Informative, and Diverse Questions for Semi-Supervised, Traceable Claim Verification</a></h3>
      <p class="summary">Claim verification splits between end-to-end classifiers that are accurate but yields no inspectable traces, and decomposition-based method…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5bcad3e6feea" data-article-url="https://arxiv.org/abs/2605.27861" data-article-title="From Detection to Mechanism: Cross-Attention Graph Neural Networks Enable Drug-Drug Interaction Type Prediction An Ablation Study with Acetylsalicylic Acid Validation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27861" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27861" target="_blank" rel="noopener">From Detection to Mechanism: Cross-Attention Graph Neural Networks Enable Drug-Drug Interaction Type Prediction An Ablation Study with Acetylsalicylic Acid Validation</a></h3>
      <p class="summary">Predicting whether two drugs interact (binary detection) is a substantially dif- ferent task from predicting the mechanism type of that int…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ae1c827802fa" data-article-url="https://arxiv.org/abs/2605.27877" data-article-title="SPAR: Support-Preserving Action Rectification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27877" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27877" target="_blank" rel="noopener">SPAR: Support-Preserving Action Rectification</a></h3>
      <p class="summary">Offline policy improvement faces an inherent conflict between maximizing value and fitting the data distribution. While in-sample weighted…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5841c527683b" data-article-url="https://arxiv.org/abs/2605.27882" data-article-title="VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27882" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27882" target="_blank" rel="noopener">VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild</a></h3>
      <p class="summary">LLM-based agents score well on search benchmarks, yet real users consistently find results unsatisfying, revealing a persistent evaluation-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aca4f86ca0d1" data-article-url="https://arxiv.org/abs/2605.27891" data-article-title="SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27891" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27891" target="_blank" rel="noopener">SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control</a></h3>
      <p class="summary">The narrative quality of a video fundamentally determines its perceptual value. Although existing video generation methods can produce visu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d799c2ea1570" data-article-url="https://arxiv.org/abs/2605.27901" data-article-title="The Fragility of Chain-of-Thought Monitoring Across Typologically Diverse Languages" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27901" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27901" target="_blank" rel="noopener">The Fragility of Chain-of-Thought Monitoring Across Typologically Diverse Languages</a></h3>
      <p class="summary">Chain-of-thought (CoT) monitoring has been proposed as a promising safety mechanism for detecting misaligned behavior in large language mod…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="05bf63ad5f26" data-article-url="https://arxiv.org/abs/2605.27908" data-article-title="ESC-Skills: Discovering and Self-Evolving Skills for Emotional Support Conversations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27908" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27908" target="_blank" rel="noopener">ESC-Skills: Discovering and Self-Evolving Skills for Emotional Support Conversations</a></h3>
      <p class="summary">Existing emotional support conversation (ESC) systems mainly rely on end-to-end response generation or coarse strategy supervision, offerin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="60776c501e13" data-article-url="https://arxiv.org/abs/2605.27914" data-article-title="Let the Results Speak: A Replication-First Paradigm for LLM Behavioral Benchmarking" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27914" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27914" target="_blank" rel="noopener">Let the Results Speak: A Replication-First Paradigm for LLM Behavioral Benchmarking</a></h3>
      <p class="summary">Subjective evaluation of LLM behavior -- empathy, restraint, calibrated emotional tone -- is hard. Human inter-rater agreement on such qual…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6a8b8960073d" data-article-url="https://arxiv.org/abs/2605.27923" data-article-title="Do We Really Need Quantum Machine Learning?: A Multidimensional Empirical Study" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27923" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27923" target="_blank" rel="noopener">Do We Really Need Quantum Machine Learning?: A Multidimensional Empirical Study</a></h3>
      <p class="summary">The rapid growth of computer vision and increasingly complex image recognition tasks has exposed fundamental computational limitations of c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6e300626abf" data-article-url="https://arxiv.org/abs/2605.27932" data-article-title="When Think-with-Image Meets Safety: What Determines Multimodal Jailbreak Robustness?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27932" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27932" target="_blank" rel="noopener">When Think-with-Image Meets Safety: What Determines Multimodal Jailbreak Robustness?</a></h3>
      <p class="summary">Think-with-image reasoning is emerging as a new inference paradigm for large vision-language models, but its safety implications remain poo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="faa0388d97b7" data-article-url="https://arxiv.org/abs/2605.27958" data-article-title="Pressure-Testing Deception Probes in LLMs: Scaling, Robustness, and the Geometry of Deceptive Representations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27958" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27958" target="_blank" rel="noopener">Pressure-Testing Deception Probes in LLMs: Scaling, Robustness, and the Geometry of Deceptive Representations</a></h3>
      <p class="summary">Linear probes trained on LLM activations are increasingly proposed as deception-detection metrics, yet report AUROC exceeding 0.96 on clean…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="49a71cc64725" data-article-url="https://arxiv.org/abs/2605.27959" data-article-title="ROVER: Routing Object-Centric Visual Evidence for Grounded Multi-Image Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27959" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27959" target="_blank" rel="noopener">ROVER: Routing Object-Centric Visual Evidence for Grounded Multi-Image Reasoning</a></h3>
      <p class="summary">Multimodal Large Language Models (MLLMs) have increasingly localized and interleaved visual evidence for deliberative reasoning. Grounding-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="040e11e4d78b" data-article-url="https://arxiv.org/abs/2605.27967" data-article-title="Multi-Teacher Knowledge Distillation via Teacher-Informed Mixture Priors" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27967" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27967" target="_blank" rel="noopener">Multi-Teacher Knowledge Distillation via Teacher-Informed Mixture Priors</a></h3>
      <p class="summary">Knowledge distillation is a powerful method for model compression, enabling the efficient deployment of complex deep learning models (teach…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fcb07c4df68a" data-article-url="https://arxiv.org/abs/2605.27971" data-article-title="Semantic Flow Regularization: Teaching LLMs to Generate Diverse Yet Coherent Responses" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27971" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27971" target="_blank" rel="noopener">Semantic Flow Regularization: Teaching LLMs to Generate Diverse Yet Coherent Responses</a></h3>
      <p class="summary">When large language models are fine-tuned to generate persona- or tone-conditioned responses, their output diversity is severely limited--a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9a71fcf7cbc5" data-article-url="https://arxiv.org/abs/2605.27980" data-article-title="Periodic RoPE for Infinite Context LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27980" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27980" target="_blank" rel="noopener">Periodic RoPE for Infinite Context LLMs</a></h3>
      <p class="summary">The ability to process ultra-long contexts is crucial for large language models (LLMs) to perform long-horizon tasks. While recent efforts…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e74058960eab" data-article-url="https://arxiv.org/abs/2605.27984" data-article-title="KVoiceBench, KOpenAudioBench, and KMMAU: Agent-Driven Korean Speech Benchmarks for Evaluating SpeechLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27984" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27984" target="_blank" rel="noopener">KVoiceBench, KOpenAudioBench, and KMMAU: Agent-Driven Korean Speech Benchmarks for Evaluating SpeechLMs</a></h3>
      <p class="summary">Speech language models (SpeechLMs) have achieved substantial progress by extending large language models (LLMs) to the speech modality. How…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="94a017b2cd8f" data-article-url="https://arxiv.org/abs/2605.27990" data-article-title="Geometry-Correct Diffusion Posterior Sampling with Denoiser-Pullback Curvature Guidance and Manifold-Aligned Damping" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27990" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27990" target="_blank" rel="noopener">Geometry-Correct Diffusion Posterior Sampling with Denoiser-Pullback Curvature Guidance and Manifold-Aligned Damping</a></h3>
      <p class="summary">Diffusion posterior sampling conditions diffusion priors on measurements, but data-consistency updates are typically scaled by hand-tuned g…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b29bafa5b596" data-article-url="https://arxiv.org/abs/2605.27997" data-article-title="Where Does Toxicity Live? Mechanistic Localization and Targeted Suppression in Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27997" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27997" target="_blank" rel="noopener">Where Does Toxicity Live? Mechanistic Localization and Targeted Suppression in Language Models</a></h3>
      <p class="summary">Large language models frequently generate toxic, hateful, or harmful content, yet existing mitigation methods rely on costly retraining or…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="365562cce145" data-article-url="https://arxiv.org/abs/2605.27999" data-article-title="Learning to Assign Prediction Tasks to Agents with Capacity Constraints" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27999" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27999" target="_blank" rel="noopener">Learning to Assign Prediction Tasks to Agents with Capacity Constraints</a></h3>
      <p class="summary">We address the problem of learning to assign prediction tasks to one agent from a set of available human or AI agents. In particular, we fo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="562fc18a080b" data-article-url="https://arxiv.org/abs/2605.28000" data-article-title="Tool Forge: A Validation-Carrying Toolchain for Governed Agentic Execution" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28000" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28000" target="_blank" rel="noopener">Tool Forge: A Validation-Carrying Toolchain for Governed Agentic Execution</a></h3>
      <p class="summary">Large language model agents are increasingly expected to perform operational work: calling APIs, manipulating files, assembling workflows,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="874880cb91fa" data-article-url="https://arxiv.org/abs/2605.28006" data-article-title="Integrated and Cross-Architecture Interpretation of LLM Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28006" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28006" target="_blank" rel="noopener">Integrated and Cross-Architecture Interpretation of LLM Reasoning</a></h3>
      <p class="summary">Understanding how LLMs reason is hindered by a practical asymmetry: while their generated outputs are observable, the underlying reasoning…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8ebe708416c3" data-article-url="https://arxiv.org/abs/2605.28007" data-article-title="Learning Compositional Latent Structure with Vector Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28007" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28007" target="_blank" rel="noopener">Learning Compositional Latent Structure with Vector Networks</a></h3>
      <p class="summary">Deep networks are powerful function approximators, but they typically store many different computations in shared weight matrices, making i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bbae8ac86aa6" data-article-url="https://arxiv.org/abs/2605.28009" data-article-title="MemGuard: Preventing Memory Contamination in Long-Term Memory-Augmented Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28009" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28009" target="_blank" rel="noopener">MemGuard: Preventing Memory Contamination in Long-Term Memory-Augmented Large Language Models</a></h3>
      <p class="summary">Memory-augmented large language models extend reasoning beyond a fixed context window by maintaining long-term memory across interactions.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="959a30a76b71" data-article-url="https://arxiv.org/abs/2605.28023" data-article-title="VCap: Hypergeometric Rewards for Weak-to-Strong Visual Captioning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28023" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28023" target="_blank" rel="noopener">VCap: Hypergeometric Rewards for Weak-to-Strong Visual Captioning</a></h3>
      <p class="summary">Visual captioning requires models to capture visual content faithfully while minimizing both omission and hallucination. As the dominant pa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="40330889c3e5" data-article-url="https://arxiv.org/abs/2605.28030" data-article-title="SPARD: Defending Harmful Fine-Tuning Attack via Safety Projection with Relevance-Diversity Data Selection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28030" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28030" target="_blank" rel="noopener">SPARD: Defending Harmful Fine-Tuning Attack via Safety Projection with Relevance-Diversity Data Selection</a></h3>
      <p class="summary">Fine-tuning large language models often undermines their safety alignment, a problem further amplified by harmful fine-tuning attacks in wh…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fb7769ab6cf2" data-article-url="https://arxiv.org/abs/2605.28042" data-article-title="Extracting Small Translation Specialists from LLMs by Aggressively Pruning Experts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28042" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28042" target="_blank" rel="noopener">Extracting Small Translation Specialists from LLMs by Aggressively Pruning Experts</a></h3>
      <p class="summary">Modern large language models (LLMs) achieve state-of-the-art machine translation performance, but they do so as broad generalists largely t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="373f68cd8e96" data-article-url="https://arxiv.org/abs/2605.28057" data-article-title="On the Learnability of Test-Time Adaptation: A Recovery Complexity Perspective" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28057" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28057" target="_blank" rel="noopener">On the Learnability of Test-Time Adaptation: A Recovery Complexity Perspective</a></h3>
      <p class="summary">Test-time adaptation (TTA) aims to adapt models to maintain reliable performance on non-stationary test streams without requiring labeled d…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="13d10eca8e1b" data-article-url="https://arxiv.org/abs/2605.28063" data-article-title="Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28063" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28063" target="_blank" rel="noopener">Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts</a></h3>
      <p class="summary">Audio generation has made significant progress, yet synthesizing unified audio where speech and sounds are naturally composited remains a c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="97ea623d0d13" data-article-url="https://arxiv.org/abs/2605.28064" data-article-title="I Hear, Therefore I Trust: A Socio-Technical Investigation of Humans as Synthetic Speech Detectors" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28064" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28064" target="_blank" rel="noopener">I Hear, Therefore I Trust: A Socio-Technical Investigation of Humans as Synthetic Speech Detectors</a></h3>
      <p class="summary">Automatic deepfake detection has received considerable research attention, yet the socio-technical environment in which humans actually enc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4932abe0d262" data-article-url="https://arxiv.org/abs/2605.28066" data-article-title="PromptEmbedder:: Efficient and Transferable Text Embedding via Dual-LLM Soft Prompting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28066" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28066" target="_blank" rel="noopener">PromptEmbedder:: Efficient and Transferable Text Embedding via Dual-LLM Soft Prompting</a></h3>
      <p class="summary">Large Language Models (LLMs) have demonstrated remarkable efficacy in text embedding, yet current adaptation methods like LoRA face signifi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cadc8720ca9e" data-article-url="https://arxiv.org/abs/2605.28073" data-article-title="StoryLens: Preference-Aligned Story Rewriting via Context-Aware Narrative Enrichment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28073" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28073" target="_blank" rel="noopener">StoryLens: Preference-Aligned Story Rewriting via Context-Aware Narrative Enrichment</a></h3>
      <p class="summary">Story rewriting aims to adapt existing narratives to diverse reader preferences while preserving plot consistency and narrative coherence.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="84e4e804ac37" data-article-url="https://arxiv.org/abs/2605.28078" data-article-title="Mind the Gap: Mixtures of Gaussians in Approximate Differential Privacy" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28078" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28078" target="_blank" rel="noopener">Mind the Gap: Mixtures of Gaussians in Approximate Differential Privacy</a></h3>
      <p class="summary">We design a class of additive noise mechanisms that satisfy \((\varepsilon, \delta)\)-differential privacy (DP) for scalar, real-valued que…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2dc5da3534c1" data-article-url="https://arxiv.org/abs/2605.28084" data-article-title="SMILE-Next: Teaching Large Language Models to Detect, Classify, and Reason about Laughter" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28084" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28084" target="_blank" rel="noopener">SMILE-Next: Teaching Large Language Models to Detect, Classify, and Reason about Laughter</a></h3>
      <p class="summary">Laughter is a complex social signal that conveys communicative intent beyond amusement. While prior work has focused on isolated laughter a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="879d394a2bd8" data-article-url="https://arxiv.org/abs/2605.28100" data-article-title="Revisiting Change Detection Methods for their Application to Serac Fall Time-Lapse Monitoring" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28100" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28100" target="_blank" rel="noopener">Revisiting Change Detection Methods for their Application to Serac Fall Time-Lapse Monitoring</a></h3>
      <p class="summary">In an era where climate change aggravates environmental uncertainties, the identification and detection of event precursors are becoming cr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="03faf9d92cc9" data-article-url="https://arxiv.org/abs/2605.28101" data-article-title="EigeNet: Geometry-Informed Multi-Modal Learning for Few-shot Novel View RIR Prediction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28101" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28101" target="_blank" rel="noopener">EigeNet: Geometry-Informed Multi-Modal Learning for Few-shot Novel View RIR Prediction</a></h3>
      <p class="summary">Predicting spatially varying Room Impulse Response (RIR) from sparse observations is a critical but highly challenging inverse problem for…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1500dee1c639" data-article-url="https://arxiv.org/abs/2605.28116" data-article-title="MIRAGE: Context-Aware Prompt Injection against Mobile GUI Agents via User-Generated Content" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28116" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28116" target="_blank" rel="noopener">MIRAGE: Context-Aware Prompt Injection against Mobile GUI Agents via User-Generated Content</a></h3>
      <p class="summary">Mobile graphical user interface (GUI) agents driven by vision-language models (VLMs) perceive the screen as rendered pixels and choose acti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="57cc9b382a94" data-article-url="https://arxiv.org/abs/2605.28120" data-article-title="LegalGraphRAG: Multi-Agent Graph Retrieval-Augmented Generation for Reliable Legal Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28120" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28120" target="_blank" rel="noopener">LegalGraphRAG: Multi-Agent Graph Retrieval-Augmented Generation for Reliable Legal Reasoning</a></h3>
      <p class="summary">Graph-based Retrieval-Augmented Generation (GraphRAG) advances flat document retrieval by structuring knowledge as relational graphs, enabl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0e86d4e854d3" data-article-url="https://arxiv.org/abs/2605.28122" data-article-title="SNARE: Adaptive Scenario Synthesis for Eliciting Overeager Behavior in Coding Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28122" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28122" target="_blank" rel="noopener">SNARE: Adaptive Scenario Synthesis for Eliciting Overeager Behavior in Coding Agents</a></h3>
      <p class="summary">A coding agent executes a benign task as a sequence of shell, file, and network actions, any of which can quietly exceed the authorized sco…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="29887a0c5ca3" data-article-url="https://arxiv.org/abs/2605.28148" data-article-title="DeltaMCP: Incremental Regeneration via Spec-Aware Transformation for MCP servers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28148" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28148" target="_blank" rel="noopener">DeltaMCP: Incremental Regeneration via Spec-Aware Transformation for MCP servers</a></h3>
      <p class="summary">The rapid development of LLMs coupled with the introduction of Model Context Protocol (MCP) has revolutionized how intelligent agents inter…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ca6943697137" data-article-url="https://arxiv.org/abs/2605.28163" data-article-title="DEPART: DEcomposing PARiTy across Multilingual LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28163" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28163" target="_blank" rel="noopener">DEPART: DEcomposing PARiTy across Multilingual LLMs</a></h3>
      <p class="summary">Multilingual Large Language Models (mLLMs) leaderboards report per-language accuracy but rarely explain why disparities emerge, leaving sys…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aca77c35503e" data-article-url="https://arxiv.org/abs/2605.28164" data-article-title="Performance and Explainability Requirements of Evolutionary Algorithms in Real-World Physics-Informed Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28164" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28164" target="_blank" rel="noopener">Performance and Explainability Requirements of Evolutionary Algorithms in Real-World Physics-Informed Optimization</a></h3>
      <p class="summary">Evolutionary computation offers a variety of tools to solve complex real-world optimization problems. However, research often focuses on sm…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="edc8dab43389" data-article-url="https://arxiv.org/abs/2605.28166" data-article-title="QuITE: Query-Based Irregular Time Series Embedding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28166" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28166" target="_blank" rel="noopener">QuITE: Query-Based Irregular Time Series Embedding</a></h3>
      <p class="summary">Irregular Multivariate Time Series (IMTS) are common in practice, yet their irregular sampling complicates effective modeling. Existing app…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f6373b206131" data-article-url="https://arxiv.org/abs/2605.28174" data-article-title="FLORO: A Multimodal Geospatial Foundation Model for Ecological Remote Sensing Across Sensors and Scales" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28174" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28174" target="_blank" rel="noopener">FLORO: A Multimodal Geospatial Foundation Model for Ecological Remote Sensing Across Sensors and Scales</a></h3>
      <p class="summary">Foundation models offer a promising route to transferable remote sensing representations, but many current approaches depend on very large…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b77bb249d51f" data-article-url="https://arxiv.org/abs/2605.28183" data-article-title="BenGER: Benchmarking LLM Systems on Subsumption-Based Legal Reasoning in German Law" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28183" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28183" target="_blank" rel="noopener">BenGER: Benchmarking LLM Systems on Subsumption-Based Legal Reasoning in German Law</a></h3>
      <p class="summary">We introduce the BenGER (Benchmark for German Law) dataset for evaluating LLM systems on subsumption-based legal reasoning in German law. T…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="771ac026f91e" data-article-url="https://arxiv.org/abs/2605.28186" data-article-title="Visualizing Latent Phase Structures in Locomotion Policies: A Multi-Environment Study with Temporal Feature Extension" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28186" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28186" target="_blank" rel="noopener">Visualizing Latent Phase Structures in Locomotion Policies: A Multi-Environment Study with Temporal Feature Extension</a></h3>
      <p class="summary">Deep reinforcement learning (DRL) has been shown to achieve high performance on locomotion control tasks in MuJoCo benchmarks such as HalfC…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7e2f3f570484" data-article-url="https://arxiv.org/abs/2605.28187" data-article-title="Whose Name Comes Up? III: Persona Prompting Effects in LLM-Based Scholar Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28187" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28187" target="_blank" rel="noopener">Whose Name Comes Up? III: Persona Prompting Effects in LLM-Based Scholar Recommendation</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly used as scholar recommenders, shaping who is seen as an expert in academia. Existing audits r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="46dd496e8b31" data-article-url="https://arxiv.org/abs/2605.28207" data-article-title="Pruning and Distilling Mixture-of-Experts into Dense Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28207" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28207" target="_blank" rel="noopener">Pruning and Distilling Mixture-of-Experts into Dense Language Models</a></h3>
      <p class="summary">Mixture-of-Experts (MoE) is now the dominant architecture for frontier language models, yet it requires all expert parameters to be loaded…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d74149f49586" data-article-url="https://arxiv.org/abs/2605.28219" data-article-title="SmartIterator: Visual Analytics Workflows for Supervising Unsupervised Data Grouping" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28219" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28219" target="_blank" rel="noopener">SmartIterator: Visual Analytics Workflows for Supervising Unsupervised Data Grouping</a></h3>
      <p class="summary">Unsupervised learning methods -- topic modeling, partition-based and density-based clustering -- produce data groupings without human guida…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4c7a552dd52b" data-article-url="https://arxiv.org/abs/2605.28229" data-article-title="VidPrism: Heterogeneous Mixture of Experts for Image-to-Video Transfer" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28229" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28229" target="_blank" rel="noopener">VidPrism: Heterogeneous Mixture of Experts for Image-to-Video Transfer</a></h3>
      <p class="summary">With the rapid development of pre-training technologies, adapting large-scale Vision-Language Models (VLMs) for video understanding \emph{\…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0b112c7b7d06" data-article-url="https://arxiv.org/abs/2605.28247" data-article-title="IRDS: Interpretable RLVR Data Selection via Verifier-Coupled Sparse Autoencoder Coverage" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28247" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28247" target="_blank" rel="noopener">IRDS: Interpretable RLVR Data Selection via Verifier-Coupled Sparse Autoencoder Coverage</a></h3>
      <p class="summary">Reinforcement learning with verifiable rewards (RLVR) has become a key technique for en- hancing LLM reasoning, yet its data ineffi- ciency…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79816ef05b4b" data-article-url="https://arxiv.org/abs/2605.28258" data-article-title="GUI Agents for Continual Game Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28258" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28258" target="_blank" rel="noopener">GUI Agents for Continual Game Generation</a></h3>
      <p class="summary">Generating a game is not the same as making one that can be played. Despite advances in code generation, existing approaches treat game gen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d269189c406a" data-article-url="https://arxiv.org/abs/2605.28283" data-article-title="PrunePath: Towards Highly Structured Sparse Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28283" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28283" target="_blank" rel="noopener">PrunePath: Towards Highly Structured Sparse Language Models</a></h3>
      <p class="summary">Feed-forward networks (FFNs) dominate the parameter count and computation of modern language models, yet existing pruning methods often str…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5a8920a09bb8" data-article-url="https://arxiv.org/abs/2605.28293" data-article-title="ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28293" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28293" target="_blank" rel="noopener">ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation</a></h3>
      <p class="summary">Proactive Recommender Systems (PRSs) aim to guide user preference shift toward target items by generating paths of intermediate recommendat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b950b46a9ba2" data-article-url="https://arxiv.org/abs/2605.28302" data-article-title="How Far Can Disaggregation Go? A Design-Space Exploration of Attention-FFN Disaggregation for Efficient MoE LLM Serving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28302" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28302" target="_blank" rel="noopener">How Far Can Disaggregation Go? A Design-Space Exploration of Attention-FFN Disaggregation for Efficient MoE LLM Serving</a></h3>
      <p class="summary">Modern large language model (LLM) inference has progressively disaggregated to keep pace with growing model sizes and tight TTFT and TPOT s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a1a7397dec8f" data-article-url="https://arxiv.org/abs/2605.28305" data-article-title="Revisiting Anthropomorphic Reflection Markers in Large Language Model Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28305" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28305" target="_blank" rel="noopener">Revisiting Anthropomorphic Reflection Markers in Large Language Model Reasoning</a></h3>
      <p class="summary">Large Language Models (LLMs) often produce explicit reflective traces during complex reasoning, accompanied by anthropomorphic markers such…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8239873a15a2" data-article-url="https://arxiv.org/abs/2605.28306" data-article-title="Routing-Aligned Fine-Tuning for Multilingual Downstream Tasks in Mixture-of-Experts Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28306" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28306" target="_blank" rel="noopener">Routing-Aligned Fine-Tuning for Multilingual Downstream Tasks in Mixture-of-Experts Models</a></h3>
      <p class="summary">Mixture-of-Experts (MoE) models have emerged as a dominant paradigm for efficient LLM scaling, yet adapting them to non-English downstream…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d78f6af8bfa4" data-article-url="https://arxiv.org/abs/2605.28317" data-article-title="Hybrid Neural World Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28317" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28317" target="_blank" rel="noopener">Hybrid Neural World Models</a></h3>
      <p class="summary">Neural surrogates promise large speedups over classical solvers for physical dynamics but fail silently at sharp dynamical events such as s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1d3c4b2deda6" data-article-url="https://arxiv.org/abs/2605.28320" data-article-title="Identifying Explicit Parsimonious Piece-wise Polynomial Relationships in Industrial time-series: Application to manipulator robots" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28320" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28320" target="_blank" rel="noopener">Identifying Explicit Parsimonious Piece-wise Polynomial Relationships in Industrial time-series: Application to manipulator robots</a></h3>
      <p class="summary">This paper addresses the problem of identifying parsimonious explicit piece-wise polynomial relationships that might involve a relatively l…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fa640b5bad27" data-article-url="https://arxiv.org/abs/2605.28321" data-article-title="Multi-Agent LLM-based Metamorphic Testing for REST APIs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28321" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28321" target="_blank" rel="noopener">Multi-Agent LLM-based Metamorphic Testing for REST APIs</a></h3>
      <p class="summary">As REST APIs become an increasingly significant part of software systems, their validation is becoming more critical. Hence, testing and un…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="98aff66a6dd6" data-article-url="https://arxiv.org/abs/2605.28328" data-article-title="Learning the Error Patterns of Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28328" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28328" target="_blank" rel="noopener">Learning the Error Patterns of Language Models</a></h3>
      <p class="summary">When generating outputs for domains with specific validity constraints (e.g., a program should compile), LLMs often fail in a small number…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7ce237dd1dd7" data-article-url="https://arxiv.org/abs/2605.28353" data-article-title="Improving Evaluation of Recombination-based Cartesian Genetic Programming" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28353" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28353" target="_blank" rel="noopener">Improving Evaluation of Recombination-based Cartesian Genetic Programming</a></h3>
      <p class="summary">Cartesian Genetic Programming has traditionally been using mutation as its main and often sole genetic operator to drive evolutionary searc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1ca97b78ff8f" data-article-url="https://arxiv.org/abs/2605.28358" data-article-title="Score Based Error Correcting Code Decoder" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28358" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28358" target="_blank" rel="noopener">Score Based Error Correcting Code Decoder</a></h3>
      <p class="summary">Error-correcting codes enable reliable communication, yet practical soft decoding remains challenging across code families and block length…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="72b806b90d64" data-article-url="https://arxiv.org/abs/2605.28387" data-article-title="CLANE: Continual Learning of Actions on Neuromorphic Hardware from Event Cameras" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28387" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28387" target="_blank" rel="noopener">CLANE: Continual Learning of Actions on Neuromorphic Hardware from Event Cameras</a></h3>
      <p class="summary">Recognizing and continuously learning novel human actions without forgetting prior classes is a requirement for emerging AR/VR and robotics…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="06922e793e75" data-article-url="https://arxiv.org/abs/2605.28396" data-article-title="ADWIN: Adaptive Windows for Horizon-Aware On-Policy Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28396" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28396" target="_blank" rel="noopener">ADWIN: Adaptive Windows for Horizon-Aware On-Policy Distillation</a></h3>
      <p class="summary">On-policy distillation (OPD) transfers reasoning behavior by training a student on teacher feedback along student-generated trajectories, b…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b8e522508880" data-article-url="https://arxiv.org/abs/2605.28422" data-article-title="VITAL: Visual-Semantic Dual Supervision for Enhanced and Interpretable Latent Reasoning in Medical MLLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28422" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28422" target="_blank" rel="noopener">VITAL: Visual-Semantic Dual Supervision for Enhanced and Interpretable Latent Reasoning in Medical MLLMs</a></h3>
      <p class="summary">Latent reasoning enables reasoning over continuous hidden states rather than explicit tokens, avoiding the language bottleneck and inferenc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8da07aa3ea81" data-article-url="https://arxiv.org/abs/2605.28428" data-article-title="Anomaly as Non-Conformity via Training-Free Graph Laplacian Energy Minimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28428" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28428" target="_blank" rel="noopener">Anomaly as Non-Conformity via Training-Free Graph Laplacian Energy Minimization</a></h3>
      <p class="summary">Detecting subtle visual anomalies in images remains challenging, particularly when only normal samples are available a priori. Such unsuper…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="15b2cd1658e7" data-article-url="https://arxiv.org/abs/2605.28441" data-article-title="Bayesian Gated Non-Negative Contrastive Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28441" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28441" target="_blank" rel="noopener">Bayesian Gated Non-Negative Contrastive Learning</a></h3>
      <p class="summary">While Contrastive Learning (CL) has revolutionized self-supervised representation learning, its latent representations remain highly entang…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="94fda5835c4b" data-article-url="https://arxiv.org/abs/2605.28450" data-article-title="BiasEdit: A Training-Free Bias-Detect-and-Edit Framework for Learning Fair Visual Classifiers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28450" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28450" target="_blank" rel="noopener">BiasEdit: A Training-Free Bias-Detect-and-Edit Framework for Learning Fair Visual Classifiers</a></h3>
      <p class="summary">Visual data from the Web power image classifiers, which often underpin many web services, such as recommendation and content moderation. Ho…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9b39584d4b02" data-article-url="https://arxiv.org/abs/2605.28464" data-article-title="The Cases LJP Never Sees: Prosecution Decision Prediction for More Complete Criminal Liability Assessment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28464" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28464" target="_blank" rel="noopener">The Cases LJP Never Sees: Prosecution Decision Prediction for More Complete Criminal Liability Assessment</a></h3>
      <p class="summary">Legal Judgment Prediction (LJP) has become a core benchmark for evaluating AI in the criminal legal domain, but it only sees criminal cases…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb32776bae49" data-article-url="https://arxiv.org/abs/2605.28490" data-article-title="SSR3D-LLM: Structured Spatial Reasoning via Latent Steps for Fine-Grained Grounding in Unified 3D-LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28490" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28490" target="_blank" rel="noopener">SSR3D-LLM: Structured Spatial Reasoning via Latent Steps for Fine-Grained Grounding in Unified 3D-LLMs</a></h3>
      <p class="summary">3D object grounding localizes referred objects in a 3D scene from natural language. Unified instance-centric 3D-LLMs aim to solve grounding…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b7beb867edaa" data-article-url="https://arxiv.org/abs/2605.28498" data-article-title="The Decision to Verify: How Warmth and User Characteristics Shape Reliance on Conversational Agents for Information Search" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28498" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28498" target="_blank" rel="noopener">The Decision to Verify: How Warmth and User Characteristics Shape Reliance on Conversational Agents for Information Search</a></h3>
      <p class="summary">Conversational artificial intelligence (AI) provides an efficient and convenient gateway to information access. However, it can cause overr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9eb68bcd1c27" data-article-url="https://arxiv.org/abs/2605.28500" data-article-title="Functional Entropy: Predicting Functional Correctness in LLM-Generated Code with Uncertainty Quantification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28500" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28500" target="_blank" rel="noopener">Functional Entropy: Predicting Functional Correctness in LLM-Generated Code with Uncertainty Quantification</a></h3>
      <p class="summary">Large language models have shown impressive capabilities in code generation, yet they often produce functionally incorrect code. Uncertaint…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4b8a7caa7d9a" data-article-url="https://arxiv.org/abs/2605.28510" data-article-title="Efficient and Scalable Provenance Tracking for LLM-Generated Code Snippets" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28510" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28510" target="_blank" rel="noopener">Efficient and Scalable Provenance Tracking for LLM-Generated Code Snippets</a></h3>
      <p class="summary">Large language models (LLMs) for code completion and generation are increasingly used in software development, yet they may reproduce train…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="731748b7b9f8" data-article-url="https://arxiv.org/abs/2605.28513" data-article-title="Learning Theory of the SVRG: Generalization and Convergence Analysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28513" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28513" target="_blank" rel="noopener">Learning Theory of the SVRG: Generalization and Convergence Analysis</a></h3>
      <p class="summary">Variance reduction (VR) methods employ stochastic gradients with decreasing variance, and they have been widely applied to solve large-scal…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4cd9afa4db4b" data-article-url="https://arxiv.org/abs/2605.28515" data-article-title="Do LLMs Favor Their Providers? Measuring Vertical Integration Bias in Code Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28515" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28515" target="_blank" rel="noopener">Do LLMs Favor Their Providers? Measuring Vertical Integration Bias in Code Generation</a></h3>
      <p class="summary">Large Language Models (LLMs) have become an integral part of software development, especially with the advent of agentic capabilities. Yet,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7807aacada0c" data-article-url="https://arxiv.org/abs/2605.28517" data-article-title="Stochastic Gradient Descent with Momentum is Algorithmically Stable" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28517" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28517" target="_blank" rel="noopener">Stochastic Gradient Descent with Momentum is Algorithmically Stable</a></h3>
      <p class="summary">Stochastic gradient descent with momentum (SGDM) is one of the most widely used optimization algorithms in machine learning. While optimiza…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c91de5650500" data-article-url="https://arxiv.org/abs/2605.28557" data-article-title="Token Optimization Strategies for LLM-Based Oracle-to-PostgreSQL Migration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28557" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28557" target="_blank" rel="noopener">Token Optimization Strategies for LLM-Based Oracle-to-PostgreSQL Migration</a></h3>
      <p class="summary">LLMs are increasingly used for software modernization, code translation, and database migration. However, LLM-based Oracle2PostgreSQL migra…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ea8cbda8dde4" data-article-url="https://arxiv.org/abs/2605.28563" data-article-title="A Multi-dimensional Framework for Evaluating Generalization in EEG Foundation Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28563" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28563" target="_blank" rel="noopener">A Multi-dimensional Framework for Evaluating Generalization in EEG Foundation Models</a></h3>
      <p class="summary">Evaluating foundation models under appropriate adaptation settings is essential for understanding the quality and transferability of the le…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0919111111ec" data-article-url="https://arxiv.org/abs/2605.28565" data-article-title="Verified Misguidance: Measuring Structural Citation Failures in Search-Augmented LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28565" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28565" target="_blank" rel="noopener">Verified Misguidance: Measuring Structural Citation Failures in Search-Augmented LLMs</a></h3>
      <p class="summary">Users of search-augmented LLMs rely on citations as evidence that responses are grounded in real sources, and rarely verify the cited pages…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4f2e2e5e4f99" data-article-url="https://arxiv.org/abs/2605.28567" data-article-title="Semantic Optimal Transport for Sparse Autoencoder Feature Matching and Circuit Compression" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28567" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28567" target="_blank" rel="noopener">Semantic Optimal Transport for Sparse Autoencoder Feature Matching and Circuit Compression</a></h3>
      <p class="summary">Sparse autoencoders (SAEs) have become a central tool for interpreting language models. However, two key SAE analyses that remain difficult…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7fbaaa918d98" data-article-url="https://arxiv.org/abs/2605.28573" data-article-title="Efficient Pre-Training of LLMs through Truncated SVD Layers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28573" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28573" target="_blank" rel="noopener">Efficient Pre-Training of LLMs through Truncated SVD Layers</a></h3>
      <p class="summary">The massive scaling of Large Language Models (LLMs) has made pretraining increasingly cost-prohibitive. While low-rank representation and o…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="33f1e6239188" data-article-url="https://arxiv.org/abs/2605.28583" data-article-title="SARAD: LLM-Based Safety-Aware Hybrid Reinforcement Learning with Collision Prediction for Autonomous Driving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28583" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28583" target="_blank" rel="noopener">SARAD: LLM-Based Safety-Aware Hybrid Reinforcement Learning with Collision Prediction for Autonomous Driving</a></h3>
      <p class="summary">Ensuring both safety and efficiency in decision-making for autonomous driving systems remains a fundamental challenge. Traditional Deep Rei…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="14c9fdff8e9b" data-article-url="https://arxiv.org/abs/2605.28588" data-article-title="Technical Report: Exploring the Emerging Threats of the Agent Skill Ecosystem" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28588" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28588" target="_blank" rel="noopener">Technical Report: Exploring the Emerging Threats of the Agent Skill Ecosystem</a></h3>
      <p class="summary">We analyzed 3,984 AI agent skills from major marketplaces and found 76 confirmed malicious payloads, including credential theft, backdoor i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b10bb77050ae" data-article-url="https://arxiv.org/abs/2605.28591" data-article-title="Models That Know How Evaluations Are Designed Score Safer" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28591" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28591" target="_blank" rel="noopener">Models That Know How Evaluations Are Designed Score Safer</a></h3>
      <p class="summary">The validity of AI safety evaluations depends on models behaving consistently across controlled and deployment settings. Prior work has ide…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c85ae6b6d59" data-article-url="https://arxiv.org/abs/2605.28594" data-article-title="Thermodynamic properties of chemically disordered compounds via AI-driven estimation of partition function with the PULSE method" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28594" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28594" target="_blank" rel="noopener">Thermodynamic properties of chemically disordered compounds via AI-driven estimation of partition function with the PULSE method</a></h3>
      <p class="summary">In this article, we present an improved version of the PULSE method (Partition function Unsupervised Learning Sampling and Evaluation) for…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e9fd6cc31a61" data-article-url="https://arxiv.org/abs/2605.28597" data-article-title="Position: Retire the &quot;Positive Backdoor&quot; Label -- Secret Alignment Requires Strict and Systematic Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28597" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28597" target="_blank" rel="noopener">Position: Retire the &quot;Positive Backdoor&quot; Label -- Secret Alignment Requires Strict and Systematic Evaluation</a></h3>
      <p class="summary">This position paper argues that the AI/ML community should stop overclaiming and retire the label &quot;positive backdoor,&quot; and instead treat tr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="10293ea16445" data-article-url="https://arxiv.org/abs/2605.28598" data-article-title="Evaluating the Realism of LLM-powered Social Agents: A Case Study of Reactions to Spanish Online News" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28598" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28598" target="_blank" rel="noopener">Evaluating the Realism of LLM-powered Social Agents: A Case Study of Reactions to Spanish Online News</a></h3>
      <p class="summary">LLM-powered social agents are increasingly used to simulate online social behavior, yet their realism remains difficult to validate. Existi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0115c3b80591" data-article-url="https://arxiv.org/abs/2605.28603" data-article-title="Online Irregular Multivariate Time Series Forecasting via Uncertainty-Driven Dual-Expert Calibration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28603" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28603" target="_blank" rel="noopener">Online Irregular Multivariate Time Series Forecasting via Uncertainty-Driven Dual-Expert Calibration</a></h3>
      <p class="summary">Irregular multivariate time series forecasting is critical in many real-world applications, where time series are irregularly sampled and e…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="65a967cfb310" data-article-url="https://arxiv.org/abs/2605.28604" data-article-title="Mining Multi-Modality Spatio-Temporal Cues for Video Important Person Identification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28604" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28604" target="_blank" rel="noopener">Mining Multi-Modality Spatio-Temporal Cues for Video Important Person Identification</a></h3>
      <p class="summary">Identifying key individuals in video scenes is essential for applications such as automated video editing and intelligent surveillance. Cur…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a913a18521b2" data-article-url="https://arxiv.org/abs/2605.28616" data-article-title="Measuring Form and Function in Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28616" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28616" target="_blank" rel="noopener">Measuring Form and Function in Language Models</a></h3>
      <p class="summary">We introduce quantitative metrics for child language acquisition to evaluate language models. Our focus is on the formal syntactic and func…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="755c4f32c5cb" data-article-url="https://arxiv.org/abs/2605.28632" data-article-title="Blind PRNG Hijacking: An Undetectable Integrity-Preserving Attack Against LLM Watermarking" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28632" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28632" target="_blank" rel="noopener">Blind PRNG Hijacking: An Undetectable Integrity-Preserving Attack Against LLM Watermarking</a></h3>
      <p class="summary">Cryptographic watermarking is a leading defense for attributing text generated by large language models (LLMs). Existing schemes, including…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c13ac796eaaa" data-article-url="https://arxiv.org/abs/2605.28639" data-article-title="The Attentional White Bear Effect in Transformer Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28639" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28639" target="_blank" rel="noopener">The Attentional White Bear Effect in Transformer Language Models</a></h3>
      <p class="summary">Instruction-based suppression is widely used to prevent language models from generating prohibited content, yet it remains unclear whether…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="05e03d8f5cb6" data-article-url="https://arxiv.org/abs/2605.28669" data-article-title="Sense Representations Are Inducible Interfaces" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28669" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28669" target="_blank" rel="noopener">Sense Representations Are Inducible Interfaces</a></h3>
      <p class="summary">Sense representations (explicit, per-token meaning decompositions) are useful for disambiguation, steering, and cross-lingual alignment, bu…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7a326e976488" data-article-url="https://arxiv.org/abs/2605.28680" data-article-title="AI in the Workplace: The Impact of AI on Perceived Job Decency and Meaningfulness" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28680" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28680" target="_blank" rel="noopener">AI in the Workplace: The Impact of AI on Perceived Job Decency and Meaningfulness</a></h3>
      <p class="summary">The proliferation of Artificial Intelligence (AI) in workplaces is transforming how we work. While existing research on human-AI collaborat…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="91ffe63c6fcc" data-article-url="https://arxiv.org/abs/2605.28693" data-article-title="Misalignment Between Backpropagation and the Hierarchy of Brain Responses to Images" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28693" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28693" target="_blank" rel="noopener">Misalignment Between Backpropagation and the Hierarchy of Brain Responses to Images</a></h3>
      <p class="summary">Backpropagation is the core learning mechanism underlying deep learning. However, whether and how this algorithm is implemented in the brai…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6295b18c48c0" data-article-url="https://arxiv.org/abs/2605.28697" data-article-title="Deep Learning Strain Estimation: Is Physics-Based Simulation the Solution?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28697" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28697" target="_blank" rel="noopener">Deep Learning Strain Estimation: Is Physics-Based Simulation the Solution?</a></h3>
      <p class="summary">Speckle tracking echocardiography (STE) is the clinical standard for myocardial strain estimation. Despite good performance on global strai…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="040412a2d3ff" data-article-url="https://arxiv.org/abs/2605.28703" data-article-title="A Fresh Look at Lamarckian Evolution and the Baldwin Effect" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28703" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28703" target="_blank" rel="noopener">A Fresh Look at Lamarckian Evolution and the Baldwin Effect</a></h3>
      <p class="summary">Baldwinian and Lamarckian evolution have existed for a long time in evolutionary algorithms (EAs) without ever dominating the academic lite…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c763876ad535" data-article-url="https://arxiv.org/abs/2605.28710" data-article-title="Towards Reliable Multilingual LLMs-as-a-Judge: An Empirical Study" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28710" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28710" target="_blank" rel="noopener">Towards Reliable Multilingual LLMs-as-a-Judge: An Empirical Study</a></h3>
      <p class="summary">Large language models (LLMs) are increasingly used for the automatic evaluation of generated text, yet most prior work focuses on English.…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2a96d20a0032" data-article-url="https://arxiv.org/abs/2605.28714" data-article-title="IPO-Mine: A Toolkit and Dataset for Section-Structured Analysis of Long, Multimodal IPO Documents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28714" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28714" target="_blank" rel="noopener">IPO-Mine: A Toolkit and Dataset for Section-Structured Analysis of Long, Multimodal IPO Documents</a></h3>
      <p class="summary">An Initial Public Offering (IPO) filing is a document released when a private firm goes public, allowing individual (retail) investors to p…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="de2b45cb5ab2" data-article-url="https://arxiv.org/abs/2605.28732" data-article-title="MemTrace: Tracing and Attributing Errors in Large Language Model Memory Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28732" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28732" target="_blank" rel="noopener">MemTrace: Tracing and Attributing Errors in Large Language Model Memory Systems</a></h3>
      <p class="summary">Memory is essential for enabling large language models to support long-horizon reasoning, yet existing memory systems remain unreliable and…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9e7f27612979" data-article-url="https://arxiv.org/abs/2605.28739" data-article-title="BIRDNet: Mining and Encoding Boolean Implication Knowledge Graphs as Interpretable Deep Neural Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28739" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28739" target="_blank" rel="noopener">BIRDNet: Mining and Encoding Boolean Implication Knowledge Graphs as Interpretable Deep Neural Networks</a></h3>
      <p class="summary">Tabular data in knowledge-rich domains often carries a latent prior in the form of Boolean implication relationships (BIRs) between pairs o…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="61afa14c7783" data-article-url="https://arxiv.org/abs/2605.28740" data-article-title="Reverse Probing: Supervised Token-level Uncertainty Quantification for Large Language Models in Clinical Text" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28740" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28740" target="_blank" rel="noopener">Reverse Probing: Supervised Token-level Uncertainty Quantification for Large Language Models in Clinical Text</a></h3>
      <p class="summary">As large language models are increasingly deployed for clinical text, ensuring they can reliably signal their own uncertainty becomes criti…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2d55869604d0" data-article-url="https://arxiv.org/abs/2605.28746" data-article-title="Preference-Shaped Expected Hypervolume and R2 Improvement: Exact Computation and Monotonicity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28746" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28746" target="_blank" rel="noopener">Preference-Shaped Expected Hypervolume and R2 Improvement: Exact Computation and Monotonicity</a></h3>
      <p class="summary">This paper studies preference-shaped expected improvement criteria for Bayesian multiobjective optimization. We consider two indicator fami…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8764280aa92c" data-article-url="https://arxiv.org/abs/2605.28751" data-article-title="Extrapolative Weight Averaging Reveals Correctness-Efficiency Frontiers in Code RL" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28751" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28751" target="_blank" rel="noopener">Extrapolative Weight Averaging Reveals Correctness-Efficiency Frontiers in Code RL</a></h3>
      <p class="summary">Linear interpolation between fine-tuned checkpoints has been shown to trace the Pareto front between competing objectives, but whether extr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e162bf3f49b2" data-article-url="https://arxiv.org/abs/2605.28773" data-article-title="Rethinking Memory as Continuously Evolving Connectivity" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28773" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28773" target="_blank" rel="noopener">Rethinking Memory as Continuously Evolving Connectivity</a></h3>
      <p class="summary">Existing memory-augmented LLM agents often treat memory as a static repository with pre-defined representations and fixed retrieval pipelin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="281f3e0df334" data-article-url="https://arxiv.org/abs/2605.28775" data-article-title="Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28775" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28775" target="_blank" rel="noopener">Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents</a></h3>
      <p class="summary">Computer-use agents (CUAs) have recently made substantial progress, but deploying a separate large expert for each software domain remains…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e5ce8b468ab8" data-article-url="https://arxiv.org/abs/2605.28787" data-article-title="Do Agents Need Semantic Metadata? A Comparative Study in Agentic Data Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/google/" data-entity="google">Google</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28787" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28787" target="_blank" rel="noopener">Do Agents Need Semantic Metadata? A Comparative Study in Agentic Data Retrieval</a></h3>
      <p class="summary">In the era of autonomous agents, machine-actionable data is critical for data-driven workflows. For more than a decade, semantic metadata l…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8c9af88dd3e2" data-article-url="https://arxiv.org/abs/2605.28791" data-article-title="Skill-Conditioned Gated Self-Distillation for LLM Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28791" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28791" target="_blank" rel="noopener">Skill-Conditioned Gated Self-Distillation for LLM Reasoning</a></h3>
      <p class="summary">On-policy self-distillation (SD) improves LLM reasoning by using teacher-side privileged information (PI) to turn sparse verifier outcomes…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9f547f6831ff" data-article-url="https://arxiv.org/abs/2605.28805" data-article-title="OmniVerifier-M1: Multimodal Meta-Verifier with Explicit Structured Recalibration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28805" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28805" target="_blank" rel="noopener">OmniVerifier-M1: Multimodal Meta-Verifier with Explicit Structured Recalibration</a></h3>
      <p class="summary">Visual outcomes are increasingly central to multimodal large language models, making reliable and fine-grained verification essential for s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8dd3b5a1690a" data-article-url="https://arxiv.org/abs/2605.28812" data-article-title="Beyond Binary: Sim-to-Real Dexterous Manipulation with Physics-Grounded Contact Representation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.28812" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.28812" target="_blank" rel="noopener">Beyond Binary: Sim-to-Real Dexterous Manipulation with Physics-Grounded Contact Representation</a></h3>
      <p class="summary">A primary bottleneck in contact-rich manipulation is the difficulty of collecting real-world data. Sim-to-real reinforcement learning offer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="579d4e7cd628" data-article-url="https://arxiv.org/abs/2305.06426" data-article-title="Planning a Community Approach to Diabetes Care in Low- and Middle-Income Countries Using Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2305.06426" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2305.06426" target="_blank" rel="noopener">Planning a Community Approach to Diabetes Care in Low- and Middle-Income Countries Using Optimization</a></h3>
      <p class="summary">Diabetes is a global health priority, especially in low- and-middle-income countries, where over 50% of premature deaths are attributed to…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f608d1403e65" data-article-url="https://arxiv.org/abs/2309.17057" data-article-title="Tell Me a Story! Narrative-Driven XAI with Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2309.17057" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2309.17057" target="_blank" rel="noopener">Tell Me a Story! Narrative-Driven XAI with Large Language Models</a></h3>
      <p class="summary">In many AI applications today, the predominance of black-box machine learning models, due to their typically higher accuracy, amplifies the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a62a93df3359" data-article-url="https://arxiv.org/abs/2407.21075" data-article-title="Apple Intelligence Foundation Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2407.21075" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2407.21075" target="_blank" rel="noopener">Apple Intelligence Foundation Language Models</a></h3>
      <p class="summary">We present foundation language models developed to power Apple Intelligence features, including a ~3 billion parameter model designed to ru…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b23a9d9a7c21" data-article-url="https://arxiv.org/abs/2503.11477" data-article-title="Heterogeneous Causal Discovery of Repeated Undesirable Health Outcomes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.11477" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.11477" target="_blank" rel="noopener">Heterogeneous Causal Discovery of Repeated Undesirable Health Outcomes</a></h3>
      <p class="summary">Understanding the factors that trigger or prevent undesirable health outcomes across patient subpopulations is essential for designing targ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="56d9a2cbfa3b" data-article-url="https://arxiv.org/abs/2503.22655" data-article-title="Text-Only Data Synthesis for Vision Language Model Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.22655" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.22655" target="_blank" rel="noopener">Text-Only Data Synthesis for Vision Language Model Training</a></h3>
      <p class="summary">Training vision-language models (VLMs) typically requires large-scale, high-quality image-text pairs, but collecting or synthesizing such d…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5ff0a845c1ec" data-article-url="https://arxiv.org/abs/2509.04192" data-article-title="Domain size asymptotics for Markov logic networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.04192" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.04192" target="_blank" rel="noopener">Domain size asymptotics for Markov logic networks</a></h3>
      <p class="summary">A Markov logic network (MLN) $\mathbb{M}$ determines a probability distribution $\mathbb{P}_n^\mathbb{M}$ on the set $\mathbf{W}_n$ of stru…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ff754bae510b" data-article-url="https://arxiv.org/abs/2509.15848" data-article-title="A Comparative Study of Rule-Based and Data-Driven Approaches in Industrial Monitoring" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.15848" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.15848" target="_blank" rel="noopener">A Comparative Study of Rule-Based and Data-Driven Approaches in Industrial Monitoring</a></h3>
      <p class="summary">Industrial monitoring systems, especially when deployed in Industry 4.0 environments, are experiencing a shift in paradigm from traditional…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d2eb8346f3b8" data-article-url="https://arxiv.org/abs/2509.21128" data-article-title="RL Squeezes, SFT Expands: A Comparative Study of Reasoning LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.21128" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.21128" target="_blank" rel="noopener">RL Squeezes, SFT Expands: A Comparative Study of Reasoning LLMs</a></h3>
      <p class="summary">Large language models (LLMs) are typically trained by reinforcement learning (RL) with verifiable rewards (RLVR) and supervised fine-tuning…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e129056585bc" data-article-url="https://arxiv.org/abs/2510.01724" data-article-title="MetaboT: An LLM-based Multi-Agent Frameworkfor Interactive Analysis of Mass SpectrometryMetabolomics Knowledge Graphs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.01724" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.01724" target="_blank" rel="noopener">MetaboT: An LLM-based Multi-Agent Frameworkfor Interactive Analysis of Mass SpectrometryMetabolomics Knowledge Graphs</a></h3>
      <p class="summary">Mass spectrometry-based metabolomics generates complex, high-dimensional data that holds vast potential for biological discovery but remain…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="858905389b69" data-article-url="https://arxiv.org/abs/2510.20665" data-article-title="The Shape of Reasoning: Topological Analysis of Reasoning Traces in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.20665" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.20665" target="_blank" rel="noopener">The Shape of Reasoning: Topological Analysis of Reasoning Traces in Large Language Models</a></h3>
      <p class="summary">Evaluating the quality of reasoning traces from large language models remains understudied, labor-intensive, and unreliable: current practi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c6fe976b57d6" data-article-url="https://arxiv.org/abs/2511.09572" data-article-title="SynthTools: A Framework for Scaling Synthetic Tools for Agent Development" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.09572" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.09572" target="_blank" rel="noopener">SynthTools: A Framework for Scaling Synthetic Tools for Agent Development</a></h3>
      <p class="summary">For agentic systems to use external tools to solve complex, long-horizon tasks, we need a large set of diverse and controllable tool-use en…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9f5f17e92ee2" data-article-url="https://arxiv.org/abs/2511.20934" data-article-title="Guaranteed Optimal Compositional Explanations for Neurons" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.20934" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.20934" target="_blank" rel="noopener">Guaranteed Optimal Compositional Explanations for Neurons</a></h3>
      <p class="summary">Compositional explanations are a family of methods that aim to describe the spatial alignment between neurons&#x27; receptive field activations…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1e62640da5fc" data-article-url="https://arxiv.org/abs/2512.00349" data-article-title="Debate with Images: Detecting Deceptive Behaviors in Multimodal Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.00349" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.00349" target="_blank" rel="noopener">Debate with Images: Detecting Deceptive Behaviors in Multimodal Large Language Models</a></h3>
      <p class="summary">Are frontier AI systems becoming more capable? Certainly. Yet such progress is not an unalloyed blessing but rather a Trojan horse: behind…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e23c3a92a958" data-article-url="https://arxiv.org/abs/2512.01970" data-article-title="Atomic Skills are the Prerequisite: When Reinforcement Learning Synthesizes Compositional Reasoning, and When It Only Amplifies" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.01970" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.01970" target="_blank" rel="noopener">Atomic Skills are the Prerequisite: When Reinforcement Learning Synthesizes Compositional Reasoning, and When It Only Amplifies</a></h3>
      <p class="summary">Does Reinforcement Learning (RL) merely amplify existing skills, or synthesize novel skills? We investigate this question through the lens…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fa092c3da9bd" data-article-url="https://arxiv.org/abs/2601.04505" data-article-title="CircuitLM: A Multi-Agent LLM-Aided Design Framework for Generating Circuit Schematics from Natural Language Prompts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.04505" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.04505" target="_blank" rel="noopener">CircuitLM: A Multi-Agent LLM-Aided Design Framework for Generating Circuit Schematics from Natural Language Prompts</a></h3>
      <p class="summary">Generating accurate circuit schematics from high-level natural language descriptions remains a persistent challenge in electronic design au…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2c6b5304f7a6" data-article-url="https://arxiv.org/abs/2601.05386" data-article-title="How Much Can a Few Engine Moves Help? Quantifying Limited Cheating in Chess" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.05386" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.05386" target="_blank" rel="noopener">How Much Can a Few Engine Moves Help? Quantifying Limited Cheating in Chess</a></h3>
      <p class="summary">Cheating in chess, by using advice from powerful software, has become a major problem, reaching the highest levels. As opposed to the large…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="004a04e48fb5" data-article-url="https://arxiv.org/abs/2601.21666" data-article-title="SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.21666" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.21666" target="_blank" rel="noopener">SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding</a></h3>
      <p class="summary">Multimodal Large Language Models (MLLMs) are a major focus of recent AI research. However, most prior work focuses on static image understa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1d60480ac80a" data-article-url="https://arxiv.org/abs/2602.01992" data-article-title="Emergent Analogical Reasoning in Transformers" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01992" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01992" target="_blank" rel="noopener">Emergent Analogical Reasoning in Transformers</a></h3>
      <p class="summary">Analogy is a central faculty of human intelligence, enabling abstract patterns discovered in one domain to be applied to another. Despite i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6fb8146cacc2" data-article-url="https://arxiv.org/abs/2602.02898" data-article-title="Aligning Language Model Benchmarks with Pairwise Preferences" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02898" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02898" target="_blank" rel="noopener">Aligning Language Model Benchmarks with Pairwise Preferences</a></h3>
      <p class="summary">Language model benchmarks are pervasive and computationally-efficient proxies for real-world performance. However, many recent works find t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="04b55db27aeb" data-article-url="https://arxiv.org/abs/2602.12586" data-article-title="Can I Have Your Order? Monte-Carlo Tree Search for Slot Filling Ordering in Diffusion Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.12586" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.12586" target="_blank" rel="noopener">Can I Have Your Order? Monte-Carlo Tree Search for Slot Filling Ordering in Diffusion Language Models</a></h3>
      <p class="summary">While plan-and-infill decoding in Masked Diffusion Models (MDMs) shows promise for mathematical and code reasoning, performance remains hig…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9fedf808e473" data-article-url="https://arxiv.org/abs/2602.22769" data-article-title="AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.22769" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.22769" target="_blank" rel="noopener">AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications</a></h3>
      <p class="summary">Large Language Models (LLMs) are increasingly used as autonomous agents in complex, long-horizon applications, where effective memory is cr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dab8acb47833" data-article-url="https://arxiv.org/abs/2603.00309" data-article-title="DIG to Heal: Scaling General-purpose Agent Collaboration via Explainable Dynamic Decision Paths" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.00309" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.00309" target="_blank" rel="noopener">DIG to Heal: Scaling General-purpose Agent Collaboration via Explainable Dynamic Decision Paths</a></h3>
      <p class="summary">The increasingly popular agentic AI paradigm promises to harness the power of multiple, general-purpose large language model (LLM) agents t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ba3b98e21857" data-article-url="https://arxiv.org/abs/2603.00349" data-article-title="COOP$^2$: Defining, Observing, and Repairing Cooperation in LLM Multi-Agent Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.00349" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.00349" target="_blank" rel="noopener">COOP$^2$: Defining, Observing, and Repairing Cooperation in LLM Multi-Agent Systems</a></h3>
      <p class="summary">Many complex tasks require extended effort, diverse capabilities, or coordinated actions beyond what a single agent can provide. However, s…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3be3f97e68bb" data-article-url="https://arxiv.org/abs/2603.02702" data-article-title="FinTexTS: Financial Text-Paired Time-Series Dataset via Semantic-Based and Multi-Level Pairing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.02702" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.02702" target="_blank" rel="noopener">FinTexTS: Financial Text-Paired Time-Series Dataset via Semantic-Based and Multi-Level Pairing</a></h3>
      <p class="summary">The financial domain involves a variety of important time-series problems. Recently, time-series analysis methods that jointly leverage tex…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="955841549520" data-article-url="https://arxiv.org/abs/2603.04631" data-article-title="Towards automated data analysis: A guided framework for LLM-based risk estimation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.04631" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.04631" target="_blank" rel="noopener">Towards automated data analysis: A guided framework for LLM-based risk estimation</a></h3>
      <p class="summary">Large Language Models (LLMs) are increasingly integrated into critical decision-making pipelines, a trend that raises the demand for robust…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="904d5b15ce3a" data-article-url="https://arxiv.org/abs/2604.01604" data-article-title="CRaFT: Circuit-Guided Refusal Feature Selection via Cross-Layer Transcoders" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.01604" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.01604" target="_blank" rel="noopener">CRaFT: Circuit-Guided Refusal Feature Selection via Cross-Layer Transcoders</a></h3>
      <p class="summary">While modern LLMs are aligned to refuse harmful requests, it is essential to understand the underlying mechanistic basis of this refusal be…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="ed3f25e89925" data-article-url="https://arxiv.org/abs/2604.04074" data-article-title="FactReview: Evidence-Grounded Peer Review with Execution-Based Claim Verification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.04074" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.04074" target="_blank" rel="noopener">FactReview: Evidence-Grounded Peer Review with Execution-Based Claim Verification</a></h3>
      <p class="summary">LLM-based reviewing systems typically take only the manuscript as input, leaving literature and code-based claims hard to verify. We presen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="93fa1d5d399e" data-article-url="https://arxiv.org/abs/2604.05333" data-article-title="Graph-of-Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.05333" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.05333" target="_blank" rel="noopener">Graph-of-Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills</a></h3>
      <p class="summary">Modern LLM agents increasingly rely on reusable skills, and as they interact with personal applications, web browsers, and other interfaces…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b25541f558bb" data-article-url="https://arxiv.org/abs/2604.12955" data-article-title="Text2Model: Modeling Copilots for Text-to-Model Translation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/copilot/" data-entity="copilot">Copilot</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.12955" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.12955" target="_blank" rel="noopener">Text2Model: Modeling Copilots for Text-to-Model Translation</a></h3>
      <p class="summary">There is growing interest in leveraging large language models (LLMs) for text-to-model translation and optimization tasks. This paper aims…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="87a302f2592e" data-article-url="https://arxiv.org/abs/2604.14585" data-article-title="Prompt Optimization Is a Coin Flip: Diagnosing When It Helps in Compound AI Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.14585" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.14585" target="_blank" rel="noopener">Prompt Optimization Is a Coin Flip: Diagnosing When It Helps in Compound AI Systems</a></h3>
      <p class="summary">Prompt optimization in compound AI systems is statistically indistinguishable from a coin flip: across 72 optimization runs on Claude Haiku…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="dfbd6933432f" data-article-url="https://arxiv.org/abs/2604.15898" data-article-title="Towards Rigorous Explainability by Feature Attribution" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.15898" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.15898" target="_blank" rel="noopener">Towards Rigorous Explainability by Feature Attribution</a></h3>
      <p class="summary">For around a decade, non-symbolic methods have been the option of choice when explaining complex machine learning (ML) models. Unfortunatel…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f4c152f80d75" data-article-url="https://arxiv.org/abs/2604.18530" data-article-title="OGER: A Robust Offline-Guided Exploration Reward for Hybrid Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.18530" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.18530" target="_blank" rel="noopener">OGER: A Robust Offline-Guided Exploration Reward for Hybrid Reinforcement Learning</a></h3>
      <p class="summary">Recent advancements in Reinforcement Learning with Verifiable Rewards (RLVR) have significantly improved Large Language Model (LLM) reasoni…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fab4ece93281" data-article-url="https://arxiv.org/abs/2604.23472" data-article-title="Escher-Loop: Mutual Evolution by Closed-Loop Self-Referential Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.23472" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.23472" target="_blank" rel="noopener">Escher-Loop: Mutual Evolution by Closed-Loop Self-Referential Optimization</a></h3>
      <p class="summary">While recent autonomous agents demonstrate impressive capabilities, they predominantly rely on manually scripted workflows and handcrafted…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6d9d74f03ecb" data-article-url="https://arxiv.org/abs/2605.02503" data-article-title="DataClawBench: An Agent Benchmark for Exploratory Real-World Financial Data Analysis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.02503" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.02503" target="_blank" rel="noopener">DataClawBench: An Agent Benchmark for Exploratory Real-World Financial Data Analysis</a></h3>
      <p class="summary">Autonomous data analysis agents are increasingly expected to conduct exploratory analysis with limited human guidance about data. However,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="654471c09fde" data-article-url="https://arxiv.org/abs/2605.08938" data-article-title="Can We Formally Verify Neural PDE Surrogates? SMT Compilation of Small Fourier Neural Operators" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.08938" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.08938" target="_blank" rel="noopener">Can We Formally Verify Neural PDE Surrogates? SMT Compilation of Small Fourier Neural Operators</a></h3>
      <p class="summary">Fourier Neural Operators (FNOs) can greatly accelerate PDE simulation, but they are often used without formal guarantees that they preserve…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d337a2e07db8" data-article-url="https://arxiv.org/abs/2605.10325" data-article-title="Verifiable Process Rewards for Agentic Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.10325" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.10325" target="_blank" rel="noopener">Verifiable Process Rewards for Agentic Reasoning</a></h3>
      <p class="summary">Reinforcement learning from verifiable rewards (RLVR) has improved the reasoning abilities of large language models (LLMs), but most existi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3ddfb4a3dd2e" data-article-url="https://arxiv.org/abs/2605.11458" data-article-title="Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.11458" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.11458" target="_blank" rel="noopener">Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning</a></h3>
      <p class="summary">On-policy self-distillation has become a strong recipe for LLM reasoning, where a privileged teacher supervises the student&#x27;s own rollouts…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="037fff2bbfcb" data-article-url="https://arxiv.org/abs/2605.11544" data-article-title="Optimal LTLf Synthesis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.11544" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.11544" target="_blank" rel="noopener">Optimal LTLf Synthesis</a></h3>
      <p class="summary">Strategy synthesis typically follows an all-or-nothing paradigm, returning unrealisable whenever a specification cannot be guaranteed in an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="75639a007f2b" data-article-url="https://arxiv.org/abs/2605.18692" data-article-title="Democratizing Large-Scale Re-Optimization with LLM-Guided Model Patches" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.18692" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.18692" target="_blank" rel="noopener">Democratizing Large-Scale Re-Optimization with LLM-Guided Model Patches</a></h3>
      <p class="summary">Optimization models developed by operations research (OR) experts are often deployed as decision-support systems in industrial settings. Ho…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="02dd591827ad" data-article-url="https://arxiv.org/abs/2605.19514" data-article-title="Position: The Turing-Completeness of Autoregressive Transformers Relies Heavily on Context Management" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.19514" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.19514" target="_blank" rel="noopener">Position: The Turing-Completeness of Autoregressive Transformers Relies Heavily on Context Management</a></h3>
      <p class="summary">Many works make the eye-catching claim that Transformers are Turing-complete. However, the literature often conflates two distinct settings…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a59d527dd898" data-article-url="https://arxiv.org/abs/2605.19743" data-article-title="EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.19743" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.19743" target="_blank" rel="noopener">EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design</a></h3>
      <p class="summary">Large Language Model (LLM) agents are increasingly applied to engineering design tasks, yet existing evaluation frameworks do not adequatel…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="42a05cb2bee7" data-article-url="https://arxiv.org/abs/2605.21743" data-article-title="Who Uses AI? Platform Selection and the Measurement of Occupational AI Exposure" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.21743" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.21743" target="_blank" rel="noopener">Who Uses AI? Platform Selection and the Measurement of Occupational AI Exposure</a></h3>
      <p class="summary">Conversation logs from AI platforms are increasingly used to measure occupational exposure to artificial intelligence, but the users observ…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f987dd2f3b86" data-article-url="https://arxiv.org/abs/2605.21832" data-article-title="FLUID: From Ephemeral IDs to Multimodal Semantic Codes for Industrial-Scale Livestreaming Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.21832" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.21832" target="_blank" rel="noopener">FLUID: From Ephemeral IDs to Multimodal Semantic Codes for Industrial-Scale Livestreaming Recommendation</a></h3>
      <p class="summary">Modern recommender systems rely heavily on ID-based collaborative filtering: each item is represented by a unique ID embedding that accumul…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4d507912014d" data-article-url="https://arxiv.org/abs/2605.22166" data-article-title="Adapting the Interface, Not the Model: Runtime Harness Adaptation for Deterministic LLM Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.22166" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.22166" target="_blank" rel="noopener">Adapting the Interface, Not the Model: Runtime Harness Adaptation for Deterministic LLM Agents</a></h3>
      <p class="summary">LLM agents are shaped not only by their language models, but also by the runtime harness that mediates observation, tool use, action execut…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f746ddd7ec49" data-article-url="https://arxiv.org/abs/2605.23908" data-article-title="オープンエンド性の要素を求めて: 大規模な視覚言語モデルを使用した Picbreeder の複製" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.23908" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.23908" target="_blank" rel="noopener">オープンエンド性の要素を求めて: 大規模な視覚言語モデルを使用した Picbreeder の複製</a></h3>
      <p class="summary">私たちは現在、AI 主導のアシスタントを通じて科学、技術、創造的な生産のプロセスを自動化する大規模な産業および学術の取り組みの真っ最中です。歴史的に、人間の形態におけるこれらのプロセスの基本的な特性は、そのオープンエンド性であり、一見無限に見える新規で意味のある新しい形態を生成する能力です。人工エージェントには、そのような有益な無誘導発見を行う能力があるのでしょうか?この質問に答えるために、人間主導のオープンエンド検索の標準的な例である Picbreeder に注目します。Picbreeder では、小さなニューラル ネットワークのインタラクティブな進化を通じて、ユーザーが協力して画像の多様なライブラリを生成します。私たちは Picbreeder を複製し、人間のユーザーをフロンティア ビジョン言語モデル (VLM) に置き換えます。私たちは、システムの出力と歴史的な人間のベースラインとの間に明らかな質的な違いを観察し、系統学的複雑性、視覚的および意味論的な顕著性と新規性の指標を使用してそれらを特徴づけようと試みます。これらの違いに寄与する原因要因のいくつかを特定するために、私たちは、エージェントの選択プロセスへの探索的ノイズの追加、エージェント間の行動の多様性、および過去の行動の記憶の形での物語の勢いについて研究します。コードは https://github.com/smearle/picbreeder-vlm で公開しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">In Search of the Ingredients of Open-Endedness: Replicating Picbreeder with Large Vision-Language Models</p>
        <p class="orig-summary">We are in the midst of large-scale industrial and academic efforts to automate the processes of scientific, technological and creative production through AI-driven assistants. Historically, a fundamental property of these processes in their human form has been their open-endedness: their capacity for generating a seemingly endless supply of novel and meaningful new forms. Do artificial agents have any capacity for such fruitful unguided discovery? To answer this question, we turn to Picbreeder, the canonical exemplar of human-driven open-ended search, in which users collaboratively generated a diverse library of images through interactive evolution of small neural networks. We replicate Picbreeder, replacing human users with frontier Vision Language Models (VLMs). We observe clear qualitative differences between the output of our system and the historical human baseline, and attempt to characterize them using metrics of phylogenetic complexity and visual and semantic salience and novelty. In an effort to identify some of the causal factors contributing these differences, we study the addition of exploratory noise to the agents&#x27; selection process, of behavioral diversity between agents, and of narrative momentum in the form of memory of past actions. We make our code available at https://github.com/smearle/picbreeder-vlm.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f79b802f4c77" data-article-url="https://arxiv.org/abs/2605.23955" data-article-title="正確さから監査可能性へ: 金融 AI システムにおける決定論の調査" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.23955" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.23955" target="_blank" rel="noopener">正確さから監査可能性へ: 金融 AI システムにおける決定論の調査</a></h3>
      <p class="summary">信用リスク、不正行為検出、マネーロンダリング対策といった規制された金融環境に機械学習を導入すると、アルゴリズムの再現性における重大な脆弱性が露呈します。初期の金融 ML はバックテストのオーバーフィッティングなどの統計的課題に対処しましたが、ディープ ニューラル ネットワークと生成 AI では、ハードウェアとアーキテクチャに根ざした機械的非決定性が導入されました。この調査では、表形式モデル (事後説明の分散)、グラフ ネットワーク (確率的サンプリングと時間的非同期性)、LLM ベースのエージェント ワークフロー (バッチ依存の発散と軌道ドリフト) という、金融 AI で現在主流となっている 3 つの手法にわたる再現性の障害に関するシステムの視点を提供します。公的金融データセットに関するファーストパーティの実験で文献分析を補足します。信用スコアリングにおける説明ランクの不安定性、GNN ベースの不正検出における予測フリップ レート、LLM エンティティ抽出におけるテンソル並列誘発出力の発散を定量化します。我々は、モダリティ固有の指標（RBO、D_cos、TDI、PSD）を監査の準備状況にリンクする階層化された評価フレームワークを提案し、ロジットレベルとセマンティックレベルの決定性尺度の相補性を経験的に検証します。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">From Accuracy to Auditability: A Survey of Determinism in Financial AI Systems</p>
        <p class="orig-summary">Deploying machine learning in regulated financial environments -- credit risk, fraud detection, and anti-money laundering -- exposes critical vulnerabilities in algorithmic reproducibility. While early financial ML addressed statistical challenges such as backtest overfitting, deep neural networks and Generative AI have introduced mechanical nondeterminism rooted in hardware and architecture. This survey provides a systems perspective on reproducibility failures across three modalities now dominant in financial AI: tabular models (post-hoc explanation variance), graph networks (stochastic sampling and temporal asynchrony), and LLM-based agentic workflows (batch-dependent divergence and trajectory drift). We supplement the literature analysis with first-party experiments on public financial datasets -- quantifying explanation rank instability in credit scoring, prediction flip rates in GNN-based fraud detection, and tensor-parallel-induced output divergence in LLM entity extraction. We propose a layered evaluation framework linking modality-specific metrics (RBO, D_cos, TDI, PSD) to audit readiness, and empirically validate the complementarity of logit-level and semantic-level determinism measures.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b512f31da1ce" data-article-url="https://arxiv.org/abs/2605.24678" data-article-title="メンタルヘルスケアにおける臨床意思決定支援のための知覚音声特徴の探求" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24678" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24678" target="_blank" rel="noopener">メンタルヘルスケアにおける臨床意思決定支援のための知覚音声特徴の探求</a></h3>
      <p class="summary">音声および言語テクノロジーは、客観的で解釈可能な手がかりを通じてメンタルヘルスの評価をサポートする貴重な機会を提供します。私たちは、韻律、声質、意味的一貫性、構文構造、皮肉など、知覚に基づいた音響特性と言語特性を活用した体系的な特徴ベースの分析フレームワークを提示します。統計分析と解釈可能な機械学習 (SHAP および LIME を使用した XGBoost) を使用して、音声特徴とうつ病、不安、ADHD の検証済みの症状尺度との間の関連性を調べます。このフレームワークは、管理されたベンチマーク データセット (StressID、DAIC-WOZ、Android、EATD) と現実世界の臨床データセットの両方で評価され、症状の重症度と音声の不規則性 (例: シマー、ジッター)、語彙構文パターン、および感情の調子との間の安定した一貫した関係を明らかにします。すべてのデータセットにわたって実施されたアブレーション研究により、最も有益な特徴グループがさらに特定されます。この研究では、音声ベースのメンタルヘルス分析に対する透明性があり、臨床的に解釈可能なアプローチを探求しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Exploration of Perceptual Speech Features for Clinical Decision-Support in Mental Health Care</p>
        <p class="orig-summary">Speech and language technologies offer valuable opportunities for supporting mental health assessment through objective and interpretable cues. We present a systematic feature-based analysis framework leveraging perceptually grounded acoustic and linguistic characteristics, including prosody, vocal quality, semantic coherence, syntactic structure, and sarcasm. Using statistical analysis and interpretable machine learning (XGBoost with SHAP and LIME), we examine associations between speech features and validated symptom measures of depression, anxiety, and ADHD. Evaluated on both controlled benchmark datasets (StressID, DAIC-WOZ, Androids, EATD) and a real-world clinical dataset, the framework reveals stable and consistent relationships between symptom severity and vocal irregularities (e.g., shimmer, jitter), lexical-syntactic patterns, and affective tone. An ablation study conducted across all datasets further identifies the most informative feature groups. This work explores a transparent and clinically interpretable approach to speech-based mental health analysis.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1be2499b540a" data-article-url="https://arxiv.org/abs/2605.25230" data-article-title="ガイド付き推論による推論の強化: 再帰的モデルの確率的探索" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25230" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25230" target="_blank" rel="noopener">ガイド付き推論による推論の強化: 再帰的モデルの確率的探索</a></h3>
      <p class="summary">再帰的アーキテクチャに関する最近の研究では、小さなニューラル ネットワークが構造化された推論タスクにおいて驚くほど強力であることが判明しました。秘訣は、潜在力学システムを使用して推論の軌跡をモデル化することです。これらのアーキテクチャの推論時の動作は、決定論的再帰を 1 粒子、ゼロノイズの限界として、潜在的な推論軌跡にわたる近似推論として最もよく理解されると主張します。私たちは、ガイド付き確率的探索を通じてこのビューを機能させます。推論ダイナミクスの確率的摂動が隣接する軌道を提案し、モデルの既存の早期停止ヘッドがオンラインでそれらの軌道を再重み付けします。このフレームワークは、ローカル安定性、ガイド アラインメント、クラウド トークン エントロピーという 3 つのラベルフリー診断を提供します。これらは、推論トレースのみから、その手順が役立つかどうか、およびその出力のどれを信頼すべきかを予測します。 Sudoku-Extreme では、再トレーニングなしで完全解決の精度が $85.9\%$ から $98.0\%$ に向上します。 Maze-Hard では、後で検証パフォーマンスが確認されるように、診断はガイドの位置がずれていることを示します。したがって、再帰的推論に軌道レベルで改善の余地がある場合と、モデルの内部ガイドがそれを回復できる場合の両方を、同じ機構が特徴づけます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Boosting Inference with Guided Reasoning: Stochastic Exploration for Recursive Models</p>
        <p class="orig-summary">Recent work on recursive architectures has shown that tiny neural networks can be surprisingly powerful on structured reasoning tasks. The trick is to model reasoning trajectories with a latent dynamical system. We argue that the inference-time behaviour of these architectures is best understood as approximate inference over latent reasoning trajectories, with deterministic recursion as the one-particle, zero-noise limit. We make this view operational through guided stochastic exploration: stochastic perturbations of the reasoning dynamics propose neighbouring trajectories, and the model&#x27;s existing early-stopping head reweights them online. The framework yields three label-free diagnostics: local stability, guide alignment, and cloud-token entropy. These predict, from inference traces alone, whether the procedure will help and which of its outputs to trust. On Sudoku-Extreme it lifts exact-solve accuracy from $85.9\%$ to $98.0\%$ without retraining; on Maze-Hard the diagnostics flag a misaligned guide, as validation performance later confirms. The same machinery thus characterises both when recursive reasoning has room to improve at the trajectory level and when the model&#x27;s internal guide can recover it.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="328d58351648" data-article-url="https://arxiv.org/abs/2605.25815" data-article-title="EvoMap の背後にある: 自己進化するエージェント間コラボレーション ネットワークの特徴付け" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25815" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25815" target="_blank" rel="noopener">EvoMap の背後にある: 自己進化するエージェント間コラボレーション ネットワークの特徴付け</a></h3>
      <p class="summary">エージェント間 (A2A) ネットワークにより、自律型 AI エージェントは、再利用可能な問題解決手順を共有することで連携できます。しかし、これらの分散型エコシステムが実際にどのように機能するかは、ほとんど解明されていないままです。著名な A2A コラボレーション ネットワークである EvoMap に関する最初の大規模実証研究を紹介します。 150 万を超える資産と 12 万 8,000 のエージェントを分析することで、スケーラブルな成長を優先する設計の選択が、再利用性、進化、監査可能性においてどのようにトレードオフを引き起こすかを示します。まず、EvoMap の信用経済は、貴重な資産を公開するエージェントに報酬を与えます。この設計は大規模な参加を奨励しますが、報酬は主に採用ではなく出版に結びついています。これにより、エージェントはクレジットを蓄積するために資産を大量生産するようになります。その結果、資産の 98% は再利用されず、報酬はごく一部のエージェントに集中することになります。第 2 に、EvoMap はアルゴリズム (GDI と呼ばれる) を採用して、これらの共有アセットの品質をスコアリングしてランク付けします。私たちは、このスコアリング システムに欠陥があることを実証します。つまり、アセットのランクは、客観的なパフォーマンスを測定するのではなく、未検証の自己報告メタデータ (例: 変更されたコード行など) によって大きく左右されます。これにより、エージェントはアセットのスコアを簡単に操作できるようになります。最後に、EvoMap はエージェントに依存して、アップロードされたアセットが正しく機能する証拠としてローカル実行ログを提供します。これらの検証は個別に検証されていないため、承認されたアセットの 84% 以上が、空のテスト (console.log など) を使用した品質チェックをバイパスしています。私たちの調査結果は、将来の A2A コラボレーション ネットワークが未検証の自己報告のみに依存できないことを示しています。スケーラブルなコラボレーションには、オープンな参加と検証可能な実行および信頼できる評価のバランスをとるメカニズムが必要です。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Behind EvoMap: Characterizing a Self-Evolving Agent-to-Agent Collaboration Network</p>
        <p class="orig-summary">Agent-to-Agent (A2A) networks enable autonomous AI agents to collaborate by sharing reusable problem-solving instructions. However, how these decentralized ecosystems operate in practice remains largely unexplored. We present the first large-scale empirical study of EvoMap, a prominent A2A collaboration network. By analyzing over 1.5M assets and 128K agents, we show how design choices that prioritize scalable growth introduce trade-offs in reusability, evolution, and auditability. First, EvoMap&#x27;s credit economy rewards agents for publishing valuable assets. Although this design encourages participation at scale, rewards are tied primarily to publication rather than adoption. This leads agents to mass-produce assets to accumulate credits. As a result, 98% of assets are never reused, while rewards become highly concentrated among a small fraction of agents. Second, EvoMap employs an algorithm (referred to as GDI) to score and rank the quality of these shared assets. We demonstrate that this scoring system is flawed: rather than measuring objective performance, an asset&#x27;s rank is heavily dictated by unverified, self-reported metadata (e.g., claimed lines of code modified). This allows agents to trivially manipulate their asset&#x27;s scores. Finally, EvoMap relies on agents to provide local execution logs as evidence that uploaded assets function correctly. Because these validations are not independently verified, over 84% of approved assets bypass quality checks using vacuous tests (e.g., console$.$log()). Our findings show that future A2A collaboration networks cannot rely on unverified self-reporting alone. Scalable collaboration requires mechanisms that balance open participation with verifiable execution and trustworthy evaluation.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0742127038c8" data-article-url="https://arxiv.org/abs/2605.26114" data-article-title="MobileGym: モバイル GUI エージェント研究用の検証可能で高度な並列シミュレーション プラットフォーム" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26114" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26114" target="_blank" rel="noopener">MobileGym: モバイル GUI エージェント研究用の検証可能で高度な並列シミュレーション プラットフォーム</a></h3>
      <p class="summary">MobileGym は、日常のモバイル使用に適した、ブラウザーでホストされ、軽量で完全に制御可能な環境であり、独自のバックエンドを複製することなくインタラクションの忠実度をターゲットとしています。これにより、これまで日常的なアプリでは実現できなかった 2 つの機能が可能になります。構造化された JSON 状態に対する決定論的な状態ベースの判断による検証可能な結果シグナルと、低コストの並行ロールアウトによるスケーラブルなオンライン RL です。完全な環境状態は、構造化された JSON としてキャプチャ、構成、フォーク、比較され、単一サーバーで数百の並列インスタンスをホストでき、インスタンスあたり約 400 MB のメモリと約 3 秒のコールド スタートが可能です。階層化された状態モデルと宣言型タスク定義フレームワークにより、状態のプログラマビリティとタスク作成が大規模に実用的に維持され、単一のプログラムによる判定メカニズムが決定論的な評価判定と高密度の RL 報酬の両方を提供します。付属の MobileGym-Bench は、256 個のテスト テンプレートと 160 個のトレーニング テンプレートを含む 416 個のパラメーター化されたタスク テンプレート、28 を超えるアプリ、決定論的な判定機能、およびフリーテキストのマッチングの失敗を回避する構造化されたアンサーシート プロトコルを提供します。 Sim-to-Real のケース スタディでは、Qwen3-VL-4B-Instruct の GRPO は 256 タスクのテスト セットで +12.8 パーセンテージ ポイント向上し、59 タスクのリアルデバイス信号サブセットでは、リアルデバイスの実行はシミュレーション側のトレーニング ゲインの 95.1% を維持しました。プロジェクトページ: https://mobilegym.github.io</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research</p>
        <p class="orig-summary">We present MobileGym, a browser-hosted, lightweight, fully controllable environment for everyday mobile use, targeting interaction fidelity without replicating proprietary backends. It enables two capabilities previously out of reach for everyday apps: verifiable outcome signals through deterministic state-based judging over structured JSON state, and scalable online RL through low-cost parallel rollouts. The full environment state is captured, configured, forked, and compared as structured JSON, and a single server can host hundreds of parallel instances, with about 400 MB memory per instance and about 3 s cold start. A layered state model and a declarative task-definition framework keep state programmability and task creation practical at scale, and a single programmatic judging mechanism delivers both deterministic evaluation verdicts and dense RL rewards. The accompanying MobileGym-Bench provides 416 parameterized task templates, including 256 test and 160 train templates, over 28 apps, with deterministic judges and a structured AnswerSheet protocol that avoids free-text matching failures. In a Sim-to-Real case study, GRPO on Qwen3-VL-4B-Instruct gains +12.8 percentage points on the 256-task test set, and on a 59-task real-device signal subset, real-device execution retains 95.1% of the simulation-side training gain. Project page: https://mobilegym.github.io.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0cc446e8c428" data-article-url="https://arxiv.org/abs/2304.12986" data-article-title="Measuring Massive Multitask Chinese Understanding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2304.12986" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2304.12986" target="_blank" rel="noopener">Measuring Massive Multitask Chinese Understanding</a></h3>
      <p class="summary">The development of large-scale Chinese language models is flourishing, yet there is a lack of corresponding capability assessments. Therefo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="843536666126" data-article-url="https://arxiv.org/abs/2307.06240" data-article-title="DSSE: a drone swarm search environment" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2307.06240" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2307.06240" target="_blank" rel="noopener">DSSE: a drone swarm search environment</a></h3>
      <p class="summary">The Drone Swarm Search project is an environment, based on \textsc{PettingZoo}, that is to be used in conjunction with multi-agent (or sing…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="cc2bd3728b36" data-article-url="https://arxiv.org/abs/2403.11852" data-article-title="Delay-Aware Reinforcement Learning for Highway On-Ramp Merging under Stochastic Communication Latency" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2403.11852" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2403.11852" target="_blank" rel="noopener">Delay-Aware Reinforcement Learning for Highway On-Ramp Merging under Stochastic Communication Latency</a></h3>
      <p class="summary">Delayed and partially observable state information poses significant challenges for reinforcement learning (RL)-based control in real-world…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d9df721abc6e" data-article-url="https://arxiv.org/abs/2405.09689" data-article-title="Generalized Holographic Reduced Representations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2405.09689" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2405.09689" target="_blank" rel="noopener">Generalized Holographic Reduced Representations</a></h3>
      <p class="summary">Hyperdimensional Computing (HDC) is a computationally and data-efficient paradigm that acts as a bridge between connectionist and symbolic…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a2f3e21fe01d" data-article-url="https://arxiv.org/abs/2410.04096" data-article-title="Sinc Kolmogorov-Arnold network and its application for solving PDEs with singularities" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2410.04096" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2410.04096" target="_blank" rel="noopener">Sinc Kolmogorov-Arnold network and its application for solving PDEs with singularities</a></h3>
      <p class="summary">In this paper, we propose to use Sinc interpolation in the context of Kolmogorov-Arnold Networks, neural networks with learnable activation…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c14f3bd1650c" data-article-url="https://arxiv.org/abs/2410.10241" data-article-title="Revisiting Graph Autoencoders as Implicit Contrastive Learners" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2410.10241" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2410.10241" target="_blank" rel="noopener">Revisiting Graph Autoencoders as Implicit Contrastive Learners</a></h3>
      <p class="summary">Graph autoencoders (GAEs) and graph contrastive learning (GCL) are two major paradigms for self-supervised representation learning on graph…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bf43d2bb6360" data-article-url="https://arxiv.org/abs/2411.18502" data-article-title="Isometry pursuit" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2411.18502" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2411.18502" target="_blank" rel="noopener">Isometry pursuit</a></h3>
      <p class="summary">Isometry pursuit is a convex algorithm for identifying orthonormal column-submatrices of wide matrices. It consists of a novel normalizatio…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1b9b0124635c" data-article-url="https://arxiv.org/abs/2501.06491" data-article-title="Improving Requirements Classification with SMOTE-Tomek Preprocessing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2501.06491" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2501.06491" target="_blank" rel="noopener">Improving Requirements Classification with SMOTE-Tomek Preprocessing</a></h3>
      <p class="summary">This study emphasizes the domain of requirements engineering by applying the SMOTE-Tomek preprocessing technique, combined with stratified…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="75be2b07e3e6" data-article-url="https://arxiv.org/abs/2501.09934" data-article-title="HEART: Achieving Timely Multi-Model Training for Vehicle-Edge-Cloud-Integrated Hierarchical Federated Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2501.09934" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2501.09934" target="_blank" rel="noopener">HEART: Achieving Timely Multi-Model Training for Vehicle-Edge-Cloud-Integrated Hierarchical Federated Learning</a></h3>
      <p class="summary">The rapid growth of AI-enabled Internet of Vehicles (IoV) calls for efficient Machine Learning (ML) solutions that can handle high vehicula…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fa1b70718dd5" data-article-url="https://arxiv.org/abs/2502.05242" data-article-title="Beyond External Monitors: Enhancing Transparency of Large Language Models for Easier Monitoring" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.05242" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.05242" target="_blank" rel="noopener">Beyond External Monitors: Enhancing Transparency of Large Language Models for Easier Monitoring</a></h3>
      <p class="summary">Large language models (LLMs) are becoming increasingly capable, but the mechanisms of their thinking and decision-making processes remain u…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f3eeafa68a9f" data-article-url="https://arxiv.org/abs/2502.12468" data-article-title="MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.12468" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.12468" target="_blank" rel="noopener">MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation</a></h3>
      <p class="summary">The LLM-as-a-Judge paradigm shows promise for evaluating generative content but lacks reliability in reasoning-intensive scenarios, such as…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="20c059342caa" data-article-url="https://arxiv.org/abs/2502.17055" data-article-title="GradientStabilizer:Fix the Norm, Not the Gradient" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.17055" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.17055" target="_blank" rel="noopener">GradientStabilizer:Fix the Norm, Not the Gradient</a></h3>
      <p class="summary">Training instability in modern deep learning systems is frequently triggered by rare but extreme gradient-norm spikes, which can induce ove…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="37a11c3c1dfd" data-article-url="https://arxiv.org/abs/2502.17832" data-article-title="MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2502.17832" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2502.17832" target="_blank" rel="noopener">MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks</a></h3>
      <p class="summary">Retrieval-augmented generation (RAG) has become a common practice in multimodal large language models (MLLM) to enhance factual grounding a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="72d8b63578a7" data-article-url="https://arxiv.org/abs/2503.01829" data-article-title="Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.01829" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.01829" target="_blank" rel="noopener">Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models</a></h3>
      <p class="summary">Large Language Models (LLMs) demonstrate persuasive capabilities that rival human-level persuasion. While these capabilities can be used fo…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a9d4bdccd0d0" data-article-url="https://arxiv.org/abs/2503.02857" data-article-title="Deepfake-Eval-2024: A Multi-Modal In-the-Wild Benchmark of Deepfakes Circulated in 2024" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.02857" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.02857" target="_blank" rel="noopener">Deepfake-Eval-2024: A Multi-Modal In-the-Wild Benchmark of Deepfakes Circulated in 2024</a></h3>
      <p class="summary">In the age of increasingly realistic generative AI, robust deepfake detection is essential for mitigating fraud and disinformation. While m…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b24fbf75aae6" data-article-url="https://arxiv.org/abs/2503.04863" data-article-title="Manboformer: Learning Gaussian Representations via Spatial-temporal Attention Mechanism" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2503.04863" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2503.04863" target="_blank" rel="noopener">Manboformer: Learning Gaussian Representations via Spatial-temporal Attention Mechanism</a></h3>
      <p class="summary">Compared with voxel-based grid prediction, in the field of 3D semantic occupation prediction for autonomous driving, GaussianFormer propose…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fb699d94566f" data-article-url="https://arxiv.org/abs/2504.04540" data-article-title="The Point, the Vision and the Text: Does Point Cloud Boost Spatial Reasoning of Large Language Models? A Bias-Controlled Study" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2504.04540" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2504.04540" target="_blank" rel="noopener">The Point, the Vision and the Text: Does Point Cloud Boost Spatial Reasoning of Large Language Models? A Bias-Controlled Study</a></h3>
      <p class="summary">3D Large Language Models (LLMs) leveraging spatial information in point clouds for 3D spatial reasoning attract great attention. Despite so…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="84c604acd250" data-article-url="https://arxiv.org/abs/2505.09861" data-article-title="LiDDA: Data Driven Attribution at LinkedIn" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.09861" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.09861" target="_blank" rel="noopener">LiDDA: Data Driven Attribution at LinkedIn</a></h3>
      <p class="summary">Data Driven Attribution, which assigns conversion credits to marketing interactions based on causal patterns learned from data, is the foun…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8946b975220b" data-article-url="https://arxiv.org/abs/2505.13820" data-article-title="Structured Agent Distillation for Large Language Model" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.13820" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.13820" target="_blank" rel="noopener">Structured Agent Distillation for Large Language Model</a></h3>
      <p class="summary">Large language models (LLMs) exhibit strong capabilities as decision-making agents by interleaving reasoning and actions, as seen in ReAct-…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bd0864f7dd2a" data-article-url="https://arxiv.org/abs/2505.17654" data-article-title="EVADE-Bench: Multimodal Benchmark for Evaluating and Enhancing Evasive Content Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.17654" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.17654" target="_blank" rel="noopener">EVADE-Bench: Multimodal Benchmark for Evaluating and Enhancing Evasive Content Detection</a></h3>
      <p class="summary">E-commerce platforms increasingly rely on Large Language Models (LLMs) and Vision Language Models (VLMs) to detect illicit or misleading pr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1fe265bc749c" data-article-url="https://arxiv.org/abs/2505.18647" data-article-title="STFlow: Data-Coupled Flow Matching for Geometric Trajectory Simulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.18647" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.18647" target="_blank" rel="noopener">STFlow: Data-Coupled Flow Matching for Geometric Trajectory Simulation</a></h3>
      <p class="summary">Simulating trajectories of dynamical systems is a fundamental problem in a wide range of fields such as molecular dynamics, biochemistry, a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2400471bfa78" data-article-url="https://arxiv.org/abs/2505.19342" data-article-title="ASTRA: Communication-Efficient Acceleration for Multi-Device Transformer Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.19342" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.19342" target="_blank" rel="noopener">ASTRA: Communication-Efficient Acceleration for Multi-Device Transformer Inference</a></h3>
      <p class="summary">Multi-device inference can reduce Transformer latency by parallelizing computation. However, existing methods require high inter-device ban…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="be31349f222c" data-article-url="https://arxiv.org/abs/2505.21771" data-article-title="MMTABREAL: Real-World Benchmark for Multimodal Table Understanding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2505.21771" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2505.21771" target="_blank" rel="noopener">MMTABREAL: Real-World Benchmark for Multimodal Table Understanding</a></h3>
      <p class="summary">Multimodal tables i.e. tabular layouts interleaved with charts, maps, icons, and color encodings are ubiquitous in real applications yet re…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1c0004db9228" data-article-url="https://arxiv.org/abs/2506.01247" data-article-title="Beyond Interpretability: When, Why, and How Sparse Autoencoders Enable Label-Free Visual Steering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.01247" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.01247" target="_blank" rel="noopener">Beyond Interpretability: When, Why, and How Sparse Autoencoders Enable Label-Free Visual Steering</a></h3>
      <p class="summary">Sparse Autoencoders (SAEs) are increasingly used to interpret foundation models, but their role as an actionable intervention space remains…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f54d1bc17109" data-article-url="https://arxiv.org/abs/2506.08311" data-article-title="Understanding Automated Program Repair Agents Through the Lens of Traceability: An Empirical Study" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.08311" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.08311" target="_blank" rel="noopener">Understanding Automated Program Repair Agents Through the Lens of Traceability: An Empirical Study</a></h3>
      <p class="summary">Automated Program Repair (APR) agents leverage Large Language Models (LLMs) to autonomously diagnose and fix software bugs through reasonin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bd609e1c1fd4" data-article-url="https://arxiv.org/abs/2506.10138" data-article-title="Path Channels and Plan Extension Kernels: a Mechanistic Description of Planning in a Sokoban RNN" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2506.10138" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2506.10138" target="_blank" rel="noopener">Path Channels and Plan Extension Kernels: a Mechanistic Description of Planning in a Sokoban RNN</a></h3>
      <p class="summary">We partially reverse-engineer a convolutional recurrent neural network (RNN) trained with model-free reinforcement learning to play the box…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="68b611f78588" data-article-url="https://arxiv.org/abs/2507.16679" data-article-title="PICACO: Pluralistic In-Context Value Alignment of LLMs via Total Correlation Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-hardware">ハードウェア/半導体</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2507.16679" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2507.16679" target="_blank" rel="noopener">PICACO: Pluralistic In-Context Value Alignment of LLMs via Total Correlation Optimization</a></h3>
      <p class="summary">In-Context Learning has shown great potential for aligning Large Language Models (LLMs) with human values, helping reduce harmful outputs a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="90d0e3a35e07" data-article-url="https://arxiv.org/abs/2509.23019" data-article-title="LLM Watermark Evasion via Bias Inversion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.23019" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.23019" target="_blank" rel="noopener">LLM Watermark Evasion via Bias Inversion</a></h3>
      <p class="summary">Watermarking offers a promising solution for detecting LLM-generated content, yet its robustness under realistic query-free (black-box) eva…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d1aa5b0d7f8a" data-article-url="https://arxiv.org/abs/2509.23074" data-article-title="Beyond Model Ranking: Predictability-Aligned Evaluation for Time Series Forecasting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.23074" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.23074" target="_blank" rel="noopener">Beyond Model Ranking: Predictability-Aligned Evaluation for Time Series Forecasting</a></h3>
      <p class="summary">In the era of increasingly complex AI models for time series forecasting, progress is often measured by marginal improvements on benchmark…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="925da05fa9fd" data-article-url="https://arxiv.org/abs/2509.26476" data-article-title="Regression Language Models for Code" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2509.26476" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2509.26476" target="_blank" rel="noopener">Regression Language Models for Code</a></h3>
      <p class="summary">We study code-to-metric regression: predicting numeric outcomes of code executions, a challenging task due to the open-ended nature of prog…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6bf70bd783e3" data-article-url="https://arxiv.org/abs/2510.02329" data-article-title="SelfJudge: Faster Speculative Decoding via Self-Supervised Judge Verification" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.02329" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.02329" target="_blank" rel="noopener">SelfJudge: Faster Speculative Decoding via Self-Supervised Judge Verification</a></h3>
      <p class="summary">Speculative decoding accelerates LLM inference by verifying candidate tokens from a draft model against a larger target model. Recent judge…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="82260d962ac2" data-article-url="https://arxiv.org/abs/2510.10185" data-article-title="Auditing medical multi-agent AI reveals risks of false consensus" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.10185" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.10185" target="_blank" rel="noopener">Auditing medical multi-agent AI reveals risks of false consensus</a></h3>
      <p class="summary">Large language models are increasingly being assembled into medical multi-agent systems that emulate multidisciplinary consultation through…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8f8085f8bb5f" data-article-url="https://arxiv.org/abs/2510.11170" data-article-title="EAGer: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.11170" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.11170" target="_blank" rel="noopener">EAGer: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling</a></h3>
      <p class="summary">With the rise of reasoning language models and test-time scaling methods as a paradigm for improving model performance, substantial computa…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="941e508102ee" data-article-url="https://arxiv.org/abs/2510.15859" data-article-title="InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.15859" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.15859" target="_blank" rel="noopener">InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training</a></h3>
      <p class="summary">Reinforcement learning (RL) has driven recent breakthroughs in large language models (LLMs), especially for tasks where rewards can be comp…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c3a9d8f7d907" data-article-url="https://arxiv.org/abs/2510.21890" data-article-title="The Principles of Diffusion Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2510.21890" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2510.21890" target="_blank" rel="noopener">The Principles of Diffusion Models</a></h3>
      <p class="summary">This book presents the core principles that have guided the development of diffusion models, tracing their origins and showing how diverse…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="59034ad89fcb" data-article-url="https://arxiv.org/abs/2511.11896" data-article-title="VULPO: Context-Aware Vulnerability Detection via On-Policy LLM Optimization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.11896" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.11896" target="_blank" rel="noopener">VULPO: Context-Aware Vulnerability Detection via On-Policy LLM Optimization</a></h3>
      <p class="summary">Large language models (LLMs) have recently shown strong potential in vulnerability detection (VD). However, accurately detecting vulnerabil…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c4c927c26767" data-article-url="https://arxiv.org/abs/2511.14584" data-article-title="ReflexGrad: Within-Episode Failure Recovery in LLM Agents via Progress-Gated Dual-Process Routing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.14584" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.14584" target="_blank" rel="noopener">ReflexGrad: Within-Episode Failure Recovery in LLM Agents via Progress-Gated Dual-Process Routing</a></h3>
      <p class="summary">We present ReflexGrad, a dual-process architecture for within-episode failure recovery in LLM agents without demonstrations. When agents co…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d606693198f7" data-article-url="https://arxiv.org/abs/2511.18894" data-article-title="Not All Pixels Are Equal: Pixel-wise Meta-Learning for Medical Segmentation with Noisy Labels" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.18894" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.18894" target="_blank" rel="noopener">Not All Pixels Are Equal: Pixel-wise Meta-Learning for Medical Segmentation with Noisy Labels</a></h3>
      <p class="summary">Medical image segmentation is crucial for clinical applications, but it is frequently disrupted by noisy annotations and ambiguous anatomic…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="59fbc61be2fa" data-article-url="https://arxiv.org/abs/2511.20439" data-article-title="Object-Centric Vision Token Pruning for Vision Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2511.20439" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2511.20439" target="_blank" rel="noopener">Object-Centric Vision Token Pruning for Vision Language Models</a></h3>
      <p class="summary">In Vision Language Models (VLMs), vision tokens are quantity-heavy yet information-dispersed compared with language tokens, thus consume to…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d3b7ef944804" data-article-url="https://arxiv.org/abs/2512.02019" data-article-title="Diffusion-Augmented Markov Decision Processes for Maximum Entropy Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.02019" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.02019" target="_blank" rel="noopener">Diffusion-Augmented Markov Decision Processes for Maximum Entropy Reinforcement Learning</a></h3>
      <p class="summary">Diffusion models excel at sampling from complex, unnormalized distributions. In this work, we extend Maximum Entropy Reinforcement Learning…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="25b435aa494b" data-article-url="https://arxiv.org/abs/2512.06797" data-article-title="Optimal and Diffusion Transports in Machine Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.06797" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.06797" target="_blank" rel="noopener">Optimal and Diffusion Transports in Machine Learning</a></h3>
      <p class="summary">Several problems in machine learning are naturally expressed as the design and analysis of time-evolving probability distributions. This in…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="19df631c5748" data-article-url="https://arxiv.org/abs/2512.15791" data-article-title="Evaluation of AI Ethics Tools in Language Models: A Developers&#x27; Perspective Case Study" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.15791" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.15791" target="_blank" rel="noopener">Evaluation of AI Ethics Tools in Language Models: A Developers&#x27; Perspective Case Study</a></h3>
      <p class="summary">In Artificial Intelligence (AI), language models have gained significant importance due to the widespread adoption of systems capable of si…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bfaa1005ba0f" data-article-url="https://arxiv.org/abs/2512.18444" data-article-title="Snowveil: A Framework for Decentralised Preference Discovery" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.18444" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.18444" target="_blank" rel="noopener">Snowveil: A Framework for Decentralised Preference Discovery</a></h3>
      <p class="summary">Aggregating subjective preferences in social choice traditionally assumes a trusted central authority. In contrast, this paper formalises D…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6e97e454fd26" data-article-url="https://arxiv.org/abs/2512.21075" data-article-title="Feature Learning Dynamics in Infinite-Depth Neural Networks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.21075" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.21075" target="_blank" rel="noopener">Feature Learning Dynamics in Infinite-Depth Neural Networks</a></h3>
      <p class="summary">Deep neural networks have achieved remarkable success in practice, yet a mechanistic understanding of how features evolve during training r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="50a53f7631aa" data-article-url="https://arxiv.org/abs/2512.22777" data-article-title="Adapting, Fast and Slow: On Few-Shot Transportability of Compositions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.22777" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.22777" target="_blank" rel="noopener">Adapting, Fast and Slow: On Few-Shot Transportability of Compositions</a></h3>
      <p class="summary">Generalization across domains requires stable structure that links the source and target distributions. Building on causal transportability…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="87b9f19937d3" data-article-url="https://arxiv.org/abs/2512.23959" data-article-title="HGMEM: Hypergraph-based Working Memory to Improve Multi-step RAG for Long-Context Complex Relational Modeling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2512.23959" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2512.23959" target="_blank" rel="noopener">HGMEM: Hypergraph-based Working Memory to Improve Multi-step RAG for Long-Context Complex Relational Modeling</a></h3>
      <p class="summary">Multi-step retrieval-augmented generation (RAG) has become a widely adopted strategy for enhancing large language models (LLMs) on tasks th…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="025eef12d304" data-article-url="https://arxiv.org/abs/2601.01496" data-article-title="The Optimal Sample Complexity of Linear Contracts" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.01496" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.01496" target="_blank" rel="noopener">The Optimal Sample Complexity of Linear Contracts</a></h3>
      <p class="summary">In this paper, we settle the problem of learning optimal linear contracts from data in the offline setting, where agent types are drawn fro…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="af95050e0864" data-article-url="https://arxiv.org/abs/2601.01627" data-article-title="JMedEthicBench: A Multi-Turn Conversational Benchmark for Evaluating Medical Safety in Japanese Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.01627" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.01627" target="_blank" rel="noopener">JMedEthicBench: A Multi-Turn Conversational Benchmark for Evaluating Medical Safety in Japanese Large Language Models</a></h3>
      <p class="summary">As Large Language Models (LLMs) are increasingly deployed in healthcare field, it becomes essential to carefully evaluate their medical saf…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="15e9eb4aeaff" data-article-url="https://arxiv.org/abs/2601.03048" data-article-title="On the Intrinsic Limits of Transformer Image Embeddings in Non-Solvable Spatial Reasoning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.03048" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.03048" target="_blank" rel="noopener">On the Intrinsic Limits of Transformer Image Embeddings in Non-Solvable Spatial Reasoning</a></h3>
      <p class="summary">Vision Transformers (ViTs) excel in semantic recognition but exhibit systematic failures in spatial reasoning tasks such as mental rotation…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d782f74a5836" data-article-url="https://arxiv.org/abs/2601.04765" data-article-title="Differential syntactic and semantic encoding in LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.04765" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.04765" target="_blank" rel="noopener">Differential syntactic and semantic encoding in LLMs</a></h3>
      <p class="summary">We study how syntactic and semantic information is encoded in inner layer representations of Large Language Models (LLMs), focusing on the…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e91ff01be078" data-article-url="https://arxiv.org/abs/2601.06329" data-article-title="On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.06329" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.06329" target="_blank" rel="noopener">On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation</a></h3>
      <p class="summary">Generative spoken language models pretrained on large-scale raw audio can continue a speech prompt with appropriate content while preservin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2391da3430f1" data-article-url="https://arxiv.org/abs/2601.09239" data-article-title="DSA-Tokenizer: Disentangled Semantic-Acoustic Tokenization via Flow Matching-based Hierarchical Fusion" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.09239" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.09239" target="_blank" rel="noopener">DSA-Tokenizer: Disentangled Semantic-Acoustic Tokenization via Flow Matching-based Hierarchical Fusion</a></h3>
      <p class="summary">Speech tokenizers are a key building block of fully discrete Speech LLMs.Existing tokenizers either prioritize semantic encoding,fuse seman…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3d74859d8cb5" data-article-url="https://arxiv.org/abs/2601.16312" data-article-title="Teaching and Evaluating LLMs to Reason About Polymer Design Related Tasks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.16312" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.16312" target="_blank" rel="noopener">Teaching and Evaluating LLMs to Reason About Polymer Design Related Tasks</a></h3>
      <p class="summary">Research in AI4Science has shown promise in many science applications, including polymer design. However, current LLMs are ineffective in t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="354db8c92bc5" data-article-url="https://arxiv.org/abs/2601.17363" data-article-title="Do readers prefer AI-generated Italian short stories?" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.17363" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.17363" target="_blank" rel="noopener">Do readers prefer AI-generated Italian short stories?</a></h3>
      <p class="summary">This study investigates whether readers prefer AI-generated short stories in Italian over one written by a renowned Italian author. In a bl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="df4707a1dd83" data-article-url="https://arxiv.org/abs/2601.17737" data-article-title="The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.17737" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.17737" target="_blank" rel="noopener">The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation</a></h3>
      <p class="summary">Recent advances in video generation have produced models capable of synthesizing stunning visual content from simple text prompts. However,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="92cb5fb48659" data-article-url="https://arxiv.org/abs/2601.19926" data-article-title="The Grammar of Transformers: A Systematic Review of Interpretability Research on Syntactic Knowledge in Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.19926" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.19926" target="_blank" rel="noopener">The Grammar of Transformers: A Systematic Review of Interpretability Research on Syntactic Knowledge in Language Models</a></h3>
      <p class="summary">We present a systematic review of 337 articles evaluating the syntactic abilities of Transformer-based language models (TLMs), reporting on…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="19ce91fc842e" data-article-url="https://arxiv.org/abs/2601.19947" data-article-title="NCSAM Noise-Compensated Sharpness-Aware Minimization for Noisy Label Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.19947" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.19947" target="_blank" rel="noopener">NCSAM Noise-Compensated Sharpness-Aware Minimization for Noisy Label Learning</a></h3>
      <p class="summary">Learning from Noisy Labels (LNL) remains a fundamental challenge in deep learning because real-world datasets often contain corrupted annot…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="620fd2e7ded6" data-article-url="https://arxiv.org/abs/2601.21207" data-article-title="A Sheaf-Theoretic and Topological Perspective on Complex Network Modeling and Attention Mechanisms in Graph Neural Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2601.21207" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2601.21207" target="_blank" rel="noopener">A Sheaf-Theoretic and Topological Perspective on Complex Network Modeling and Attention Mechanisms in Graph Neural Models</a></h3>
      <p class="summary">Combinatorial and topological structures, such as graphs, simplicial complexes, and cell complexes, form the foundation of geometric and to…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="086699e12222" data-article-url="https://arxiv.org/abs/2602.01665" data-article-title="TABX: マルチエージェント強化学習のための高スループットのサンドボックス バトル シミュレーター" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-business">ビジネス/資金調達</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01665" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01665" target="_blank" rel="noopener">TABX: マルチエージェント強化学習のための高スループットのサンドボックス バトル シミュレーター</a></h3>
      <p class="summary">環境の設計は、協調的なマルチエージェント強化学習 (MARL) アルゴリズムの開発と評価を形作る上で重要な役割を果たします。既存のベンチマークは重大な課題を浮き彫りにしていますが、カスタム評価シナリオの設計に必要なモジュール性が欠けていることがよくあります。再構成可能なマルチエージェント タスク用に設計された高スループットのサンドボックスである Totally Accelerated Battle Simulator in JAX (TABX) を紹介します。 TABX は、環境パラメータに対するきめ細かい制御を提供し、さまざまなタスクの複雑さにわたる緊急エージェントの動作とアルゴリズムのトレードオフを系統的に調査できるようにします。 TABX は、GPU 上でハードウェア アクセラレーションによる実行に JAX を活用することで、大規模な並列化を可能にし、計算オーバーヘッドを大幅に削減します。 TABX は、高速かつ拡張可能で簡単にカスタマイズできるフレームワークを提供することで、複雑な構造ドメインにおける MARL エージェントの研究を容易にし、将来の研究のための拡張可能な基盤として機能します。コードは https://github.com/ku-dmlab/TABX から入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">TABX: A High-Throughput Sandbox Battle Simulator for Multi-Agent Reinforcement Learning</p>
        <p class="orig-summary">The design of environments plays a critical role in shaping the development and evaluation of cooperative multi-agent reinforcement learning (MARL) algorithms. While existing benchmarks highlight critical challenges, they often lack the modularity required to design custom evaluation scenarios. We introduce the Totally Accelerated Battle Simulator in JAX (TABX), a high-throughput sandbox designed for reconfigurable multi-agent tasks. TABX provides granular control over environmental parameters, permitting a systematic investigation into emergent agent behaviors and algorithmic trade-offs across a diverse spectrum of task complexities. Leveraging JAX for hardware-accelerated execution on GPUs, TABX enables massive parallelization and significantly reduces computational overhead. By providing a fast, extensible, and easily customized framework, TABX facilitates the study of MARL agents in complex structured domains and serves as a scalable foundation for future research. Our code is available at: https://github.com/ku-dmlab/TABX.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eebb218ad134" data-article-url="https://arxiv.org/abs/2602.01745" data-article-title="Probability-Entropy Calibration: An Elastic Indicator for Adaptive Fine-tuning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01745" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01745" target="_blank" rel="noopener">Probability-Entropy Calibration: An Elastic Indicator for Adaptive Fine-tuning</a></h3>
      <p class="summary">Token-level reweighting is a simple yet effective mechanism for controlling supervised fine-tuning, but common indicators are largely one-d…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5482d41bc297" data-article-url="https://arxiv.org/abs/2602.01990" data-article-title="SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.01990" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.01990" target="_blank" rel="noopener">SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning</a></h3>
      <p class="summary">Multimodal Large Language Models (MLLMs) achieve strong performance through instruction tuning, but real-world deployment requires them to…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bbfdb616fa2c" data-article-url="https://arxiv.org/abs/2602.02150" data-article-title="ECHO: Entropy-Confidence Hybrid Optimization for Test-Time Reinforcement Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02150" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02150" target="_blank" rel="noopener">ECHO: Entropy-Confidence Hybrid Optimization for Test-Time Reinforcement Learning</a></h3>
      <p class="summary">Test-time reinforcement learning generates multiple candidate answers via repeated rollouts and performs online updates using pseudo-labels…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c811843c375e" data-article-url="https://arxiv.org/abs/2602.02561" data-article-title="MathlibLemma: Folklore Lemma Generation and Benchmark for Formal Mathematics" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.02561" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.02561" target="_blank" rel="noopener">MathlibLemma: Folklore Lemma Generation and Benchmark for Formal Mathematics</a></h3>
      <p class="summary">While the ecosystem of Lean and Mathlib has enjoyed celebrated success in formal mathematical reasoning with the help of large language mod…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e71f09b5d2aa" data-article-url="https://arxiv.org/abs/2602.03515" data-article-title="Mitigating Staleness in Asynchronous Pipeline Parallelism via Basis Rotation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.03515" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.03515" target="_blank" rel="noopener">Mitigating Staleness in Asynchronous Pipeline Parallelism via Basis Rotation</a></h3>
      <p class="summary">Asynchronous pipeline parallelism maximizes hardware utilization by eliminating the pipeline bubbles inherent in synchronous execution, off…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b29149c5e1f6" data-article-url="https://arxiv.org/abs/2602.04898" data-article-title="Semantic-level Backdoor Attack against Text-to-Image Diffusion Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.04898" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.04898" target="_blank" rel="noopener">Semantic-level Backdoor Attack against Text-to-Image Diffusion Models</a></h3>
      <p class="summary">Text-to-image (T2I) diffusion models are widely adopted for their strong generative capabilities, yet remain vulnerable to backdoor attacks…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8b399e86d538" data-article-url="https://arxiv.org/abs/2602.06025" data-article-title="Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.06025" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.06025" target="_blank" rel="noopener">Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory</a></h3>
      <p class="summary">Memory is increasingly central to Large Language Model (LLM) agents operating beyond a single context window, yet most existing systems rel…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d669cae39321" data-article-url="https://arxiv.org/abs/2602.10385" data-article-title="Capture Timing-Attention of Events in Clinical Time Series" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.10385" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.10385" target="_blank" rel="noopener">Capture Timing-Attention of Events in Clinical Time Series</a></h3>
      <p class="summary">Automatically discovering personalized trajectories (i.e., sequential event patterns) from longitudinal EHR data is crucial for enabling pr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="aaf4dade6e3b" data-article-url="https://arxiv.org/abs/2602.13524" data-article-title="Singular Vectors of Attention Heads Align with Features" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.13524" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.13524" target="_blank" rel="noopener">Singular Vectors of Attention Heads Align with Features</a></h3>
      <p class="summary">Identifying feature representations in language models is a central task in mechanistic interpretability. Several recent studies have made…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="346e92f38f8e" data-article-url="https://arxiv.org/abs/2602.14862" data-article-title="The Well-Tempered Classifier: Some Elementary Properties of Temperature Scaling" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.14862" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.14862" target="_blank" rel="noopener">The Well-Tempered Classifier: Some Elementary Properties of Temperature Scaling</a></h3>
      <p class="summary">Temperature scaling is a simple method that allows to control the uncertainty of probabilistic models. It is mostly used in two contexts: i…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c61f71a30e1d" data-article-url="https://arxiv.org/abs/2602.15198" data-article-title="Colosseum: Auditing Collusion in Cooperative Multi-Agent Systems" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.15198" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.15198" target="_blank" rel="noopener">Colosseum: Auditing Collusion in Cooperative Multi-Agent Systems</a></h3>
      <p class="summary">Multi-agent systems, where LLM agents communicate through free-form language, enable sophisticated coordination for solving complex coopera…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f1ad0c190714" data-article-url="https://arxiv.org/abs/2602.15515" data-article-title="The Obfuscation Atlas: Mapping Where Honesty Emerges in RLVR with Deception Probes" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.15515" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.15515" target="_blank" rel="noopener">The Obfuscation Atlas: Mapping Where Honesty Emerges in RLVR with Deception Probes</a></h3>
      <p class="summary">Training against white-box deception detectors has been proposed as a way to make AI systems honest. However, such training risks models le…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0067f9345a8d" data-article-url="https://arxiv.org/abs/2602.17003" data-article-title="Persona2Web: Benchmarking Personalized Web Agents for Contextual Reasoning with User History" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.17003" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.17003" target="_blank" rel="noopener">Persona2Web: Benchmarking Personalized Web Agents for Contextual Reasoning with User History</a></h3>
      <p class="summary">Large language models have advanced web agents, yet current agents lack personalization capabilities. Since users rarely specify every deta…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="91c736e21d4e" data-article-url="https://arxiv.org/abs/2602.18481" data-article-title="AlphaForgeBench: Benchmarking End-to-End Trading Strategy Design with Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-business">ビジネス/資金調達</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.18481" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.18481" target="_blank" rel="noopener">AlphaForgeBench: Benchmarking End-to-End Trading Strategy Design with Large Language Models</a></h3>
      <p class="summary">The rapid advancement of Large Language Models (LLMs) has led to a surge of financial benchmarks, evolving from static knowledge evaluation…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="8d7d619eec92" data-article-url="https://arxiv.org/abs/2602.18647" data-article-title="Noise Scheduling as Information-Guided Allocation in Diffusion Training" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.18647" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.18647" target="_blank" rel="noopener">Noise Scheduling as Information-Guided Allocation in Diffusion Training</a></h3>
      <p class="summary">We introduce InfoNoise, an online adaptive noise schedule for diffusion training that reallocates optimization effort toward noise levels w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fcaa25e46982" data-article-url="https://arxiv.org/abs/2602.20497" data-article-title="LESA: Learnable Stage-Aware Predictors for Diffusion Model Acceleration" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.20497" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.20497" target="_blank" rel="noopener">LESA: Learnable Stage-Aware Predictors for Diffusion Model Acceleration</a></h3>
      <p class="summary">Diffusion models have achieved remarkable success in image and video generation tasks. However, the high computational demands of Diffusion…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e7e0f6088d6a" data-article-url="https://arxiv.org/abs/2602.22787" data-article-title="Probing for Knowledge Attribution in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/mistral/" data-entity="mistral">Mistral AI</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.22787" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.22787" target="_blank" rel="noopener">Probing for Knowledge Attribution in Large Language Models</a></h3>
      <p class="summary">Large language model (LLM) hallucinations, meaning fluent but factually incorrect generations, fall into two types: faithfulness violations…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="983acc9cc2db" data-article-url="https://arxiv.org/abs/2602.22873" data-article-title="Learning Tangent Bundles and Characteristic Classes with Autoencoder Atlases" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2602.22873" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2602.22873" target="_blank" rel="noopener">Learning Tangent Bundles and Characteristic Classes with Autoencoder Atlases</a></h3>
      <p class="summary">We introduce a theoretical framework that connects multi-chart autoencoders in manifold learning with the classical theory of vector bundle…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="24ac4cb3504e" data-article-url="https://arxiv.org/abs/2603.02845" data-article-title="SPARC: Spatial-Aware Path Planning via Attentive Agent Communication" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><span class="topic-badge p-robotics">ロボティクス</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.02845" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.02845" target="_blank" rel="noopener">SPARC: Spatial-Aware Path Planning via Attentive Agent Communication</a></h3>
      <p class="summary">Efficient communication is critical for decentralized Multi-Robot Path Planning (MRPP), yet existing learned communication methods treat al…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="bf54d26412f8" data-article-url="https://arxiv.org/abs/2603.05425" data-article-title="RelaxFlow: Text-Driven Amodal 3D Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.05425" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.05425" target="_blank" rel="noopener">RelaxFlow: Text-Driven Amodal 3D Generation</a></h3>
      <p class="summary">Image-to-3D generation faces inherent semantic ambiguity under occlusion, where partial observation alone is often insufficient to determin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a6bee5405af9" data-article-url="https://arxiv.org/abs/2603.05642" data-article-title="Relational Semantic Reasoning on 3D Scene Graphs for Open World Interactive Object Search" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.05642" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.05642" target="_blank" rel="noopener">Relational Semantic Reasoning on 3D Scene Graphs for Open World Interactive Object Search</a></h3>
      <p class="summary">Open-world interactive object search in household environments requires understanding semantic relationships between objects and their surr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1bfa762351e5" data-article-url="https://arxiv.org/abs/2603.09117" data-article-title="Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.09117" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.09117" target="_blank" rel="noopener">Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards</a></h3>
      <p class="summary">Reinforcement Learning from Verifiable Rewards (RLVR) significantly enhances large language models (LLMs) reasoning but severely suffers fr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b4f6e361d0be" data-article-url="https://arxiv.org/abs/2603.09882" data-article-title="Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.09882" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.09882" target="_blank" rel="noopener">Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning</a></h3>
      <p class="summary">Extrinsic dexterity leverages environmental contact to overcome the limitations of prehensile manipulation. However, achieving such dexteri…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="489d5466494f" data-article-url="https://arxiv.org/abs/2603.14773" data-article-title="HO-SFL: Hybrid-Order Split Federated Learning with Backprop-Free Clients and Dimension-Free Aggregation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.14773" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.14773" target="_blank" rel="noopener">HO-SFL: Hybrid-Order Split Federated Learning with Backprop-Free Clients and Dimension-Free Aggregation</a></h3>
      <p class="summary">Fine-tuning large models on edge devices is severely hindered by the memory-intensive backpropagation (BP) in standard frameworks like fede…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="06610bc628e2" data-article-url="https://arxiv.org/abs/2603.20980" data-article-title="From Causal Discovery to Dynamic Causal Inference in Neural Time Series" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.20980" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.20980" target="_blank" rel="noopener">From Causal Discovery to Dynamic Causal Inference in Neural Time Series</a></h3>
      <p class="summary">Time-varying causal models provide a powerful framework for studying dynamic scientific systems, yet most existing approaches assume that t…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6406e2aa9a0c" data-article-url="https://arxiv.org/abs/2603.22335" data-article-title="Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.22335" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.22335" target="_blank" rel="noopener">Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation</a></h3>
      <p class="summary">Direct Preference Optimization (DPO) guides large language models (LLMs) to generate recommendations aligned with user historical behavior…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fe50728a81fb" data-article-url="https://arxiv.org/abs/2603.24631" data-article-title="Coherence Collapse: Diagnosing Why Code Agents Fail After Reaching the Right Code" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2603.24631" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2603.24631" target="_blank" rel="noopener">Coherence Collapse: Diagnosing Why Code Agents Fail After Reaching the Right Code</a></h3>
      <p class="summary">Code agents resolve 65-70% of SWE-bench Verified issues, but Pass@1 cannot tell us why the rest fail, and, as we show, capable-model failur…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7102046761c8" data-article-url="https://arxiv.org/abs/2604.00402" data-article-title="COTTA: Context-Aware Transfer Adaptation for Trajectory Prediction in Autonomous Driving" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.00402" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.00402" target="_blank" rel="noopener">COTTA: Context-Aware Transfer Adaptation for Trajectory Prediction in Autonomous Driving</a></h3>
      <p class="summary">Developing robust models to accurately predict the trajectories of surrounding agents is fundamental to autonomous driving safety. However,…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="651e0ced90c2" data-article-url="https://arxiv.org/abs/2604.02645" data-article-title="Speaking of Language: Reflections on Metalanguage Research in NLP" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.02645" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.02645" target="_blank" rel="noopener">Speaking of Language: Reflections on Metalanguage Research in NLP</a></h3>
      <p class="summary">This work aims to shine a spotlight on the topic of metalanguage. We first define metalanguage, link it to NLP and LLMs, and then discuss o…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c9f361d01f18" data-article-url="https://arxiv.org/abs/2604.05673" data-article-title="Rectified Schr\&quot;odinger Bridge Matching for Few-Step Visual Navigation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.05673" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.05673" target="_blank" rel="noopener">Rectified Schr\&quot;odinger Bridge Matching for Few-Step Visual Navigation</a></h3>
      <p class="summary">Visual navigation is a core challenge in Embodied AI, requiring autonomous agents to translate high-dimensional sensory observations into c…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="924ddc25597b" data-article-url="https://arxiv.org/abs/2604.06196" data-article-title="Compositional Consistency-Guided Decoding for Three-Way Logical Question Answering" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/claude/" data-entity="claude">Claude</a><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.06196" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.06196" target="_blank" rel="noopener">Compositional Consistency-Guided Decoding for Three-Way Logical Question Answering</a></h3>
      <p class="summary">Three-way logical question answering (QA) assigns one of $\text{True}$, $\text{False}$, or $\text{Unknown}$ to a hypothesis $H$ given a pre…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c15d95f2cb69" data-article-url="https://arxiv.org/abs/2604.08304" data-article-title="Securing Retrieval-Augmented Generation: A Taxonomy of Attacks, Defenses, and Future Directions" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.08304" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.08304" target="_blank" rel="noopener">Securing Retrieval-Augmented Generation: A Taxonomy of Attacks, Defenses, and Future Directions</a></h3>
      <p class="summary">Retrieval-augmented generation (RAG) extends large language models (LLMs) with external knowledge, but this access path also introduces sec…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="740e806e83a5" data-article-url="https://arxiv.org/abs/2604.10567" data-article-title="Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.10567" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.10567" target="_blank" rel="noopener">Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models</a></h3>
      <p class="summary">Diffusion-based language models (dLLMs) have emerged as a promising alternative to autoregressive language models, offering the potential f…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e08e1aaf6bf3" data-article-url="https://arxiv.org/abs/2604.13583" data-article-title="BenGER Platform: A Collaborative Web Platform for End-to-End Benchmarking of German Legal Tasks" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.13583" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.13583" target="_blank" rel="noopener">BenGER Platform: A Collaborative Web Platform for End-to-End Benchmarking of German Legal Tasks</a></h3>
      <p class="summary">Evaluating large language models (LLMs) for legal reasoning requires workflows that span task design, expert annotation, model execution, a…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2b0eae53ddbc" data-article-url="https://arxiv.org/abs/2604.14356" data-article-title="When PCOS Meets Eating Disorders: An Explainable AI Approach to Detecting the Hidden Triple Burden" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gemma/" data-entity="gemma">Gemma</a><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.14356" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.14356" target="_blank" rel="noopener">When PCOS Meets Eating Disorders: An Explainable AI Approach to Detecting the Hidden Triple Burden</a></h3>
      <p class="summary">Women with polycystic ovary syndrome (PCOS) face substantially elevated risks of body image distress, disordered eating, and metabolic chal…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="21f3217e46ad" data-article-url="https://arxiv.org/abs/2604.16565" data-article-title="Reasoning on the Manifold: Bidirectional Consistency for Self-Verification in Diffusion Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.16565" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.16565" target="_blank" rel="noopener">Reasoning on the Manifold: Bidirectional Consistency for Self-Verification in Diffusion Language Models</a></h3>
      <p class="summary">While Diffusion Large Language Models (dLLMs) offer structural advantages for global planning, efficiently verifying that they arrive at co…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="da7804cbe199" data-article-url="https://arxiv.org/abs/2604.16774" data-article-title="Retention Consequence in Lifecycle Memory Control" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.16774" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.16774" target="_blank" rel="noopener">Retention Consequence in Lifecycle Memory Control</a></h3>
      <p class="summary">Persistent memory can fail after successful admission: a premise is written, then becomes a silent assumption, and later maintenance treats…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="5359fe05d351" data-article-url="https://arxiv.org/abs/2604.18235" data-article-title="Negative Advantages Is a Double-Edged Sword: Calibrating advantages in GRPO for Search Agents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.18235" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.18235" target="_blank" rel="noopener">Negative Advantages Is a Double-Edged Sword: Calibrating advantages in GRPO for Search Agents</a></h3>
      <p class="summary">Search agents achieve strong question-answering performance through multi-turn interactions with search engines, with Group Relative Policy…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2cca0e15ad84" data-article-url="https://arxiv.org/abs/2604.19072" data-article-title="S2MAM: Semi-supervised Meta Additive Model for Robust Estimation and Variable Selection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.19072" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.19072" target="_blank" rel="noopener">S2MAM: Semi-supervised Meta Additive Model for Robust Estimation and Variable Selection</a></h3>
      <p class="summary">Semi-supervised learning with manifold regularization is a classical framework for jointly learning from both labeled and unlabeled data, w…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0693ddf60812" data-article-url="https://arxiv.org/abs/2604.19355" data-article-title="LASER: Learning Active Sensing for Continuum Field Reconstruction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.19355" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.19355" target="_blank" rel="noopener">LASER: Learning Active Sensing for Continuum Field Reconstruction</a></h3>
      <p class="summary">High-fidelity measurements of continuum physical fields are essential for scientific discovery and engineering design but remain challengin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a91ec7f3cbad" data-article-url="https://arxiv.org/abs/2604.20857" data-article-title="DiagramBank: A Quality-Audited Dataset of Scientific Schematic Diagrams with Multi-Level Document Context" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.20857" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.20857" target="_blank" rel="noopener">DiagramBank: A Quality-Audited Dataset of Scientific Schematic Diagrams with Multi-Level Document Context</a></h3>
      <p class="summary">Scientific papers use schematic diagrams to communicate methods, workflows, and system structure, yet existing scientific-figure corpora of…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3aebe17b4cf9" data-article-url="https://arxiv.org/abs/2604.23061" data-article-title="C-MORAL: Controllable Multi-Objective Molecular Optimization with Reinforcement Alignment for LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.23061" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.23061" target="_blank" rel="noopener">C-MORAL: Controllable Multi-Objective Molecular Optimization with Reinforcement Alignment for LLMs</a></h3>
      <p class="summary">Large language models (LLMs) show promise for molecular optimization, but aligning them with selective and competing drug-design constraint…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0f3878fd9027" data-article-url="https://arxiv.org/abs/2604.23862" data-article-title="Graph Memory Transformer (GMT)" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.23862" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.23862" target="_blank" rel="noopener">Graph Memory Transformer (GMT)</a></h3>
      <p class="summary">We investigate whether the Feed-Forward Network (FFN) sublayer in a decoder-only transformer can be replaced by an explicit learned memory…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="2f4ca559d22d" data-article-url="https://arxiv.org/abs/2604.24938" data-article-title="Rethinking Layer Redundancy: Calibration Matters More Than Search in LLM Depth Pruning" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.24938" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.24938" target="_blank" rel="noopener">Rethinking Layer Redundancy: Calibration Matters More Than Search in LLM Depth Pruning</a></h3>
      <p class="summary">Depth pruning improves the inference efficiency of large language models by removing Transformer blocks. Prior work typically treats layer…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0a617bc3bab4" data-article-url="https://arxiv.org/abs/2604.25491" data-article-title="The Forensic Cost of Watermark Removal: From Dedicated Attacks to Image Editing" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.25491" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.25491" target="_blank" rel="noopener">The Forensic Cost of Watermark Removal: From Dedicated Attacks to Image Editing</a></h3>
      <p class="summary">Current watermark removal methods are evaluated on two axes: attack success rate and perceptual quality. We show this is insufficient. Whil…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="3f35e47c296e" data-article-url="https://arxiv.org/abs/2604.27251" data-article-title="Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2604.27251" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2604.27251" target="_blank" rel="noopener">Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models</a></h3>
      <p class="summary">Large Language Models (LLMs) are known to acquire reasoning capabilities through shared inference patterns in pre-training data, which are…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="0fe4064ade05" data-article-url="https://arxiv.org/abs/2605.00435" data-article-title="Escaping Mode Collapse in LLM Generation via Geometric Regulation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.00435" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.00435" target="_blank" rel="noopener">Escaping Mode Collapse in LLM Generation via Geometric Regulation</a></h3>
      <p class="summary">Mode collapse is a persistent challenge in generative modeling and appears in autoregressive text generation as behaviors ranging from expl…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="e0f9b320878d" data-article-url="https://arxiv.org/abs/2605.11154" data-article-title="Quantifying the Reconstructability of Astrophysical Methods with Large Language Models and Information Theory: A Case Study in Spectral Reconstruction" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.11154" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.11154" target="_blank" rel="noopener">Quantifying the Reconstructability of Astrophysical Methods with Large Language Models and Information Theory: A Case Study in Spectral Reconstruction</a></h3>
      <p class="summary">Modern astrophysical studies rely heavily on complex data analysis pipelines; however, published descriptions often lack the detail require…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d8c16dd5b42d" data-article-url="https://arxiv.org/abs/2605.11325" data-article-title="Structured Belief State and the First Precision-Aware Benchmark for LLM Memory Retrieval" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.11325" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.11325" target="_blank" rel="noopener">Structured Belief State and the First Precision-Aware Benchmark for LLM Memory Retrieval</a></h3>
      <p class="summary">Every major benchmark for LLM memory systems, LoCoMo foremost, measures whether a model answered correctly, not whether the memory system r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4bebbedeba1c" data-article-url="https://arxiv.org/abs/2605.12015" data-article-title="SkillSafetyBench: Evaluating Agent Safety under Skill-Facing Attack Surfaces" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.12015" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.12015" target="_blank" rel="noopener">SkillSafetyBench: Evaluating Agent Safety under Skill-Facing Attack Surfaces</a></h3>
      <p class="summary">Reusable skills are becoming a common interface for extending large language model agents, packaging procedural guidance with access to fil…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="f9b5e90daac2" data-article-url="https://arxiv.org/abs/2605.12929" data-article-title="Anatomy-Slot: Unsupervised Anatomical Factorization for Homologous Bilateral Reasoning in Retinal Diagnosis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.12929" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.12929" target="_blank" rel="noopener">Anatomy-Slot: Unsupervised Anatomical Factorization for Homologous Bilateral Reasoning in Retinal Diagnosis</a></h3>
      <p class="summary">Retinal diagnosis is inherently bilateral: clinicians compare homologous structures across eyes (e.g., optic disc asymmetry), yet most deep…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="9e13b6c1dd9a" data-article-url="https://arxiv.org/abs/2605.13517" data-article-title="ArcVQ-VAE: A Spherical Vector Quantization Framework with ArcCosine Additive Margin" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.13517" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.13517" target="_blank" rel="noopener">ArcVQ-VAE: A Spherical Vector Quantization Framework with ArcCosine Additive Margin</a></h3>
      <p class="summary">Vector Quantized Variational Autoencoder (VQ-VAE) has become a fundamental framework for learning discrete representations in image modelin…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="65b3fe0f0dad" data-article-url="https://arxiv.org/abs/2605.15250" data-article-title="GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><a class="entity-tag" href="/entity/deepseek/" data-entity="deepseek">DeepSeek</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.15250" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.15250" target="_blank" rel="noopener">GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding</a></h3>
      <p class="summary">Multi-head Latent Attention (MLA), the attention used in DeepSeek-V2/V3, jointly compresses keys and values into a low-rank latent and matc…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4fbb2ac28775" data-article-url="https://arxiv.org/abs/2605.16293" data-article-title="From Prediction to Intervention: The Evolution of AI in Biomedicine" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.16293" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.16293" target="_blank" rel="noopener">From Prediction to Intervention: The Evolution of AI in Biomedicine</a></h3>
      <p class="summary">Artificial intelligence has advanced rapidly in biomedicine through large-scale multimodal data integration, enabling increasingly accurate…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="27105eb989bf" data-article-url="https://arxiv.org/abs/2605.16578" data-article-title="Voice &quot;Cloning&quot; is Style Transfer" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.16578" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.16578" target="_blank" rel="noopener">Voice &quot;Cloning&quot; is Style Transfer</a></h3>
      <p class="summary">Artificially generated speech is increasingly embedded in everyday life. Voice cloning in particular enables applications where identity pr…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1340347e1e48" data-article-url="https://arxiv.org/abs/2605.16716" data-article-title="MAVEN A Multi-Agent Framework for Multicultural Text-to-Video Generation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-image-video">画像/動画生成</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.16716" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.16716" target="_blank" rel="noopener">MAVEN A Multi-Agent Framework for Multicultural Text-to-Video Generation</a></h3>
      <p class="summary">Text-to-video (T2V) generation has rapidly progressed in visual fidelity, yet its ability to faithfully represent multiple cultures within…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="17bf02fd617d" data-article-url="https://arxiv.org/abs/2605.18740" data-article-title="Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.18740" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.18740" target="_blank" rel="noopener">Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation</a></h3>
      <p class="summary">Multimodal Large Language Models (MLLMs) still struggle with fine-grained visual understanding, where answers often depend on small but dec…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="636676bd87ba" data-article-url="https://arxiv.org/abs/2605.19444" data-article-title="Detecting and Mitigating the Correct-Answer Extinction Window in Test-Time Reinforcement Learning with Majority Voting" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.19444" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.19444" target="_blank" rel="noopener">Detecting and Mitigating the Correct-Answer Extinction Window in Test-Time Reinforcement Learning with Majority Voting</a></h3>
      <p class="summary">Test-time reinforcement learning (TTRL) reports substantial accuracy gains on mathematical reasoning benchmarks using majority vote as a ps…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="1676dac25e23" data-article-url="https://arxiv.org/abs/2605.19729" data-article-title="LIFT and PLACE: A Simple, Stable, and Effective Knowledge Distillation Framework for Lightweight Diffusion Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.19729" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.19729" target="_blank" rel="noopener">LIFT and PLACE: A Simple, Stable, and Effective Knowledge Distillation Framework for Lightweight Diffusion Models</a></h3>
      <p class="summary">We demonstrate that in knowledge distillation for diffusion models, the teacher network&#x27;s highly complex denoising process - stemming from…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4e334f9c8db9" data-article-url="https://arxiv.org/abs/2605.22297" data-article-title="One LR Doesn&#x27;t Fit All: Heavy-Tail Guided Layerwise Learning Rates for LLMs" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/gpt/" data-entity="gpt">GPT / ChatGPT</a><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.22297" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.22297" target="_blank" rel="noopener">One LR Doesn&#x27;t Fit All: Heavy-Tail Guided Layerwise Learning Rates for LLMs</a></h3>
      <p class="summary">Learning rate configuration is a fundamental aspect of modern deep learning. The prevailing practice of applying a uniform learning rate ac…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="065741df215d" data-article-url="https://arxiv.org/abs/2605.22547" data-article-title="Case-Aware Medical Image Classification with Multimodal Knowledge Graphs and Reliability-Guided Refinement" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.22547" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.22547" target="_blank" rel="noopener">Case-Aware Medical Image Classification with Multimodal Knowledge Graphs and Reliability-Guided Refinement</a></h3>
      <p class="summary">Deep learning has brought significant progress to medical image classification, yet most existing methods still rely on isolated visual evi…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="7c28c8b9f3f7" data-article-url="https://arxiv.org/abs/2605.23440" data-article-title="SSDAU: 結合エンティティと関係抽出のための構造化セマンティック データ拡張" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.23440" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.23440" target="_blank" rel="noopener">SSDAU: 結合エンティティと関係抽出のための構造化セマンティック データ拡張</a></h3>
      <p class="summary">Joint Entity and Relation Extraction (JERE) は、低品質のトレーニング データにより弱い一般化の影響を非常に受けやすくなります。データ拡張は、さまざまなドメインにわたるモデルの一般化を強化するための一般的な戦略です。ただし、既存のデータ拡張手法ではテキストの関連性が見落とされることが多く、意味構造や依存関係が破壊される可能性があるため、モデルの一般化を改善するための効果的な拡張データを生成することが困難になります。この論文では、拡張中にテキストの意味構造を保持するように設計された新しい方法である構造化意味データ拡張 (SSDAU) を提案します。 SSDAU はエンティティ ラベルに基づいてテキストをセグメント化し、エンコーダを使用してコンテキスト認識を通じてエンティティの意味論的特徴をキャプチャします。次に、エンティティのセマンティック再構築を実行して拡張データを生成します。意味的に類似したエンティティを区別するために、SSDAU はコンテキスト化された埋め込みと従来の類似性スコアを融合します。潜在的なトピックのあいまいさと情報損失を軽減するために、BERTTopic モデルを適用して無関係なトピックを除外し、トピックの一貫性を確保します。さまざまなアノテーション タイプを持つデータセットで SSDAU を評価し、5 つの代表的な JERE モデルでのパフォーマンスを 7 つの一般的なデータ拡張ベースラインと比較します。実験では、SSDAU が曖昧さに対して優れた堅牢性を備えた意味的に一貫したデータを生成し (F1 の減少が 8.26\% 対ベースラインの \ 31.91\%)、すべてのメトリクスにわたって既存のすべての方法を大幅に上回っていることが実証されています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SSDAU: Structured Semantic Data Augmentation for Joint Entity and Relation Extraction</p>
        <p class="orig-summary">Joint Entity and Relation Extraction (JERE) is highly susceptible to weak generalization due to low-quality training data. Data augmentation is a common strategy to enhance model generalization across different domains. However, existing data augmentation methods often overlook text relevance and may disrupt semantic structures and dependencies, making it difficult to generate effective augmented data for improving model generalization. In this paper, we propose Structured Semantic Data Augmentation (SSDAU), a novel method designed to preserve the semantic structure of text during augmentation. SSDAU segments text based on entity labels and employs an encoder to capture semantic features of entities through context awareness. It then performs entity semantic restructuring to generate augmented data. To distinguish semantically similar entities, SSDAU fuses contextualized embeddings with traditional similarity scores. To mitigate potential topic ambiguity and information loss, we apply the BERTTopic model to filter out irrelevant topics, ensuring topic consistency. We evaluate SSDAU on datasets with different annotation types and compare its performance on five representative JERE models against seven popular data augmentation baselines. Experiments demonstrate that SSDAU generates semantically consistent data with superior robustness against ambiguity (8.26% F1 decrease vs. 31.91% for baselines), significantly outperforming all existing methods across all metrics.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="32219a0a2b56" data-article-url="https://arxiv.org/abs/2605.23933" data-article-title="KT4EQG: 知識の追跡によるパーソナライズされた演習問題の生成" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.23933" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.23933" target="_blank" rel="noopener">KT4EQG: 知識の追跡によるパーソナライズされた演習問題の生成</a></h3>
      <p class="summary">教育問題生成 (EQG) は、生徒の学習を強化するカスタマイズされた演習問題を合成することを目的としています。効果的な EQG システムでは、理想的には、生徒の知識状態をモデル化し、最大の学習効果をもたらす質問を生成することで、各生徒に合わせて質問をパーソナライズする必要があります。ただし、既存の EQG アプローチでは、このようなきめ細かいパーソナライゼーションを実現できるものはほとんどありません。このペーパーでは、過去の成績に基づいて生徒の知識状態をモデル化し、将来の成績を予測するナレッジ トレーシング (KT) から EQG がどのようにメリットを得られるかを検討します。私たちは、KT モデルの指導の下で個々の生徒に効果的な質問を生成するパーソナライズされた EQG フレームワークである KT4EQG を提案します。具体的には、KT4EQG は、KT モデルを活用して生徒が実践するのに最適な知識概念を選択することにより、生徒の全体的な知識習得の潜在的な向上を最大限に高めることを目指しています。次に、LLM ベースの質問ジェネレーターが、選択された概念に忠実に基づいた質問を生成するようにトレーニングされます。 XES3G5M と MOOCRadar での実験結果は、KT4EQG がパーソナライゼーションが制限されている、またはパーソナライゼーションがまったくない方法よりも常に効果的な質問を生成することを示しています。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">KT4EQG: Personalized Exercise Question Generation via Knowledge Tracing</p>
        <p class="orig-summary">Educational Question Generation (EQG) aims to synthesize customized exercise questions that enhance student learning. An effective EQG system should ideally personalize questions for each student by modeling the student&#x27;s knowledge state and generating questions that provide the greatest learning benefit. However, few existing EQG approaches are able to achieve such fine-grained personalization. In this paper, we explore how EQG can benefit from knowledge tracing (KT), which models students&#x27; knowledge states based on historical performance and predicts future performance. We propose KT4EQG, a personalized EQG framework that generates effective questions for individual students under the guidance of a KT model. Specifically, KT4EQG seeks to maximize a student&#x27;s potential improvement in overall knowledge mastery by leveraging the KT model to select the most suitable knowledge concept for the student to practice. An LLM-based question generator is then trained to produce a question faithfully grounded in the selected concept. Experimental results on XES3G5M and MOOCRadar show that KT4EQG consistently generates more effective questions than methods with limited or no personalization.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4cf6eca0dcc2" data-article-url="https://arxiv.org/abs/2605.24358" data-article-title="Treatment Effect Estimation with Differentiated Networked Effect on Graph Data" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.24358" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.24358" target="_blank" rel="noopener">Treatment Effect Estimation with Differentiated Networked Effect on Graph Data</a></h3>
      <p class="summary">Estimating individual treatment effect (ITE) from observational graph data is crucial for decision-making in the fields such as commerce an…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="279008abca03" data-article-url="https://arxiv.org/abs/2605.25183" data-article-title="Knowledge Graph-Driven Expert-Level Reasoning for Neuroscience" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25183" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25183" target="_blank" rel="noopener">Knowledge Graph-Driven Expert-Level Reasoning for Neuroscience</a></h3>
      <p class="summary">Knowledge graph (KG) is an abstraction that can be extracted from text corpora and used for in-depth reasoning. Prior work has leveraged KG…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c4c37c0b78ef" data-article-url="https://arxiv.org/abs/2605.25252" data-article-title="Quantifying Empirical Compute-Supervision Tradeoffs in RLVR" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25252" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25252" target="_blank" rel="noopener">Quantifying Empirical Compute-Supervision Tradeoffs in RLVR</a></h3>
      <p class="summary">Reinforcement learning with verifiable rewards (RLVR) has become a standard paradigm for post-training language models, but in practice, ve…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="64d12152b014" data-article-url="https://arxiv.org/abs/2605.25378" data-article-title="CollectionLoRA: Collecting 50 Effects in 1 LoRA via Multi-Teacher On-Policy Distillation" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><a class="entity-tag" href="/entity/qwen/" data-entity="qwen">Qwen</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.25378" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.25378" target="_blank" rel="noopener">CollectionLoRA: Collecting 50 Effects in 1 LoRA via Multi-Teacher On-Policy Distillation</a></h3>
      <p class="summary">Customized image editing aims to equip pre-trained diffusion models with specific visual effects using limited paired data, typically via L…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="eb3c39d13c76" data-article-url="https://arxiv.org/abs/2605.26092" data-article-title="GoQuant: Geometric Orthogonal Residual Projection for Multiplier-Free Power-of-Two Transformer Quantization" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><a class="entity-tag" href="/entity/llama/" data-entity="llama">Llama</a><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26092" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26092" target="_blank" rel="noopener">GoQuant: Geometric Orthogonal Residual Projection for Multiplier-Free Power-of-Two Transformer Quantization</a></h3>
      <p class="summary">The deployment of Large Language Models (LLMs) and Vision Transformers (ViTs) on edge devices is significantly constrained by memory limita…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d5c3a27d3e17" data-article-url="https://arxiv.org/abs/2605.26099" data-article-title="Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26099" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26099" target="_blank" rel="noopener">Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference</a></h3>
      <p class="summary">Transformer-based large language models are increasingly used for long-horizon tasks; however, their attention mechanism scales poorly with…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a9a05021b648" data-article-url="https://arxiv.org/abs/2605.26186" data-article-title="SetupX: LLM エージェントは、機能的に正しいコード リポジトリのセットアップにおける過去の失敗から学ぶことができますか?" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><span class="topic-badge p-agents">エージェント</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26186" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26186" target="_blank" rel="noopener">SetupX: LLM エージェントは、機能的に正しいコード リポジトリのセットアップにおける過去の失敗から学ぶことができますか?</a></h3>
      <p class="summary">機能的に正しいリポジトリのセットアップは、リポジトリの文書化された機能を正常に実行できるように実行環境 (依存関係、ビルド スクリプトなど) を構成することを目的としています。依存関係の非互換性、ツールチェーンの欠落、インストールの不完全、検証戦略の不一致など、リポジトリ固有のさまざまな障害により、重大な課題が発生します。既存の LLM エージェントは、これらの問題を確実に解決するのに苦労しており、具体的には、(1) リポジトリ間でのエクスペリエンスの転送、(2) 不可逆的な状態変化下での複数ステップの試行と修復、(3) セットアップに起因する障害とリポジトリのバグを区別するためのセットアップ結果の堅牢な検証をサポートできていません。これに対処するために、経験的な学習ベースのセットアップ フレームワークである SetupX を導入します。まず、自己進化エクスペリエンス表現 (XPU) を構築します。これは、検証済みの環境修正を目に見えないリポジトリに動的に転送するためのセットアップ信号、テキスト ガイダンス、実行可能なアクションをエンコードするデュアルモダリティの知識単位です。 2 番目に、LIFO Docker スナップショット スタックを活用したエクスペリエンス拡張投機的実行を採用し、エージェントがプロアクティブに修正を試し、既知の正常な状態に安全にロールバックできるようにします。第三に、証拠収集と最終判決を分離する検察官と裁判官の検証プロトコルを導入し、表面的な構築時間の指標を超えて、より信頼性の高い設定検証を可能にします。慎重に作成されたベンチマークの評価結果では、SetupX が最高のパフォーマンス (例: 92% の合格率) を達成し、最も強力なベースラインを 19% 以上上回るパフォーマンスを示しています。重要なのは、SetupX が、異なるコンテナ間で相互接続された複数のサービスの調整を必要とする複雑なマルチリポジトリのセットアップに優れていることです。コード リポジトリは https://github.com/OpenDataBox/SetupX で入手できます。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">SetupX: Can LLM Agents Learn from Past Failures in Functionality-Correct Code Repository Setup?</p>
        <p class="orig-summary">Functionality-correct repository setup aims to configure execution environments (e.g., dependencies, build scripts) to successfully execute a repository&#x27;s documented features. It presents significant challenges due to diverse, repository-specific failures, including dependency incompatibilities, missing toolchains, incomplete installations, and verification-strategy mismatches. Existing LLM agents struggle to robustly resolve these issues, specifically failing to support (1) cross-repository experience transfer, (2) multi-step trial-and-repair under non-invertible state changes, and (3) robust verification of setup outcomes to distinguish setup-induced failures from repository bugs. To address this, we introduce SetupX, an experiential learning-based setup framework. First, we construct a Self-Evolving Experience Representation (XPU), a dual-modality knowledge unit encoding setup signals, textual guidance, executable actions to dynamically transfer verified environment fixes to unseen repositories. Second, we employ Experience-Augmented Speculative Execution backed by a LIFO Docker snapshot stack, enabling the agent to proactively trial fixes and safely roll back to known-good states. Third, we introduce a Prosecutor-Judge Verification Protocol that separates evidence collection from final judgment, enabling more reliable setup verification beyond superficial build-time metrics. Evaluation results on carefully-crafted benchmarks show SetupX achieves highest performance (e.g., 92% pass rate) and outperforms the strongest baseline by over 19%. Crucially, SetupX excels in complex multi-repository setup requiring coordinating multiple interconnected services across different containers. The code repository is available at https://github.com/OpenDataBox/SetupX.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="fb1887127dd5" data-article-url="https://arxiv.org/abs/2605.26189" data-article-title="ほぼロスレス HiF8 W8A8 量子化対応トレーニングの最大ウィンドウ スケール推定" data-lang="ja-JP">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-llm">LLM/生成AI</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26189" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26189" target="_blank" rel="noopener">ほぼロスレス HiF8 W8A8 量子化対応トレーニングの最大ウィンドウ スケール推定</a></h3>
      <p class="summary">低ビット浮動小数点形式を使用した量子化対応トレーニング (QAT) により、効率的な LLM 導入が可能になりますが、標準のトレーニング メトリクスでは認識できない微妙な障害モードが導入されます。我々は、Delayed Tensor Scaling (DTS) のレンズを通した OpenPangu-Embedded-1B の HiF8 W8A8 QAT の体系的な研究を紹介します。 8 つの制御された実験にわたって、我々は 2 つの直交する故障モードを特定し、解きほぐしました。(i) amax 飽和では、遅延スケール推定がフォワードパス クリッピングによって知識に敏感な表現を静かに破壊します。(ii) 壊滅的な忘却では、量子化とは関係なく、積極的な学習率が事前学習された常識的な知識を上書きします。どちらもトレーニングロスだけでは検出できません。 64 ステップの履歴ウィンドウにわたる保守的な最大アルゴリズム DTS 戦略で amax 飽和に対処し、500 ステップの BF16 ウォームアップとそれに続く lr=10^{-5} での QAT によって忘却を軽減します。どちらの修正も必要かつ十分です。最終構成では、一致する BF16 ベースラインと比較して、0.43% MMLU ドロップ、0.58% HellaSwag ドロップ、および 0.22% ARC-Challenge ドロップを達成し、10,000 ステップにわたるトレーニング損失 APE はわずか 0.11% でした。</p>
      <details class="orig-text">
        <summary>原文 (English)</summary>
        <p class="orig-title">Max-Window Scale Estimation for Near-Lossless HiF8 W8A8 Quantization-Aware Training</p>
        <p class="orig-summary">Quantization-aware training (QAT) with low-bit floating-point formats enables efficient LLM deployment, yet introduces subtle failure modes invisible to standard training metrics. We present a systematic study of HiF8 W8A8 QAT for OpenPangu-Embedded-1B through the lens of Delayed Tensor Scaling (DTS). Across eight controlled experiments, we identify and disentangle two orthogonal failure modes: (i)amax saturation, where delayed scale estimates silently corrupt knowledge-sensitive representations via forward-pass clipping, and (ii)catastrophic forgetting, where an aggressive learning rate overwrites pretrained commonsense knowledge independently of quantization. Neither is detectable from training loss alone. We address amax saturation with a conservative max-algorithm DTS strategy over a 64-step history window, and mitigate forgetting via a 500-step BF16 warmup followed by QAT at lr=10^{-5}. Both fixes are necessary and sufficient: our final configuration achieves 0.43% MMLU drop, 0.58% HellaSwag drop, and 0.22% ARC-Challenge drop versus a matched BF16 baseline, with a training loss APE of only 0.11% over 10,000 steps.</p>
      </details>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="c4fdb239bd02" data-article-url="https://arxiv.org/abs/2605.26277" data-article-title="VesselSim: learning 3D blood vessel segmentation without expert annotations" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26277" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26277" target="_blank" rel="noopener">VesselSim: learning 3D blood vessel segmentation without expert annotations</a></h3>
      <p class="summary">Blood vessel segmentation is a core task in medical image analysis for the care of vascular diseases and surgical planning, yet the challen…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="4c91aea1f148" data-article-url="https://arxiv.org/abs/2605.26368" data-article-title="Unified Panoramic Geometry Estimation via Multi-View Foundation Models" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26368" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26368" target="_blank" rel="noopener">Unified Panoramic Geometry Estimation via Multi-View Foundation Models</a></h3>
      <p class="summary">Geometry estimation from perspective images has greatly advanced, maturing to the point where off-the-shelf foundation models are able to r…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="6c090592f9f4" data-article-url="https://arxiv.org/abs/2605.26552" data-article-title="Aligning Few-Step Generative Models by Amortizing Sample-based Variational Inference" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26552" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26552" target="_blank" rel="noopener">Aligning Few-Step Generative Models by Amortizing Sample-based Variational Inference</a></h3>
      <p class="summary">Aligning a few-step generative model is challenging, since existing alignment frameworks typically rely on restrictive assumptions: a tract…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="b102ecb2a770" data-article-url="https://arxiv.org/abs/2605.26902" data-article-title="ICICLE: Expanding Retrieval with In-Context Documents" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.26902" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.26902" target="_blank" rel="noopener">ICICLE: Expanding Retrieval with In-Context Documents</a></h3>
      <p class="summary">Generative retrieval (GR) maps queries directly to document identifiers (docids) using parametric knowledge, However, this design makes cor…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="214c9963143c" data-article-url="https://arxiv.org/abs/2605.27155" data-article-title="Semantic Robustness Probing via Inpainting: An Interactive Tool for Safety-Critical Object Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27155" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27155" target="_blank" rel="noopener">Semantic Robustness Probing via Inpainting: An Interactive Tool for Safety-Critical Object Detection</a></h3>
      <p class="summary">Testing object detectors in safety-critical domains requires semantically meaningful probes beyond pixel-level corruptions. We present SemP…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="79b830cc942b" data-article-url="https://arxiv.org/abs/2605.27258" data-article-title="PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27258" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27258" target="_blank" rel="noopener">PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis</a></h3>
      <p class="summary">Building state-of-the-art text-to-speech (TTS) systems typically demands millions of hours of proprietary data and complex multi-stage arch…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="a82e10fcbbec" data-article-url="https://arxiv.org/abs/2605.27348" data-article-title="When Eyes Betray AI: Social Gaze Consistency as a Semantic Cue for AI-Generated Image Detection" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27348" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27348" target="_blank" rel="noopener">When Eyes Betray AI: Social Gaze Consistency as a Semantic Cue for AI-Generated Image Detection</a></h3>
      <p class="summary">Recent generative models have largely closed the gap on low-level artifacts - pixel fingerprints, frequency anomalies, upsampling traces -…</p>
    </div>
  </div>
</div>
<div class="news-card" data-article-id="d7ed61a619d3" data-article-url="https://arxiv.org/abs/2605.27365" data-article-title="LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding" data-lang="en-US">
  <div class="news-card-meta"><span class="time-badge">13:00 JST</span><span class="topic-badge p-research">研究/論文</span><button type="button" class="state-btn read-btn" aria-label="既読" title="既読">✓</button><button type="button" class="state-btn save-btn" aria-label="保存" title="保存">⭐</button></div>
  <div class="news-card-body">
    <a class="news-card-thumb" href="https://arxiv.org/abs/2605.27365" target="_blank" rel="noopener"><img loading="lazy" src="https://arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png" alt="" /></a>
    <div class="news-card-text">
      <h3><a href="https://arxiv.org/abs/2605.27365" target="_blank" rel="noopener">LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding</a></h3>
      <p class="summary">Vision-language models (VLMs) commonly formulate visual grounding and detection as a coordinate-token generation problem, serializing each…</p>
    </div>
  </div>
</div>
</div>
</details>
</div>]]></content><author><name></name></author><summary type="html"><![CDATA[AIニュース 2026-05-28 — 587件のストーリーを出典・トピック・要約とともに掲載。]]></summary><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-05-28.png" /><media:content medium="image" url="https://ai-news-bot-henna.vercel.app/assets/og/2026-05-28.png" xmlns:media="http://search.yahoo.com/mrss/" /></entry></feed>